2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p>  一種專利自動推薦方法的算法設(shè)計</p><p>  摘 要 針對中學(xué)生創(chuàng)新活動的不斷開展以及科技研發(fā)人員從事創(chuàng)新活動而需要頻繁檢索專利的需求,要為自己的發(fā)明和設(shè)計申請專利,要從已經(jīng)有的發(fā)明和創(chuàng)造中吸取有益的營養(yǎng),我們都需要對現(xiàn)有專利進(jìn)行查詢,然而目前專利檢索智能程度不高,本文提出一種專利智能推薦算法。算法的輸入是用戶輸入的檢索內(nèi)容,輸出結(jié)果中不僅包括檢索系統(tǒng)輸出的專利還包括一批推薦的專利。本

2、算法首先實(shí)現(xiàn)專利間的關(guān)聯(lián),進(jìn)而計算專利關(guān)聯(lián)度,并根據(jù)關(guān)聯(lián)度對推薦專利進(jìn)行排序,構(gòu)成一個有序的推薦專利集合。本設(shè)計要解決的技術(shù)問題是要在已有專利檢索平臺的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對與專利檢索平臺返回結(jié)果相關(guān)的其他專利的自動推薦。 </p><p>  關(guān)鍵詞 專利推薦 關(guān)聯(lián)度 推薦算法 </p><p>  中圖分類號:G064 文獻(xiàn)標(biāo)識碼:A </p><

3、;p>  在我國,較有權(quán)威和影響力的專利檢索網(wǎng)絡(luò)平臺包括:中國國家知識產(chǎn)權(quán)局網(wǎng)站(www.sipo.gov.com)、中國知識產(chǎn)權(quán)網(wǎng)(www.cnipr.com)、中國專利網(wǎng)(www.cnpatent. Com等七大檢索平臺以及中國期刊網(wǎng)(www.cnki.net)。這七大專利檢索平臺采用的檢索形式與傳統(tǒng)信息檢索類似,采用字段檢索,輸入檢索詞或按照“*” (與)、“+”(或)、“一”(非)等組成字段內(nèi)或字段間邏輯關(guān)系式。這些字段包

4、括:專利號、專利名稱、摘要、國際分類號等。 </p><p>  目前主流的推薦算法主要包含以下幾大類:基于內(nèi)容的推薦,協(xié)同過濾的推薦,基于知識的推薦和組合推薦。仲偉煒通過跟蹤和記錄用戶的訪問操作行為,分析專利查詢者經(jīng)常一起查閱的專利文獻(xiàn),利用關(guān)聯(lián)規(guī)則來分析專利文獻(xiàn)的相關(guān)性,以實(shí)現(xiàn)專利文獻(xiàn)的個性化推薦。該算法本質(zhì)上屬于協(xié)同過濾推薦,需要跟蹤大量用戶的專利檢索行為,所推薦專利是一群專利用戶的共同興趣。而對于科技研發(fā)

5、人員來說,經(jīng)常需要檢索與本身研究目的相關(guān)的專利。通過專利檢索,了解當(dāng)前研究現(xiàn)狀,同時拓展研究思路。在這種情況下以上文獻(xiàn)提出算法將變得不再適應(yīng)。 </p><p>  在我國,較有權(quán)威和影響力的專利檢索網(wǎng)絡(luò)平臺包括:中國國家知識產(chǎn)權(quán)局網(wǎng)站(www.sipo.gov.com)、中國知識產(chǎn)權(quán)網(wǎng)(www.cnipr.com)、中國專利網(wǎng)(www.cnpatent. Com)、中國專利信息網(wǎng)(www.patent.com.

6、cn)等七個檢索平臺。這七個專利檢索平臺采用的檢索形式與傳統(tǒng)信息檢索類似,采用字段檢索,輸入檢索詞或按照“*” (與)、“+”(或)、“一”(非)等組成字段內(nèi)或字段間邏輯關(guān)系式。這些字段包括:專利號、專利名稱、摘要、國際分類號、發(fā)明人、申請人、公開日等。根據(jù)以上檢索網(wǎng)絡(luò)平臺這些字段特點(diǎn),本文提出的算法向用戶推薦專利標(biāo)題以及摘要中不包含檢索詞,但其在內(nèi)容上又和檢索詞存在一定語義關(guān)聯(lián)的專利。本文提出的算法將依據(jù)類容上的關(guān)聯(lián)度推薦,在已有專利

7、檢索平臺的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對與專利檢索平臺返回結(jié)果相關(guān)的其他專利的自動推薦。 </p><p>  一、專利自動推薦方法相關(guān)概念及設(shè)計思想 </p><p> ?。ㄒ唬┠繕?biāo)專利特征向量生成。 </p><p>  首先根據(jù)用戶輸入的檢索式通過某個專利檢索平臺獲得一個專利集合,稱為C,提取C中各篇專利的專利名、專利分類號、專利摘要等信息,然后采

8、用下面的方法提取C中專利的目標(biāo)專利特征向量: </p><p>  1、提取C中全部專利的專利分類號所覆蓋的專利分類號的最長的公共部分,設(shè)此字符串為Si,此類字符串的數(shù)量為m,并根據(jù)Si將C中專利進(jìn)行分組,也就是有C=Ci; </p><p>  2、根據(jù)C中專利的分組,分別提取各組Ci(1≤i≤m)中各個專利的摘要;然后對各摘要實(shí)施分詞;過濾掉量詞和副詞等詞語后,留下名詞和動詞兩類詞語;

9、然后統(tǒng)計各個詞語出現(xiàn)的總頻率;按詞頻從高到低排序,取前K個詞語對應(yīng)的詞頻,構(gòu)成各組對應(yīng)的目標(biāo)專利特征向量TFi(1≤i≤m),將這K個詞語構(gòu)成的集合分別定義為詞表Vi(1≤i≤m)。 </p><p> ?。ǘ┩扑]專利集生成。 </p><p>  1、根據(jù)專利分類的等級結(jié)構(gòu)――部、大類、小類、大組和小組, 確定每個最長的公共部分Si(1≤i≤m)所覆蓋的專利分類等級; </p&g

10、t;<p>  2、對各個專利分組Ci中的各專利的標(biāo)題進(jìn)行中文分詞,過濾掉量詞、副詞等語義表達(dá)能力不強(qiáng)的詞語,留下的詞性為動詞和名詞的詞構(gòu)成各組專利對應(yīng)的檢索詞集合Wi(1≤i≤m); </p><p>  3、利用檢索詞集合Wi(1≤i≤m)中的各個詞,通過專利在線檢索平臺在專利分類號=Si+’*’ (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m)。從而得到推薦專利集合Ci=-Ci(1≤

11、i≤m)。 </p><p>  4、在1中,其特征在于:第一個關(guān)鍵步驟中,提取C中全部專利的專利分類號所覆蓋的專利分類號的最長的公共部分,以實(shí)現(xiàn)對C中專利的分組。第二個關(guān)鍵步驟中,利用檢索詞集合Wi(1≤i≤m)中的各個詞,通過專利在線檢索平臺在專利分類號=Si+’*’ (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m),從而得到推薦專利集合Ci=-Ci(1≤i≤m)。 </p><

12、p>  二、具體實(shí)施算法描述(如圖1) </p><p> ?。ㄒ唬@麛?shù)據(jù)獲取。 </p><p>  根據(jù)用戶輸入的檢索式通過某個專利在線檢索平臺檢索得到專利集合C,并獲取C中專利的專利名、專利分類號、專利摘要等信息。專利數(shù)據(jù)獲取流程如圖2所示。在此圖中,選取的專利在線檢索平臺可為前面提及的七大專利檢索平臺中的任何一個。 </p><p>  (二)目標(biāo)專

13、利特征向量生成。 </p><p>  目標(biāo)專利特征向量的計算方法如圖3所示,主要步驟如下: </p><p>  1、取C中各專利的專利分類號最長的公共部分,設(shè)此字符串為Si,設(shè)此類字符串的數(shù)量為m,并根據(jù)Si將C中專利進(jìn)行分組,也就是有C=Ci; </p><p>  2、根據(jù)C中專利的分組,分別提取各組中各個專利的摘要;然后對各摘要實(shí)施分詞;過濾掉量詞和副詞等

14、詞語后,留下名詞和動詞兩類詞語;然后統(tǒng)計各個詞語出現(xiàn)的總頻率;按詞頻從高到低排序,取前K個詞語對應(yīng)的詞頻,構(gòu)成各組對應(yīng)的目標(biāo)專利特征向量。構(gòu)成TFi,這K個詞語構(gòu)成的集合分別定義為詞表Vi。比如可取K=10。  ?。ㄈ┩扑]專利集生成。 </p><p>  推薦專利集生成如圖4所示,主要步驟如下: </p><p>  1、根據(jù)專利分類的等級結(jié)構(gòu)――部、大類、小類、大組和小組, 確定每

15、個最長的公共部分Si(1≤i≤m)所覆蓋的專利分類等級; </p><p>  2、對各個專利分組Ci(1≤i≤m)中的各專利的標(biāo)題進(jìn)行中文分詞,過濾掉量詞、副詞等語義表達(dá)能力不強(qiáng)的詞語,留下的詞性為動詞和名詞的詞構(gòu)成各組專利對應(yīng)的檢索詞集合Wi(1≤i≤m); </p><p>  3、利用檢索詞集合Wi中的各個詞通過專利在線檢索引擎平臺在專利分類號=Si+’*’ (1≤i≤m)條件下再

16、進(jìn)行檢索,得到專利集合(1≤i≤m)。從而得到推薦專利集合Ci=-Ci(1≤i≤m)。 </p><p> ?。ㄋ模┩扑]專利排序 </p><p>  推薦專利排序的方法如圖5所示。 </p><p>  用于描述推薦專利的內(nèi)容特征的K維向量被稱為專利特征向量。專利特征向量的構(gòu)造方法是:在推薦專利集合Ci(1≤i≤m)中提取第j篇專利的摘要;對其進(jìn)行中文分詞,過濾掉

17、量詞和副詞等詞語,留下名詞和動詞兩類詞語;然后統(tǒng)計各個詞語的詞頻,根據(jù)詞表Vi中詞語的順序,定義一個K維向量。若詞表Vi中的某詞不在分詞結(jié)果中,則填入0,否則填入該詞的詞頻。用F表示專利集合Ci(1≤i≤m)中第j篇專利的專利特征向量,則該推薦專利與目標(biāo)專利特征向量之間的關(guān)聯(lián)度計算如式(1)所示: </p><p><b> ?。?) </b></p><p>  依

18、次計算每個推薦專利集合Ci(1≤i≤m)中各個推薦專利與該組的專利目標(biāo)特征向量之間的關(guān)聯(lián)度,最后將Ci中所有專利的關(guān)聯(lián)度按照從高到低的順序排序輸出。 </p><p>  3。附圖(圖1、2、3、4、5) </p><p><b>  三、總結(jié) </b></p><p>  本設(shè)計提出了一種基于已有專利檢索平臺,為查詢專利者提供自動推薦內(nèi)容項相

19、關(guān)而檢索標(biāo)題中沒有的專利的算法,算法解決了在已有專利檢索平臺的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對與專利檢索平臺返回結(jié)果含有內(nèi)在聯(lián)系的其他專利的自動推薦,這些自動推薦的專利標(biāo)題或摘要中或許不含有檢索詞,但是在內(nèi)容上卻高度相關(guān)。 </p><p> ?。ㄗ髡撸禾茋鹆蛛娮涌萍即髮W(xué)工程碩士在讀,軟件工程專業(yè);本科學(xué)士學(xué)位:信息與計算科學(xué)專業(yè);黃奕,李春波,桂林中學(xué)) </p><p>

20、;<b>  參考文獻(xiàn): </b></p><p>  [1]許海玲, 吳瀟, 李曉東等. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報,2009, 20(2): 350-362 </p><p>  [2]仲偉煒. 專利文獻(xiàn)分類及關(guān)聯(lián)推薦技術(shù)應(yīng)用研究[D]. 南京, 南京航空航天大學(xué),2009 </p><p>  [3]胡曉,魏雪梅等. 我國網(wǎng)

21、絡(luò)專利檢索平臺分析和評價[J]. 科技管理研究, 2010, 14:75-81 </p><p>  [4]李容. 基于K均值聚類算法的圖書商品推薦仿真系統(tǒng)[J]. 計算機(jī)仿真, 2010,27(6): 346-349 </p><p>  [5]張晗,潘正運(yùn)等 旅游服務(wù)智能推薦系統(tǒng)的研究與設(shè)計 計算機(jī)信息 ,2006.05-3(22) </p><p>  [6]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論