基于內(nèi)容分析的專(zhuān)利挖掘技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近十幾年來(lái),專(zhuān)利挖掘的研究越來(lái)越被重視。早先,專(zhuān)利研究主要基于在專(zhuān)利數(shù)據(jù)庫(kù),近幾年,專(zhuān)利研究轉(zhuǎn)向基于自然語(yǔ)言處理的技術(shù)或者信息檢索的技術(shù)。推動(dòng)專(zhuān)利挖掘技術(shù)發(fā)展的主要因素:一方面統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法不斷的發(fā)展和改進(jìn),為解決專(zhuān)利挖掘以及自然語(yǔ)料處理提供了強(qiáng)大的方法論武器;另一方面,自然語(yǔ)言處理的技術(shù)以及信息檢索的技術(shù)的進(jìn)步,促進(jìn)了專(zhuān)利文本挖掘的發(fā)展。同時(shí),專(zhuān)利挖掘的評(píng)測(cè)舉辦,為專(zhuān)利挖掘提供了技術(shù)交流的平臺(tái),促進(jìn)了專(zhuān)利挖掘研究的進(jìn)步,并為專(zhuān)利文

2、本處理提供了發(fā)展的方向。
   本文通過(guò)研究專(zhuān)利文本的特點(diǎn),對(duì)不同的訓(xùn)練語(yǔ)料做數(shù)據(jù)統(tǒng)計(jì),分析專(zhuān)利挖掘任務(wù)中的難點(diǎn)問(wèn)題?;谧匀徽Z(yǔ)言處理的專(zhuān)利挖掘技術(shù),遇到幾大問(wèn)題:(1)專(zhuān)利挖掘是一個(gè)大規(guī)模的文本分析任務(wù);(2)專(zhuān)利文本內(nèi)容涉及到技術(shù)發(fā)展的各個(gè)領(lǐng)域,領(lǐng)域之間交叉現(xiàn)象嚴(yán)重,不利于文本分類(lèi);(3)專(zhuān)利文本在各個(gè)領(lǐng)域上數(shù)量分布不均衡,大量的類(lèi)別下訓(xùn)練數(shù)據(jù)不充分;(4)專(zhuān)利文本的分類(lèi)體系與傳統(tǒng)分類(lèi)體系不同,尤其是國(guó)際專(zhuān)利分類(lèi)標(biāo)準(zhǔn),具有超

3、大規(guī)模的類(lèi)別空間,多層次等特點(diǎn);(5)專(zhuān)利的國(guó)際分類(lèi)都是多標(biāo)簽標(biāo)記,因此專(zhuān)利分類(lèi)是多標(biāo)簽的分類(lèi)問(wèn)題。上述幾個(gè)主要問(wèn)題,決定了專(zhuān)利文本處理與傳統(tǒng)的文本處理的不同。
   本文圍繞專(zhuān)利挖掘任務(wù)中的問(wèn)題,從不同的方面研究提高專(zhuān)利挖掘系統(tǒng)的性能。作者在前人的工作基礎(chǔ)上,綜合了多個(gè)領(lǐng)域的技術(shù),提出了一些專(zhuān)利挖掘的處理技術(shù)。文本解決專(zhuān)利挖掘問(wèn)題的主要技術(shù):
   (1)本文采用基于自然處理的分類(lèi)系統(tǒng)的框架,處理專(zhuān)利挖掘的任務(wù)。

4、>   (2)本文研究了在大規(guī)模的數(shù)據(jù)的分類(lèi)問(wèn)題,采用信息檢索中常用的檢索技術(shù)——倒排索引文檔——應(yīng)用到分類(lèi)模型中,提高分類(lèi)模型的計(jì)算速度。
   (3)本文提出了類(lèi)別歸并的方法解決數(shù)據(jù)分布不均衡的問(wèn)題。在國(guó)際專(zhuān)利分類(lèi)系統(tǒng)下,大量的類(lèi)別中數(shù)據(jù)樣本很少,采用多種歸并的方法將小類(lèi)別聚合成大類(lèi)別,解決分布不均衡的問(wèn)題。
   (4)專(zhuān)利挖掘任務(wù)中,文本之間的相似度計(jì)算的是重要的研究環(huán)節(jié)。本文采用了多種相似度計(jì)算方法,在數(shù)據(jù)非

5、同源的任務(wù)中,BM25的計(jì)算方法性能較好,并比較穩(wěn)定。
   (5)本文提出了多種類(lèi)別排序的決策方法。分類(lèi)器給定樣本之間的相似度的方法,需要通過(guò)某種轉(zhuǎn)化的機(jī)制,映射成類(lèi)別標(biāo)記的排序。文本提出了帶用類(lèi)別信息的相似度加和的方法以及基于Log—linear模型的線(xiàn)性加和方法,對(duì)類(lèi)別進(jìn)行Rank,實(shí)驗(yàn)結(jié)果顯示帶用類(lèi)別信息的相似度加和的方法以及基于Log—linear模型的線(xiàn)性加和方法性能較好。
   本文基于NTCIRT—7的專(zhuān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論