基于上下文的實(shí)體鏈指技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：115 大?。?.74MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩114頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、實(shí)體鏈指的主要目標(biāo)是識(shí)別上下文中的名稱指代哪個(gè)現(xiàn)實(shí)世界中的實(shí)體。具體而言，實(shí)體鏈指是將給定文本中的一個(gè)名稱字符串映射到知識(shí)庫(kù)中的相應(yīng)實(shí)體上去，如果知識(shí)庫(kù)尚未收錄相應(yīng)實(shí)體，則返回空標(biāo)記。近些年，美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所（NIST）舉辦了多次以實(shí)體鏈指為核心的國(guó)際評(píng)測(cè)任務(wù)。實(shí)體鏈指在信息抽取、問(wèn)答系統(tǒng)、機(jī)器翻譯、信息檢索等多個(gè)自然語(yǔ)言任務(wù)中都有著廣泛的應(yīng)用。
　　實(shí)體鏈指技術(shù)需要解決的問(wèn)題主要是歧義性，即同一個(gè)名稱可能對(duì)應(yīng)多個(gè)實(shí)體，同一

2、個(gè)實(shí)體也可能有多個(gè)名稱。實(shí)體鏈指技術(shù)的主要工作旨在提高實(shí)體鏈指系統(tǒng)的準(zhǔn)確率和效率。高準(zhǔn)確率的實(shí)體鏈指結(jié)果可以為其他自然語(yǔ)言處理任務(wù)提供更為可信的實(shí)體映射對(duì)象。高效的實(shí)體鏈指系統(tǒng)也是互聯(lián)網(wǎng)和大數(shù)據(jù)的直接應(yīng)用需求。實(shí)體鏈指分為候選生成和消歧兩個(gè)部分，其核心問(wèn)題在于如何有效地利用上下文提高準(zhǔn)確率和效率。上下文是候選生成和消歧的主要依據(jù)。本文基于實(shí)體的上下文展開研究。
　　在以往的實(shí)體鏈指研究中，大量的工作集中在如何消歧上面。相比而言，專

3、注于改進(jìn)候選生成的工作卻不多。實(shí)際上，候選生成是實(shí)體鏈指的必要步驟。如果生成的候選集合沒(méi)有包含目標(biāo)實(shí)體，那么消歧部分無(wú)法得到正確的鏈指結(jié)果。因此候選生成的召回率成為了消歧召回率的上限。然而如果為了保證候選集合的召回率，一味地增大候選實(shí)體數(shù)目，又會(huì)給消歧帶來(lái)負(fù)擔(dān)，導(dǎo)致消歧的效率下降。如何在保證召回率的前提下生成小的候選集合是候選生成的主要目標(biāo)。本文從查詢名稱周圍的上下文入手，搜索共指名稱，以獲得更高的候選集合召回率。同時(shí)，為了獲得更小的候

4、選集合，我們提出了一種相似度計(jì)算方法，對(duì)候選集合進(jìn)行過(guò)濾。實(shí)驗(yàn)結(jié)果表明，我們提出的基于上下文的候選方法可以有效地降低候選集合的大小，同時(shí)提高召回率，從而提高了消歧的效率，減少了過(guò)多候選帶來(lái)的噪聲。
　　消歧部分的主要目標(biāo)是根據(jù)上下文推測(cè)哪個(gè)候選實(shí)體是查詢名稱所指代的對(duì)象。針對(duì)消歧問(wèn)題，我們提出了兩種解決辦法。一種是基于上下文圖的消歧方法，另一種是基于實(shí)體上下文的概率消歧方法。這兩種方法分別從上下文和實(shí)體的建模方法入手解決消歧問(wèn)題。

5、
　　傳統(tǒng)的實(shí)體鏈指方法大多基于文本相似度的計(jì)算。然而這并不是人在對(duì)上下文中的實(shí)體消歧的過(guò)程中所使用的辦法。人結(jié)合了背景知識(shí)對(duì)上下文進(jìn)行語(yǔ)義層面的分析。在類似Wikipedia這樣的知識(shí)庫(kù)中，很多知識(shí)由頁(yè)面之間的互聯(lián)表示。這種互聯(lián)體現(xiàn)了知識(shí)之間的關(guān)系，同時(shí)也構(gòu)成了有向圖結(jié)構(gòu)。如果把實(shí)體周圍的上下文也構(gòu)建成有向圖，就可以利用知識(shí)庫(kù)的圖結(jié)構(gòu)實(shí)現(xiàn)消歧。本文將上下文中的名稱和候選實(shí)體建模為圖中的節(jié)點(diǎn)，將上下文的圖結(jié)構(gòu)和知識(shí)庫(kù)的圖結(jié)構(gòu)建立聯(lián)

6、系，從而實(shí)現(xiàn)消歧。實(shí)驗(yàn)表明，這種基于上下文圖的消歧方法可以達(dá)到或接近當(dāng)前最好的消歧準(zhǔn)確率。
　　消歧系統(tǒng)的準(zhǔn)確率在很大程度上取決于對(duì)實(shí)體刻畫的細(xì)致度。通常用于訓(xùn)練實(shí)體模型的語(yǔ)料越多，對(duì)實(shí)體刻畫得就越細(xì)致。然而，不同實(shí)體的流行程度不同，因此與之相關(guān)的訓(xùn)練語(yǔ)料的量也不同。有時(shí)候，實(shí)體之間訓(xùn)練語(yǔ)料量上的差異會(huì)大到影響系統(tǒng)的準(zhǔn)確率。本文針對(duì)實(shí)體鏈指中語(yǔ)料分布不均的問(wèn)題提出了一種概率模型方法，這種方法基于語(yǔ)言模型中的平滑技術(shù)緩解了訓(xùn)練數(shù)據(jù)分

7、布不均的問(wèn)題。另一方面，本文還提出在概率模型中引入別名特征。實(shí)驗(yàn)結(jié)果證明，平滑技術(shù)和別名特征都能有效地提高系統(tǒng)準(zhǔn)確率。
　　現(xiàn)有的實(shí)體鏈指上下文大多指的是實(shí)體周圍的上下文。然而對(duì)于類似微博的短文本，這種上下文中的有效消歧特征往往不夠。這直接導(dǎo)致了現(xiàn)有實(shí)體鏈指方法在微博文本上性能的下降。盡管單條微博內(nèi)容很少，但整個(gè)微博平臺(tái)上則存在大量的信息冗余。本文提出利用相似微博的跨篇章上下文幫助實(shí)體鏈指。我們提出了一種基于偽相關(guān)反饋的方法和一種

8、基于圖的方法?；趥蜗嚓P(guān)反饋方法利用相關(guān)微博直接擴(kuò)展上下文，得到更多的特征幫助消歧。基于圖的方法則克服了偽相關(guān)反饋法中引入噪聲的問(wèn)題。通過(guò)相似度給相似微博加以權(quán)重。具體地，基于圖的方法將候選實(shí)體與微博帖子視作圖中的節(jié)點(diǎn)，以節(jié)點(diǎn)之間的相似度作為邊的權(quán)重。通過(guò)迭代，將候選實(shí)體節(jié)點(diǎn)上的標(biāo)簽傳播給微博帖子節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明，基于偽相關(guān)反饋方法和基于圖的方法都能有效地提高系統(tǒng)的準(zhǔn)確率。其中，基于圖的方法的效果相對(duì)更好。
　　總之，本文針對(duì)實(shí)

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于上下文的實(shí)體鏈指技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于上下文的實(shí)體鏈指技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載