2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩114頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、實體鏈指的主要目標(biāo)是識別上下文中的名稱指代哪個現(xiàn)實世界中的實體。具體而言,實體鏈指是將給定文本中的一個名稱字符串映射到知識庫中的相應(yīng)實體上去,如果知識庫尚未收錄相應(yīng)實體,則返回空標(biāo)記。近些年,美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)舉辦了多次以實體鏈指為核心的國際評測任務(wù)。實體鏈指在信息抽取、問答系統(tǒng)、機器翻譯、信息檢索等多個自然語言任務(wù)中都有著廣泛的應(yīng)用。
  實體鏈指技術(shù)需要解決的問題主要是歧義性,即同一個名稱可能對應(yīng)多個實體,同一

2、個實體也可能有多個名稱。實體鏈指技術(shù)的主要工作旨在提高實體鏈指系統(tǒng)的準(zhǔn)確率和效率。高準(zhǔn)確率的實體鏈指結(jié)果可以為其他自然語言處理任務(wù)提供更為可信的實體映射對象。高效的實體鏈指系統(tǒng)也是互聯(lián)網(wǎng)和大數(shù)據(jù)的直接應(yīng)用需求。實體鏈指分為候選生成和消歧兩個部分,其核心問題在于如何有效地利用上下文提高準(zhǔn)確率和效率。上下文是候選生成和消歧的主要依據(jù)。本文基于實體的上下文展開研究。
  在以往的實體鏈指研究中,大量的工作集中在如何消歧上面。相比而言,專

3、注于改進候選生成的工作卻不多。實際上,候選生成是實體鏈指的必要步驟。如果生成的候選集合沒有包含目標(biāo)實體,那么消歧部分無法得到正確的鏈指結(jié)果。因此候選生成的召回率成為了消歧召回率的上限。然而如果為了保證候選集合的召回率,一味地增大候選實體數(shù)目,又會給消歧帶來負(fù)擔(dān),導(dǎo)致消歧的效率下降。如何在保證召回率的前提下生成小的候選集合是候選生成的主要目標(biāo)。本文從查詢名稱周圍的上下文入手,搜索共指名稱,以獲得更高的候選集合召回率。同時,為了獲得更小的候

4、選集合,我們提出了一種相似度計算方法,對候選集合進行過濾。實驗結(jié)果表明,我們提出的基于上下文的候選方法可以有效地降低候選集合的大小,同時提高召回率,從而提高了消歧的效率,減少了過多候選帶來的噪聲。
  消歧部分的主要目標(biāo)是根據(jù)上下文推測哪個候選實體是查詢名稱所指代的對象。針對消歧問題,我們提出了兩種解決辦法。一種是基于上下文圖的消歧方法,另一種是基于實體上下文的概率消歧方法。這兩種方法分別從上下文和實體的建模方法入手解決消歧問題。

5、
  傳統(tǒng)的實體鏈指方法大多基于文本相似度的計算。然而這并不是人在對上下文中的實體消歧的過程中所使用的辦法。人結(jié)合了背景知識對上下文進行語義層面的分析。在類似Wikipedia這樣的知識庫中,很多知識由頁面之間的互聯(lián)表示。這種互聯(lián)體現(xiàn)了知識之間的關(guān)系,同時也構(gòu)成了有向圖結(jié)構(gòu)。如果把實體周圍的上下文也構(gòu)建成有向圖,就可以利用知識庫的圖結(jié)構(gòu)實現(xiàn)消歧。本文將上下文中的名稱和候選實體建模為圖中的節(jié)點,將上下文的圖結(jié)構(gòu)和知識庫的圖結(jié)構(gòu)建立聯(lián)

6、系,從而實現(xiàn)消歧。實驗表明,這種基于上下文圖的消歧方法可以達(dá)到或接近當(dāng)前最好的消歧準(zhǔn)確率。
  消歧系統(tǒng)的準(zhǔn)確率在很大程度上取決于對實體刻畫的細(xì)致度。通常用于訓(xùn)練實體模型的語料越多,對實體刻畫得就越細(xì)致。然而,不同實體的流行程度不同,因此與之相關(guān)的訓(xùn)練語料的量也不同。有時候,實體之間訓(xùn)練語料量上的差異會大到影響系統(tǒng)的準(zhǔn)確率。本文針對實體鏈指中語料分布不均的問題提出了一種概率模型方法,這種方法基于語言模型中的平滑技術(shù)緩解了訓(xùn)練數(shù)據(jù)分

7、布不均的問題。另一方面,本文還提出在概率模型中引入別名特征。實驗結(jié)果證明,平滑技術(shù)和別名特征都能有效地提高系統(tǒng)準(zhǔn)確率。
  現(xiàn)有的實體鏈指上下文大多指的是實體周圍的上下文。然而對于類似微博的短文本,這種上下文中的有效消歧特征往往不夠。這直接導(dǎo)致了現(xiàn)有實體鏈指方法在微博文本上性能的下降。盡管單條微博內(nèi)容很少,但整個微博平臺上則存在大量的信息冗余。本文提出利用相似微博的跨篇章上下文幫助實體鏈指。我們提出了一種基于偽相關(guān)反饋的方法和一種

8、基于圖的方法。基于偽相關(guān)反饋方法利用相關(guān)微博直接擴展上下文,得到更多的特征幫助消歧?;趫D的方法則克服了偽相關(guān)反饋法中引入噪聲的問題。通過相似度給相似微博加以權(quán)重。具體地,基于圖的方法將候選實體與微博帖子視作圖中的節(jié)點,以節(jié)點之間的相似度作為邊的權(quán)重。通過迭代,將候選實體節(jié)點上的標(biāo)簽傳播給微博帖子節(jié)點。實驗結(jié)果表明,基于偽相關(guān)反饋方法和基于圖的方法都能有效地提高系統(tǒng)的準(zhǔn)確率。其中,基于圖的方法的效果相對更好。
  總之,本文針對實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論