面向開放領(lǐng)域文本的實體關(guān)系抽取.pdf_第1頁
已閱讀1頁,還剩114頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著大數(shù)據(jù)時代的來臨,人們面臨和需要處理的數(shù)據(jù)在規(guī)模上急劇膨脹,而大部分?jǐn)?shù)據(jù)以自然語言描述的無結(jié)構(gòu)文本格式存在,其內(nèi)容所屬領(lǐng)域的界限也日趨模糊,一些有重要意義和價值的知識信息顯式或隱式地散落在這些海量的文字中間,從而影響了人們直觀、高效地從中發(fā)現(xiàn)目標(biāo)信息。作為信息抽取的一項重要任務(wù),實體關(guān)系抽取研究的根本目標(biāo)就是利用語言學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)、信息科學(xué)等多個領(lǐng)域的知識,從無結(jié)構(gòu)或半結(jié)構(gòu)的文本中發(fā)現(xiàn)實體之間存在的各類語義關(guān)系,并以結(jié)構(gòu)化的

2、方式呈現(xiàn)出來,以便于人們快速理解和掌握文本的意義。面向開放領(lǐng)域文本的關(guān)系抽取面臨著諸多困難與挑戰(zhàn),而該項研究對于事件抽取、信息檢索、機(jī)器翻譯、自動問答等領(lǐng)域的研究具有較強(qiáng)的支撐作用,因而具有較強(qiáng)的研究價值與研究意義。
  針對開放領(lǐng)域文本的特點(diǎn),在總結(jié)現(xiàn)有實體關(guān)系抽取研究的基礎(chǔ)上,本文從實體關(guān)系特征選擇和實體關(guān)系抽取方法兩個角度進(jìn)行了面向開放領(lǐng)域文本的實體關(guān)系抽取研究,并將這些研究成果應(yīng)用于面向大學(xué)計算機(jī)基礎(chǔ)課程的知識圖譜的構(gòu)建研

3、究中。本文的主要研究內(nèi)容包括以下四個方面:
  (1)基于句法語義特征的實體關(guān)系抽取。領(lǐng)域無關(guān)的新聞文本是一種較為常見的開放領(lǐng)域文本,現(xiàn)有的研究偏重于核函數(shù)及其組合的在關(guān)系抽取中的應(yīng)用,而在關(guān)系特征方面的研究相對偏少,而且以往的研究大多是利用外部的語義知識庫作為輔助來實現(xiàn),較少從關(guān)系結(jié)構(gòu)自身所處的句子中提取語義特征,也缺少從語言學(xué)的角度來挖掘關(guān)系特征。為此,本文提出一種基于句法語義特征的實體關(guān)系抽取方法,在特征選擇方面,著重從語言

4、學(xué)的角度出發(fā),以詞法分析、上下文環(huán)境等特征為基礎(chǔ),新添加了依存句法特征、語義角色標(biāo)注特征以及核心謂詞與實體的位置距離特征等,實現(xiàn)關(guān)系特征選擇范圍的擴(kuò)展;在機(jī)器學(xué)習(xí)方法上,以SVM模型為基礎(chǔ),構(gòu)建基于特征空間轉(zhuǎn)換的訓(xùn)練模型,并采用成熟的算法對訓(xùn)練過程進(jìn)行優(yōu)化;最后使用《人民日報》部分語料進(jìn)行了實驗,實驗結(jié)果證明了本文所述方法的有效性。
  (2)基于弱監(jiān)督的實體關(guān)系抽取。百科類文本是另一種典型的開放領(lǐng)域文本,可根據(jù)其自有內(nèi)容實現(xiàn)基于

5、弱監(jiān)督機(jī)器學(xué)習(xí)的關(guān)系抽取,從而減少人工干預(yù)、提高效率。以往針對中文百科文本的屬性抽取研究較多,而實體關(guān)系抽取的研究相對較少,且在目標(biāo)關(guān)系類型選擇過程中存在缺陷。為此,本文提出一種基于弱監(jiān)督的百科文本實體關(guān)系抽取方法,在監(jiān)督知識庫的構(gòu)建環(huán)節(jié),不再直接依賴基本信息框中的數(shù)據(jù),而是從多個角度對基本信息框中的內(nèi)容進(jìn)行加工整合,得到質(zhì)量更高的關(guān)系元組,用于對詞條正文進(jìn)行自動關(guān)系標(biāo)注;在目標(biāo)關(guān)系類型選擇中,提出了一種基于頻度差值密度的目標(biāo)關(guān)系類型選

6、擇方法,使其夠按照每種關(guān)系類型在語料中的分布密度隨機(jī)從一定范圍內(nèi)選擇目標(biāo)關(guān)系類型,從而提高目標(biāo)關(guān)系類型選擇的覆蓋面和科學(xué)性;本方法繼承了上一研究內(nèi)容中的關(guān)系特征選擇、特征向量優(yōu)化方法和關(guān)系分類訓(xùn)練模型,并使用百度百科部分詞條作為語料進(jìn)行了實驗,得到了較好的實驗效果。
  (3)基于字典構(gòu)建與規(guī)則學(xué)習(xí)的實體關(guān)系抽取。該項研究主要實現(xiàn)從期刊文本中進(jìn)行特定類型的術(shù)語之間的關(guān)系抽取。在基于規(guī)則的實體關(guān)系抽取研究中,利用關(guān)系字典能夠明顯地提

7、升關(guān)系識別效果,而在以往研究中,關(guān)系規(guī)則與關(guān)系字典往往由人工構(gòu)建,效率較低。本文提出一種基于弱監(jiān)督的關(guān)系詞字典自動構(gòu)建方法,首先設(shè)計一種全新的關(guān)系詞字典結(jié)構(gòu),在人工挑選部分典型關(guān)系詞的基礎(chǔ)上,通過基于CRF模型的弱監(jiān)督機(jī)器學(xué)習(xí)得到關(guān)系詞識別器,最終實現(xiàn)關(guān)系詞字典的自動構(gòu)建;在關(guān)系規(guī)則的自動生成方面,利用上述關(guān)系詞字典,首先根據(jù)關(guān)系詞與實體的相對位置關(guān)系設(shè)計關(guān)系模式,然后從大量的訓(xùn)練文本中抽取填充因子填充到關(guān)系模式中,從而自動得到關(guān)系規(guī)則

8、;此外,本文還提出了無明顯關(guān)系詞的實體關(guān)系抽取方法以及規(guī)則修剪方法等。在實驗中,將本方法應(yīng)用于生物醫(yī)學(xué)期刊文獻(xiàn)中的蛋白質(zhì)交互(PPI)關(guān)系抽取,取得了較好的效果。
  (4)面向大學(xué)計算機(jī)基礎(chǔ)課程的知識圖譜構(gòu)建研究。面向大學(xué)計算機(jī)基礎(chǔ)課程的知識圖譜構(gòu)建,可以為該課程的教學(xué)改革、學(xué)習(xí)方法的改進(jìn)等提供豐富的知識保障,從而有助于提升教育信息化水平。本文以大學(xué)計算機(jī)基礎(chǔ)課程的教材為知識語料來源,首先提出了一種跨語言的實體識別方法;整合并改

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論