面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-08 格式：pdf 頁數(shù)：115 大?。?0.65MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取.pdf_第1頁

已閱讀1頁，還剩114頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著大數(shù)據(jù)時代的來臨，人們面臨和需要處理的數(shù)據(jù)在規(guī)模上急劇膨脹，而大部分?jǐn)?shù)據(jù)以自然語言描述的無結(jié)構(gòu)文本格式存在，其內(nèi)容所屬領(lǐng)域的界限也日趨模糊，一些有重要意義和價(jià)值的知識信息顯式或隱式地散落在這些海量的文字中間，從而影響了人們直觀、高效地從中發(fā)現(xiàn)目標(biāo)信息。作為信息抽取的一項(xiàng)重要任務(wù)，實(shí)體關(guān)系抽取研究的根本目標(biāo)就是利用語言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)等多個領(lǐng)域的知識，從無結(jié)構(gòu)或半結(jié)構(gòu)的文本中發(fā)現(xiàn)實(shí)體之間存在的各類語義關(guān)系，并以結(jié)構(gòu)化的

2、方式呈現(xiàn)出來，以便于人們快速理解和掌握文本的意義。面向開放領(lǐng)域文本的關(guān)系抽取面臨著諸多困難與挑戰(zhàn)，而該項(xiàng)研究對于事件抽取、信息檢索、機(jī)器翻譯、自動問答等領(lǐng)域的研究具有較強(qiáng)的支撐作用，因而具有較強(qiáng)的研究價(jià)值與研究意義。
　　針對開放領(lǐng)域文本的特點(diǎn)，在總結(jié)現(xiàn)有實(shí)體關(guān)系抽取研究的基礎(chǔ)上，本文從實(shí)體關(guān)系特征選擇和實(shí)體關(guān)系抽取方法兩個角度進(jìn)行了面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取研究，并將這些研究成果應(yīng)用于面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識圖譜的構(gòu)建研

3、究中。本文的主要研究內(nèi)容包括以下四個方面:
　　(1)基于句法語義特征的實(shí)體關(guān)系抽取。領(lǐng)域無關(guān)的新聞文本是一種較為常見的開放領(lǐng)域文本，現(xiàn)有的研究偏重于核函數(shù)及其組合的在關(guān)系抽取中的應(yīng)用，而在關(guān)系特征方面的研究相對偏少，而且以往的研究大多是利用外部的語義知識庫作為輔助來實(shí)現(xiàn)，較少從關(guān)系結(jié)構(gòu)自身所處的句子中提取語義特征，也缺少從語言學(xué)的角度來挖掘關(guān)系特征。為此，本文提出一種基于句法語義特征的實(shí)體關(guān)系抽取方法，在特征選擇方面，著重從語言

4、學(xué)的角度出發(fā)，以詞法分析、上下文環(huán)境等特征為基礎(chǔ)，新添加了依存句法特征、語義角色標(biāo)注特征以及核心謂詞與實(shí)體的位置距離特征等，實(shí)現(xiàn)關(guān)系特征選擇范圍的擴(kuò)展;在機(jī)器學(xué)習(xí)方法上，以SVM模型為基礎(chǔ)，構(gòu)建基于特征空間轉(zhuǎn)換的訓(xùn)練模型，并采用成熟的算法對訓(xùn)練過程進(jìn)行優(yōu)化;最后使用《人民日報(bào)》部分語料進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明了本文所述方法的有效性。
　　(2)基于弱監(jiān)督的實(shí)體關(guān)系抽取。百科類文本是另一種典型的開放領(lǐng)域文本，可根據(jù)其自有內(nèi)容實(shí)現(xiàn)基于

5、弱監(jiān)督機(jī)器學(xué)習(xí)的關(guān)系抽取，從而減少人工干預(yù)、提高效率。以往針對中文百科文本的屬性抽取研究較多，而實(shí)體關(guān)系抽取的研究相對較少，且在目標(biāo)關(guān)系類型選擇過程中存在缺陷。為此，本文提出一種基于弱監(jiān)督的百科文本實(shí)體關(guān)系抽取方法，在監(jiān)督知識庫的構(gòu)建環(huán)節(jié)，不再直接依賴基本信息框中的數(shù)據(jù)，而是從多個角度對基本信息框中的內(nèi)容進(jìn)行加工整合，得到質(zhì)量更高的關(guān)系元組，用于對詞條正文進(jìn)行自動關(guān)系標(biāo)注;在目標(biāo)關(guān)系類型選擇中，提出了一種基于頻度差值密度的目標(biāo)關(guān)系類型選

6、擇方法，使其夠按照每種關(guān)系類型在語料中的分布密度隨機(jī)從一定范圍內(nèi)選擇目標(biāo)關(guān)系類型，從而提高目標(biāo)關(guān)系類型選擇的覆蓋面和科學(xué)性;本方法繼承了上一研究內(nèi)容中的關(guān)系特征選擇、特征向量優(yōu)化方法和關(guān)系分類訓(xùn)練模型，并使用百度百科部分詞條作為語料進(jìn)行了實(shí)驗(yàn)，得到了較好的實(shí)驗(yàn)效果。
　　(3)基于字典構(gòu)建與規(guī)則學(xué)習(xí)的實(shí)體關(guān)系抽取。該項(xiàng)研究主要實(shí)現(xiàn)從期刊文本中進(jìn)行特定類型的術(shù)語之間的關(guān)系抽取。在基于規(guī)則的實(shí)體關(guān)系抽取研究中，利用關(guān)系字典能夠明顯地提

7、升關(guān)系識別效果，而在以往研究中，關(guān)系規(guī)則與關(guān)系字典往往由人工構(gòu)建，效率較低。本文提出一種基于弱監(jiān)督的關(guān)系詞字典自動構(gòu)建方法，首先設(shè)計(jì)一種全新的關(guān)系詞字典結(jié)構(gòu)，在人工挑選部分典型關(guān)系詞的基礎(chǔ)上，通過基于CRF模型的弱監(jiān)督機(jī)器學(xué)習(xí)得到關(guān)系詞識別器，最終實(shí)現(xiàn)關(guān)系詞字典的自動構(gòu)建;在關(guān)系規(guī)則的自動生成方面，利用上述關(guān)系詞字典，首先根據(jù)關(guān)系詞與實(shí)體的相對位置關(guān)系設(shè)計(jì)關(guān)系模式，然后從大量的訓(xùn)練文本中抽取填充因子填充到關(guān)系模式中，從而自動得到關(guān)系規(guī)則

8、;此外，本文還提出了無明顯關(guān)系詞的實(shí)體關(guān)系抽取方法以及規(guī)則修剪方法等。在實(shí)驗(yàn)中，將本方法應(yīng)用于生物醫(yī)學(xué)期刊文獻(xiàn)中的蛋白質(zhì)交互(PPI)關(guān)系抽取，取得了較好的效果。
　　(4)面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識圖譜構(gòu)建研究。面向大學(xué)計(jì)算機(jī)基礎(chǔ)課程的知識圖譜構(gòu)建，可以為該課程的教學(xué)改革、學(xué)習(xí)方法的改進(jìn)等提供豐富的知識保障，從而有助于提升教育信息化水平。本文以大學(xué)計(jì)算機(jī)基礎(chǔ)課程的教材為知識語料來源，首先提出了一種跨語言的實(shí)體識別方法;整合并改

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取.pdf

文檔簡介

溫馨提示

最新文檔

評論

面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載