基于條件隨機場的命名實體及實體關(guān)系識別的研究與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、命名實體識別是將文本中的元素分成預(yù)先定義的類,如人名、地名、組織機構(gòu)名、時間、貨幣等等。作為自然語言的承載信息單位,命名實體識別屬于文本信息處理基礎(chǔ)的研究領(lǐng)域,是信息抽機構(gòu)取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)中必不可少的組成部分。在實體識別領(lǐng)域,國外科研機構(gòu)針對英文實體的識別已取得了突出的成績,識別準(zhǔn)確度達到90%以上。由于中文在分詞及語義方面存在著眾多的困難,國內(nèi)針對該問題還處于研究和探索階段。所以針對中文實體及關(guān)系

2、的識別的研究有著重大的意義。
  論文的工作主要體現(xiàn)在以下幾個方面:
  第一,研究分析了用于實體識別及實體關(guān)系識別的眾多的機器學(xué)習(xí)模型,包括隱馬爾科夫模型、最大熵模型以及支持向量機模型。分析這些模型在實體識別方式方面的優(yōu)勢和缺陷,并通過分析發(fā)現(xiàn)新興的“條件隨機場模型”是一種在結(jié)構(gòu)上繼承了經(jīng)典模型的優(yōu)點,并克服了在識別中不能依賴周邊信息以及標(biāo)記偏置等缺陷的模型。國內(nèi)外的相關(guān)實驗也表明在自然語言處理,特別是實體識別領(lǐng)域,條件隨

3、機場模型有著更加出色的發(fā)揮。故而本系統(tǒng)選用其作為實體及實體關(guān)系識別的算法模型。
  第二,由于條件隨機場模型擁有可進行長距離信息依賴的特點,可以充分利用當(dāng)前詞前后詞的屬性對當(dāng)前詞進行更加準(zhǔn)確的判斷,因此本論文將該模型選擇為本課題研究和引用的模型。而“條件隨機場模型”也存在著“過于依賴特征的選取”的弊端,即實體識別程度的好壞在很大程度上取決于對于特征向量選取的好壞?,F(xiàn)階段還沒有針對中文特征選取的相關(guān)規(guī)則,本文將針對該系統(tǒng)語料集的特點

4、,使用由簡到繁的特征選取方式構(gòu)建特征模板。因此對于特征的選取及特征模板的構(gòu)建是本系統(tǒng)的重點工作。
  在實體識別階段構(gòu)建的特征模板為:1)選取詞語本身及詞性作為特征構(gòu)建了基本特征模板;2)選取實體特征,通過語料轉(zhuǎn)換構(gòu)建了實體特征模板;3)選取實體指示詞構(gòu)建了指示詞模板,并在其中加入了相關(guān)的專業(yè)詞典信息;4)通過特征的組合構(gòu)建了組合特征模板。在實體關(guān)系識別階段除了選取了基本特征、詞性特征外,本文還提出了將句法結(jié)構(gòu)作為重要的特征用于構(gòu)

5、建特征模板。通過對句法結(jié)構(gòu)的分析,選取共同節(jié)點特征、依賴動詞特征、實體-實體路徑特征以及實體-依賴動詞路徑特征作為實體關(guān)系識別的重要特征。
  第三,本系統(tǒng)以條件隨機場模型為框架,使用1998年人民日報語料做為訓(xùn)練集,完成模型的訓(xùn)練工作。在網(wǎng)頁解析方面,提出了一種結(jié)合HTMLParser的技術(shù)將涉及《天龍八部》小說人物的百度詞條中的正文信息進行了提取,生成測試集。使用測試集進行實體識別及實體關(guān)系識別的實驗,數(shù)據(jù)表明本文提出的特征模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論