基于統(tǒng)計的生物命名實體識別研究.pdf_第1頁
已閱讀1頁,還剩98頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物醫(yī)學文獻中的命名實體識別是目前被國際廣為關注的自然語言處理研究問題之一。雖然自然語言處理在某些領域已經獲得了很好的效果,但在生物醫(yī)學領域卻還有不小的差距。由于生物醫(yī)學的蓬勃發(fā)展,新的命名實體層出不窮,其不規(guī)則的命名,以及舊詞新用,使生物命名實體識別成為一項艱巨的任務,也在一定程度上影響著生物醫(yī)學領域的研究進展。目前的研究方法很多,其中,統(tǒng)計自然語言處理由于其基于統(tǒng)計的學習方法不需要研究者具有太多生物醫(yī)學專業(yè)知識,從而成為生物命名實體

2、識別研究中常用的方法。 隱馬爾可夫模型是現(xiàn)代語音識別系統(tǒng)中構建統(tǒng)計模型的重要手段。它可以在只有少量訓練數(shù)據(jù)的情況下學習規(guī)則。目前國際上有不少研究者采用了隱馬爾可夫模型及其變形來解決生物命名實體識別問題,雖然取得了不錯的進展,但都沒有達到“近乎人類”的程度,還有許多問題有待解決,而國內的研究也才剛剛起步。所以本文的研究主要采用隱馬爾可夫模型,對生物命名實體識別問題進行初步的研究。進行的工作如下: 1、從已標注語料庫中用統(tǒng)計

3、的方法訓練隱馬爾可夫模型。通過對已標注語料進行統(tǒng)計得到隱馬爾可夫模型的參數(shù):狀態(tài)集、發(fā)射符號集、初始狀態(tài)概率、狀態(tài)轉移概率、符號發(fā)射概率。在不同的試驗中用不同的方法來發(fā)現(xiàn)發(fā)射符號(命名實體名)的一些命名規(guī)律,對其進行歸并,形成發(fā)射符號集,并掘此進行各項概率的統(tǒng)計。在計算概率時,為了解決數(shù)據(jù)稀疏問題,采用了線性插值的方法進行平滑。在實現(xiàn)過程中提出了詞結構相似度的概念,為符號歸并提供一個量化標準。 2、在未標注語料上測試訓練好的隱馬

4、爾可夫模型。以未標注語料的一個自然句作為隱馬爾可夫模型的輸入序列,用Viterbi算法獲得輸出狀態(tài)序列,從而得到識別出的生物命名實體。形成輸入序列時,在不同的試驗中采用了不同的分詞方法。通過計算自然句中一組詞與發(fā)射符號集中各項的相似度,確定把自然句劃分為詞序列的邊界,并輔以簡單的詞性分析。 3、計算測試結果的召回率和精確率,通過比較,對隱馬爾可夫模型進行改進,并重復以上過程直到獲得一個可以有效識別生物命名實體的隱馬爾可夫模型。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論