組合型中文分詞方法的研究.pdf_第1頁
已閱讀1頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著計算機技術的發(fā)展,人們已經(jīng)進入了以網(wǎng)絡為核心的信息時代,在這個信息急劇膨脹的社會里,如何獲取和掌握有用的信息成為了個人、企業(yè)及政府關注的重點。在這種環(huán)境下,中文信息處理技術成為了科研人員研究和開發(fā)的熱點,其中最重要的就是中文分詞技術。中文分詞是將沒有特定分界符的漢字序列分割成符合特定語境下漢語語意的詞序列的過程,它是中文信息處理的前提和基礎,也是制約著中文信息處理技術發(fā)展的瓶頸。
  歧義的消除和未登錄詞的識別是中文分詞技術的

2、難點,也是影響中文分詞切分速度和精度的重要因素。近年來,為了提高切分速度和精度,已經(jīng)出現(xiàn)了很多中文分詞的方法,這些方法的改進主要表現(xiàn)在兩個方面:對分詞詞典的改進,這種改進主要通過減少待切分文本與詞典的匹配次數(shù)來提高分詞的速度;對分詞算法的改進,此類型的改進主要是通過對自身算法的改進來提高分詞系統(tǒng)的歧義處理和未登錄詞識別的能力。本文結合這兩種改進方式,根據(jù)當前關鍵技術研究現(xiàn)狀設計了一個綜合詞典、統(tǒng)計和規(guī)則的組合型中文分詞方法,該方法兼有對

3、歧義的檢測與處理和對未登錄詞的識別能力。
  本文對中文分詞的詞典機制和分詞算法進行了詳細研究,提出了一個中文分詞的解決方案,該方案主要進行了如下三個方面的工作:第一,對分詞詞典機制的改進,改進后的詞典針對中文信息中二字詞所占比例多和漢語中心語偏后的特點,采用雙字哈希表的結構(首字哈希表和尾字哈希表),在不提升已有典型詞典的空間和維護復雜度的前提下,實現(xiàn)了詞條的快速匹配。第二,歧義的檢測與處理,現(xiàn)階段歧義的識別大多是利用雙向最大匹

4、配算法,由于雙向匹配算法匹配次數(shù)較多,出現(xiàn)了回溯正向最大匹配算法,該算法采用回溯詞向后推進一個漢字的方式來檢測鏈長為1詞簇為2的交集型歧義,減少了歧義檢測時與詞典的匹配次數(shù),但該方法存在兩點缺陷,一是它只能檢測鏈長為1詞簇為2的交集型歧義,不能識別鏈長為1的其他類型歧義和鏈長為2的交集型歧義,其歧義識別能力有限;另一個是對未發(fā)生交集型歧義的字段也進行碎片整理,造成了重復匹配問題。本文針對這兩點缺陷在該算法的基礎上增加了一個鏈長為1詞簇為

5、3的交集型歧義檢測模塊,增加之后的算法不僅能識別鏈長為1的交集型歧義,還能識別鏈長為2的交集型歧義,同時利用計數(shù)方式,對連續(xù)發(fā)生交集型歧義的字段利用規(guī)則與統(tǒng)計結合的方式進行集中消岐,集中消岐方式避免了碎片整理時對沒有發(fā)生交集型歧義的字段的重復匹配問題,降低了改進算法的時間復雜度。第三,未登錄詞的識別,本文結合改進算法利用已有識別機制的概率模型與規(guī)則相結合的方式來識別未登錄詞。
  在大量語料之上的測試結果表明,在提高切分速度的同時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論