面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺的設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、社會在不斷地發(fā)展,人類的語言也在不斷的變更。語言的內(nèi)涵、形式都在不斷地擴充。新詞的不斷涌現(xiàn),可以說是語言不斷發(fā)展的最好證明。而QQ輸入法作為文字的輸入工具,也應該保證與時俱進。新詞的擴充是QQ輸入法的基本功能之一。詞語是人們打字的最小單位,只有保證候選詞的豐富,才能幫助用戶提高打字速度。如何有效地發(fā)現(xiàn)新詞是學術(shù)界關(guān)注的焦點,因為新詞發(fā)現(xiàn)是許多技術(shù)研究的基本要求,如信息抽取、語音識別、主題發(fā)現(xiàn)、機器翻譯等。
  中文信息處理與英文信

2、息處理的方法與難點存在很大的差異,中文自身有其獨特的特征,英文的詞與詞之間有空格間隔,而中文的詞語是緊密連著的,沒有詞與詞之間的標識;另外,英文字母也有字母大小寫的區(qū)分,而中文沒有。因此在自然語言處理領(lǐng)域,中文的新詞發(fā)現(xiàn)是個非常棘手的問題?;ヂ?lián)網(wǎng)不斷地向生活的方方面面滲透,信息也在呈爆炸式增長,現(xiàn)有詞典已經(jīng)不能滿足人類交流的需要,新詞在源源不斷的產(chǎn)生。如何讓人類的知識儲備跟上社會的發(fā)展,是一個需要認真研究探討的問題。
  本文的主

3、要研究內(nèi)容是面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺的設計與實現(xiàn),為輸入法開發(fā)一套能源源不斷提供新詞的新詞發(fā)現(xiàn)平臺。在方案的選取上,本文首先分析并比較了幾種流行的新詞發(fā)現(xiàn)方法,最終設計了一套基于統(tǒng)計和規(guī)則相結(jié)合的方法來構(gòu)建新詞發(fā)現(xiàn)平臺。其中基于統(tǒng)計的方法為快速地處理大批量的數(shù)據(jù)提供了有效的手段,而基于規(guī)則的方法則對大規(guī)模數(shù)據(jù)的處理結(jié)果提供精確的修正算法。
  新詞發(fā)現(xiàn)平臺分為四大組件:隱馬爾科夫模型組件、實際語料切分組件、新詞候選詞修正組件、

4、新詞列表維護組件。
  隱馬爾科夫模型是需要一個長期優(yōu)化和積累的部分,它對漢字的各種屬性概率進行統(tǒng)計和計算。隱馬爾科夫的“學習”內(nèi)容采用的是經(jīng)過語言學家處理過的語料數(shù)據(jù)。對這些語料數(shù)據(jù)進行分析和處理后就能形成一個與中國漢字相關(guān)的模型。該模型是新詞提取部分切分實際語料的一個理論依據(jù)。實際語料切分就是對互聯(lián)網(wǎng)上的數(shù)據(jù)進行初步地切分,依據(jù)的是隱馬爾可夫模型原理。新詞候選詞修正組件是對實際語料切分組件的切分結(jié)果進行修正,以獲取真正的新詞。

5、新詞列表維護組件就是對新詞列表信息進行維護,保證新詞的正確性。
  新詞提取的過程具體為可以概括為以下步驟:依據(jù)隱馬爾科夫模型對實際數(shù)據(jù)集的初步切分;對上一步的切分結(jié)果做出初步的垃圾過濾,形成新詞候選詞集合;對新詞候選詞集合里的每一個詞組進行分析,得到相關(guān)的數(shù)據(jù)集。然后對候選詞進行修正算法,得到更加精確的新詞結(jié)果;輸出新詞集合。
  新詞詞表維護的主要工作是在時間線上對已有的新詞列表進行更新。更新操作包括:刪除、新增、更新新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論