中文文檔分類中若干關(guān)鍵技術(shù)的研究.pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著信息技術(shù)的發(fā)展,我們步入了一個信息化的社會,信息量呈幾何級數(shù)增加。人們對信息資源的依賴性越來越大,如何實現(xiàn)信息的自動分類,尤其是中文文本信息的有效分類是目前中文信息處理研究的一個重要分支領(lǐng)域。 文本分類是指對于帶有類別的文本集合,根據(jù)每一個類別的文本子集合的共有特點,找出一個分類函數(shù)或分類模型,根據(jù)該模型可以把其它文本映射到已有類別中的一個,從而實現(xiàn)對文本的自動分類。它使得用戶不但能夠方便地瀏覽文檔,而且可以通過限制搜索范圍

2、來使文檔的查找更為容易。 本文研究了文本分類的背景和發(fā)展現(xiàn)狀,闡述了其系統(tǒng)結(jié)構(gòu)。在系統(tǒng)的構(gòu)建過程中,重點針對中文分詞技術(shù),文本表示,特征選取算法和分類算法四部分進行了詳細的分析和深入的研究,并在現(xiàn)有方法的基礎(chǔ)上分別予以改進。在下面的四點中,分別簡單介紹了本文針對以上四個關(guān)鍵部分所做的主要工作。 (1).在中文分詞部分,針對基于字典的分詞方法中詞典的容量有限,隨現(xiàn)代社會發(fā)展迅速,新詞不斷出現(xiàn)導(dǎo)致分詞方法極大地受到了詞典的約

3、束這個問題,本文提出了一種漸進式擴充詞典的分詞方法,在這種方法中結(jié)合了基于字符串匹配和基于統(tǒng)計相結(jié)合的分詞方法??梢杂媒y(tǒng)計的方法識別出詞典中沒有的新詞,并將其補充進詞典中,不斷地擴大詞典的規(guī)模,從而極大地提高了分詞的準確度。 (2).在文本表示這一部分,本文通過分析經(jīng)典的TF-IDF公式存在的問題:該公式在計算特征詞權(quán)重時,僅考慮了詞頻因素而忽略了特征詞在文章中的位置、特征詞的長度、特征詞出現(xiàn)在類內(nèi)類間的文本頻數(shù)這三個因素對詞條

4、權(quán)重的影響,提出了一種新的特征詞權(quán)重的計算方法,該方法將這三方面的因素考慮進來,在TF-IDF 公式的基礎(chǔ)上又進行了進一步的改進。 (3).在DF方法中,本研究發(fā)現(xiàn)以整篇文章為單位來衡量詞條的重要程度往往沒有以段為單位更精確些。另外,詞條所屬類的文本總段數(shù)與整個訓(xùn)練文本集的文本總段數(shù)的比例對詞條的代表性也有很大的影響。本文針對這兩方面的特點對DF 公式進行了改進,簡稱為NDF。 (4).文本分類算法是一種有監(jiān)督的學(xué)習(xí)算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論