文本信息處理的若干關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩110頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本文以文本信息檢索模型為基準(zhǔn),對(duì)文本信息處理的幾個(gè)關(guān)鍵技術(shù)包括文本分類、文本聚類和近似查詢處理等進(jìn)行研究。文本分類和文本聚類是對(duì)數(shù)據(jù)進(jìn)行組織和管理的核心技術(shù)。近似查詢處理需要快速查詢到所需信息,這是解決大規(guī)模數(shù)據(jù)集的一個(gè)重要技術(shù)。 以下是本文的主要研究?jī)?nèi)容: (1)文本信息處理的技術(shù)基礎(chǔ)。包括文檔表示模型、切詞、特征選擇、文本分類和文本聚類。本文簡(jiǎn)單介紹了集合模型、代數(shù)模型、概率模型和概念模型等四種文檔表示模型;分析了中

2、文切詞的主要問題和主要方法;具體介紹了文檔特征及其選擇算法;詳細(xì)介紹了文本分類和文本聚類,并重點(diǎn)概括了一些重要的文本分類和文本聚類算法。 (2)基于混淆矩陣的層次結(jié)構(gòu)構(gòu)造。在信息化時(shí)代,文檔的海量化和復(fù)雜化使得對(duì)文檔進(jìn)行層次分類成為必要。本文根據(jù)描述平面分類器的錯(cuò)誤情況的混淆矩陣,提出了兩種層次結(jié)構(gòu)構(gòu)造法。一種是層次聚類法,另一種是混淆類別法。層次聚類法采用合并策略,即:初始時(shí)將每個(gè)樣本看作一類,然后根據(jù)它們的相似性或距離逐漸合

3、并,直到形成一個(gè)大類為止?;煜悇e法根據(jù)各類別間容易混淆的概率大于某個(gè)閾值t形成混淆類別,從而構(gòu)造層次結(jié)構(gòu)。對(duì)這兩種算法均給出了詳細(xì)的算法。最后通過相關(guān)實(shí)驗(yàn)對(duì)這兩種層次結(jié)構(gòu)構(gòu)造方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明混淆類別法策略優(yōu)于層次聚類法。主要是因?yàn)閷哟尉垲惙ㄕJ(rèn)為父類下一層的子類間的混淆關(guān)系是對(duì)稱的,而實(shí)際文本并沒有體現(xiàn)這一點(diǎn)。 (3)文檔流派分類研究。文檔流派描述的是文檔的風(fēng)格,而不是文檔的內(nèi)容。文檔的流派和文檔的主題是正交的。也就是

4、說,相同主題的文檔可以有不同的流派,相同流派的文檔可以描述不同的主題。流派分類在信息檢索、信息過濾、反動(dòng)信息的攔截和網(wǎng)上輿情調(diào)查等方面發(fā)揮了越來越重要的作用。為了對(duì)文檔的正反面進(jìn)行分類,本文提出了基于特征情感色彩的文檔流派分類方法(情感分類)。對(duì)于情感分類來說,它和基于主題的分類在分類方法上并沒有本質(zhì)區(qū)別??梢哉J(rèn)為,基于文檔的正反面情感分類就是一個(gè)普通的二類分類問題。所以,情感特征的選擇和情感傾向判定就尤為重要。因此,本文主要研究情感特

5、征詞的選擇、情感傾向判定和情感傾向權(quán)值計(jì)算,并研究了幾種典型的方法。 (4)基于小波變換的近似查詢處理。傳統(tǒng)的決策支持系統(tǒng)在數(shù)據(jù)查詢時(shí)希望查詢系統(tǒng)能夠根據(jù)提交的查詢提供一個(gè)準(zhǔn)確的結(jié)果,反應(yīng)時(shí)間很長(zhǎng),這是一種典型的“黑盒”模式。但在現(xiàn)今的DSS、在線分析處理、在線聚集等領(lǐng)域,往往不需要一個(gè)精準(zhǔn)的結(jié)果,而對(duì)系統(tǒng)的反應(yīng)速度有很高的要求。這時(shí)近似查詢就應(yīng)運(yùn)而生。小波已經(jīng)證明了在層次分解(壓縮)領(lǐng)域的高效率。小波變換通過將GB/TB級(jí)的數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論