2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、由于互聯(lián)網(wǎng)的飛速發(fā)展以及信息爆炸帶來的沖擊,如何在信息的海洋中快速方便的獲取有用的內(nèi)容成為一項(xiàng)挑戰(zhàn)。在這樣的背景下,文本聚類技術(shù)也得到了深入的研究和廣泛的應(yīng)用。文本聚類是文本挖掘領(lǐng)域的一個(gè)重要研究分支,也是聚類方法在文本處理領(lǐng)域的應(yīng)用。它可以發(fā)現(xiàn)與某個(gè)文本相似的一批文本,從而過濾掉大量的無關(guān)的信息,它也可以幫助相關(guān)度排序,從而使最有用的信息位于第一位置呈現(xiàn)給讀者,提供一種組織和瀏覽大規(guī)模文本集的方法。因此文本聚類技術(shù)不僅是信息檢索領(lǐng)域的

2、一項(xiàng)關(guān)鍵技術(shù),而且是研究更智能化的搜索引擎的入手點(diǎn)。目前,由于計(jì)算智能技術(shù)的逐漸成熟,為其與文本聚類技術(shù)的融合提供了可行性。 本文的主要研究工作為: (1)基于計(jì)算智能的文本聚類算法的研究。對計(jì)算智能的相關(guān)算法與文本聚類技術(shù)的融合進(jìn)行了理論上的詳細(xì)分析和論述,在此基礎(chǔ)上給出了相應(yīng)的算法流程描述,并進(jìn)行了對比試驗(yàn)。目前,基于粒子群優(yōu)化(PSO)的文本聚類算法還沒有得到深入的研究,由于PSO算法的簡單性及時(shí)間消耗小的特點(diǎn),對

3、于海量數(shù)據(jù)挖掘其具有重要的意義。在分析PSO收斂早熟問題的基礎(chǔ)上,提出了一種加窗監(jiān)督的PSO算法并將其應(yīng)用到文本聚類中,仿真實(shí)驗(yàn)表明此算法不僅可以提高PSO算法的全局搜索能力,從而避免早熟收斂,而且可以有效的提高文本聚類的精度。 (2)基于廣義后綴樹的文本聚類(STC)模型及算法的研究。分析了經(jīng)典STC存在的一些缺點(diǎn),在綜合考慮了主題相似性以及文本包含相似性的基礎(chǔ)上,給出了改進(jìn)的用于基類合并的相似度公式,極大的提高了文本聚類的精

4、度。同時(shí),為了進(jìn)一步提高聚類的效率,給出了基類選擇的一種簡單有效的測度,來排除一些無意義的廣義后綴樹的節(jié)點(diǎn)。 (3)基于信息增益的關(guān)鍵詞提取算法的研究。關(guān)鍵詞的提取可以對聚類結(jié)果進(jìn)行有效的類別標(biāo)識,目前相關(guān)研究工作不多。為此提出了基于信息增益的關(guān)鍵詞提取算法,為文本聚類的廣泛應(yīng)用提供了可視性基礎(chǔ)。實(shí)驗(yàn)表明,所提出的基于信息增益的關(guān)鍵詞提取算法可以有效的對聚類結(jié)果進(jìn)行類別標(biāo)識。 (4)討論了基于文本聚類的相似詞識別的問題,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論