基于多種特征的信息檢索和網(wǎng)絡(luò)挖掘.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁(yè)數(shù)：147 大?。?.59MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩146頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索和文本挖掘是近十幾年快速發(fā)展的研究領(lǐng)域。傳統(tǒng)上，給定一個(gè)用戶的信息需求(Information Need)以及一個(gè)待檢索的文檔集和，信息檢索研究如何找到一些合適的文檔來滿足用戶的信息需求。和信息檢索有所不同，文本挖掘(Text Mining)旨在幫助人們從文本的分析中獲取一些基本的信息，如本文屬于哪一類型的文章，中心思想是什么，講述了哪些不同的議題等等。其技術(shù)泛指信息抽取，文本分類，文本聚類，文本摘要等從大量文本中獲取有用信息的

2、技術(shù)。萬維網(wǎng)正以人們難以想象的速度迅猛發(fā)展。關(guān)于Web發(fā)展的最新評(píng)估報(bào)告指出，每周有大約8％，也就是3.2億張新網(wǎng)頁(yè)誕生。超鏈接的變化更為迅速，每周都有25％新鏈接產(chǎn)生，一年后80％的舊鏈接都被新的所取代。動(dòng)態(tài)性如此之強(qiáng)，規(guī)模擴(kuò)大如此之快的萬維網(wǎng)導(dǎo)致網(wǎng)絡(luò)信息過載(Information Overload)問題日益突出。人們開始考慮使用信息檢索和文本挖掘的技術(shù)來克服這些困難。然而，傳統(tǒng)的模型和方法在應(yīng)用到萬維網(wǎng)的同時(shí)，需要根據(jù)

3、新的數(shù)據(jù)形式加以演變。本文討論了如何利用數(shù)據(jù)的多種類型的特征，提高網(wǎng)頁(yè)檢索、科技文獻(xiàn)檢索和文本聚類的性能。該文主要的創(chuàng)新和貢獻(xiàn)在于： 1．首先對(duì)數(shù)據(jù)的多種特征進(jìn)行定義和分類。文中所定義的數(shù)據(jù)多種特征是指可從不同的角度刻畫對(duì)象在特定環(huán)境下的行為的不同類型的信息源。例如在傳統(tǒng)的文本檢索中，除了單詞或者詞組的分析以外，片段(passage)的結(jié)構(gòu)特征通常用于考慮關(guān)鍵詞間的關(guān)聯(lián)性；在科技文獻(xiàn)的檢索中，引用關(guān)系(citatio

4、n)很好的被用于發(fā)現(xiàn)相關(guān)和權(quán)威論文。結(jié)構(gòu)和引用都是詞語本身的詞義所無法提供的信息。到了萬維網(wǎng)的時(shí)代，網(wǎng)頁(yè)有了更多豐富的信息，成為了一種典型的多種特征數(shù)據(jù)：網(wǎng)頁(yè)的統(tǒng)一資源定位器(URL)，錨文本(anchor text)，超文本標(biāo)記語言(HTML)標(biāo)簽和主題塊結(jié)構(gòu)(topic block)等都可用于信息的檢索和挖掘。如何有效的利用這些特征需要進(jìn)一步研究。 2．多種特征對(duì)信息檢索的改進(jìn)，包括利用文本片段結(jié)構(gòu)特征，網(wǎng)頁(yè)主題塊特征和科

5、技文獻(xiàn)的引用特征改善信息檢索。我們首先介紹傳統(tǒng)檢索中文本片段的特征在對(duì)等環(huán)境中的應(yīng)用。然后將普通文本中的片段擴(kuò)展到網(wǎng)頁(yè)中的塊結(jié)構(gòu)，進(jìn)而探討塊結(jié)構(gòu)對(duì)基于概率語言模型檢索的影響，并提出一種基于塊狀結(jié)構(gòu)的語言模型(Block-based Language Modeling(BLM))。在BLM的后續(xù)工作中，我們提出自動(dòng)化的方法測(cè)量塊結(jié)構(gòu)的重要程度，并考慮用戶的信息需求，利用偽相關(guān)度反饋的方式進(jìn)一步修改塊的重要性。在該部分的最后，我們討論了科技

6、文獻(xiàn)中引文分析的改進(jìn)。一些相關(guān)工作將內(nèi)容和引文分析結(jié)合起來提高相似度的計(jì)算，可是這兩種特征并未互相增強(qiáng)以獲得更好的效果。為了解決這個(gè)問題，我們提出一種新的算法，主題敏感的相似度傳播(Topic Sensitive Similarity Propagation (TSSP))，更有效的將內(nèi)容相似度集成到相似度傳播的過程中。此外，我們還將TSSP的基本思想擴(kuò)展，將文獻(xiàn)中不同部分的內(nèi)容利用權(quán)重加以區(qū)分，統(tǒng)一稱為多特征的相似文獻(xiàn)檢索增強(qiáng)算法。

7、 3．多種特征對(duì)文本挖掘的改進(jìn)，包括如何提高文本聚類和基于文本的圖片聚類。聚類在某些場(chǎng)景下是一種切實(shí)可行的組織方式，包括瀏覽規(guī)模龐大的文檔集合，或者是搜索引擎返回的結(jié)果。對(duì)于這項(xiàng)技術(shù)而言，根據(jù)不同的網(wǎng)頁(yè)特征進(jìn)行挖掘可獲得不同的聚類結(jié)果，我們期望為用戶提供一個(gè)統(tǒng)一的，甚至是效果更好的結(jié)果。我們提出兩種新的算法：第一種是基于多種特征的增強(qiáng)式聚類(MFRC)。該算法沒有使用所有特征空間的相似度結(jié)合，而是通過一種特征空間中的聚類中間結(jié)果

8、來增強(qiáng)其它空間內(nèi)的分析。第二種是我們稱其為聚類中的多種特征共同選擇(MFCC)。該項(xiàng)研究是MFRC的后繼工作，它同樣使用了一種特征空間中的中間聚類結(jié)果幫助其它空間中的聚類。在該部分的最后，我們闡述了利用網(wǎng)頁(yè)塊結(jié)構(gòu)分析圖片信息的方法?？紤]到數(shù)據(jù)記錄類型的網(wǎng)頁(yè)中有很多潛在信息可以挖掘，我們?yōu)槊織l記錄對(duì)應(yīng)的圖片抽取具有良好的代表性和區(qū)分性的關(guān)鍵詞。然后我們使用這些詞語構(gòu)造層次表示樹(Hierarchical Representation Tr

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于多種特征的信息檢索和網(wǎng)絡(luò)挖掘.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于多種特征的信息檢索和網(wǎng)絡(luò)挖掘.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載