2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩146頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索和文本挖掘是近十幾年快速發(fā)展的研究領(lǐng)域。傳統(tǒng)上,給定一個(gè)用戶的信息需求(Information Need)以及一個(gè)待檢索的文檔集和,信息檢索研究如何找到一些合適的文檔來(lái)滿足用戶的信息需求。和信息檢索有所不同,文本挖掘(Text Mining)旨在幫助人們從文本的分析中獲取一些基本的信息,如本文屬于哪一類型的文章,中心思想是什么,講述了哪些不同的議題等等。其技術(shù)泛指信息抽取,文本分類,文本聚類,文本摘要等從大量文本中獲取有用信息的

2、技術(shù)。 萬(wàn)維網(wǎng)正以人們難以想象的速度迅猛發(fā)展。關(guān)于Web發(fā)展的最新評(píng)估報(bào)告指出,每周有大約8%,也就是3.2億張新網(wǎng)頁(yè)誕生。超鏈接的變化更為迅速,每周都有25%新鏈接產(chǎn)生,一年后80%的舊鏈接都被新的所取代。動(dòng)態(tài)性如此之強(qiáng),規(guī)模擴(kuò)大如此之快的萬(wàn)維網(wǎng)導(dǎo)致網(wǎng)絡(luò)信息過(guò)載(Information Overload)問(wèn)題日益突出。人們開(kāi)始考慮使用信息檢索和文本挖掘的技術(shù)來(lái)克服這些困難。然而,傳統(tǒng)的模型和方法在應(yīng)用到萬(wàn)維網(wǎng)的同時(shí),需要根據(jù)

3、新的數(shù)據(jù)形式加以演變。 本文討論了如何利用數(shù)據(jù)的多種類型的特征,提高網(wǎng)頁(yè)檢索、科技文獻(xiàn)檢索和文本聚類的性能。該文主要的創(chuàng)新和貢獻(xiàn)在于: 1.首先對(duì)數(shù)據(jù)的多種特征進(jìn)行定義和分類。文中所定義的數(shù)據(jù)多種特征是指可從不同的角度刻畫對(duì)象在特定環(huán)境下的行為的不同類型的信息源。例如在傳統(tǒng)的文本檢索中,除了單詞或者詞組的分析以外,片段(passage)的結(jié)構(gòu)特征通常用于考慮關(guān)鍵詞間的關(guān)聯(lián)性;在科技文獻(xiàn)的檢索中,引用關(guān)系(citatio

4、n)很好的被用于發(fā)現(xiàn)相關(guān)和權(quán)威論文。結(jié)構(gòu)和引用都是詞語(yǔ)本身的詞義所無(wú)法提供的信息。到了萬(wàn)維網(wǎng)的時(shí)代,網(wǎng)頁(yè)有了更多豐富的信息,成為了一種典型的多種特征數(shù)據(jù):網(wǎng)頁(yè)的統(tǒng)一資源定位器(URL),錨文本(anchor text),超文本標(biāo)記語(yǔ)言(HTML)標(biāo)簽和主題塊結(jié)構(gòu)(topic block)等都可用于信息的檢索和挖掘。如何有效的利用這些特征需要進(jìn)一步研究。 2.多種特征對(duì)信息檢索的改進(jìn),包括利用文本片段結(jié)構(gòu)特征,網(wǎng)頁(yè)主題塊特征和科

5、技文獻(xiàn)的引用特征改善信息檢索。我們首先介紹傳統(tǒng)檢索中文本片段的特征在對(duì)等環(huán)境中的應(yīng)用。然后將普通文本中的片段擴(kuò)展到網(wǎng)頁(yè)中的塊結(jié)構(gòu),進(jìn)而探討塊結(jié)構(gòu)對(duì)基于概率語(yǔ)言模型檢索的影響,并提出一種基于塊狀結(jié)構(gòu)的語(yǔ)言模型(Block-based Language Modeling(BLM))。在BLM的后續(xù)工作中,我們提出自動(dòng)化的方法測(cè)量塊結(jié)構(gòu)的重要程度,并考慮用戶的信息需求,利用偽相關(guān)度反饋的方式進(jìn)一步修改塊的重要性。在該部分的最后,我們討論了科技

6、文獻(xiàn)中引文分析的改進(jìn)。一些相關(guān)工作將內(nèi)容和引文分析結(jié)合起來(lái)提高相似度的計(jì)算,可是這兩種特征并未互相增強(qiáng)以獲得更好的效果。為了解決這個(gè)問(wèn)題,我們提出一種新的算法,主題敏感的相似度傳播(Topic Sensitive Similarity Propagation (TSSP)),更有效的將內(nèi)容相似度集成到相似度傳播的過(guò)程中。此外,我們還將TSSP的基本思想擴(kuò)展,將文獻(xiàn)中不同部分的內(nèi)容利用權(quán)重加以區(qū)分,統(tǒng)一稱為多特征的相似文獻(xiàn)檢索增強(qiáng)算法。

7、 3.多種特征對(duì)文本挖掘的改進(jìn),包括如何提高文本聚類和基于文本的圖片聚類。聚類在某些場(chǎng)景下是一種切實(shí)可行的組織方式,包括瀏覽規(guī)模龐大的文檔集合,或者是搜索引擎返回的結(jié)果。對(duì)于這項(xiàng)技術(shù)而言,根據(jù)不同的網(wǎng)頁(yè)特征進(jìn)行挖掘可獲得不同的聚類結(jié)果,我們期望為用戶提供一個(gè)統(tǒng)一的,甚至是效果更好的結(jié)果。我們提出兩種新的算法:第一種是基于多種特征的增強(qiáng)式聚類(MFRC)。該算法沒(méi)有使用所有特征空間的相似度結(jié)合,而是通過(guò)一種特征空間中的聚類中間結(jié)果

8、來(lái)增強(qiáng)其它空間內(nèi)的分析。第二種是我們稱其為聚類中的多種特征共同選擇(MFCC)。該項(xiàng)研究是MFRC的后繼工作,它同樣使用了一種特征空間中的中間聚類結(jié)果幫助其它空間中的聚類。在該部分的最后,我們闡述了利用網(wǎng)頁(yè)塊結(jié)構(gòu)分析圖片信息的方法。考慮到數(shù)據(jù)記錄類型的網(wǎng)頁(yè)中有很多潛在信息可以挖掘,我們?yōu)槊織l記錄對(duì)應(yīng)的圖片抽取具有良好的代表性和區(qū)分性的關(guān)鍵詞。然后我們使用這些詞語(yǔ)構(gòu)造層次表示樹(shù)(Hierarchical Representation Tr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論