版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,當(dāng)今的萬維網(wǎng)出現(xiàn)了多代共存、共同發(fā)展的新局面。傳統(tǒng)萬維網(wǎng)(Web1.0)構(gòu)成了當(dāng)今萬維網(wǎng)的主體。社會化萬維網(wǎng)(Web2.0)近年來飛速發(fā)展,成為了當(dāng)今萬維網(wǎng)的新興力量。同時,為了能夠讓機(jī)器和人一樣地理解并處理各種網(wǎng)絡(luò)數(shù)據(jù),人們正積極推進(jìn)語義萬維網(wǎng)技術(shù)的發(fā)展,并預(yù)期其將成為下一代網(wǎng)絡(luò)的主流載體(Web3.0)。所有這些網(wǎng)絡(luò)的應(yīng)用均層出不窮,各類實體描述信息散布其間。這給用戶帶來便利的同時也帶來了一個關(guān)鍵的問題,即信
2、息過載。如何從這一巨大而復(fù)雜的信息空間中,有效地找到用戶所需要的各類實體信息也成為近年來的一個研究熱點。根據(jù)這一需求,本文分析了各代網(wǎng)絡(luò)的特點,提出了在Web1.0、2.0和3.0中進(jìn)行實體信息檢索與挖掘的概念,針對每代網(wǎng)絡(luò)進(jìn)行了體系化的理論研究工作,并提出了一系列的挖掘算法。 在傳統(tǒng)網(wǎng)絡(luò)(Web1.0)中,大部分研究工作都以提供用戶最為相關(guān)的網(wǎng)頁為目標(biāo),而現(xiàn)實中,越來越多的用戶開始關(guān)心網(wǎng)頁內(nèi)部所蘊含的信息,而非網(wǎng)頁本身。針對這
3、一需求,本文第一部分提出了以下算法對網(wǎng)頁中的實體信息進(jìn)行挖掘:1)專家搜索:本文提出了基于概率的細(xì)粒度專家搜索模型。2)專家.技術(shù)隱式關(guān)聯(lián)挖掘:本文提出了多類型的可分混合模型用于高效地挖掘?qū)<液图夹g(shù)之間的隱式關(guān)聯(lián)。3)競爭者挖掘:本文提出了一個創(chuàng)新的算法(CoMiner)用于從網(wǎng)上自動地挖掘領(lǐng)域無關(guān)的競爭對手信息。4)時間關(guān)聯(lián)的事件挖掘:本文提出了一個新的算法(TESer)用于挖掘網(wǎng)絡(luò)中的事件信息并按照時間進(jìn)行整合。 Web2.
4、0的快速發(fā)展帶來了大量對網(wǎng)頁、圖片、論文、專家等實體進(jìn)行的大眾標(biāo)注,比如De1.icio.us書簽網(wǎng)、Flickr圖片共享網(wǎng)等。本文第二部分分析Web2.0的特性,挖掘其中的各種實體關(guān)系,并用挖掘到的信息改善各種現(xiàn)有的應(yīng)用:1)社會化搜索:本文提出了兩個新算法分別用于改進(jìn)網(wǎng)頁搜索的動態(tài)排序和靜態(tài)排序。2)社會化語言模型:本文提出了一個語言標(biāo)注模型用來進(jìn)一步改進(jìn)語言模型的檢索效果。3)社會化瀏覽:本文提出了一個改進(jìn)的網(wǎng)頁瀏覽算法,該算法能
5、夠充分地利用網(wǎng)頁標(biāo)注之間的語義關(guān)聯(lián)和隱含的層次信息。 為了讓機(jī)器也能理解網(wǎng)絡(luò)信息,人們提出了語義萬維網(wǎng)。目前語義萬維網(wǎng)正處于早期發(fā)展階段。作為現(xiàn)有萬維網(wǎng)的下一個自然擴(kuò)展,本文將其稱為Web3.0。本文第三部分對Web3.0的構(gòu)建及其應(yīng)用進(jìn)行了探討性的研究:1)語義浮出:通常語義萬維網(wǎng)通過專家定義本體信息來構(gòu)建,本文提出了基于社會化標(biāo)注自動浮出層次化語義的算法。2)語義應(yīng)用:本文進(jìn)一步將語義信息應(yīng)用到Web服務(wù)組合中,并提出了一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Web的實體信息提取和搜索研究.pdf
- 基于Web的物聯(lián)網(wǎng)實體信息描述與搜索技術(shù)研究.pdf
- 基于文本挖掘的實體搜索的研究.pdf
- Web挖掘與搜索智能研究.pdf
- 面向智能搜索的Web信息挖掘技術(shù)研究.pdf
- 基于數(shù)據(jù)挖掘的Web權(quán)威頁面搜索.pdf
- 語義Web上實體搜索的方法與技術(shù).pdf
- 基于Web文本挖掘的主題搜索系統(tǒng)的研究與實現(xiàn).pdf
- 基于Web挖掘的搜索關(guān)鍵詞建議研究.pdf
- 主題搜索與Web挖掘的研究及系統(tǒng)實現(xiàn).pdf
- 分布式Web挖掘與搜索的研究與實現(xiàn).pdf
- 基于Web信息的數(shù)據(jù)挖掘.pdf
- 基于web挖掘的聚類搜索引擎研究
- 基于Web的碳素行業(yè)信息數(shù)據(jù)挖掘搜索引擎技術(shù)研究.pdf
- 基于智能Agent的Web信息挖掘研究.pdf
- 基于文本挖掘的Web信息檢索研究.pdf
- 基于移動agent的web信息搜索的研究.pdf
- 基于WEB挖掘的聚類搜索引擎研究.pdf
- 基于Lucene的Web站內(nèi)信息搜索系統(tǒng).pdf
- 基于組合條件的Web信息搜索方法.pdf
評論
0/150
提交評論