版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)在國內(nèi)外的飛速發(fā)展,微博作為一款在世界各地被廣泛使用的互聯(lián)網(wǎng)社交產(chǎn)品具有跨時(shí)代的意義。它在為用戶提供開放和集中的互聯(lián)網(wǎng)社交服務(wù)的同時(shí),逐漸發(fā)展為具有較大影響力的新媒體。鑒于微博數(shù)據(jù)的大規(guī)模及實(shí)時(shí)的特點(diǎn),如何在海量及動(dòng)態(tài)更新的微博數(shù)據(jù)中為用戶提供其感興趣的內(nèi)容顯得尤為重要。
本文所討論的基于特征擴(kuò)展和相似度計(jì)算的微博檢索的內(nèi)容包括:1、擴(kuò)展微博短文本的內(nèi)容,豐富微博的語義特征,為檢索結(jié)果與檢索關(guān)鍵字在語義上的相關(guān)性提供
2、保障。2、利用WordNet機(jī)器語義字典的網(wǎng)狀結(jié)構(gòu)得到較準(zhǔn)確的微博語義相似度值。3、以相似度值的高低作為檢索排序的標(biāo)準(zhǔn)來模擬一個(gè)實(shí)時(shí)的微博檢索過程,能夠完成對(duì)關(guān)鍵字的微博檢索,并為每一個(gè)檢索到的微博提供相關(guān)微博的列表。
在豐富微博語義方面,本文提出基于維基百科的語義特征擴(kuò)展方法,該方法將微博中的名詞作為表達(dá)微博主題的關(guān)鍵詞,對(duì)名詞進(jìn)行關(guān)聯(lián)拓展以豐富微博的信息內(nèi)容。具體地,本文將維基百科作為語義特征的擴(kuò)展源,將名詞詞條中的“ca
3、tegory”模塊下所包含的類別作為擴(kuò)展語義特征添加到原微博中來豐富微博語義,并通過實(shí)驗(yàn)證明使用該語義擴(kuò)展方法能夠在一定程度上提高相似度計(jì)算結(jié)果的質(zhì)量。在獲取較高準(zhǔn)確度的微博相似度值方面,本文利用了普林斯頓大學(xué)開發(fā)的英語詞網(wǎng)數(shù)據(jù)庫WordNet的網(wǎng)狀結(jié)構(gòu)得到基于微博語義的相似度。具體地,我們使用[37]中提出的基于路徑長(zhǎng)度的方法,同時(shí)考慮兩個(gè)單詞以及它們的最近公共節(jié)點(diǎn)在WordNet中距離根節(jié)點(diǎn)的路徑長(zhǎng)度(深度)來計(jì)算語義相似度,在實(shí)驗(yàn)
4、中與基于VSM的余弦相似度方法做比較證明該方法能夠在一定程度上提高找到相關(guān)微博的準(zhǔn)確度與召回率。在模擬實(shí)時(shí)微博檢索方面,本文研究了開源及實(shí)時(shí)的數(shù)據(jù)處理平臺(tái)Twitter Storm的架構(gòu)及應(yīng)用,采用本地模式模擬數(shù)據(jù)的實(shí)時(shí)和分布式處理。具體地,本文定義了自己的微博檢索拓?fù)浣Y(jié)構(gòu),并實(shí)現(xiàn)拓?fù)浣Y(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)功能,包括twitter數(shù)據(jù)集的預(yù)處理、節(jié)點(diǎn)間信息傳輸、多節(jié)點(diǎn)的相似度的并行計(jì)算與相似度表的維護(hù)、基于相似度值的檢索結(jié)果排序,以及為每個(gè)檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于本體技術(shù)的語義檢索及其語義相似度研究.pdf
- 基于本體技術(shù)的語義檢索及其語義相似度分析
- 基于概念語義相似度的文本信息檢索研究.pdf
- 基于語義相似度計(jì)算的Deep Web數(shù)據(jù)庫檢索方案研究.pdf
- 基于語義的文本相似度計(jì)算研究.pdf
- 基于Twitter Storm的云平臺(tái)監(jiān)控系統(tǒng)研究與實(shí)現(xiàn).pdf
- 基于語義的科技項(xiàng)目相似度計(jì)算研究.pdf
- 基于語義分析的句子相似度計(jì)算研究.pdf
- 基于語義相似度的地理信息檢索技術(shù)研究.pdf
- 基于關(guān)聯(lián)數(shù)據(jù)語義相似度計(jì)算研究.pdf
- 語義檢索中的概念相似度計(jì)算和關(guān)鍵技術(shù)研究.pdf
- 基于語義角色標(biāo)的句子相似度計(jì)算.pdf
- 基因間語義相似度計(jì)算研究.pdf
- 基于地理本體的OWS語義相似度計(jì)算模型研究.pdf
- 短文本語義相似度計(jì)算的研究.pdf
- 基于語義情感傾向的文本相似度計(jì)算.pdf
- 基于本體的語義相似度研究.pdf
- 基于語義距離的概念語義相似度研究.pdf
- 基于語義詞語相似度計(jì)算模型的研究與實(shí)現(xiàn).pdf
- 中文文本語義相似度計(jì)算研究及應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論