推特?cái)?shù)據(jù)信息的查詢擴(kuò)展方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩76頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)的迅猛發(fā)展,在全球各地每時(shí)每刻都在產(chǎn)生大量的推特?cái)?shù)據(jù)信息。如何在這大量數(shù)據(jù)中去篩選滿足用戶需求的信息變得尤為重要,查詢擴(kuò)展方法在推文檢索中廣泛應(yīng)用,可以有效的解決這一問(wèn)題。
  查詢擴(kuò)展主要包含兩個(gè)部分:一是篩選與原始查詢?cè)~相關(guān)的推文作為語(yǔ)料庫(kù);二是篩選語(yǔ)料庫(kù)中與原始查詢最相關(guān)的詞語(yǔ)作為待擴(kuò)展詞。傳統(tǒng)查詢擴(kuò)展方法主要使用BM25算法,VSM算法以及TF-IDF算法等對(duì)原始查詢和推文進(jìn)行相關(guān)性比較,篩選出滿足用戶需求的推文

2、作為語(yǔ)料庫(kù)。這種方法存在兩個(gè)不足:一是含有較少查詢?cè)~的推文被漏選,二是含有較多查詢?cè)~的不相關(guān)推文被錯(cuò)誤的篩選。針對(duì)此問(wèn)題本文在以下幾個(gè)方面進(jìn)行研究和創(chuàng)新:
  (1)提出基于推文聚類的查詢擴(kuò)展方法,并對(duì)其進(jìn)行設(shè)計(jì)和完成。該方法對(duì)篩選推文作為語(yǔ)料庫(kù)這一過(guò)程進(jìn)行改進(jìn),并將傳統(tǒng)的逐條推文與原始查詢?cè)~進(jìn)行相關(guān)性比較的推文篩選方法進(jìn)行優(yōu)化。該方法先對(duì)推文進(jìn)行聚類,根據(jù)與原始查詢?cè)~的相關(guān)性對(duì)聚好類的推文進(jìn)行篩選,得到的推文集合包含了相同語(yǔ)義的

3、所有推文。再比較推文類與原始查詢的相關(guān)性,篩選出最滿足用戶需求的推文類。這一方法很好的解決了含有較少查詢?cè)~的相關(guān)推文被漏選的問(wèn)題。
  該方法對(duì)比BM25算法對(duì)兩種不同的查詢擴(kuò)展方法在平均準(zhǔn)確率(mAP)上分別提升了11.4%和12.0%,比VSM算法分別提升了14.9%和15.3%,比TF-IDF算法分別提升了15.8%和13.7%。
  (2)提出基于主題劃分的查詢擴(kuò)展方法。通過(guò)對(duì)不相關(guān)推文中含有較多查詢?cè)~而被篩選這一主

4、題偏移問(wèn)題進(jìn)行改進(jìn),使得含有查詢?cè)~的不相關(guān)推文被有效的過(guò)濾。該方法將推文進(jìn)行主題劃分,篩選出滿足用戶查詢的主題下的推文集合作為語(yǔ)料庫(kù),有效的去除了含有查詢?cè)~但并不屬于該主題的推文。
  該方法對(duì)比BM25算法對(duì)兩種不同的查詢擴(kuò)展方法在平均準(zhǔn)確率(mAP)上分別提升了13.2%和13.9%,比VSM算法分別提升了16.7%和17.3%,比TF-IDF算法分別提升了17.7%和15.6%。
  (3)經(jīng)過(guò)分別對(duì)主題劃分方法和推文

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論