

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、社會(huì)媒體是一組以Web2.0為意識(shí)形態(tài)和技術(shù)基礎(chǔ)構(gòu)建的網(wǎng)絡(luò)應(yīng)用程序,用戶可以在其中分享信息、發(fā)表觀點(diǎn)以及公開(kāi)交流,并且建立起虛擬的社會(huì)關(guān)系。主要的社會(huì)媒體形式有Web論壇、微博、博客以及社交網(wǎng)絡(luò)等,這些平臺(tái)目前已成為非常流行的知識(shí)共享和信息傳遞渠道。社會(huì)媒體以用戶量大、互動(dòng)性強(qiáng)、內(nèi)容覆蓋面廣、實(shí)時(shí)性高以及多媒體、多維度的數(shù)據(jù)為特點(diǎn),其中蘊(yùn)含著豐富且有價(jià)值的知識(shí)和信息。如何有效的對(duì)這些知識(shí)和信息進(jìn)行挖掘利用,有著重要的學(xué)術(shù)意義和廣闊的應(yīng)用
2、前景,已經(jīng)成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的熱點(diǎn)問(wèn)題。然而,在對(duì)社會(huì)媒體進(jìn)行挖掘利用的研究中,也存在著問(wèn)題與挑戰(zhàn),主要包括:(1)文本數(shù)據(jù)稀疏問(wèn)題導(dǎo)致傳統(tǒng)的數(shù)據(jù)挖掘方法在社會(huì)媒體信息上不是十分有效;(2)存在很大比例的低質(zhì)量信息;(3)多媒體、多維度的數(shù)據(jù)難以有效的融合。
針對(duì)上述問(wèn)題和挑戰(zhàn),本文以“國(guó)家自然科學(xué)基金”和“山東省自然科學(xué)基金”為依托,從社會(huì)媒體中信息的質(zhì)量評(píng)價(jià)和基于社會(huì)媒體的事件檢測(cè)兩個(gè)方面展開(kāi)研究,論文的主要工
3、作和創(chuàng)新點(diǎn)包括以下幾個(gè)方面:
(1)提出了一種基于LDA的Web論壇低質(zhì)量回帖檢測(cè)方法
Web論壇中存在著大量低質(zhì)量的回帖,給用戶瀏覽帶來(lái)不便,也嚴(yán)重影響了基于論壇的數(shù)據(jù)挖掘研究的進(jìn)行。因此,低質(zhì)量回帖的濾除是對(duì)這些信息進(jìn)行挖掘利用的必需和重要的預(yù)處理步驟。
本文提出了一種基于二元分類(lèi)的低質(zhì)量回帖檢測(cè)方法。與已有的方法不同,新方法在對(duì)回帖進(jìn)行質(zhì)量分類(lèi)時(shí)同時(shí)考慮了回帖的語(yǔ)義特征和統(tǒng)計(jì)特征。為克服傳
4、統(tǒng)的基于統(tǒng)計(jì)的特征表示方法在稀疏數(shù)據(jù)上的局限性,本文提出在LDA主題空間計(jì)算語(yǔ)義特征。首先使用全部起始帖集合擬合LDA模型,然后用擬合好的LDA模型將回帖內(nèi)容映射到主題空間,進(jìn)而計(jì)算三種語(yǔ)義特征,分別為J/I主題比例、主題相關(guān)度和主題不確定度。統(tǒng)計(jì)特征包括內(nèi)容淺層特征、句法特征和論壇專(zhuān)有特征。使用語(yǔ)義特征和統(tǒng)計(jì)特征作為表征回帖質(zhì)量的特征向量。實(shí)驗(yàn)在從三個(gè)不同類(lèi)型的論壇收集的數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果表明,新方法在精確率、召回率和F1測(cè)度上均
5、優(yōu)于已有的低質(zhì)量回帖檢測(cè)方法。
(2)提出了一種基于機(jī)器學(xué)習(xí)的論壇回帖排序算法。
論壇中的發(fā)帖和瀏覽行為與信息檢索的過(guò)程十分類(lèi)似。因此,如果能夠像信息檢索中的檢索結(jié)果排序一樣將回帖按質(zhì)量排序,將有助于用戶快速的定位高質(zhì)量信息,也有利于其它基于論壇的應(yīng)用。
本文借鑒信息檢索領(lǐng)域針對(duì)檢索結(jié)果的排序?qū)W習(xí)研究,將一個(gè)討論主題中的起始帖視為查詢而將回帖視為與查詢相聯(lián)系的檢索結(jié)果,提出了一種基于機(jī)器學(xué)習(xí)的回
6、帖排序算法LGPRank。LGPRank基于遺傳規(guī)劃框架自動(dòng)的在訓(xùn)練集上學(xué)習(xí)到一個(gè)相對(duì)最優(yōu)的排序函數(shù)。在對(duì)回帖進(jìn)行質(zhì)量特征表示時(shí)同樣考慮了語(yǔ)義特征和統(tǒng)計(jì)特征。語(yǔ)義特征在LDA主題空間進(jìn)行計(jì)算,使用Wiki百科作為外部知識(shí)庫(kù)擬合LDA模型,以進(jìn)一步減輕數(shù)據(jù)稀疏問(wèn)題帶來(lái)的影響。實(shí)驗(yàn)在兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)證明LGPRank在P@N、NDCG@N和MAP評(píng)價(jià)測(cè)度上均優(yōu)于已有的回帖排序算法。此外,在使用相同特征集合的條件下,基于遺傳規(guī)劃的排
7、序?qū)W習(xí)得到的結(jié)果優(yōu)于使用其它排序?qū)W習(xí)方法(如Ranking SVM、RankBoost等)得到的結(jié)果。結(jié)果表明使用排序?qū)W習(xí)的思想對(duì)回帖進(jìn)行按質(zhì)量排序是可行的。
(3)提出了一種使用社會(huì)媒體數(shù)據(jù)進(jìn)行熱點(diǎn)事件檢測(cè)的方法。
現(xiàn)實(shí)世界中發(fā)生的事件通常在社會(huì)媒體中有著廣泛而及時(shí)的體現(xiàn)。隨著數(shù)字圖像技術(shù)的飛速發(fā)展,人們可以方便的使用各種數(shù)碼照相設(shè)備拍攝下他們生活中每一個(gè)瞬間并上傳到Web圖像社區(qū)中(如Flickr)。這些
8、照片中很大一部分是在特定事件發(fā)生的現(xiàn)場(chǎng)拍攝的,并且?guī)в杏脩艚o出的文本標(biāo)注信息和GPS位置信息。這使得Web圖像社區(qū)成為事件檢測(cè)研究的良好數(shù)據(jù)源。但是Web圖像社區(qū)數(shù)據(jù)也存在文本數(shù)據(jù)稀疏、噪聲信息多等問(wèn)題。
本文提出了一種使用Flickr數(shù)據(jù)進(jìn)行熱點(diǎn)事件檢測(cè)的方法。該方法首先將用戶標(biāo)注中的文本詞匯與從Flickr圖像中提取的視覺(jué)詞匯合并成文檔,并訓(xùn)練LDA模型獲得文檔的主題分布作為其最終的向量表示,目的是進(jìn)行多媒體特征融合和
9、削弱數(shù)據(jù)稀疏問(wèn)題的影響。在此基礎(chǔ)上對(duì)傳統(tǒng)的基于單遍聚類(lèi)的事件檢測(cè)算法進(jìn)行改進(jìn),在事件檢測(cè)過(guò)程中首先考慮了地理位置信息,然后再根據(jù)內(nèi)容相似度建立文檔與事件的聯(lián)系。使用衰退理論(Aging Theory)對(duì)檢測(cè)到的事件進(jìn)行生命周期建模,并根據(jù)能量值對(duì)事件進(jìn)行排序,獲得給定時(shí)間段內(nèi)的熱點(diǎn)事件。在真實(shí)Flickr數(shù)據(jù)集上的實(shí)驗(yàn)證明新方法在精確率、召回率和F1測(cè)度上優(yōu)于傳統(tǒng)事件檢測(cè)方法。在P@10測(cè)度下的評(píng)測(cè)結(jié)果證明了熱點(diǎn)事件檢測(cè)結(jié)果的合理性。實(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 社會(huì)化媒體環(huán)境下信息質(zhì)量評(píng)價(jià)的研究.pdf
- 高中信息技術(shù)課堂延時(shí)性評(píng)價(jià)的應(yīng)用研究.pdf
- 企業(yè)會(huì)計(jì)信息質(zhì)量評(píng)價(jià)方法及應(yīng)用研究.pdf
- 初中信息技術(shù)課表現(xiàn)性評(píng)價(jià)應(yīng)用研究.pdf
- 基于服務(wù)質(zhì)量的Web服務(wù)模型及應(yīng)用研究.pdf
- 基于有狀態(tài)Web Services的流媒體應(yīng)用研究.pdf
- 基于Web信息服務(wù)系統(tǒng)的應(yīng)用研究.pdf
- 多元化評(píng)價(jià)在初中信息技術(shù)課上的應(yīng)用研究.pdf
- 工程造價(jià)管理中信息的應(yīng)用研究.pdf
- 基于語(yǔ)義Web的信息檢索應(yīng)用研究.pdf
- EPC網(wǎng)絡(luò)中信息服務(wù)的設(shè)計(jì)與應(yīng)用研究.pdf
- 情報(bào)處理中信息柵格技術(shù)應(yīng)用研究.pdf
- 區(qū)域生態(tài)質(zhì)量評(píng)價(jià)方法及應(yīng)用研究.pdf
- 發(fā)展性評(píng)價(jià)在初中信息技術(shù)教學(xué)中的應(yīng)用研究.pdf
- 高中信息技術(shù)課程表現(xiàn)性評(píng)價(jià)的應(yīng)用研究.pdf
- 建筑施工管理中信息技術(shù)的應(yīng)用研究
- 基于Web Services的電力信息輔助應(yīng)用研究.pdf
- 電子政務(wù)中信息安全技術(shù)的應(yīng)用研究.pdf
- Web文檔中信息的獲取與表示研究.pdf
- 基于WEB的信息管理系統(tǒng)的應(yīng)用研究.pdf
評(píng)論
0/150
提交評(píng)論