2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩122頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、現(xiàn)在的互聯(lián)網(wǎng)上社交媒體隨處可見,這給信息檢索和傳播分析工作帶來了機遇與挑戰(zhàn)。本文主要圍繞在社交媒體中如何找到重要的信息以及信息是如何傳播的展開。我們將Twitter作為研究對象,因為它是目前最著名的社交媒體之一,并且數(shù)據(jù)是公開的。這樣從隱私的角度考慮,獲取研究數(shù)據(jù)變得容易且能很好的為研究任務(wù)服務(wù)。信息檢索的主要任務(wù)是在文檔集合中,找到與給定話題相關(guān)的客觀文本或主觀文本。Twitter是一個豐富的包含各種話題及其評論信息的資源庫,本文將探

2、討如何在Twitter中找到相關(guān)的信息。但是tweet的短小化和非正式的文本特點,使得Twitter中的檢索不同于以往的檢索任務(wù)。本文通過研究tweet文本特點和特有的Twitter社交媒體屬性幫助Twitter檢索。另外,Twitter中信息的傳播是一種普遍現(xiàn)象且與消息的質(zhì)量相關(guān)。因此,我們從tweet本身和用戶的角度,研究哪些因素影響了tweet的轉(zhuǎn)發(fā)和人的轉(zhuǎn)發(fā)行為。本研究主要內(nèi)容包括:
 ?、爬媒Y(jié)構(gòu)化信息的Twitter檢

3、索:Twitter檢索是在Twitter中找到與給定話題相關(guān)的的任務(wù)。絕大部分的Twitter檢索系統(tǒng)在構(gòu)造檢索模型時一般都認(rèn)為tweet是一個平面文本,但用戶在編輯tweet時的一些習(xí)慣使得tweet文本呈現(xiàn)結(jié)構(gòu)化的特點。這種結(jié)構(gòu)化是通過一些不同的文本積木塊組合而成,積木類型具體包括平面文本、核心詞、鏈接、提及等。每一種積木都有自已獨特的本質(zhì),一系列積木的排序組合又反映了一定的話語轉(zhuǎn)換。以往的研究發(fā)現(xiàn),通過開發(fā)文本的結(jié)構(gòu)信息能夠幫助結(jié)

4、構(gòu)化文本的檢索(例如,網(wǎng)頁檢索)。本工作通過積木結(jié)構(gòu)開發(fā)tweet的結(jié)構(gòu)化信息,以此幫助Twitter檢索。我們利用積木及其排列組合開發(fā)了一系列特征,并將其應(yīng)用到排序?qū)W習(xí)的框架中。我們發(fā)現(xiàn)利用結(jié)構(gòu)化tweet的方法進行檢索能夠達到目前最好的Twitter檢索方法效果,將結(jié)構(gòu)化tweet的方法和其他社交媒體特征一起使用能夠進一步提高Twitter的檢索效果。
 ?、芓witter觀點檢索:觀點檢索是在數(shù)據(jù)中找到對指定話題表達正面或反

5、面觀點的加如的任務(wù)。人們幾乎在Twitter中表達了任何話題的觀點,使其成為一個豐富的觀點資源庫。但是Twitter中也存在大量的垃圾信息和各種不同類型的文本,使得Twitter中的觀點檢索充滿挑戰(zhàn)。我們提出了如何利用tweet的社交媒體信息和文本結(jié)構(gòu)化信息的方法幫助Twitter的觀點檢索。特別的,基于排序?qū)W習(xí),我們發(fā)現(xiàn)tweet的用戶信息(如用戶包含朋友的數(shù)目)、tweet文本本身的結(jié)構(gòu)信息和觀點化程度影響著tweet的排序結(jié)果。實

6、驗結(jié)果表明社交媒體信息能夠幫助Twitter的觀點檢索?;跓o監(jiān)督學(xué)習(xí)評價tweet觀點化程度,并以此開發(fā)特征形成的檢索方法能夠到達手工標(biāo)注tweet的有監(jiān)督方法的檢索效果,且這種方法能夠幫助觀點檢索中話題依賴問題的解決。最后,我們在重新標(biāo)注的TREC Tweets2011數(shù)據(jù)集上進一步驗證了我們Twitter觀點檢索方法的有效性。
 ?、荰witter中傳播觀點的發(fā)現(xiàn):Twitter已經(jīng)變成人們收集觀點做出決策的重要資源,但是數(shù)

7、量眾多且差異巨大的觀點嚴(yán)重影響了人們使用這些資源的效果。本文我們考慮了如何在Twitter中找到傳播觀點的任務(wù)一tweet不僅表達了對某些話題的觀點,且這個tweet在未來會被轉(zhuǎn)發(fā)。利用排序?qū)W習(xí)模型,我們開發(fā)了一系列特征,具體包括tweet的傳播度特征、觀點化特征和文本質(zhì)量特征。實驗結(jié)果證明了我們開發(fā)的特征對于Twitter中傳播觀點的發(fā)現(xiàn)是有效的,并且將所有特征整合的方法在發(fā)現(xiàn)效果上能夠顯著優(yōu)于BM25方法和Twitter觀點檢索方法

8、。最后,我們發(fā)現(xiàn)我們的方法在預(yù)測觀點傳播上可以達到人預(yù)測的水平。
 ?、萒witter中信息傳播者的發(fā)現(xiàn):Twitter和其它社交網(wǎng)絡(luò)中一個重要的交流機制就是消息傳播一人們分享其他人創(chuàng)建的消息。雖然目前有許多工作研究了Twitter中的tweet是如何傳播的(轉(zhuǎn)發(fā)),但是一個未解決的問題是到底誰會轉(zhuǎn)發(fā)給定的tweet。這里我們考慮了在Twitter中給定一條_如,發(fā)現(xiàn)作者的粉絲中誰會轉(zhuǎn)發(fā)。利用排序?qū)W習(xí)模型的框架,我們設(shè)計了一些特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論