版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 基于微博的社會(huì)輿情研判與預(yù)警體系構(gòu)建</p><p> 摘 要:本研究以新浪微博為主要輿情采集平臺(tái),對(duì)微博系統(tǒng)內(nèi)海量信息進(jìn)行日常性和持續(xù)性的抓取、跟蹤與搜集。本論文針對(duì)微博信息傳播特點(diǎn),充分利用網(wǎng)絡(luò)信息挖掘技術(shù)、計(jì)算機(jī)中文信息處理技術(shù)、數(shù)據(jù)挖掘技術(shù)等應(yīng)用技術(shù),研究微博輿情監(jiān)測(cè)關(guān)鍵技術(shù)及實(shí)施方案,力求構(gòu)建適應(yīng)微博特點(diǎn)的網(wǎng)絡(luò)輿情預(yù)警機(jī)制。 </p><p> 關(guān)鍵詞:
2、微博;輿情;研判;預(yù)警 </p><p><b> 1 引言 </b></p><p> 近年來(lái)我國(guó)各類(lèi)突發(fā)事件頻發(fā),社會(huì)穩(wěn)定性顯著降低,這不僅直接導(dǎo)致社會(huì)經(jīng)濟(jì)生活及人身財(cái)產(chǎn)安全的重大損失,也極大地危害到社會(huì)的穩(wěn)定與發(fā)展。中國(guó)社科院在其出版的《社會(huì)藍(lán)皮書(shū)》一書(shū)中,將微博定義為"殺傷力最強(qiáng)的輿論載體",體現(xiàn)了微博輿論的強(qiáng)大影響力。 </p&
3、gt;<p> 本研究來(lái)源于北京市大學(xué)生科研創(chuàng)新項(xiàng)目《基于微博的社會(huì)輿情研判與預(yù)警》的子項(xiàng)目,試圖以新浪微博為對(duì)象,研究微博輿情監(jiān)測(cè)關(guān)鍵技術(shù)及實(shí)施方案,具體內(nèi)容包括:博文自動(dòng)抽取、中文分詞、文檔清洗(去停用詞)、中文計(jì)算機(jī)表達(dá)、文檔情感傾向判別、意見(jiàn)領(lǐng)袖識(shí)別、綜合輿情判斷等內(nèi)容。 </p><p><b> 2 研究過(guò)程 </b></p><p>
4、 2.1 微博數(shù)據(jù)的自動(dòng)獲取 </p><p> 網(wǎng)絡(luò)輿情數(shù)據(jù)獲取是網(wǎng)絡(luò)輿情分析的前提。面對(duì)互聯(lián)網(wǎng)的海量信息,迫切需要一種技術(shù)來(lái)幫助人們自動(dòng)從網(wǎng)絡(luò)上獲取相關(guān)信息,從而可以極大地提高人們獲取信息的速度和廣度。網(wǎng)絡(luò)爬蟲(chóng)(WEB Crawler)是搜索引擎的重要組成部分之一,其作用是為搜索引擎從網(wǎng)絡(luò)中下載所需的網(wǎng)頁(yè)。相比網(wǎng)絡(luò)爬蟲(chóng),新浪微博的開(kāi)放API接口可以更加簡(jiǎn)潔的獲取相應(yīng)的數(shù)據(jù),本研究即采用新浪微博的API接口作
5、為數(shù)據(jù)挖掘工具。 </p><p> ?、?OAUTH認(rèn)證:使用新浪API前首先須完成用戶認(rèn)證。新浪微博API采用OAUTH認(rèn)證為用戶提供了一個(gè)安全的、開(kāi)放而又簡(jiǎn)易的標(biāo)準(zhǔn)。 </p><p> ② 新浪微博API接口定義:新浪微博API調(diào)用接口形如:http: //api.t.sina.com.cn/statuses/followers.json? source=appkey&u
6、ser_id=11051&count=200&cursor=1200。該命令分別指定了新浪API服務(wù)器地址、接口信息具體內(nèi)容及方法;OAUTH認(rèn)證信息、用戶數(shù)字ID、返回記錄的首位置及記錄條數(shù)。 </p><p> ?、?微博數(shù)據(jù)抽取器的主要功能包括:用戶登錄驗(yàn)證,獲取follower微博列表,獲取回復(fù)列表,獲取私信列表,獲取收藏列表等。 </p><p> 2.2 文本
7、分詞處理及矢量化表示 </p><p> ?、?中文分詞及詞性標(biāo)注:由于英文文本每個(gè)單詞間用空格分開(kāi),計(jì)算機(jī)很容易識(shí)別。但對(duì)于中文文本,詞語(yǔ)之間無(wú)區(qū)分字符,需根據(jù)語(yǔ)義語(yǔ)法來(lái)分?jǐn)?。中科院的中文分詞系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞準(zhǔn)確率較高,本研究選取ICTCLAS進(jìn)行分詞。 </p&g
8、t;<p> ?、?中文文本表示模型:常見(jiàn)的文本表示模型主要有布爾模型、向量空間模型、概率語(yǔ)言模型等。布爾模型采用布爾向量來(lái)表示文本,但不能定量反映特征項(xiàng)對(duì)于文本的貢獻(xiàn)程度;概率模型用概率值來(lái)表示詞在各類(lèi)文本中出現(xiàn)的概率,但無(wú)法處理語(yǔ)言中的長(zhǎng)距離依賴;向量空間模型采取TF-IDF值表示特征項(xiàng)的權(quán)值。詞頻TF(Term Frequency)指某一特征詞在當(dāng)前文本出現(xiàn)的相對(duì)次數(shù);逆文檔頻率IDF(Inverse Documen
9、t Frequency)用于評(píng)估特征詞的重要性。由于該模型簡(jiǎn)易高效,本研究即采用此法表示中文文本。 </p><p> 2.3 文本清洗(去停用詞) </p><p> 停用詞是指文本中出現(xiàn)頻率很高,但實(shí)際意義又不大的詞。停用詞大致有兩類(lèi),第一類(lèi)包括語(yǔ)氣助詞、介詞等,如常見(jiàn)的“的”、“地”之類(lèi);另一種是在所有文檔中大量出現(xiàn)的詞,如“頂”之類(lèi)。本研究中使用停用詞表實(shí)現(xiàn)對(duì)停用詞的過(guò)濾功能。
10、 </p><p> 2.4 文本情感傾向判斷 </p><p> 輿情立場(chǎng)判別可通過(guò)判斷博文的感情傾向得到,最常見(jiàn)的是根據(jù)其包含的褒貶詞匯來(lái)進(jìn)行計(jì)算。為獲得文本的情感極性,需首先提取情感詞,本研究基于情感詞詞典的方法來(lái)提取情感詞。 </p><p> ?、?極性詞典的構(gòu)建:詞語(yǔ)除可表達(dá)特有的概念外,還能傳達(dá)一定的感情色彩。感情色彩大體分為褒義和貶義兩種,褒義如
11、“好,聰明、優(yōu)秀”等,貶義如“壞、鄙夷、惡魔”等。具有褒貶義的詞語(yǔ)集合稱為極性詞典,本研究的極性詞典主要取自《知網(wǎng)》 (HowNet),包括程度級(jí)別詞語(yǔ)、正負(fù)面評(píng)價(jià)詞語(yǔ)、正負(fù)面情感詞語(yǔ)等。 </p><p> ② 傾向性分析算法與實(shí)現(xiàn)過(guò)程:詞語(yǔ)中還有些極性修飾詞,處理時(shí),可給這些修飾詞設(shè)置不同的強(qiáng)度系數(shù)。如定義極性褒義、貶義的原始強(qiáng)度分別為:+1,-1,再定義極性修飾詞“極其/最”的強(qiáng)度系數(shù)為2,則總的情感極性
12、=詞語(yǔ)極性*強(qiáng)度系數(shù)。另有些特殊情況需考慮:句式反轉(zhuǎn)規(guī)則,適用于漢語(yǔ)中表示否定和反問(wèn)句式,如:“不、不是、非、并非、難道、豈不”引導(dǎo)的句子,另遇到雙引號(hào)或單引號(hào)括起的情感詞,均應(yīng)對(duì)原話中的褒貶義進(jìn)行反轉(zhuǎn)。感情強(qiáng)化規(guī)則:漢語(yǔ)的感嘆號(hào)等可表示情感的增強(qiáng),故可用感嘆號(hào)的數(shù)量來(lái)表示感情色彩的強(qiáng)度。 </p><p> 2.5 意見(jiàn)領(lǐng)袖識(shí)別 </p><p> 社會(huì)突發(fā)事件發(fā)生后,微博中會(huì)往往會(huì)
13、產(chǎn)生群體情緒,其間意見(jiàn)領(lǐng)袖對(duì)群體情緒的演化及輿情研判影響極大。據(jù)拉扎菲爾德的定義,意見(jiàn)領(lǐng)袖指在某一主題內(nèi)特別活躍且有極大影響力的用戶,所以本研究從如下兩個(gè)方面分析微博意見(jiàn)領(lǐng)袖:用戶影響力和用戶活躍度。 </p><p> ① 用戶影響力:微博中有三種交互行為可以作為影響力考慮因素。轉(zhuǎn)發(fā)行為,信息被轉(zhuǎn)發(fā)的次數(shù)越多,產(chǎn)生的影響越大;評(píng)論行為,信息得到的評(píng)論越多,意味著信息影響的范圍越廣; “@“行為,一個(gè)用戶被提及
14、的次數(shù)越多,意味著這個(gè)用戶對(duì)其他用戶的吸引力越大。 </p><p> ② 用戶活躍度:意見(jiàn)領(lǐng)袖要對(duì)其他人施加影響,僅僅發(fā)布信息而不參與互動(dòng)交流是無(wú)法影響到人們的觀點(diǎn)和意見(jiàn)。包括:原創(chuàng)微博數(shù)量,代表用戶表達(dá)自己思想的愿望;自回帖行為,反映用戶之間的交流活躍度;回復(fù)他人帖子數(shù),反映對(duì)其他用戶的言論關(guān)注度;活躍天數(shù),反映用戶對(duì)事件的關(guān)注持久度。 </p><p> 2.6 輿情指標(biāo)體系 &
15、lt;/p><p> 由網(wǎng)絡(luò)的海量個(gè)體信息中發(fā)掘群體行為規(guī)律,對(duì)確定突發(fā)事件的發(fā)展?fàn)顟B(tài)以及對(duì)衍生事件的預(yù)警具有重要價(jià)值,可以實(shí)現(xiàn)對(duì)社會(huì)事件高效的輔助決策。本研究將指標(biāo)評(píng)價(jià)體系劃分為:輿情主體、輿情信息、輿情傳播和輿情受眾4個(gè)指標(biāo),細(xì)述如下: </p><p> 輿情主體指標(biāo):是指微博所有者的相關(guān)個(gè)人身份信息指標(biāo)。 </p><p> 輿情信息指標(biāo):輿情信息指標(biāo)反映
16、了該輿情的敏感程度、危害程度以及受到關(guān)注的程度。 </p><p> 輿情傳播指標(biāo):輿情傳播指標(biāo)反映了該輿情在傳播過(guò)程中的擴(kuò)散效果。 </p><p> 輿情受眾指標(biāo):輿情的受眾指標(biāo)反映了受眾所處的地域,對(duì)輿情的共鳴及回應(yīng)態(tài)度。 </p><p><b> 3 結(jié)論 </b></p><p> 本文依據(jù)微博傳播特
17、點(diǎn),借助網(wǎng)絡(luò)信息挖掘、計(jì)算機(jī)中文信息處理等原理及技術(shù),構(gòu)建了一個(gè)微博輿情自動(dòng)監(jiān)測(cè)系統(tǒng)的實(shí)施方案,并對(duì)其關(guān)鍵技術(shù)進(jìn)行研究。該方案涉及到博文自動(dòng)抽取、中文分詞、文檔清洗(去停用詞)、中文計(jì)算機(jī)表達(dá)、文檔情感傾向判別、意見(jiàn)領(lǐng)袖識(shí)別、綜合輿情判斷等各專項(xiàng)技術(shù),從而可為基于微博內(nèi)容的網(wǎng)絡(luò)輿情自動(dòng)監(jiān)測(cè)及預(yù)警提供準(zhǔn)確的依據(jù)。 </p><p><b> 參考文獻(xiàn) </b></p><
18、p> [1]王曉龍,關(guān)毅.計(jì)算機(jī)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2005. </p><p> [2]劉豐;基于微博的突發(fā)事件檢測(cè)和信息傳播建模[D];哈爾濱工業(yè)大學(xué);2011年 </p><p> [3]曉龍;突發(fā)事件的互聯(lián)網(wǎng)信息傳播規(guī)律研究[D];哈爾濱工業(yè)大學(xué);2011年 </p><p> [4]陳友,程學(xué)旗,楊森. 面向網(wǎng)絡(luò)論壇的突
19、發(fā)話題發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào). 2010(03) </p><p><b> 作者簡(jiǎn)介 </b></p><p> 張利民,(1964-),女,甘肅蘭州人,1986年畢業(yè)于西北師范大學(xué)政法學(xué)院,獲得學(xué)士學(xué)位,副教授;主要研究方向:汽車(chē)技術(shù)服務(wù)與營(yíng)銷(xiāo)。 </p><p> 鄒姝陽(yáng),(1990-),女,甘肅蘭州人,2013年畢業(yè)于中央財(cái)經(jīng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 微博輿情生產(chǎn)、研判與處置研究
- 網(wǎng)絡(luò)輿情研判體系初探
- 網(wǎng)絡(luò)輿情研判體系初探.pdf
- 突發(fā)事件情境下微博輿情動(dòng)態(tài)預(yù)警研究
- 基于輿情分析研判的突發(fā)事件預(yù)警平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于社會(huì)公共事件的微博輿情發(fā)展影響因素分析
- 基于PSO-KHM聚類(lèi)的微博輿情預(yù)警系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于社會(huì)公共事件的微博輿情發(fā)展影響因素分析.pdf
- 5133.基于微博的網(wǎng)絡(luò)輿情信息擴(kuò)散及其預(yù)警機(jī)制研究
- 微博輿情對(duì)社會(huì)公共事件的影響.pdf
- 微博轉(zhuǎn)基因輿情的社會(huì)網(wǎng)絡(luò)分析.pdf
- 基于情感分析的微博輿情研究.pdf
- 基于社會(huì)網(wǎng)絡(luò)分析的微博輿情傳播主體分析研究
- 基于微博數(shù)據(jù)的網(wǎng)絡(luò)輿情分析
- 基于微博的輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于微博數(shù)據(jù)的網(wǎng)絡(luò)輿情分析.pdf
- 基于社會(huì)網(wǎng)絡(luò)分析的微博輿情傳播主體分析研究.pdf
- 基于內(nèi)容的新浪微博輿情預(yù)測(cè)研究.pdf
- 基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)
- 微博輿情地方化的應(yīng)對(duì)與管理
評(píng)論
0/150
提交評(píng)論