基于社交大數(shù)據(jù)的用戶信用畫像方法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁(yè)數(shù)：123 大?。?0.76MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩122頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近年來(lái)，移動(dòng)互聯(lián)網(wǎng)和社交媒體異軍突起，逐步取代了傳統(tǒng)的博客、BBS論壇，成為人們進(jìn)行社交、學(xué)習(xí)、娛樂(lè)的主要平臺(tái)。與此同時(shí)，伴隨著整個(gè)社會(huì)對(duì)于互聯(lián)網(wǎng)、特別是移動(dòng)互聯(lián)網(wǎng)的廣泛接受，被連接的用戶數(shù)以及用戶產(chǎn)生數(shù)據(jù)(UGC)，呈現(xiàn)出爆發(fā)式增長(zhǎng)。較之前的互聯(lián)網(wǎng)媒體技術(shù)（諸如郵件、論壇、博客），社交媒體記錄的數(shù)據(jù)類型更加豐富、及時(shí)，時(shí)效性更強(qiáng)。特別的，微博類型的社交媒體數(shù)據(jù)，成為了信息發(fā)布、用戶間互動(dòng)、事件發(fā)現(xiàn)擴(kuò)散的公眾平臺(tái)。作為一種允許公開訪問(wèn)、

2、內(nèi)容簡(jiǎn)短、近乎實(shí)時(shí)、海量規(guī)模的典型大數(shù)據(jù)，微博等社交媒體數(shù)據(jù)獲得了學(xué)術(shù)界以及工業(yè)界研究者的廣泛關(guān)注。為了充分利用這一數(shù)據(jù)源，學(xué)術(shù)界在社交網(wǎng)絡(luò)理論、用戶行為模式、公共事件發(fā)展規(guī)律、謠言發(fā)現(xiàn)檢測(cè)方法的等方面開展了廣泛的研究。總體而言，社交媒體大數(shù)據(jù)中蘊(yùn)含的寶貴信息、知識(shí)需要新穎的數(shù)據(jù)處理、分析方法來(lái)解決。但是，社交媒體大數(shù)據(jù)的長(zhǎng)度短、質(zhì)量差、變化迅速、相關(guān)性弱這些問(wèn)題也形成了新的挑戰(zhàn)和問(wèn)題，使得傳統(tǒng)的數(shù)據(jù)挖掘方法無(wú)能為力。
　　為了應(yīng)

3、對(duì)社交媒體大數(shù)據(jù)中”序列性”、”行為性”、”多源性”等挑戰(zhàn)，更好的實(shí)現(xiàn)基于社交數(shù)據(jù)的用戶信用畫像這一目標(biāo)，本文進(jìn)行了微博類型數(shù)據(jù)的高效序列挖掘算法、基于微博用戶隱行為模式的用戶信用畫像、基于特征設(shè)計(jì)和集成學(xué)習(xí)融合多源信息的用戶信用畫像三個(gè)方面的研究。除此之外，在微博數(shù)據(jù)下用戶信用畫像算法的研究過(guò)程中，對(duì)于社交大數(shù)據(jù)上用戶畫像算法、技術(shù)做出研究歸納和展望。具體而言，本論文的主要研究?jī)?nèi)容、創(chuàng)新點(diǎn)和學(xué)術(shù)貢獻(xiàn)包括以下三方面:
　　1)微博

4、數(shù)據(jù)是以時(shí)間線(Timeline)的形式呈現(xiàn)給用戶，本質(zhì)上是一種事件類型的序列數(shù)據(jù)。事件序列數(shù)據(jù)挖掘除了考慮項(xiàng)目(item)出現(xiàn)頻率外，也開始考慮項(xiàng)目的效用(utility)，進(jìn)而實(shí)現(xiàn)高效用事件片段挖掘。針對(duì)單條事件序列的高效用挖掘，本文提出了對(duì)現(xiàn)有高效用片段(high utility episode)挖掘算法的多重優(yōu)化策略，使得算法運(yùn)行速度和內(nèi)存效率都得到大規(guī)模的提升。更重要的一點(diǎn)，本文引入的詞法序前綴樹挖掘框架具有更緊的剪枝閾值估計(jì)

5、，使得針對(duì)事件序列的高效用事件片段挖掘算法變得快速而實(shí)用（第三章）。
　　2)微博數(shù)據(jù)中每一條微博，包含了限定長(zhǎng)度的用戶產(chǎn)生文本內(nèi)容，也包含了與用戶行為相關(guān)的上下文信息。文本和行為兩種數(shù)據(jù)源可以同時(shí)為用戶信用建模提供數(shù)據(jù)支持，但是簡(jiǎn)單特征抽取然后組合的做法，難以發(fā)現(xiàn)用戶文本和行為數(shù)據(jù)之間的緊相關(guān)性。為了實(shí)現(xiàn)基于行為模式的用戶信用畫像，本文通過(guò)概率圖模型的建模方法，將可觀察的用戶文本和多種行為特征融合，從而獲取為信用預(yù)測(cè)提供輸入的用

6、戶隱行為模式。本文設(shè)計(jì)的概率主題模型LUBD-CM，假設(shè)一條微博由同一個(gè)主題產(chǎn)生，并且微博上行為數(shù)據(jù)和文本數(shù)據(jù)都受所分配主題約束。實(shí)驗(yàn)結(jié)果表明，LUBD-CM這一模型相對(duì)LUBD-CM的簡(jiǎn)化變種，傳統(tǒng)的LDA，樸素Bayes算法，對(duì)于用戶信用標(biāo)簽的預(yù)測(cè)性能都有大幅提升（第四章）。
　　3)社交平臺(tái)上的用戶數(shù)據(jù)，除了用戶產(chǎn)生內(nèi)容，也包括用戶個(gè)人信息、社交網(wǎng)絡(luò)關(guān)系。不同來(lái)源的用戶社交數(shù)據(jù)，蘊(yùn)含了不同類型的與用戶信用相關(guān)的信息。但是，微

7、博社交數(shù)據(jù)的“即時(shí)性”導(dǎo)致數(shù)據(jù)質(zhì)量一般很低，難以作為標(biāo)準(zhǔn)分類器如SVM、決策樹的輸入并獲得較高的用戶標(biāo)簽預(yù)測(cè)性能。為了融合多源異構(gòu)社交數(shù)據(jù)中信用畫像有效信息，本文從個(gè)人信用相關(guān)的領(lǐng)域知識(shí)入手，廣泛分析多種可能的特征設(shè)計(jì)方案，從中選擇較好的社交特征，并且利用雙層集成學(xué)習(xí)框架，全面挖掘隱含在多種社交特征中的有效信息，從而實(shí)現(xiàn)綜合堆棧方法、提升方法和集成方法的用戶信用畫像預(yù)測(cè)系統(tǒng)（第五章）。
　　值得一提的是，本文提出的針對(duì)微博社交數(shù)據(jù)

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于社交大數(shù)據(jù)的用戶信用畫像方法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于社交大數(shù)據(jù)的用戶信用畫像方法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載