2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近年來(lái),移動(dòng)互聯(lián)網(wǎng)和社交媒體異軍突起,逐步取代了傳統(tǒng)的博客、BBS論壇,成為人們進(jìn)行社交、學(xué)習(xí)、娛樂(lè)的主要平臺(tái)。與此同時(shí),伴隨著整個(gè)社會(huì)對(duì)于互聯(lián)網(wǎng)、特別是移動(dòng)互聯(lián)網(wǎng)的廣泛接受,被連接的用戶數(shù)以及用戶產(chǎn)生數(shù)據(jù)(UGC),呈現(xiàn)出爆發(fā)式增長(zhǎng)。較之前的互聯(lián)網(wǎng)媒體技術(shù)(諸如郵件、論壇、博客),社交媒體記錄的數(shù)據(jù)類型更加豐富、及時(shí),時(shí)效性更強(qiáng)。特別的,微博類型的社交媒體數(shù)據(jù),成為了信息發(fā)布、用戶間互動(dòng)、事件發(fā)現(xiàn)擴(kuò)散的公眾平臺(tái)。作為一種允許公開訪問(wèn)、

2、內(nèi)容簡(jiǎn)短、近乎實(shí)時(shí)、海量規(guī)模的典型大數(shù)據(jù),微博等社交媒體數(shù)據(jù)獲得了學(xué)術(shù)界以及工業(yè)界研究者的廣泛關(guān)注。為了充分利用這一數(shù)據(jù)源,學(xué)術(shù)界在社交網(wǎng)絡(luò)理論、用戶行為模式、公共事件發(fā)展規(guī)律、謠言發(fā)現(xiàn)檢測(cè)方法的等方面開展了廣泛的研究。總體而言,社交媒體大數(shù)據(jù)中蘊(yùn)含的寶貴信息、知識(shí)需要新穎的數(shù)據(jù)處理、分析方法來(lái)解決。但是,社交媒體大數(shù)據(jù)的長(zhǎng)度短、質(zhì)量差、變化迅速、相關(guān)性弱這些問(wèn)題也形成了新的挑戰(zhàn)和問(wèn)題,使得傳統(tǒng)的數(shù)據(jù)挖掘方法無(wú)能為力。
  為了應(yīng)

3、對(duì)社交媒體大數(shù)據(jù)中”序列性”、”行為性”、”多源性”等挑戰(zhàn),更好的實(shí)現(xiàn)基于社交數(shù)據(jù)的用戶信用畫像這一目標(biāo),本文進(jìn)行了微博類型數(shù)據(jù)的高效序列挖掘算法、基于微博用戶隱行為模式的用戶信用畫像、基于特征設(shè)計(jì)和集成學(xué)習(xí)融合多源信息的用戶信用畫像三個(gè)方面的研究。除此之外,在微博數(shù)據(jù)下用戶信用畫像算法的研究過(guò)程中,對(duì)于社交大數(shù)據(jù)上用戶畫像算法、技術(shù)做出研究歸納和展望。具體而言,本論文的主要研究?jī)?nèi)容、創(chuàng)新點(diǎn)和學(xué)術(shù)貢獻(xiàn)包括以下三方面:
  1)微博

4、數(shù)據(jù)是以時(shí)間線(Timeline)的形式呈現(xiàn)給用戶,本質(zhì)上是一種事件類型的序列數(shù)據(jù)。事件序列數(shù)據(jù)挖掘除了考慮項(xiàng)目(item)出現(xiàn)頻率外,也開始考慮項(xiàng)目的效用(utility),進(jìn)而實(shí)現(xiàn)高效用事件片段挖掘。針對(duì)單條事件序列的高效用挖掘,本文提出了對(duì)現(xiàn)有高效用片段(high utility episode)挖掘算法的多重優(yōu)化策略,使得算法運(yùn)行速度和內(nèi)存效率都得到大規(guī)模的提升。更重要的一點(diǎn),本文引入的詞法序前綴樹挖掘框架具有更緊的剪枝閾值估計(jì)

5、,使得針對(duì)事件序列的高效用事件片段挖掘算法變得快速而實(shí)用(第三章)。
  2)微博數(shù)據(jù)中每一條微博,包含了限定長(zhǎng)度的用戶產(chǎn)生文本內(nèi)容,也包含了與用戶行為相關(guān)的上下文信息。文本和行為兩種數(shù)據(jù)源可以同時(shí)為用戶信用建模提供數(shù)據(jù)支持,但是簡(jiǎn)單特征抽取然后組合的做法,難以發(fā)現(xiàn)用戶文本和行為數(shù)據(jù)之間的緊相關(guān)性。為了實(shí)現(xiàn)基于行為模式的用戶信用畫像,本文通過(guò)概率圖模型的建模方法,將可觀察的用戶文本和多種行為特征融合,從而獲取為信用預(yù)測(cè)提供輸入的用

6、戶隱行為模式。本文設(shè)計(jì)的概率主題模型LUBD-CM,假設(shè)一條微博由同一個(gè)主題產(chǎn)生,并且微博上行為數(shù)據(jù)和文本數(shù)據(jù)都受所分配主題約束。實(shí)驗(yàn)結(jié)果表明,LUBD-CM這一模型相對(duì)LUBD-CM的簡(jiǎn)化變種,傳統(tǒng)的LDA,樸素Bayes算法,對(duì)于用戶信用標(biāo)簽的預(yù)測(cè)性能都有大幅提升(第四章)。
  3)社交平臺(tái)上的用戶數(shù)據(jù),除了用戶產(chǎn)生內(nèi)容,也包括用戶個(gè)人信息、社交網(wǎng)絡(luò)關(guān)系。不同來(lái)源的用戶社交數(shù)據(jù),蘊(yùn)含了不同類型的與用戶信用相關(guān)的信息。但是,微

7、博社交數(shù)據(jù)的“即時(shí)性”導(dǎo)致數(shù)據(jù)質(zhì)量一般很低,難以作為標(biāo)準(zhǔn)分類器如SVM、決策樹的輸入并獲得較高的用戶標(biāo)簽預(yù)測(cè)性能。為了融合多源異構(gòu)社交數(shù)據(jù)中信用畫像有效信息,本文從個(gè)人信用相關(guān)的領(lǐng)域知識(shí)入手,廣泛分析多種可能的特征設(shè)計(jì)方案,從中選擇較好的社交特征,并且利用雙層集成學(xué)習(xí)框架,全面挖掘隱含在多種社交特征中的有效信息,從而實(shí)現(xiàn)綜合堆棧方法、提升方法和集成方法的用戶信用畫像預(yù)測(cè)系統(tǒng)(第五章)。
  值得一提的是,本文提出的針對(duì)微博社交數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論