基于位置社交網(wǎng)絡的數(shù)據(jù)挖掘.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著智能移動設備的普及,移動互聯(lián)網(wǎng)得到迅猛的發(fā)展?;ヂ?lián)網(wǎng)的發(fā)展使得社交網(wǎng)絡(Social Network)應運而生。而定位技術的多樣化使得人們無論在室內(nèi)還是室外都很容易通過智能移動設備獲取他們自身的物理位置。當社交網(wǎng)絡和多樣化定位技術融合在一起,便促發(fā)了位置社交網(wǎng)絡(Location-based SocialNetwork,LBS)的出現(xiàn)。在位置社交網(wǎng)絡上,由于它的諸多優(yōu)勢,用戶的位置數(shù)據(jù)得到了大量的積累。大規(guī)模的位置數(shù)據(jù)背后一定隱藏著

2、人們各式各樣的生活模式和個人偏好。因而,對于這些數(shù)據(jù)的挖掘,可以發(fā)現(xiàn)出這些數(shù)據(jù)背后的模式、規(guī)律和偏好,從而利用這些知識來給人們帶去生活上的便利,讓他們學習到更多新鮮的知識,而且同時也可以讓商家通過更為精準的廣告、推薦的方式高效地獲取更多的利益。為此,本文的工作重點著眼于從過去、現(xiàn)在和將來三個角度進行大規(guī)模位置數(shù)據(jù)的挖掘工作,具體包括用戶的位置命名、位置預測、位置推薦三個大類問題。然而,在這種大規(guī)模數(shù)據(jù)上進行這些挖掘工作,需要應對諸多挑戰(zhàn)

3、,包括了數(shù)據(jù)規(guī)模、數(shù)據(jù)稀疏性、多源數(shù)據(jù)融合和分布不均勻性等等。針對這些挑戰(zhàn),我們提出了相應的應對辦法,來解決位置命名、位置預測和位置推薦等相關問題。具體而言,本文的主要研究成果、貢獻和創(chuàng)新點可概括為以下幾點:
  1)我們提出位置命名問題,將其中從物理位置到興趣點位置的映射問題歸結為機器學習中的排序?qū)W習問題,從而可以自動地根據(jù)用戶的當前位置提供適合時機的語義名字。在方法中,我們把位置命名和本地搜索做類比,設計了一個本地搜索的框架,

4、基于此提出用戶時空偏好模型(STUP)來做位置命名。STUP基于排序?qū)W習算法結合了三個部分的模型,分別是用戶偏好模型,空間偏好模型以及時間偏好模型。在提取用戶偏好模型時,為了克服用戶簽到數(shù)據(jù)的稀疏性,我們利用排序優(yōu)化的協(xié)同過濾來學習用戶興趣以增強用戶偏好。另外,為了融合來自于社交網(wǎng)絡中的社交關系,我們?yōu)榕判騼?yōu)化的目標添加朋友間行為模式的相近性約束。在基于點評網(wǎng)上的簽到數(shù)據(jù)進行算法的評測。我們發(fā)現(xiàn)STUP會優(yōu)于所提出的基準算法,可以給23

5、.6%-26.6%的測試查詢返回準確的語義名字。
  2)我們提出探索預測問題,來預測人們下個訪問位置是否是他們以前未訪問過的位置,并把它歸結為一個二分類問題。在這個二分類問題中,我們提出三類特征,也就是基于歷史特征、基于時間的特征和基于空間的特征,這些特征不僅反映了人們追求新奇的個性特質(zhì),也體現(xiàn)了人們當時的追求新奇的狀態(tài)?;谶@個探索預測問題,我們提出協(xié)同探索周期回歸的位置預測模型來融合位置預測和位置推薦,從而利用相似用戶的行為

6、模式來緩解數(shù)據(jù)的稀疏性給位置預測帶來的影響。當人們被預測去做探索的時候,借助位置推薦算法找到他們可能感興趣并且與他們活動區(qū)域相近的位置;當人們被預測去做回歸的時候,借助常規(guī)的位置預測算法來找出他們下一個最有可能會出現(xiàn)的地方。針對這種對位置訪問歷史進行分治的必要性,我們從多個角度進行了全面分析。另外,在常規(guī)位置預測算法的學習中,針對位置訪問頻率的不均勻性,我們采用了能產(chǎn)生這種不均勻性的先驗分布來做貝葉斯學習。在兩個大規(guī)模的分別具有6M和3

7、6M簽到的數(shù)據(jù)集上進行實例研究和評測。評測結果表明探索預測在兩個數(shù)據(jù)集上的誤分類率只有20%左右,遠遠地優(yōu)于基準方法;相比于常規(guī)的位置預測方法,CEPR可以提高位置預測的性能多達30%。此外,我們還分析了常規(guī)位置的可預測性,并驗證了序列屬性、時間規(guī)律性在位置歷史中的存在性。
  3)我們提出基于地理建模內(nèi)嵌的矩陣分解模型來做位置推薦,以應對來自于用戶-興趣點矩陣極其稀疏的特性帶來的挑戰(zhàn)。這個模型從簽到數(shù)據(jù)提供隱式反饋出發(fā),提出利用

8、加權矩陣分解來做興趣點推薦,而且給從矩陣分解中學習得到的用戶隱向量和興趣點隱向量進行擴展,分別增加了用戶活動區(qū)域向量和興趣點影響向量?;谶@個增強模型,我們不僅能從二維密度估計的角度來刻畫空間聚集效應,而且還解釋了為何對這個效應的建??梢詠斫鉀Q矩陣稀疏的問題。我們在一個大規(guī)模的位置社交網(wǎng)絡數(shù)據(jù)上進行了評測。評測的結果發(fā)現(xiàn)這個加權矩陣分解會比其他形式的分解模型和基于用戶的協(xié)同過濾方法好,而且把空間聚集效應整合到矩陣分解之后提高了推薦的性能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論