版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p> 大數據的研究方法及可能應用</p><p><b> 王磊</b></p><p> 【摘要】: 如今,“大數據”已經成為了一個十分熱門的詞匯,新聞媒體對其進行長篇累牘的報道,與之相關的學術文章數量激增,大數據圖書也受到了極力的追捧。其實,隨著以云計算、移動互聯(lián)、智能化為特征的信息社會的深入發(fā)展,人類儲存的數據總量在不斷增大,數據增長的速度
2、也在持續(xù)的加快中。維克托?邁爾?舍恩伯格也曾說過:“世界的本質是數據,大數據將開啟一次重大的時代轉型?!鄙鐣畹姆椒矫婷婧臀覀冋J識世界的方式都受到了大數據帶來的沖擊,但是,對于大數據的認知和應用還有許多值得我們探索的地方。</p><p> 【關鍵詞】:大數據、數據挖掘、貝葉斯分類、圖模型、協(xié)同推薦、客戶價值、社會網絡、文本挖掘</p><p><b> 關于大數據<
3、/b></p><p><b> 數據的海洋</b></p><p> 20世紀90年代后期,以信息技術、計算機技術、網絡技術等為代表的高新技術快速發(fā)展,以此為標志,人類社會正式邁入數字時代。現(xiàn)在,伴隨著各種各樣的智能設備和輕巧靈便的可穿戴計算設備的普及,我們的行為、地理位置、收入與支出、身體生理狀況等衣食住行的方方面面都成為了可以被記錄和分析的數據。數據量
4、也就由此在不斷增大,而且,數據的種類和形式也在持續(xù)的更新??梢哉f,我們的生活已經被日益增長的數據所充斥。</p><p> 事實上,各行各業(yè)都先后受到了數據增長帶來的沖擊。在天文學領域,2000年美國的斯隆數字巡天(Sloan Digital Sky Survey)項目啟動,位于美國新墨西哥州的大型天文望遠鏡在短短幾周內收集到的數據已經比天文學歷史上總共收集到的數據還要多。到了2010年,天文望遠鏡收集到的數據
5、總量已經高達1.4×2^42字節(jié)。在生物學領域,2003年人類第一次破譯人體基因密碼,全世界的優(yōu)秀科學家們辛苦工作了十年才完成了30億對堿基對的排序。而到了現(xiàn)在,世界范圍內的基因儀每15分鐘就可以完成相同的工作。在金融領域,美國股市每天的成交量高達70億股,更令人驚訝的是,其中三分之二的交易都是由建立在數學模型和算法之上的計算機程序自動完成的。在互聯(lián)網領域,F(xiàn)acebook這個創(chuàng)立時間不足十年的公司,每天更新的照片量超過100
6、0萬張,每天人們在網站上點擊“喜歡(Like)”按鈕或者寫評論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數據線索。[1] 總之,在各個領域都出現(xiàn)了爆發(fā)式增長的數據。這種增長的速度超過了我們創(chuàng)造任何一種機器的速度,甚至超過了我們的想象。</p><p> 那么,我們周圍究竟有多少數據呢?這些數據增長的速度又有多快呢?根據南加利福尼亞大學的統(tǒng)計學家馬丁·希爾伯特(Martin Hi
7、lbert)的估算,在2007年人類大約存儲了超過300艾字節(jié)(EB)的數據。[2] 在這里,1艾字節(jié)(EB)等于2^60字節(jié)(B)。這是個什么概念呢?一部完整的電影總可以被壓縮為1個吉字節(jié)(GB)的大小,而1個艾字節(jié)(EB)相當于10億吉字節(jié)(GB),是一個非常巨大的單位。這就是說,2007年人類儲存的數據總量超過了3000億部電影的數據量。如果我們一天看一部這樣的電影,需要近10億年的時間才能看完!這還不是最為龐大的數字,2010年
8、全球數據總量約為1.8澤字節(jié)(ZB),預計2020年全球數據總量將達到40澤字節(jié)(ZB)的規(guī)模。[3] 1個澤字節(jié)(ZB)是1024艾字節(jié)(EB),是比艾字節(jié)(EB)更為巨大的單位。由此可見,人類現(xiàn)在創(chuàng)造的數據總量是相當龐大的。不僅如此,人類存儲數據的信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。[4] 我們真的是被數據的海洋淹沒了。</p><p>&
9、lt;b> 大數據的概念及特征</b></p><p> 如此巨大和快速增長的數據量催生了大數據(Big Data)概念的產生。大數據,是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合。[5] 從這個概念上看,大數據必然不能通過單臺計算機進行處理,也不能使用傳統(tǒng)的方法進行分析,必須依托于云計算這一先進的技術。同時,大數據具有4個基本特征。第一,數據體量巨大。前文也已提
10、及,現(xiàn)在數據總量已經達到EB級別,甚至達到了ZB級別。第二,數據類型繁多,來源廣泛。各種各樣的網絡文章、音頻資料、視頻資料、圖片資料、地理位置信息等等都是數據的不同類型與來源。第三,價值密度低,商業(yè)價值高。體量如此巨大的數據不可能全部都是有用的信息,而這極少量的信息蘊含的價值往往是巨大的。以視頻資料為例,公安機關在偵破刑事案件時通常需要調取案發(fā)現(xiàn)場的監(jiān)控視頻。而在連續(xù)不間斷的監(jiān)控過程中,有用的數據可能僅僅只有一兩秒,而有時恰恰是這一兩秒
11、的數據就能幫助公安機關發(fā)現(xiàn)破案的蛛絲馬跡。第四,增長速度快。正如前文所說,現(xiàn)如今數據增長的速度遠遠超過了世界經濟增長的速度,而且這一速度還在不停地加快中。這就是所謂的大數據4V特征,即Volume(大量)、Velocity(</p><p><b> 大數據的意義</b></p><p><b> 、公共衛(wèi)生變革</b></p>
12、<p> 2009年,甲型H1N1流感病毒爆發(fā),牽動了全世界人民的心。與以往流感爆發(fā)的疫情不同,在這次疫情中,谷歌公司發(fā)布的數據代替習慣性滯后的官方數據成為了一個更有效、更及時的指示標,公共衛(wèi)生機構的官員從谷歌公司獲得了非常有價值的數據信息。實際上,谷歌公司獲取疫情數據的方法是建立在大數據的基礎之上的。</p><p> 在如今的互聯(lián)網時代,很多人在身體不適時,總會首先在網絡上搜索與之相關的詞條再
13、決定是否去看醫(yī)生。例如,如果我們出現(xiàn)咳嗽和發(fā)熱的癥狀,或許我們會搜索“哪些是治療咳嗽和發(fā)熱的藥物”這種詞條。于是,這種特殊的檢索詞條就會流露出流感侵襲的信息。而作為全球最大的搜索引擎公司,谷歌公司每天都會收到超過30億條的搜索指令,而且,谷歌公司保存了多年來的全部搜索記錄。以此為基礎,谷歌公司把疫情蔓延時5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期的數據進行了比較,如此這般分析人們的搜索記
14、錄就可判斷這些人是否感染了流感病毒。</p><p> 于是,谷歌公司通過觀察人們在網絡上的搜索記錄成功預測了流感病毒的傳播,而且不僅僅是美國范圍內的傳播,可以精確到特定的地區(qū)和州。不僅如此,谷歌公司的判斷十分及時,不會像美國疾控中心那樣在流感爆發(fā)一兩周之后才可以做出判斷。</p><p> 谷歌公司的這種方法以前是一直被忽略的,也是一種前所未有的方式,這就是“通過對海量數據進行分析,
15、獲得有巨大價值的產品和服務,或深刻的洞見”。[7] 擁有如此先進的統(tǒng)計技術和龐大的數據儲備,我們有理由相信下一次流感來襲的時候,世界將會擁有一種更好的預測工具來預防流感的傳播。</p><p><b> 、商業(yè)變革</b></p><p> 大數據不僅改變了公共衛(wèi)生領域,商業(yè)領域也因為大數據發(fā)生了深刻的變化。</p><p> 以購買飛機
16、篇為例,美國計算機專家奧倫·埃奇奧尼(Oren Etzioni)專門開發(fā)了一個系統(tǒng),用來預測當前的機票價格在未來的一段時間內是會上升還是下降。也就是說,這個系統(tǒng)需要分析所有特定航線機票的銷售價格并確定機票價格與提前購買天數的關系。如果一張機票的平均價格呈下降趨勢,系統(tǒng)就會幫助用戶做出稍后再購票的明智選擇。反過來,如果一張機票的平均價格呈上漲趨勢,系統(tǒng)就會提醒用戶立刻購買該機票。</p><p> 埃奇
17、奧尼的預測系統(tǒng)是十分成功的,幫助許多乘客節(jié)省了一筆不小的開支。當然,這個預測系統(tǒng)也是在大數據的基礎上建立的,所以不可避免的是系統(tǒng)的運轉需要海量數據的支持。埃奇奧尼找到了一個商業(yè)機會預訂機票價格的數據庫,而系統(tǒng)的預測結果是根據美國商業(yè)航空產業(yè)中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。</p><p> 基于這個機票價格預測系統(tǒng),埃奇奧尼創(chuàng)立了一家大數據科技創(chuàng)業(yè)公司,名為Farecast
18、。到目前為止,F(xiàn)arecast公司已經擁有了多達2000億條飛行數據記錄,預測的準確度高達75%,而且使用Farecast票價預測工具購買機票的旅客,平均每張機票可節(jié)省50美元。[8] Farecast公司是大數據公司的一個縮影,也代表了當今世界發(fā)展的趨勢。計算機的處理能力和存儲能力的大幅提升、數據分析能力的突破為大數據公司的出現(xiàn)奠定了基礎。</p><p><b> 、思維變革</b>&
19、lt;/p><p> 在大數據誕生以前,人們通常認為數據是靜態(tài)的,而且一旦完成了收集數據的目的之后,數據就完全沒有用處了。而到了現(xiàn)在,大數據的出現(xiàn)改變了人們的認知,顛覆了人們利用數據的理念。數據已經成為了“一種商業(yè)資本,一項重要的經濟投入,可以創(chuàng)造新的經濟利益”。而且爆炸式增長的數據由量變引發(fā)了質變,大數據成為了“人們獲得新的認知、創(chuàng)造新的價值的源泉”;成為了“改變市場,改進組織機構,改善政府與公民關系的方法”。大
20、數據時代已經來臨,大數據對我們的生活,對整個世界都提出了挑戰(zhàn),而這僅僅只是一個開始。面對海量的數據,我們不必關心數據間的因果關系,而應該更加注重相關關系。也就是說,我們只需要知道“是什么”,而不需要知道“為什么”。這是一個極為重大的改變,在不久的將來,或許我們的認知方式和理解世界的基礎都將因為大數據而受到不同程度的沖擊。</p><p> 大數據的研究與分析方法</p><p><
21、b> 數據挖掘</b></p><p> 、數據挖掘的內涵與基本特征</p><p> 1995年,法耶茲(Fayyad)在知識發(fā)現(xiàn)會議上第一次提出了數據挖掘(Data Mining)的概念,法耶茲認為數據挖掘是“一個自動或半自動化的從大量數據中發(fā)現(xiàn)有效的、有意義的、潛在有用的、易于理解的數據模式的復雜過程”。</p><p> 法耶茲的定
22、義突出了數據挖掘的工程特征,闡釋了數據挖掘是一種用于在海量數據中發(fā)現(xiàn)其中存在的有價值的數據模式的分析機制。其實,在技術的層面上,數據挖掘是網絡時代必然的技術熱點。在電子商務和互聯(lián)網商業(yè)中,數據挖掘有著極為重大的應用價值。</p><p> 數據挖掘就是解決各種實際問題的數據分析過程,而在通過大量數據解決實際問題的過程中,復雜問題的解決往往不是一兩個數據模型的簡單套用就可以完成的,經常需要很多步驟綜合構成一個系統(tǒng)
23、性的解決方案,需要多個模型協(xié)作完成。所以,對于數據挖掘來說,選擇模型可能比應用模型更重要。而且,數據挖掘不僅僅是對數據的概括和歸納,更是數據中的復雜關系的發(fā)現(xiàn)過程。</p><p><b> 、數據挖掘的產生</b></p><p> 數據挖掘技術的產生是一個逐漸演變的過程。在數據處理初期,人們希望通過某些方法和技術實現(xiàn)自動決策,當時機器學習受到了人們的廣泛關注。
24、機器學習就是將人們已知的能夠成功解決某一類問題的算法輸入計算機,計算機便可以代替人類進行決策。[9] 對于某一類特定的問題,機器學習可以總結出相應的解決規(guī)則,并且這種解決規(guī)則具有一定的通用性。20世紀70年代,神經網絡技術正式形成并逐漸發(fā)展,隨之非線性復雜結構應用到復雜數據關系的模型建立中。到了80年代,知識工程取代機器學習成為了人們關注的焦點。知識工程不同于機器學習,它是直接給計算機輸入已被代碼化的解決規(guī)則,計算機通過則利用這些規(guī)則來
25、解決某些問題。[10] 80年代末期,全新的神經網絡理論建立,在其指導下,人們重新回到機器學習的方法上,并利用機器學習處理大型商業(yè)數據庫。在此背景下,一個新的術語“數據庫中的知識發(fā)現(xiàn)”誕生了,簡稱KDD(Knowledge Discover in Database)。KDD概括了所有從源數據中發(fā)掘模式或聯(lián)系的方法,人們也逐漸接受了數據挖掘的概念與過程。</p><p><b> 、數據挖掘的功能&l
26、t;/b></p><p> 數據挖掘的核心任務是探索與建立數據的特征和數據與數據之間的關系。根據將要探索與建立的數據關系是否有目標,又可將數據挖掘的功能分為有指導的學習(Supervised Learning)和無指導的學習(Unsupervised Learning)兩大類。其中,有指導的學習是指對預設目標的概念學習和建模,主要由分類、估計和預測三方面的功能組成。[11] 而無指導的學習是指尋找和刻畫
27、數據的概念結構,主要由關聯(lián)關系發(fā)現(xiàn)、聚類分析、可視化三方面的功能組成。[12]</p><p> 分類(Classification):</p><p> 分類主要是用可能的特征變量通過對大量數據的分析和比較提煉出可辨識類別的顯著不同的結構特征,即“獲取一個概念區(qū)別于另一個概念的構成和表示”。具體來說,通過分析一部分數據庫中的數據,可以將數據分成不同的類別。再為每個類別建立分類分析模型
28、,然后利用這些分類分析模型對數據庫中的其他數據記錄進行分類。例如,對于信用卡申請者可以分為高、中、低三個類別。</p><p> 估計(Estimation):</p><p> 數據的估計是指描述由數據表達的未知概念的模型,并給出模型參數的估計方法并進行數值計算,或者得到模型的可靠性范圍等。估計與分類類似,不同之處在于,分類描述的是離散型數據變量的模型,而估計處理連續(xù)型數據變量的模型
29、。一般來說,估計可以作為分類的前一步工作。給定一些輸入數據,通過估計,得到未知的連續(xù)變量的值,然后,根據預先設定的范圍,進行分類。例如,可根據購買模式估計家庭的年收入,再根據年收入對不同的家庭進行分類。</p><p> 預測(Prediction):</p><p> 預測是指對尚未發(fā)生的、目前仍然不確定的事件或事物做出預先估計或表述,并通過對數據的處理與分析推測出事件或事物未來的發(fā)
30、展趨勢。分類和估計都可用于預測,其中分類強調不同規(guī)律的差異解釋,估計則強調對未知規(guī)律通過數據表達的機制研究。但是,與分類和估計不同的是,預測更加注重數據的規(guī)律對未來的影響趨勢。</p><p> 關聯(lián)關系發(fā)現(xiàn)(Association Rules):</p><p> 關聯(lián)關系發(fā)現(xiàn)則試圖發(fā)現(xiàn)和提取研究對象之間通過數據表達的相互關系,其中的組合關聯(lián)規(guī)則是要確定哪些事物會一起出現(xiàn)或發(fā)生。例如
31、,某超市中的客戶通常在購買A商品的同時會購買B商品。</p><p> 聚類分析(Clustering):</p><p> 聚類分析主要提煉數據的相似性分組結構。聚類的目的是將相似的數據聚合在一起,而差異較大的數據分在不同的類中。在聚類中,沒有事先確定好的組別,也沒有樣本,這與分類有著很大的區(qū)別。而且數據按照特征的相似性聚集在各自的類別中,對于數據的分析不僅要完成相似個體的聚合與分組
32、,也要提煉出各個分組和類別內的數據中蘊含的意義。例如,一些特定癥狀的聚集可能代表了一種特定的疾病。</p><p> 可視化(Visualization):</p><p> 數據的可視化更加強調數據形象的展現(xiàn)方式。數據挖掘的首要目標往往是要深入理解復雜數據庫的內容,而在開始時對數據準確的描述就可以幫助我們找到進一步解決問題的途徑。例如,通過Yonghong Z-Suite等工具進行數
33、據的展現(xiàn)、分析和鉆取,將數據挖掘的分析結果更形象、更深刻的展現(xiàn)出來。[13]</p><p><b> 、數據挖掘的流程</b></p><p><b> ?、賳栴}識別:</b></p><p> 數據挖掘的目標就是要通過對數據的分析發(fā)現(xiàn)解決問題的方法,所以在問題識別階段,首先要明確系統(tǒng)和組織中的關鍵問題。我們知道,大
34、數據本身十分復雜,與之相關的實際問題也就極為復雜,在數據挖掘過程中必須牢牢抓住核心問題,把握問題的邊界和本質,才能確定有效地數據挖掘方案。</p><p><b> ②數據理解:</b></p><p> 在數據挖掘過程中,顯然確認研究的問題和現(xiàn)有的數據之間是否匹配是十分重要的。數據理解主要包含對數據價值的理解和對數據質量的理解兩方面。我們知道,數據是一種特殊的資
35、源,與物質產品相比,數據不可消耗。數據的價值存在于不同的系統(tǒng)不同的用戶之間的傳遞和共享,而且在復制和更新的過程中,數據的價值可以得到提升。同時,數據也是極為脆弱的,也容易遭到破壞。數據的不一致性、重復太多、陳舊過時、不穩(wěn)定等都是數據常見的質量問題。當然,在數據理解過程中,我們也應了解數據格式和數據類型,了解數據的獲取方式和異常數據的存在。</p><p><b> ?、蹟祿蕚洌?lt;/b>&l
36、t;/p><p> 在對數據進行分析之前,首先需要將數據匯集到一起,形成數據庫。但是,在匯總數據時,多余數據以及數據格式與含義不一致的現(xiàn)象十分普遍。于是,將這些存在于不同環(huán)境中的或者存在于相對封閉的系統(tǒng)中的數據有機的結合在一起,實現(xiàn)數據資源的共享就是數據準備階段的關鍵環(huán)節(jié)和主要任務。</p><p> 用于數據準備的技術稱為ETL技術,“ETL”是英文Extract,Transform和L
37、oad三個單詞首字母的縮寫,分別表示抽取、轉換和裝載三方面的數據處理技術。數據抽取就是將數據按照數據挖掘的項目主題從各種原始的數據系統(tǒng)中讀取出來,這是數據挖掘所有工作的前提。然后進行數據轉換,根據預先設計好的規(guī)則將數據進行轉換,使得不同結構和格式的數據統(tǒng)一起來。最后是進行數據裝載,將完成轉換的數據導入到數據庫中,完成數據整合的過程。</p><p> 當然,匯集數據需要用到很多數據技術。對于復雜的數據格式,還需
38、要利用編程語言的強大功能來實現(xiàn)數據的集成,也可以使用一些工具軟件,例如SAS,SPSS,Ab Initio和PERL工具。</p><p><b> ④建立模型:</b></p><p> 數據建模是數據挖掘流程中最核心的環(huán)節(jié),使用機器學習算法或統(tǒng)計方法對大量的數據進行建模分析,從而獲得對數據系統(tǒng)最合適的模型。建立模型是一個反復的實驗過程,需要仔細考察不同的模型和
39、數據,以確定與待解決的問題最適合的數據模型。</p><p><b> ?、菽P驮u價:</b></p><p> 數據挖掘的模型評價包括功能性評價和服務性評價兩方面的內容。其中,功能性評價是指建立的模型對任務完成的質量,常見的有精準性評價和穩(wěn)定性評價。精準性評價主要衡量模型估計的準確性,而穩(wěn)健性評價是對模型的抗干擾性和適應性進行評測。功能性評價中常用的兩種方法是增益
40、圖法和ROC曲線法。除了技術性能的評價,服務的因素也不容忽視。</p><p><b> ?、薏渴饝茫?lt;/b></p><p> 數據模型建立并且經過驗證之后,有兩種主要的途徑。第一種用途是提供給分析人員做參考,通過察看和分析這個模型之后提出行動方案建議。第二種用途是將此模型應用到不同的數據集合上。</p><p><b> 貝
41、葉斯分類</b></p><p> 貝葉斯分類(Bayes Classification)是統(tǒng)計學中的分類方法,其分析方法的特點是使用概率來表示所有形式的不確定性,學習和推理都要通過概率規(guī)則實現(xiàn),[14] 即利用概率統(tǒng)計知識進行分類。貝葉斯分類在機器學習領域中具有十分重要的地位,在處理數據時它的作用也是十分強大的。</p><p> 在貝葉斯分類中,數據分類的問題轉化為了分
42、布的決策問題。貝葉斯分類也為分布的決策提供了兩種產生分布函數的方法。第一種是分布估計法,即根據損失函數、先驗分布和似然函數,通過后驗分布,由最優(yōu)決策產生分類函數。在樣本連續(xù)和數據維度不高的情況下,正態(tài)分布下的線性判別和二次判別等方法是兩個十分典型的方法。第二種是條件依賴關系估計法,針對數據變量是離散的而且維數較高的情況。如果變量之間存在少量的條件依賴關系,則利用條件依賴關系估計法進行分析可以獲得高質量的估計結果,這種方法還可以用于分析變
43、量之間的邏輯依賴關系。上面所說的兩種方法或可稱為樸素貝葉斯方法和貝葉斯網絡方法。[15]</p><p><b> 圖模型</b></p><p> 圖模型(Graphic Models)用于刻畫復雜數據系統(tǒng)中多個變量或不同的觀測數據之間地關系,是提取高維數據的結構信息的重要工具。圖模型的基本思想是通過揭示高維隨機變量的相互依存關系刻畫變量之間的條件獨立性。在統(tǒng)計
44、學中,圖模型實質上就是用節(jié)點表示隨機變量和用弧表示條件獨立假設的圖。[16] 目前,圖模型發(fā)展較快的主要有兩個分支,一個是基于似然函數的懲罰算法,另一類是基于回歸技術的算法。</p><p> 1)、Graphical LASSO算法</p><p> Graphical LASSO算法是弗里德曼(Friedman)于2007年提出的,是在似然函數上增加懲罰算法進行圖模型估計的方法。這
45、種算法使用最速下降的方法,速度較快。</p><p><b> 2)、MB算法</b></p><p> MB算法是一種典型的回歸算法。這種算法將圖模型視為是由每個頂點對其他頂點做鄰域選擇時所產生的鏈接圖的疊加。于是,在MB算法中,每個頂點所占的比例相同,保證了各個頂點可以選擇相同數量的與之連通的邊。MB算法實質上是從每個頂點最低鏈接需要的角度描述圖的一種方式。&
46、lt;/p><p> 3)、SPACE算法</p><p> SPACE算法是另一種典型的回歸算法。該算法將稀疏圖看成是對頂點實施不等權重影響導致的相對組合的一般形式。而其中的權重由一個頂點的輻射強度在所有頂點輻射強度分布中的位置決定,一個頂點的輻射強度是該頂點對其他頂點的偏相關系數之和,而輻射強度分布是所有頂點輻射強度的分布。如果一個頂點的輻射強度較大,則該頂點分配較大的權重,進一步可允
47、許該頂點選擇更多邊與之連通。反之,如果一個的輻射強度較小,則該頂點分配較小的權重,并限制該頂點選擇與更多邊連通。</p><p> 大數據的可能應用舉例</p><p><b> 客戶關系管理</b></p><p><b> 1)、協(xié)同推薦模型</b></p><p> 伴隨著互聯(lián)網和電子
48、商務的發(fā)展,數據及信息的體量已經遠遠超出人們的處理能力。及時為客戶過濾不必要的項目是實現(xiàn)異構管理,有效利用網絡數據資源,提升整體數據處理性能的重要措施。推薦系統(tǒng)就是一門專門面向客戶的網絡數據過濾技術,并向客戶推薦適合的項目。系統(tǒng)的核心就是推薦算法,主要有以下三種:</p><p> 人口統(tǒng)計學的推薦(Demographic-based Recommendation)</p><p>
49、即根據系統(tǒng)客戶的基本信息發(fā)現(xiàn)客戶的相關程度。具體方法是對所有客戶建立人口統(tǒng)計學(性別、年齡、職業(yè)等)的數據檔案。例如尋找與甲客戶的人口統(tǒng)計學特征相似的乙客戶,由于甲、乙客戶具有相同的人口統(tǒng)計學的特征,而認為甲、乙客戶具有較高的關聯(lián)度。于是,可將乙客戶偏好的項目推薦給甲客戶。這類推薦算法的優(yōu)點是適用于冷啟動問題,不足是推薦的精準度不高,因為僅僅在人口統(tǒng)計學的特征上給出推薦,而人口統(tǒng)計學的資料很難體現(xiàn)客戶在項目需求上的差異。</p&g
50、t;<p> 基于內容的推薦(Content-based Recommendation)</p><p> 即根據所推薦項目的元數據,發(fā)現(xiàn)項目或者數據內容的相關性。例如甲項目的類型是“戶外用品”,乙項目的類型也是“戶外用品”,這兩種項目具有相似性。如果某客戶對甲項目產生興趣,那么系統(tǒng)就會對其推薦乙項目。這種推薦算法需要對項目內的數據進行分析和建模,推薦的質量依賴于對項目描述的完整程度。一般應用中
51、觀察到的關鍵詞和標簽是描述項目元數據的簡單而有效的方法。不足之處在于項目相似度的分析僅僅取決于項目本身的特征,未涉及客戶個體差異對項目的態(tài)度。</p><p> 協(xié)同過濾的推薦(Collaborative Filtering Recommendation)</p><p> 與傳統(tǒng)的人口統(tǒng)計學和基于內容的過濾直接分析內容進行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似興
52、趣用戶,綜合這些相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。協(xié)同過濾主要解決了傳統(tǒng)算法在數據的稀缺性和項目數量較多的情況下的推薦項目問題。協(xié)同過濾推薦系統(tǒng)處理的數據問題包含兩方面的變量——用戶和選擇條目,推薦的目標是預測用戶對某些位置條目的評價。1992年,戈德堡(Goldberg)實現(xiàn)了第一個協(xié)同過濾推薦系統(tǒng),戈德堡利用辦公伙伴等與被推薦人有密切生活接觸的人進行相似性推薦?,F(xiàn)在,協(xié)同過濾推薦在信息過濾和電子商
53、務行業(yè)得到了廣泛應用,包括推薦書籍、酒店、電影、商業(yè)網站等。例如AMAZON網上書店提供非常先進的個性化推薦功能,能為不同興趣愛好的用戶自動推薦盡量符合其興趣需要的書籍。具體來說, AMAZON網上書店使用協(xié)同過濾推薦算法對讀者曾經購買過的書籍以及該讀者對其他書籍的評價進行分析后,將向讀者推薦他可能喜歡的新書。而且讀者的信息將被再次保存,這樣顧客下次再來時就能更容易的買到想要的書籍。[17]</p><p>&l
54、t;b> 2)、客戶價值模型</b></p><p> 客戶價值是衡量企業(yè)商業(yè)實力的重要標志,是發(fā)展客戶關系和提高市場競爭力的基礎。而隨著企業(yè)數據收集和分析系統(tǒng)越來越強大,預測、識別和開發(fā)一位客戶的終生價值的數據模型就稱為了一個十分重要的課題。</p><p> 與之相關的問題是怎樣用數據衡量客戶的價值。德懷爾(Dwyer)提出了一種系統(tǒng)模型計算客戶價值。德懷爾將客
55、戶流失預測引入到客戶價值分類模型中,并將客戶劃分為永久流失和暫時流失兩部分。伯杰(Berger)和納斯爾(Nasr)更進一步將客戶按照流失劃分為5類,并可以實現(xiàn)對每一類客戶價值的計算。而休斯(Hughes)提出了基于行為變量的客戶價值直接計算方法,這種方法使用3種指標——最近購買時間、購買頻次和購買金額來分析客戶的價值。以上三種指標是企業(yè)交易數據庫都可以提取的信息。</p><p><b> 社會網絡
56、分析</b></p><p> 社會是一個十分復雜的系統(tǒng),社會中的成員通過特定的關系形成一些團體,這些團體的存在形式、組成機理和影響關系是社會學關注的焦點。社會網絡分析(Social Network Analysis)是觀察社會關系和社會結構的研究方法。社會網絡可以理解為社會群體之間的關系。</p><p> 社會網絡可分為兩類。一類是接觸型社會網絡,適用于比較封閉的系統(tǒng),
57、具有總體數據量較小的特點,比如學校師生網絡、公司董事網絡等。另一類是通信類社會網絡,具有總體數據量較大,關系不固定等特點,比如手機電話網絡、微博、論壇等。接觸類社會網絡中群體的關系往往是預設的,而在通信類社會網絡中,使我們感興趣的常常不是預設的關系。但整體上說,這些關系都和網絡的功能有密切關系。</p><p><b> 1)、社群挖掘算法</b></p><p>
58、 網絡社群是指社會網絡中內部之間相互連接緊密,而與外部其他節(jié)點連接稀疏的一組節(jié)點。社會網絡的研究重點就是認識和揭示網絡特征,了解社群結構。目前,有大量的社群挖掘算法被提出。根據聚類的方式,社群挖掘算法大致上可以分為三類:層次聚類算法、最優(yōu)化算法、塊模型算法。</p><p><b> 層次聚類算法:</b></p><p> 層次聚類算法的特點是需要計算節(jié)點之間
59、的相似度。在得到了節(jié)點之間的相似度矩陣之后,就可利用常見的聚類算法對節(jié)點進行聚類。</p><p><b> 最優(yōu)化算法:</b></p><p> 最優(yōu)化算法通過對社群質量的最優(yōu)化達到社群挖掘的目的,比較常見的方法是基于模塊值的算法。模塊值為社會網絡中連接社團結構內部節(jié)點的邊所占的比例與另外一個隨機網絡中連接社團結構內部節(jié)點的邊所占比例的期望值相減得到的差值。這
60、個隨機網絡的構造方式為保持每個節(jié)點的社團屬性不變,節(jié)點間的邊根據節(jié)點的中心度隨機連接。</p><p><b> 塊模型算法:</b></p><p> 塊模型算法是通過假設社會網絡滿足某種統(tǒng)計分布,例如可假設在任意兩點之間的邊數服從泊松分布,進而通過極大似然方法的到網絡的社群結構。</p><p><b> 2)、模型評價&l
61、t;/b></p><p> 模型的評價有很多方式,例如來源于信息理論的歸一互化信息(Normalized Mutual Information,NMI),數據挖掘與機器學習領域的校正隨機指數(Adjusted Rand Index)等,其中歸一互化信息在社群挖掘算法的評價中較為普遍。</p><p> 自然語言模型和文本挖掘</p><p> 早期的自
62、然語言處理系統(tǒng)主要依靠語言學家撰寫規(guī)則,機器編譯規(guī)則,這種方法在大量知識面前顯得既費時又費力,而且不能及時更新,各種語言之間彼此獨立,無法兼顧不同語言的特點。20世紀80年代后期,計算性能大幅提高,機器學習算法被引入到自然語言模型的處理中,這種方法采用大規(guī)模的訓練語料數據對模型的參數進行自動的學習,和之前的基于規(guī)則的方法相比,更具有穩(wěn)定性,已經廣泛用于文本分類和機器學習等問題。如今,即便是語言學家也必須利用語料庫提供的證據和實例。例如,
63、夸克(Quirk)等編著的《英語語法大全》就利用了語料庫中的數據。</p><p> 數據統(tǒng)計語言模型的發(fā)展也刺激了文本挖掘的發(fā)展。文本挖掘是以計算語言學、數理統(tǒng)計分析為理論基礎,結合機器學習和信息檢索技術,從文本數據中發(fā)現(xiàn)和提取獨立于用戶信息需求的文本集中的隱含知識。</p><p> 一般來說,文本挖掘利用文本切分技術,抽取文本特征,并利用數據特征降維等技術將文本數據轉換為能夠描述
64、文本內容的結構化數據,進一步可形成結構化模型表示樹,從中提取出穩(wěn)定結構,便可獲取其中的知識表示關系。目前,文本挖掘中的語言模型經歷了4個發(fā)展階段:向量空間及統(tǒng)計語言模型、潛語義分析(LAS)、基于頻率的模型到主題模型的發(fā)展階段。[18]</p><p><b> 【參考文獻】:</b></p><p> [1] (英)維克托·邁爾·舍恩伯格,肯
65、尼思·庫克耶. 大數據時代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [2] (英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數據時代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [3] 王星 等. 大數據分析:方法與應用. 北京:清華
66、大學出版社,2013.</p><p> [4] (英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數據時代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [5]http://www.bing.com/knows/search?q=%e5%a4%a7%e6%95%b0%e6%8d%ae&mkt=z
67、h-cn&FORM=BKACAI</p><p> [6] 王星 等. 大數據分析:方法與應用. 北京:清華大學出版社,2013.</p><p> [7] (英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數據時代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [8]
68、(英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數據時代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [9] Ethem Alpaydim. 機器學習引論. 北京:機械工業(yè)出版社,2009.</p><p> [10] 王星 等. 大數據分析:方法與應用. 北京:清華大學出版社,2013.</p
69、><p> [11] 王星 等. 大數據分析:方法與應用. 北京:清華大學出版社,2013.</p><p> [12] 王星 等. 大數據分析:方法與應用. 北京:清華大學出版社,2013.</p><p> [13]http://baike.baidu.com/link?url=ukKbp64aCvRHvC-guknASzF9SAu8Nd1kkfknxxDbQ
70、88feeP6m3kqrQ6z93wZg0Og7BDmplJvUvsYcthLtIjKuq</p><p> [14] http://baike.baidu.com/view/3810699.htm</p><p> [15] 張連文,郭海鵬. 貝葉斯網絡引論. 北京:科學出版社,2006. </p><p> [16] http://blog.science
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大數據的研究方法及可能應用—王磊
- 大數據的研究方法及可能應用—王磊
- 大數據關鍵技術_王秀磊.pdf
- 基于大數據的廣告推薦方法研究及應用.pdf
- 大數據時代教育的可能轉向
- 大數據應用的需求分析方法
- 大數據應用的需求分析方法
- 智能電網大數據融合方法研究及應用.pdf
- 物流信息大數據分析方法研究及應用.pdf
- 大數據大數據的實際應用
- 徐磊大用戶大信息大數據-_0
- 基于大數據的多尺度狀態(tài)監(jiān)測方法及應用.pdf
- 大數據融合及應用經典
- 大數據技術及應用培訓
- 大數據技術原理及應用
- 大數據指數的編制方法與應用研究.pdf
- 基于大數據應用的商業(yè)設施優(yōu)化方法研究.pdf
- 王陽大數據從智能出發(fā)
- 大數據在醫(yī)療衛(wèi)生中的應用前景_王瀟.pdf
- 基于Hadoop平臺的大數據遷移與查詢方法研究及應用.pdf
評論
0/150
提交評論