版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 大數(shù)據(jù)的研究方法及可能應(yīng)用</p><p><b> 王磊</b></p><p> 【摘要】: 如今,“大數(shù)據(jù)”已經(jīng)成為了一個(gè)十分熱門的詞匯,新聞媒體對(duì)其進(jìn)行長(zhǎng)篇累牘的報(bào)道,與之相關(guān)的學(xué)術(shù)文章數(shù)量激增,大數(shù)據(jù)圖書也受到了極力的追捧。其實(shí),隨著以云計(jì)算、移動(dòng)互聯(lián)、智能化為特征的信息社會(huì)的深入發(fā)展,人類儲(chǔ)存的數(shù)據(jù)總量在不斷增大,數(shù)據(jù)增長(zhǎng)的速度
2、也在持續(xù)的加快中。維克托?邁爾?舍恩伯格也曾說過:“世界的本質(zhì)是數(shù)據(jù),大數(shù)據(jù)將開啟一次重大的時(shí)代轉(zhuǎn)型。”社會(huì)生活的方方面面和我們認(rèn)識(shí)世界的方式都受到了大數(shù)據(jù)帶來的沖擊,但是,對(duì)于大數(shù)據(jù)的認(rèn)知和應(yīng)用還有許多值得我們探索的地方。</p><p> 【關(guān)鍵詞】:大數(shù)據(jù)、數(shù)據(jù)挖掘、貝葉斯分類、圖模型、協(xié)同推薦、客戶價(jià)值、社會(huì)網(wǎng)絡(luò)、文本挖掘</p><p><b> 關(guān)于大數(shù)據(jù)<
3、/b></p><p><b> 數(shù)據(jù)的海洋</b></p><p> 20世紀(jì)90年代后期,以信息技術(shù)、計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)等為代表的高新技術(shù)快速發(fā)展,以此為標(biāo)志,人類社會(huì)正式邁入數(shù)字時(shí)代?,F(xiàn)在,伴隨著各種各樣的智能設(shè)備和輕巧靈便的可穿戴計(jì)算設(shè)備的普及,我們的行為、地理位置、收入與支出、身體生理狀況等衣食住行的方方面面都成為了可以被記錄和分析的數(shù)據(jù)。數(shù)據(jù)量
4、也就由此在不斷增大,而且,數(shù)據(jù)的種類和形式也在持續(xù)的更新??梢哉f,我們的生活已經(jīng)被日益增長(zhǎng)的數(shù)據(jù)所充斥。</p><p> 事實(shí)上,各行各業(yè)都先后受到了數(shù)據(jù)增長(zhǎng)帶來的沖擊。在天文學(xué)領(lǐng)域,2000年美國的斯隆數(shù)字巡天(Sloan Digital Sky Survey)項(xiàng)目啟動(dòng),位于美國新墨西哥州的大型天文望遠(yuǎn)鏡在短短幾周內(nèi)收集到的數(shù)據(jù)已經(jīng)比天文學(xué)歷史上總共收集到的數(shù)據(jù)還要多。到了2010年,天文望遠(yuǎn)鏡收集到的數(shù)據(jù)
5、總量已經(jīng)高達(dá)1.4×2^42字節(jié)。在生物學(xué)領(lǐng)域,2003年人類第一次破譯人體基因密碼,全世界的優(yōu)秀科學(xué)家們辛苦工作了十年才完成了30億對(duì)堿基對(duì)的排序。而到了現(xiàn)在,世界范圍內(nèi)的基因儀每15分鐘就可以完成相同的工作。在金融領(lǐng)域,美國股市每天的成交量高達(dá)70億股,更令人驚訝的是,其中三分之二的交易都是由建立在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動(dòng)完成的。在互聯(lián)網(wǎng)領(lǐng)域,F(xiàn)acebook這個(gè)創(chuàng)立時(shí)間不足十年的公司,每天更新的照片量超過100
6、0萬張,每天人們?cè)诰W(wǎng)站上點(diǎn)擊“喜歡(Like)”按鈕或者寫評(píng)論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。[1] 總之,在各個(gè)領(lǐng)域都出現(xiàn)了爆發(fā)式增長(zhǎng)的數(shù)據(jù)。這種增長(zhǎng)的速度超過了我們創(chuàng)造任何一種機(jī)器的速度,甚至超過了我們的想象。</p><p> 那么,我們周圍究竟有多少數(shù)據(jù)呢?這些數(shù)據(jù)增長(zhǎng)的速度又有多快呢?根據(jù)南加利福尼亞大學(xué)的統(tǒng)計(jì)學(xué)家馬丁·希爾伯特(Martin Hi
7、lbert)的估算,在2007年人類大約存儲(chǔ)了超過300艾字節(jié)(EB)的數(shù)據(jù)。[2] 在這里,1艾字節(jié)(EB)等于2^60字節(jié)(B)。這是個(gè)什么概念呢?一部完整的電影總可以被壓縮為1個(gè)吉字節(jié)(GB)的大小,而1個(gè)艾字節(jié)(EB)相當(dāng)于10億吉字節(jié)(GB),是一個(gè)非常巨大的單位。這就是說,2007年人類儲(chǔ)存的數(shù)據(jù)總量超過了3000億部電影的數(shù)據(jù)量。如果我們一天看一部這樣的電影,需要近10億年的時(shí)間才能看完!這還不是最為龐大的數(shù)字,2010年
8、全球數(shù)據(jù)總量約為1.8澤字節(jié)(ZB),預(yù)計(jì)2020年全球數(shù)據(jù)總量將達(dá)到40澤字節(jié)(ZB)的規(guī)模。[3] 1個(gè)澤字節(jié)(ZB)是1024艾字節(jié)(EB),是比艾字節(jié)(EB)更為巨大的單位。由此可見,人類現(xiàn)在創(chuàng)造的數(shù)據(jù)總量是相當(dāng)龐大的。不僅如此,人類存儲(chǔ)數(shù)據(jù)的信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度則比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍。[4] 我們真的是被數(shù)據(jù)的海洋淹沒了。</p><p>&
9、lt;b> 大數(shù)據(jù)的概念及特征</b></p><p> 如此巨大和快速增長(zhǎng)的數(shù)據(jù)量催生了大數(shù)據(jù)(Big Data)概念的產(chǎn)生。大數(shù)據(jù),是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。[5] 從這個(gè)概念上看,大數(shù)據(jù)必然不能通過單臺(tái)計(jì)算機(jī)進(jìn)行處理,也不能使用傳統(tǒng)的方法進(jìn)行分析,必須依托于云計(jì)算這一先進(jìn)的技術(shù)。同時(shí),大數(shù)據(jù)具有4個(gè)基本特征。第一,數(shù)據(jù)體量巨大。前文也已提
10、及,現(xiàn)在數(shù)據(jù)總量已經(jīng)達(dá)到EB級(jí)別,甚至達(dá)到了ZB級(jí)別。第二,數(shù)據(jù)類型繁多,來源廣泛。各種各樣的網(wǎng)絡(luò)文章、音頻資料、視頻資料、圖片資料、地理位置信息等等都是數(shù)據(jù)的不同類型與來源。第三,價(jià)值密度低,商業(yè)價(jià)值高。體量如此巨大的數(shù)據(jù)不可能全部都是有用的信息,而這極少量的信息蘊(yùn)含的價(jià)值往往是巨大的。以視頻資料為例,公安機(jī)關(guān)在偵破刑事案件時(shí)通常需要調(diào)取案發(fā)現(xiàn)場(chǎng)的監(jiān)控視頻。而在連續(xù)不間斷的監(jiān)控過程中,有用的數(shù)據(jù)可能僅僅只有一兩秒,而有時(shí)恰恰是這一兩秒
11、的數(shù)據(jù)就能幫助公安機(jī)關(guān)發(fā)現(xiàn)破案的蛛絲馬跡。第四,增長(zhǎng)速度快。正如前文所說,現(xiàn)如今數(shù)據(jù)增長(zhǎng)的速度遠(yuǎn)遠(yuǎn)超過了世界經(jīng)濟(jì)增長(zhǎng)的速度,而且這一速度還在不停地加快中。這就是所謂的大數(shù)據(jù)4V特征,即Volume(大量)、Velocity(</p><p><b> 大數(shù)據(jù)的意義</b></p><p><b> 、公共衛(wèi)生變革</b></p>
12、<p> 2009年,甲型H1N1流感病毒爆發(fā),牽動(dòng)了全世界人民的心。與以往流感爆發(fā)的疫情不同,在這次疫情中,谷歌公司發(fā)布的數(shù)據(jù)代替習(xí)慣性滯后的官方數(shù)據(jù)成為了一個(gè)更有效、更及時(shí)的指示標(biāo),公共衛(wèi)生機(jī)構(gòu)的官員從谷歌公司獲得了非常有價(jià)值的數(shù)據(jù)信息。實(shí)際上,谷歌公司獲取疫情數(shù)據(jù)的方法是建立在大數(shù)據(jù)的基礎(chǔ)之上的。</p><p> 在如今的互聯(lián)網(wǎng)時(shí)代,很多人在身體不適時(shí),總會(huì)首先在網(wǎng)絡(luò)上搜索與之相關(guān)的詞條再
13、決定是否去看醫(yī)生。例如,如果我們出現(xiàn)咳嗽和發(fā)熱的癥狀,或許我們會(huì)搜索“哪些是治療咳嗽和發(fā)熱的藥物”這種詞條。于是,這種特殊的檢索詞條就會(huì)流露出流感侵襲的信息。而作為全球最大的搜索引擎公司,谷歌公司每天都會(huì)收到超過30億條的搜索指令,而且,谷歌公司保存了多年來的全部搜索記錄。以此為基礎(chǔ),谷歌公司把疫情蔓延時(shí)5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,如此這般分析人們的搜索記
14、錄就可判斷這些人是否感染了流感病毒。</p><p> 于是,谷歌公司通過觀察人們?cè)诰W(wǎng)絡(luò)上的搜索記錄成功預(yù)測(cè)了流感病毒的傳播,而且不僅僅是美國范圍內(nèi)的傳播,可以精確到特定的地區(qū)和州。不僅如此,谷歌公司的判斷十分及時(shí),不會(huì)像美國疾控中心那樣在流感爆發(fā)一兩周之后才可以做出判斷。</p><p> 谷歌公司的這種方法以前是一直被忽略的,也是一種前所未有的方式,這就是“通過對(duì)海量數(shù)據(jù)進(jìn)行分析,
15、獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見”。[7] 擁有如此先進(jìn)的統(tǒng)計(jì)技術(shù)和龐大的數(shù)據(jù)儲(chǔ)備,我們有理由相信下一次流感來襲的時(shí)候,世界將會(huì)擁有一種更好的預(yù)測(cè)工具來預(yù)防流感的傳播。</p><p><b> 、商業(yè)變革</b></p><p> 大數(shù)據(jù)不僅改變了公共衛(wèi)生領(lǐng)域,商業(yè)領(lǐng)域也因?yàn)榇髷?shù)據(jù)發(fā)生了深刻的變化。</p><p> 以購買飛機(jī)
16、篇為例,美國計(jì)算機(jī)專家奧倫·埃奇奧尼(Oren Etzioni)專門開發(fā)了一個(gè)系統(tǒng),用來預(yù)測(cè)當(dāng)前的機(jī)票價(jià)格在未來的一段時(shí)間內(nèi)是會(huì)上升還是下降。也就是說,這個(gè)系統(tǒng)需要分析所有特定航線機(jī)票的銷售價(jià)格并確定機(jī)票價(jià)格與提前購買天數(shù)的關(guān)系。如果一張機(jī)票的平均價(jià)格呈下降趨勢(shì),系統(tǒng)就會(huì)幫助用戶做出稍后再購票的明智選擇。反過來,如果一張機(jī)票的平均價(jià)格呈上漲趨勢(shì),系統(tǒng)就會(huì)提醒用戶立刻購買該機(jī)票。</p><p> 埃奇
17、奧尼的預(yù)測(cè)系統(tǒng)是十分成功的,幫助許多乘客節(jié)省了一筆不小的開支。當(dāng)然,這個(gè)預(yù)測(cè)系統(tǒng)也是在大數(shù)據(jù)的基礎(chǔ)上建立的,所以不可避免的是系統(tǒng)的運(yùn)轉(zhuǎn)需要海量數(shù)據(jù)的支持。埃奇奧尼找到了一個(gè)商業(yè)機(jī)會(huì)預(yù)訂機(jī)票價(jià)格的數(shù)據(jù)庫,而系統(tǒng)的預(yù)測(cè)結(jié)果是根據(jù)美國商業(yè)航空產(chǎn)業(yè)中,每一條航線上每一架飛機(jī)內(nèi)的每一個(gè)座位一年內(nèi)的綜合票價(jià)記錄而得出的。</p><p> 基于這個(gè)機(jī)票價(jià)格預(yù)測(cè)系統(tǒng),埃奇奧尼創(chuàng)立了一家大數(shù)據(jù)科技創(chuàng)業(yè)公司,名為Farecast
18、。到目前為止,F(xiàn)arecast公司已經(jīng)擁有了多達(dá)2000億條飛行數(shù)據(jù)記錄,預(yù)測(cè)的準(zhǔn)確度高達(dá)75%,而且使用Farecast票價(jià)預(yù)測(cè)工具購買機(jī)票的旅客,平均每張機(jī)票可節(jié)省50美元。[8] Farecast公司是大數(shù)據(jù)公司的一個(gè)縮影,也代表了當(dāng)今世界發(fā)展的趨勢(shì)。計(jì)算機(jī)的處理能力和存儲(chǔ)能力的大幅提升、數(shù)據(jù)分析能力的突破為大數(shù)據(jù)公司的出現(xiàn)奠定了基礎(chǔ)。</p><p><b> 、思維變革</b>&
19、lt;/p><p> 在大數(shù)據(jù)誕生以前,人們通常認(rèn)為數(shù)據(jù)是靜態(tài)的,而且一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就完全沒有用處了。而到了現(xiàn)在,大數(shù)據(jù)的出現(xiàn)改變了人們的認(rèn)知,顛覆了人們利用數(shù)據(jù)的理念。數(shù)據(jù)已經(jīng)成為了“一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益”。而且爆炸式增長(zhǎng)的數(shù)據(jù)由量變引發(fā)了質(zhì)變,大數(shù)據(jù)成為了“人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉”;成為了“改變市場(chǎng),改進(jìn)組織機(jī)構(gòu),改善政府與公民關(guān)系的方法”。大
20、數(shù)據(jù)時(shí)代已經(jīng)來臨,大數(shù)據(jù)對(duì)我們的生活,對(duì)整個(gè)世界都提出了挑戰(zhàn),而這僅僅只是一個(gè)開始。面對(duì)海量的數(shù)據(jù),我們不必關(guān)心數(shù)據(jù)間的因果關(guān)系,而應(yīng)該更加注重相關(guān)關(guān)系。也就是說,我們只需要知道“是什么”,而不需要知道“為什么”。這是一個(gè)極為重大的改變,在不久的將來,或許我們的認(rèn)知方式和理解世界的基礎(chǔ)都將因?yàn)榇髷?shù)據(jù)而受到不同程度的沖擊。</p><p> 大數(shù)據(jù)的研究與分析方法</p><p><
21、b> 數(shù)據(jù)挖掘</b></p><p> 、數(shù)據(jù)挖掘的內(nèi)涵與基本特征</p><p> 1995年,法耶茲(Fayyad)在知識(shí)發(fā)現(xiàn)會(huì)議上第一次提出了數(shù)據(jù)挖掘(Data Mining)的概念,法耶茲認(rèn)為數(shù)據(jù)挖掘是“一個(gè)自動(dòng)或半自動(dòng)化的從大量數(shù)據(jù)中發(fā)現(xiàn)有效的、有意義的、潛在有用的、易于理解的數(shù)據(jù)模式的復(fù)雜過程”。</p><p> 法耶茲的定
22、義突出了數(shù)據(jù)挖掘的工程特征,闡釋了數(shù)據(jù)挖掘是一種用于在海量數(shù)據(jù)中發(fā)現(xiàn)其中存在的有價(jià)值的數(shù)據(jù)模式的分析機(jī)制。其實(shí),在技術(shù)的層面上,數(shù)據(jù)挖掘是網(wǎng)絡(luò)時(shí)代必然的技術(shù)熱點(diǎn)。在電子商務(wù)和互聯(lián)網(wǎng)商業(yè)中,數(shù)據(jù)挖掘有著極為重大的應(yīng)用價(jià)值。</p><p> 數(shù)據(jù)挖掘就是解決各種實(shí)際問題的數(shù)據(jù)分析過程,而在通過大量數(shù)據(jù)解決實(shí)際問題的過程中,復(fù)雜問題的解決往往不是一兩個(gè)數(shù)據(jù)模型的簡(jiǎn)單套用就可以完成的,經(jīng)常需要很多步驟綜合構(gòu)成一個(gè)系統(tǒng)
23、性的解決方案,需要多個(gè)模型協(xié)作完成。所以,對(duì)于數(shù)據(jù)挖掘來說,選擇模型可能比應(yīng)用模型更重要。而且,數(shù)據(jù)挖掘不僅僅是對(duì)數(shù)據(jù)的概括和歸納,更是數(shù)據(jù)中的復(fù)雜關(guān)系的發(fā)現(xiàn)過程。</p><p><b> 、數(shù)據(jù)挖掘的產(chǎn)生</b></p><p> 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生是一個(gè)逐漸演變的過程。在數(shù)據(jù)處理初期,人們希望通過某些方法和技術(shù)實(shí)現(xiàn)自動(dòng)決策,當(dāng)時(shí)機(jī)器學(xué)習(xí)受到了人們的廣泛關(guān)注。
24、機(jī)器學(xué)習(xí)就是將人們已知的能夠成功解決某一類問題的算法輸入計(jì)算機(jī),計(jì)算機(jī)便可以代替人類進(jìn)行決策。[9] 對(duì)于某一類特定的問題,機(jī)器學(xué)習(xí)可以總結(jié)出相應(yīng)的解決規(guī)則,并且這種解決規(guī)則具有一定的通用性。20世紀(jì)70年代,神經(jīng)網(wǎng)絡(luò)技術(shù)正式形成并逐漸發(fā)展,隨之非線性復(fù)雜結(jié)構(gòu)應(yīng)用到復(fù)雜數(shù)據(jù)關(guān)系的模型建立中。到了80年代,知識(shí)工程取代機(jī)器學(xué)習(xí)成為了人們關(guān)注的焦點(diǎn)。知識(shí)工程不同于機(jī)器學(xué)習(xí),它是直接給計(jì)算機(jī)輸入已被代碼化的解決規(guī)則,計(jì)算機(jī)通過則利用這些規(guī)則來
25、解決某些問題。[10] 80年代末期,全新的神經(jīng)網(wǎng)絡(luò)理論建立,在其指導(dǎo)下,人們重新回到機(jī)器學(xué)習(xí)的方法上,并利用機(jī)器學(xué)習(xí)處理大型商業(yè)數(shù)據(jù)庫。在此背景下,一個(gè)新的術(shù)語“數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)”誕生了,簡(jiǎn)稱KDD(Knowledge Discover in Database)。KDD概括了所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法,人們也逐漸接受了數(shù)據(jù)挖掘的概念與過程。</p><p><b> 、數(shù)據(jù)挖掘的功能&l
26、t;/b></p><p> 數(shù)據(jù)挖掘的核心任務(wù)是探索與建立數(shù)據(jù)的特征和數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。根據(jù)將要探索與建立的數(shù)據(jù)關(guān)系是否有目標(biāo),又可將數(shù)據(jù)挖掘的功能分為有指導(dǎo)的學(xué)習(xí)(Supervised Learning)和無指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)兩大類。其中,有指導(dǎo)的學(xué)習(xí)是指對(duì)預(yù)設(shè)目標(biāo)的概念學(xué)習(xí)和建模,主要由分類、估計(jì)和預(yù)測(cè)三方面的功能組成。[11] 而無指導(dǎo)的學(xué)習(xí)是指尋找和刻畫
27、數(shù)據(jù)的概念結(jié)構(gòu),主要由關(guān)聯(lián)關(guān)系發(fā)現(xiàn)、聚類分析、可視化三方面的功能組成。[12]</p><p> 分類(Classification):</p><p> 分類主要是用可能的特征變量通過對(duì)大量數(shù)據(jù)的分析和比較提煉出可辨識(shí)類別的顯著不同的結(jié)構(gòu)特征,即“獲取一個(gè)概念區(qū)別于另一個(gè)概念的構(gòu)成和表示”。具體來說,通過分析一部分?jǐn)?shù)據(jù)庫中的數(shù)據(jù),可以將數(shù)據(jù)分成不同的類別。再為每個(gè)類別建立分類分析模型
28、,然后利用這些分類分析模型對(duì)數(shù)據(jù)庫中的其他數(shù)據(jù)記錄進(jìn)行分類。例如,對(duì)于信用卡申請(qǐng)者可以分為高、中、低三個(gè)類別。</p><p> 估計(jì)(Estimation):</p><p> 數(shù)據(jù)的估計(jì)是指描述由數(shù)據(jù)表達(dá)的未知概念的模型,并給出模型參數(shù)的估計(jì)方法并進(jìn)行數(shù)值計(jì)算,或者得到模型的可靠性范圍等。估計(jì)與分類類似,不同之處在于,分類描述的是離散型數(shù)據(jù)變量的模型,而估計(jì)處理連續(xù)型數(shù)據(jù)變量的模型
29、。一般來說,估計(jì)可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估計(jì),得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的范圍,進(jìn)行分類。例如,可根據(jù)購買模式估計(jì)家庭的年收入,再根據(jù)年收入對(duì)不同的家庭進(jìn)行分類。</p><p> 預(yù)測(cè)(Prediction):</p><p> 預(yù)測(cè)是指對(duì)尚未發(fā)生的、目前仍然不確定的事件或事物做出預(yù)先估計(jì)或表述,并通過對(duì)數(shù)據(jù)的處理與分析推測(cè)出事件或事物未來的發(fā)
30、展趨勢(shì)。分類和估計(jì)都可用于預(yù)測(cè),其中分類強(qiáng)調(diào)不同規(guī)律的差異解釋,估計(jì)則強(qiáng)調(diào)對(duì)未知規(guī)律通過數(shù)據(jù)表達(dá)的機(jī)制研究。但是,與分類和估計(jì)不同的是,預(yù)測(cè)更加注重?cái)?shù)據(jù)的規(guī)律對(duì)未來的影響趨勢(shì)。</p><p> 關(guān)聯(lián)關(guān)系發(fā)現(xiàn)(Association Rules):</p><p> 關(guān)聯(lián)關(guān)系發(fā)現(xiàn)則試圖發(fā)現(xiàn)和提取研究對(duì)象之間通過數(shù)據(jù)表達(dá)的相互關(guān)系,其中的組合關(guān)聯(lián)規(guī)則是要確定哪些事物會(huì)一起出現(xiàn)或發(fā)生。例如
31、,某超市中的客戶通常在購買A商品的同時(shí)會(huì)購買B商品。</p><p> 聚類分析(Clustering):</p><p> 聚類分析主要提煉數(shù)據(jù)的相似性分組結(jié)構(gòu)。聚類的目的是將相似的數(shù)據(jù)聚合在一起,而差異較大的數(shù)據(jù)分在不同的類中。在聚類中,沒有事先確定好的組別,也沒有樣本,這與分類有著很大的區(qū)別。而且數(shù)據(jù)按照特征的相似性聚集在各自的類別中,對(duì)于數(shù)據(jù)的分析不僅要完成相似個(gè)體的聚合與分組
32、,也要提煉出各個(gè)分組和類別內(nèi)的數(shù)據(jù)中蘊(yùn)含的意義。例如,一些特定癥狀的聚集可能代表了一種特定的疾病。</p><p> 可視化(Visualization):</p><p> 數(shù)據(jù)的可視化更加強(qiáng)調(diào)數(shù)據(jù)形象的展現(xiàn)方式。數(shù)據(jù)挖掘的首要目標(biāo)往往是要深入理解復(fù)雜數(shù)據(jù)庫的內(nèi)容,而在開始時(shí)對(duì)數(shù)據(jù)準(zhǔn)確的描述就可以幫助我們找到進(jìn)一步解決問題的途徑。例如,通過Yonghong Z-Suite等工具進(jìn)行數(shù)
33、據(jù)的展現(xiàn)、分析和鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象、更深刻的展現(xiàn)出來。[13]</p><p><b> 、數(shù)據(jù)挖掘的流程</b></p><p><b> ?、賳栴}識(shí)別:</b></p><p> 數(shù)據(jù)挖掘的目標(biāo)就是要通過對(duì)數(shù)據(jù)的分析發(fā)現(xiàn)解決問題的方法,所以在問題識(shí)別階段,首先要明確系統(tǒng)和組織中的關(guān)鍵問題。我們知道,大
34、數(shù)據(jù)本身十分復(fù)雜,與之相關(guān)的實(shí)際問題也就極為復(fù)雜,在數(shù)據(jù)挖掘過程中必須牢牢抓住核心問題,把握問題的邊界和本質(zhì),才能確定有效地?cái)?shù)據(jù)挖掘方案。</p><p><b> ?、跀?shù)據(jù)理解:</b></p><p> 在數(shù)據(jù)挖掘過程中,顯然確認(rèn)研究的問題和現(xiàn)有的數(shù)據(jù)之間是否匹配是十分重要的。數(shù)據(jù)理解主要包含對(duì)數(shù)據(jù)價(jià)值的理解和對(duì)數(shù)據(jù)質(zhì)量的理解兩方面。我們知道,數(shù)據(jù)是一種特殊的資
35、源,與物質(zhì)產(chǎn)品相比,數(shù)據(jù)不可消耗。數(shù)據(jù)的價(jià)值存在于不同的系統(tǒng)不同的用戶之間的傳遞和共享,而且在復(fù)制和更新的過程中,數(shù)據(jù)的價(jià)值可以得到提升。同時(shí),數(shù)據(jù)也是極為脆弱的,也容易遭到破壞。數(shù)據(jù)的不一致性、重復(fù)太多、陳舊過時(shí)、不穩(wěn)定等都是數(shù)據(jù)常見的質(zhì)量問題。當(dāng)然,在數(shù)據(jù)理解過程中,我們也應(yīng)了解數(shù)據(jù)格式和數(shù)據(jù)類型,了解數(shù)據(jù)的獲取方式和異常數(shù)據(jù)的存在。</p><p><b> ?、蹟?shù)據(jù)準(zhǔn)備:</b>&l
36、t;/p><p> 在對(duì)數(shù)據(jù)進(jìn)行分析之前,首先需要將數(shù)據(jù)匯集到一起,形成數(shù)據(jù)庫。但是,在匯總數(shù)據(jù)時(shí),多余數(shù)據(jù)以及數(shù)據(jù)格式與含義不一致的現(xiàn)象十分普遍。于是,將這些存在于不同環(huán)境中的或者存在于相對(duì)封閉的系統(tǒng)中的數(shù)據(jù)有機(jī)的結(jié)合在一起,實(shí)現(xiàn)數(shù)據(jù)資源的共享就是數(shù)據(jù)準(zhǔn)備階段的關(guān)鍵環(huán)節(jié)和主要任務(wù)。</p><p> 用于數(shù)據(jù)準(zhǔn)備的技術(shù)稱為ETL技術(shù),“ETL”是英文Extract,Transform和L
37、oad三個(gè)單詞首字母的縮寫,分別表示抽取、轉(zhuǎn)換和裝載三方面的數(shù)據(jù)處理技術(shù)。數(shù)據(jù)抽取就是將數(shù)據(jù)按照數(shù)據(jù)挖掘的項(xiàng)目主題從各種原始的數(shù)據(jù)系統(tǒng)中讀取出來,這是數(shù)據(jù)挖掘所有工作的前提。然后進(jìn)行數(shù)據(jù)轉(zhuǎn)換,根據(jù)預(yù)先設(shè)計(jì)好的規(guī)則將數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使得不同結(jié)構(gòu)和格式的數(shù)據(jù)統(tǒng)一起來。最后是進(jìn)行數(shù)據(jù)裝載,將完成轉(zhuǎn)換的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中,完成數(shù)據(jù)整合的過程。</p><p> 當(dāng)然,匯集數(shù)據(jù)需要用到很多數(shù)據(jù)技術(shù)。對(duì)于復(fù)雜的數(shù)據(jù)格式,還需
38、要利用編程語言的強(qiáng)大功能來實(shí)現(xiàn)數(shù)據(jù)的集成,也可以使用一些工具軟件,例如SAS,SPSS,Ab Initio和PERL工具。</p><p><b> ?、芙⒛P停?lt;/b></p><p> 數(shù)據(jù)建模是數(shù)據(jù)挖掘流程中最核心的環(huán)節(jié),使用機(jī)器學(xué)習(xí)算法或統(tǒng)計(jì)方法對(duì)大量的數(shù)據(jù)進(jìn)行建模分析,從而獲得對(duì)數(shù)據(jù)系統(tǒng)最合適的模型。建立模型是一個(gè)反復(fù)的實(shí)驗(yàn)過程,需要仔細(xì)考察不同的模型和
39、數(shù)據(jù),以確定與待解決的問題最適合的數(shù)據(jù)模型。</p><p><b> ?、菽P驮u(píng)價(jià):</b></p><p> 數(shù)據(jù)挖掘的模型評(píng)價(jià)包括功能性評(píng)價(jià)和服務(wù)性評(píng)價(jià)兩方面的內(nèi)容。其中,功能性評(píng)價(jià)是指建立的模型對(duì)任務(wù)完成的質(zhì)量,常見的有精準(zhǔn)性評(píng)價(jià)和穩(wěn)定性評(píng)價(jià)。精準(zhǔn)性評(píng)價(jià)主要衡量模型估計(jì)的準(zhǔn)確性,而穩(wěn)健性評(píng)價(jià)是對(duì)模型的抗干擾性和適應(yīng)性進(jìn)行評(píng)測(cè)。功能性評(píng)價(jià)中常用的兩種方法是增益
40、圖法和ROC曲線法。除了技術(shù)性能的評(píng)價(jià),服務(wù)的因素也不容忽視。</p><p><b> ?、薏渴饝?yīng)用:</b></p><p> 數(shù)據(jù)模型建立并且經(jīng)過驗(yàn)證之后,有兩種主要的途徑。第一種用途是提供給分析人員做參考,通過察看和分析這個(gè)模型之后提出行動(dòng)方案建議。第二種用途是將此模型應(yīng)用到不同的數(shù)據(jù)集合上。</p><p><b> 貝
41、葉斯分類</b></p><p> 貝葉斯分類(Bayes Classification)是統(tǒng)計(jì)學(xué)中的分類方法,其分析方法的特點(diǎn)是使用概率來表示所有形式的不確定性,學(xué)習(xí)和推理都要通過概率規(guī)則實(shí)現(xiàn),[14] 即利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類。貝葉斯分類在機(jī)器學(xué)習(xí)領(lǐng)域中具有十分重要的地位,在處理數(shù)據(jù)時(shí)它的作用也是十分強(qiáng)大的。</p><p> 在貝葉斯分類中,數(shù)據(jù)分類的問題轉(zhuǎn)化為了分
42、布的決策問題。貝葉斯分類也為分布的決策提供了兩種產(chǎn)生分布函數(shù)的方法。第一種是分布估計(jì)法,即根據(jù)損失函數(shù)、先驗(yàn)分布和似然函數(shù),通過后驗(yàn)分布,由最優(yōu)決策產(chǎn)生分類函數(shù)。在樣本連續(xù)和數(shù)據(jù)維度不高的情況下,正態(tài)分布下的線性判別和二次判別等方法是兩個(gè)十分典型的方法。第二種是條件依賴關(guān)系估計(jì)法,針對(duì)數(shù)據(jù)變量是離散的而且維數(shù)較高的情況。如果變量之間存在少量的條件依賴關(guān)系,則利用條件依賴關(guān)系估計(jì)法進(jìn)行分析可以獲得高質(zhì)量的估計(jì)結(jié)果,這種方法還可以用于分析變
43、量之間的邏輯依賴關(guān)系。上面所說的兩種方法或可稱為樸素貝葉斯方法和貝葉斯網(wǎng)絡(luò)方法。[15]</p><p><b> 圖模型</b></p><p> 圖模型(Graphic Models)用于刻畫復(fù)雜數(shù)據(jù)系統(tǒng)中多個(gè)變量或不同的觀測(cè)數(shù)據(jù)之間地關(guān)系,是提取高維數(shù)據(jù)的結(jié)構(gòu)信息的重要工具。圖模型的基本思想是通過揭示高維隨機(jī)變量的相互依存關(guān)系刻畫變量之間的條件獨(dú)立性。在統(tǒng)計(jì)
44、學(xué)中,圖模型實(shí)質(zhì)上就是用節(jié)點(diǎn)表示隨機(jī)變量和用弧表示條件獨(dú)立假設(shè)的圖。[16] 目前,圖模型發(fā)展較快的主要有兩個(gè)分支,一個(gè)是基于似然函數(shù)的懲罰算法,另一類是基于回歸技術(shù)的算法。</p><p> 1)、Graphical LASSO算法</p><p> Graphical LASSO算法是弗里德曼(Friedman)于2007年提出的,是在似然函數(shù)上增加懲罰算法進(jìn)行圖模型估計(jì)的方法。這
45、種算法使用最速下降的方法,速度較快。</p><p><b> 2)、MB算法</b></p><p> MB算法是一種典型的回歸算法。這種算法將圖模型視為是由每個(gè)頂點(diǎn)對(duì)其他頂點(diǎn)做鄰域選擇時(shí)所產(chǎn)生的鏈接圖的疊加。于是,在MB算法中,每個(gè)頂點(diǎn)所占的比例相同,保證了各個(gè)頂點(diǎn)可以選擇相同數(shù)量的與之連通的邊。MB算法實(shí)質(zhì)上是從每個(gè)頂點(diǎn)最低鏈接需要的角度描述圖的一種方式。&
46、lt;/p><p> 3)、SPACE算法</p><p> SPACE算法是另一種典型的回歸算法。該算法將稀疏圖看成是對(duì)頂點(diǎn)實(shí)施不等權(quán)重影響導(dǎo)致的相對(duì)組合的一般形式。而其中的權(quán)重由一個(gè)頂點(diǎn)的輻射強(qiáng)度在所有頂點(diǎn)輻射強(qiáng)度分布中的位置決定,一個(gè)頂點(diǎn)的輻射強(qiáng)度是該頂點(diǎn)對(duì)其他頂點(diǎn)的偏相關(guān)系數(shù)之和,而輻射強(qiáng)度分布是所有頂點(diǎn)輻射強(qiáng)度的分布。如果一個(gè)頂點(diǎn)的輻射強(qiáng)度較大,則該頂點(diǎn)分配較大的權(quán)重,進(jìn)一步可允
47、許該頂點(diǎn)選擇更多邊與之連通。反之,如果一個(gè)的輻射強(qiáng)度較小,則該頂點(diǎn)分配較小的權(quán)重,并限制該頂點(diǎn)選擇與更多邊連通。</p><p> 大數(shù)據(jù)的可能應(yīng)用舉例</p><p><b> 客戶關(guān)系管理</b></p><p><b> 1)、協(xié)同推薦模型</b></p><p> 伴隨著互聯(lián)網(wǎng)和電子
48、商務(wù)的發(fā)展,數(shù)據(jù)及信息的體量已經(jīng)遠(yuǎn)遠(yuǎn)超出人們的處理能力。及時(shí)為客戶過濾不必要的項(xiàng)目是實(shí)現(xiàn)異構(gòu)管理,有效利用網(wǎng)絡(luò)數(shù)據(jù)資源,提升整體數(shù)據(jù)處理性能的重要措施。推薦系統(tǒng)就是一門專門面向客戶的網(wǎng)絡(luò)數(shù)據(jù)過濾技術(shù),并向客戶推薦適合的項(xiàng)目。系統(tǒng)的核心就是推薦算法,主要有以下三種:</p><p> 人口統(tǒng)計(jì)學(xué)的推薦(Demographic-based Recommendation)</p><p>
49、即根據(jù)系統(tǒng)客戶的基本信息發(fā)現(xiàn)客戶的相關(guān)程度。具體方法是對(duì)所有客戶建立人口統(tǒng)計(jì)學(xué)(性別、年齡、職業(yè)等)的數(shù)據(jù)檔案。例如尋找與甲客戶的人口統(tǒng)計(jì)學(xué)特征相似的乙客戶,由于甲、乙客戶具有相同的人口統(tǒng)計(jì)學(xué)的特征,而認(rèn)為甲、乙客戶具有較高的關(guān)聯(lián)度。于是,可將乙客戶偏好的項(xiàng)目推薦給甲客戶。這類推薦算法的優(yōu)點(diǎn)是適用于冷啟動(dòng)問題,不足是推薦的精準(zhǔn)度不高,因?yàn)閮H僅在人口統(tǒng)計(jì)學(xué)的特征上給出推薦,而人口統(tǒng)計(jì)學(xué)的資料很難體現(xiàn)客戶在項(xiàng)目需求上的差異。</p&g
50、t;<p> 基于內(nèi)容的推薦(Content-based Recommendation)</p><p> 即根據(jù)所推薦項(xiàng)目的元數(shù)據(jù),發(fā)現(xiàn)項(xiàng)目或者數(shù)據(jù)內(nèi)容的相關(guān)性。例如甲項(xiàng)目的類型是“戶外用品”,乙項(xiàng)目的類型也是“戶外用品”,這兩種項(xiàng)目具有相似性。如果某客戶對(duì)甲項(xiàng)目產(chǎn)生興趣,那么系統(tǒng)就會(huì)對(duì)其推薦乙項(xiàng)目。這種推薦算法需要對(duì)項(xiàng)目?jī)?nèi)的數(shù)據(jù)進(jìn)行分析和建模,推薦的質(zhì)量依賴于對(duì)項(xiàng)目描述的完整程度。一般應(yīng)用中
51、觀察到的關(guān)鍵詞和標(biāo)簽是描述項(xiàng)目元數(shù)據(jù)的簡(jiǎn)單而有效的方法。不足之處在于項(xiàng)目相似度的分析僅僅取決于項(xiàng)目本身的特征,未涉及客戶個(gè)體差異對(duì)項(xiàng)目的態(tài)度。</p><p> 協(xié)同過濾的推薦(Collaborative Filtering Recommendation)</p><p> 與傳統(tǒng)的人口統(tǒng)計(jì)學(xué)和基于內(nèi)容的過濾直接分析內(nèi)容進(jìn)行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似興
52、趣用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)。協(xié)同過濾主要解決了傳統(tǒng)算法在數(shù)據(jù)的稀缺性和項(xiàng)目數(shù)量較多的情況下的推薦項(xiàng)目問題。協(xié)同過濾推薦系統(tǒng)處理的數(shù)據(jù)問題包含兩方面的變量——用戶和選擇條目,推薦的目標(biāo)是預(yù)測(cè)用戶對(duì)某些位置條目的評(píng)價(jià)。1992年,戈德堡(Goldberg)實(shí)現(xiàn)了第一個(gè)協(xié)同過濾推薦系統(tǒng),戈德堡利用辦公伙伴等與被推薦人有密切生活接觸的人進(jìn)行相似性推薦?,F(xiàn)在,協(xié)同過濾推薦在信息過濾和電子商
53、務(wù)行業(yè)得到了廣泛應(yīng)用,包括推薦書籍、酒店、電影、商業(yè)網(wǎng)站等。例如AMAZON網(wǎng)上書店提供非常先進(jìn)的個(gè)性化推薦功能,能為不同興趣愛好的用戶自動(dòng)推薦盡量符合其興趣需要的書籍。具體來說, AMAZON網(wǎng)上書店使用協(xié)同過濾推薦算法對(duì)讀者曾經(jīng)購買過的書籍以及該讀者對(duì)其他書籍的評(píng)價(jià)進(jìn)行分析后,將向讀者推薦他可能喜歡的新書。而且讀者的信息將被再次保存,這樣顧客下次再來時(shí)就能更容易的買到想要的書籍。[17]</p><p>&l
54、t;b> 2)、客戶價(jià)值模型</b></p><p> 客戶價(jià)值是衡量企業(yè)商業(yè)實(shí)力的重要標(biāo)志,是發(fā)展客戶關(guān)系和提高市場(chǎng)競(jìng)爭(zhēng)力的基礎(chǔ)。而隨著企業(yè)數(shù)據(jù)收集和分析系統(tǒng)越來越強(qiáng)大,預(yù)測(cè)、識(shí)別和開發(fā)一位客戶的終生價(jià)值的數(shù)據(jù)模型就稱為了一個(gè)十分重要的課題。</p><p> 與之相關(guān)的問題是怎樣用數(shù)據(jù)衡量客戶的價(jià)值。德懷爾(Dwyer)提出了一種系統(tǒng)模型計(jì)算客戶價(jià)值。德懷爾將客
55、戶流失預(yù)測(cè)引入到客戶價(jià)值分類模型中,并將客戶劃分為永久流失和暫時(shí)流失兩部分。伯杰(Berger)和納斯?fàn)枺∟asr)更進(jìn)一步將客戶按照流失劃分為5類,并可以實(shí)現(xiàn)對(duì)每一類客戶價(jià)值的計(jì)算。而休斯(Hughes)提出了基于行為變量的客戶價(jià)值直接計(jì)算方法,這種方法使用3種指標(biāo)——最近購買時(shí)間、購買頻次和購買金額來分析客戶的價(jià)值。以上三種指標(biāo)是企業(yè)交易數(shù)據(jù)庫都可以提取的信息。</p><p><b> 社會(huì)網(wǎng)絡(luò)
56、分析</b></p><p> 社會(huì)是一個(gè)十分復(fù)雜的系統(tǒng),社會(huì)中的成員通過特定的關(guān)系形成一些團(tuán)體,這些團(tuán)體的存在形式、組成機(jī)理和影響關(guān)系是社會(huì)學(xué)關(guān)注的焦點(diǎn)。社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis)是觀察社會(huì)關(guān)系和社會(huì)結(jié)構(gòu)的研究方法。社會(huì)網(wǎng)絡(luò)可以理解為社會(huì)群體之間的關(guān)系。</p><p> 社會(huì)網(wǎng)絡(luò)可分為兩類。一類是接觸型社會(huì)網(wǎng)絡(luò),適用于比較封閉的系統(tǒng),
57、具有總體數(shù)據(jù)量較小的特點(diǎn),比如學(xué)校師生網(wǎng)絡(luò)、公司董事網(wǎng)絡(luò)等。另一類是通信類社會(huì)網(wǎng)絡(luò),具有總體數(shù)據(jù)量較大,關(guān)系不固定等特點(diǎn),比如手機(jī)電話網(wǎng)絡(luò)、微博、論壇等。接觸類社會(huì)網(wǎng)絡(luò)中群體的關(guān)系往往是預(yù)設(shè)的,而在通信類社會(huì)網(wǎng)絡(luò)中,使我們感興趣的常常不是預(yù)設(shè)的關(guān)系。但整體上說,這些關(guān)系都和網(wǎng)絡(luò)的功能有密切關(guān)系。</p><p><b> 1)、社群挖掘算法</b></p><p>
58、 網(wǎng)絡(luò)社群是指社會(huì)網(wǎng)絡(luò)中內(nèi)部之間相互連接緊密,而與外部其他節(jié)點(diǎn)連接稀疏的一組節(jié)點(diǎn)。社會(huì)網(wǎng)絡(luò)的研究重點(diǎn)就是認(rèn)識(shí)和揭示網(wǎng)絡(luò)特征,了解社群結(jié)構(gòu)。目前,有大量的社群挖掘算法被提出。根據(jù)聚類的方式,社群挖掘算法大致上可以分為三類:層次聚類算法、最優(yōu)化算法、塊模型算法。</p><p><b> 層次聚類算法:</b></p><p> 層次聚類算法的特點(diǎn)是需要計(jì)算節(jié)點(diǎn)之間
59、的相似度。在得到了節(jié)點(diǎn)之間的相似度矩陣之后,就可利用常見的聚類算法對(duì)節(jié)點(diǎn)進(jìn)行聚類。</p><p><b> 最優(yōu)化算法:</b></p><p> 最優(yōu)化算法通過對(duì)社群質(zhì)量的最優(yōu)化達(dá)到社群挖掘的目的,比較常見的方法是基于模塊值的算法。模塊值為社會(huì)網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)的邊所占的比例與另外一個(gè)隨機(jī)網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)的邊所占比例的期望值相減得到的差值。這
60、個(gè)隨機(jī)網(wǎng)絡(luò)的構(gòu)造方式為保持每個(gè)節(jié)點(diǎn)的社團(tuán)屬性不變,節(jié)點(diǎn)間的邊根據(jù)節(jié)點(diǎn)的中心度隨機(jī)連接。</p><p><b> 塊模型算法:</b></p><p> 塊模型算法是通過假設(shè)社會(huì)網(wǎng)絡(luò)滿足某種統(tǒng)計(jì)分布,例如可假設(shè)在任意兩點(diǎn)之間的邊數(shù)服從泊松分布,進(jìn)而通過極大似然方法的到網(wǎng)絡(luò)的社群結(jié)構(gòu)。</p><p><b> 2)、模型評(píng)價(jià)&l
61、t;/b></p><p> 模型的評(píng)價(jià)有很多方式,例如來源于信息理論的歸一互化信息(Normalized Mutual Information,NMI),數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域的校正隨機(jī)指數(shù)(Adjusted Rand Index)等,其中歸一互化信息在社群挖掘算法的評(píng)價(jià)中較為普遍。</p><p> 自然語言模型和文本挖掘</p><p> 早期的自
62、然語言處理系統(tǒng)主要依靠語言學(xué)家撰寫規(guī)則,機(jī)器編譯規(guī)則,這種方法在大量知識(shí)面前顯得既費(fèi)時(shí)又費(fèi)力,而且不能及時(shí)更新,各種語言之間彼此獨(dú)立,無法兼顧不同語言的特點(diǎn)。20世紀(jì)80年代后期,計(jì)算性能大幅提高,機(jī)器學(xué)習(xí)算法被引入到自然語言模型的處理中,這種方法采用大規(guī)模的訓(xùn)練語料數(shù)據(jù)對(duì)模型的參數(shù)進(jìn)行自動(dòng)的學(xué)習(xí),和之前的基于規(guī)則的方法相比,更具有穩(wěn)定性,已經(jīng)廣泛用于文本分類和機(jī)器學(xué)習(xí)等問題。如今,即便是語言學(xué)家也必須利用語料庫提供的證據(jù)和實(shí)例。例如,
63、夸克(Quirk)等編著的《英語語法大全》就利用了語料庫中的數(shù)據(jù)。</p><p> 數(shù)據(jù)統(tǒng)計(jì)語言模型的發(fā)展也刺激了文本挖掘的發(fā)展。文本挖掘是以計(jì)算語言學(xué)、數(shù)理統(tǒng)計(jì)分析為理論基礎(chǔ),結(jié)合機(jī)器學(xué)習(xí)和信息檢索技術(shù),從文本數(shù)據(jù)中發(fā)現(xiàn)和提取獨(dú)立于用戶信息需求的文本集中的隱含知識(shí)。</p><p> 一般來說,文本挖掘利用文本切分技術(shù),抽取文本特征,并利用數(shù)據(jù)特征降維等技術(shù)將文本數(shù)據(jù)轉(zhuǎn)換為能夠描述
64、文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),進(jìn)一步可形成結(jié)構(gòu)化模型表示樹,從中提取出穩(wěn)定結(jié)構(gòu),便可獲取其中的知識(shí)表示關(guān)系。目前,文本挖掘中的語言模型經(jīng)歷了4個(gè)發(fā)展階段:向量空間及統(tǒng)計(jì)語言模型、潛語義分析(LAS)、基于頻率的模型到主題模型的發(fā)展階段。[18]</p><p><b> 【參考文獻(xiàn)】:</b></p><p> [1] (英)維克托·邁爾·舍恩伯格,肯
65、尼思·庫克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [2] (英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [3] 王星 等. 大數(shù)據(jù)分析:方法與應(yīng)用. 北京:清華
66、大學(xué)出版社,2013.</p><p> [4] (英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [5]http://www.bing.com/knows/search?q=%e5%a4%a7%e6%95%b0%e6%8d%ae&mkt=z
67、h-cn&FORM=BKACAI</p><p> [6] 王星 等. 大數(shù)據(jù)分析:方法與應(yīng)用. 北京:清華大學(xué)出版社,2013.</p><p> [7] (英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [8]
68、(英)維克托·邁爾·舍恩伯格,肯尼思·庫克耶. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革. 周濤,盛楊燕譯. 浙江:浙江人民出版社,2012.</p><p> [9] Ethem Alpaydim. 機(jī)器學(xué)習(xí)引論. 北京:機(jī)械工業(yè)出版社,2009.</p><p> [10] 王星 等. 大數(shù)據(jù)分析:方法與應(yīng)用. 北京:清華大學(xué)出版社,2013.</p
69、><p> [11] 王星 等. 大數(shù)據(jù)分析:方法與應(yīng)用. 北京:清華大學(xué)出版社,2013.</p><p> [12] 王星 等. 大數(shù)據(jù)分析:方法與應(yīng)用. 北京:清華大學(xué)出版社,2013.</p><p> [13]http://baike.baidu.com/link?url=ukKbp64aCvRHvC-guknASzF9SAu8Nd1kkfknxxDbQ
70、88feeP6m3kqrQ6z93wZg0Og7BDmplJvUvsYcthLtIjKuq</p><p> [14] http://baike.baidu.com/view/3810699.htm</p><p> [15] 張連文,郭海鵬. 貝葉斯網(wǎng)絡(luò)引論. 北京:科學(xué)出版社,2006. </p><p> [16] http://blog.science
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大數(shù)據(jù)的研究方法及可能應(yīng)用—王磊
- 大數(shù)據(jù)的研究方法及可能應(yīng)用—王磊
- 大數(shù)據(jù)關(guān)鍵技術(shù)_王秀磊.pdf
- 基于大數(shù)據(jù)的廣告推薦方法研究及應(yīng)用.pdf
- 大數(shù)據(jù)時(shí)代教育的可能轉(zhuǎn)向
- 大數(shù)據(jù)應(yīng)用的需求分析方法
- 大數(shù)據(jù)應(yīng)用的需求分析方法
- 智能電網(wǎng)大數(shù)據(jù)融合方法研究及應(yīng)用.pdf
- 物流信息大數(shù)據(jù)分析方法研究及應(yīng)用.pdf
- 大數(shù)據(jù)大數(shù)據(jù)的實(shí)際應(yīng)用
- 徐磊大用戶大信息大數(shù)據(jù)-_0
- 基于大數(shù)據(jù)的多尺度狀態(tài)監(jiān)測(cè)方法及應(yīng)用.pdf
- 大數(shù)據(jù)融合及應(yīng)用經(jīng)典
- 大數(shù)據(jù)技術(shù)及應(yīng)用培訓(xùn)
- 大數(shù)據(jù)技術(shù)原理及應(yīng)用
- 大數(shù)據(jù)指數(shù)的編制方法與應(yīng)用研究.pdf
- 基于大數(shù)據(jù)應(yīng)用的商業(yè)設(shè)施優(yōu)化方法研究.pdf
- 王陽大數(shù)據(jù)從智能出發(fā)
- 大數(shù)據(jù)在醫(yī)療衛(wèi)生中的應(yīng)用前景_王瀟.pdf
- 基于Hadoop平臺(tái)的大數(shù)據(jù)遷移與查詢方法研究及應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論