版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于Hadoop數(shù)據(jù)挖掘算法研究,導(dǎo)師:王靜宇 學(xué)生:盧勝宇,Cloud Computing,1,2,3,課題的背景,基于Hadoop平臺(tái)的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實(shí)驗(yàn)與結(jié)果分析,相關(guān)概念,Cloud Computing,課題背景,聚類算法及其分類Kmeans算法Canopy算法HadoopMapReduce,Cloud Computing,聚類算法及其分類,聚類是對點(diǎn)
2、進(jìn)行考察并按照某種距離測度將它們聚成多個(gè)“簇”的過程。聚類的目標(biāo)是使得同一簇內(nèi)的點(diǎn)之間距離比較短,而不同簇中點(diǎn)之間距離較大。,課題背景,Cloud Computing,課題背景,,聚類主要包括以下幾個(gè)過程:數(shù)據(jù)準(zhǔn)備、特征選擇、提出、特征提取、聚類、聚類結(jié)果驗(yàn)證。動(dòng)態(tài)的聚類過程步驟如下所示:,Cloud Computing,課題背景,Canopy 算法是 McCallum提出的一種簡單、快速、但不太準(zhǔn)確的聚類方法,是專門應(yīng)對高維海量數(shù)據(jù)
3、源的一種新型聚類算法。算法的思路是:首先在計(jì)算數(shù)據(jù)樣本距離時(shí)采用算法復(fù)雜度低的距離度量(metric distance),把樣本數(shù)據(jù)集劃分為一些部分重疊的子集,這種子集稱之為華蓋(canopies)。然后,在傳統(tǒng)聚類中,比如 k 均值,應(yīng)用復(fù)雜度高的度量距離,進(jìn)一步計(jì)算,從而使得高維海量數(shù)據(jù)源聚類難題易于實(shí)現(xiàn)。,K-Means算法是由 MacQueen 提出來的,該算法思想簡單,實(shí)現(xiàn)相對容易,在多個(gè)學(xué)科里面都有廣泛應(yīng)用。它是聚類算法中最
4、常見的劃分方法,所謂的劃分方法就是給定一個(gè)包含 n 個(gè)數(shù)據(jù)對象的數(shù)據(jù)集,將數(shù)據(jù)集劃分為 k 個(gè)子集,其中每個(gè)子集均代表一個(gè)聚類,同一聚類中的對象相似度較高,而不同聚類中的對象相似度較小。,Cloud Computing,Hadoop平臺(tái),Hadoop是Apache旗下開源的分布式計(jì)算框架,可編寫以及可運(yùn)行分布式應(yīng)用來處理大規(guī)模數(shù)據(jù)。Hadoop框架最核心組成部分就是HDFS(Hadoop Distributed File System)
5、和MapReduce。,課題背景,Cloud Computing,課題背景,,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念Map(映射)和Reduce(歸約),是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。 當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值
6、對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個(gè)共享相同的鍵組。,MapReduce,為什么選擇基于Hadoop平臺(tái)的Canopy-Kmeans并行算法?,Cloud Computing,課題背景,Cloud Computing,1.隨著大數(shù)據(jù)時(shí)代的到來,同時(shí)硬件的提升也越來越困難,導(dǎo)致現(xiàn)在我們在單機(jī)下處理大規(guī)模數(shù)據(jù)遇到了前所未有的阻力和難度。2.傳統(tǒng)的K-means算法在處理海量數(shù)據(jù)時(shí)效率低下、聚類質(zhì)量差等
7、弊端日益顯露出來,其時(shí)間復(fù)雜度較高且處理數(shù)據(jù)的能力存在局限性也尤為突出。3.基于Hadoop平臺(tái)的CK-means并行算法,該算法采用canopy算法改善K-means算法在確定初始聚類中心的盲目性,采用并行計(jì)算框架對算法并行擴(kuò)展,使之能夠適應(yīng)對海量數(shù)據(jù)處理。,課題背景,1,2,3,課題的背景,基于Hadoop平臺(tái)的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實(shí)驗(yàn)與結(jié)果分析,Cloud Compu
8、ting,算法的基本思想,CK-means算法是對K-means算法的一種優(yōu)化,算法的思想為:采用基于余弦距離度量方式的canopy聚類算法對數(shù)據(jù)集初始中心點(diǎn)進(jìn)行優(yōu)化,canopy聚類算法利用MapReduce計(jì)算模式實(shí)現(xiàn)并行計(jì)算運(yùn)行,經(jīng)過Map和Reduce階段得到全局的canopy中心集合,在對數(shù)據(jù)集進(jìn)行精確聚類之前,還需要利用上面獲取的全局canopy中心集合對數(shù)據(jù)集進(jìn)行粗糙聚類,生成多個(gè)互相重疊的canopy聚類集合,這一系列的
9、工作為下一步K-means精確聚類奠定基礎(chǔ)。,算法流程,Canopy中心點(diǎn)生成,得到穩(wěn)定的聚類,結(jié)束,Canopy粗糙聚類生成,中心點(diǎn)標(biāo)注,新中心點(diǎn)生成,聚類結(jié)果生成,開始,,,,,,,,Cloud Computing,,,Cloud Computing,Canopy—Kmeans算法并行實(shí)現(xiàn),根據(jù)前面的Canopy_Kmeans算法并行流程圖,我們將整個(gè)過程設(shè)計(jì)成了兩個(gè)MapReduce階段,第一階段執(zhí)行Canopy算法,第二階段
10、執(zhí)行Kmeans算法。,第一階段Canopy算法的MapReduce實(shí)現(xiàn),實(shí)現(xiàn)Canopy算法包括三個(gè)MR,即三個(gè)Job,可以描述為下面2個(gè)步驟:(1)Job1:將輸入數(shù)據(jù)處理為Canopy算法可以使用的輸入格式。(2)Job2:每個(gè)Mapper針對自己的輸入執(zhí)行Canopy聚類,輸出每個(gè)Canopy的中心向量。(3)Job2:每個(gè)Reducer接收Mapper的中心向量,并加以整合以計(jì)算最后的Canopy的中心向量。(4)Jo
11、b3:根據(jù)Job2的中心向量來對原始數(shù)據(jù)進(jìn)行分類。,,Cloud Computing,第二階段Kmeans算法的MapReduce實(shí)現(xiàn),Kmeans算法利用上一階段的生成的簇中心向量列表,對數(shù)據(jù)對象集合進(jìn)行劃分其主要的MapReduce編程模型包括了Map、Combine和Reduce三個(gè)階段。,Map階段,輸入依然是各個(gè)數(shù)據(jù)塊集合,輸入格式為,,,Combine階段,,Combine函數(shù)用于合并Map結(jié)果中相同的key2的鍵值對,輸入
12、是Map的輸出m,key3依然還是簇類向量標(biāo)識符,value3為相同key3的所有向量組合和這些向量的數(shù)目。,,Reduce階段,,處理屬于同一簇的所有數(shù)據(jù)對象向量,并重新生成新的簇類中心向量,其輸入輸出均是鍵值對形式,輸入信息是各個(gè)子節(jié)點(diǎn)的combine結(jié)果,輸出信息是簇類標(biāo)識符和新的簇類中,,1,2,3,課題的背景,基于Hadoop平臺(tái)的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實(shí)驗(yàn)與結(jié)果分析
13、,,Cloud Computing,實(shí)驗(yàn)平臺(tái)的搭建,由于實(shí)驗(yàn)條件有限,本實(shí)驗(yàn)平臺(tái)集群共4臺(tái)計(jì)算機(jī),搭建4個(gè)節(jié)點(diǎn),服務(wù)器的配置如下表所示:,服務(wù)器的網(wǎng)絡(luò)配置如下,操作系統(tǒng):CentOS 6JDK 版本:1.7Hadoop版本:2.5.2Mahout版本:0.10.1,Cloud Computing,軟件環(huán)境,搭建Hadoop集群,Hadoop部署情況:,,Cloud Computing,啟動(dòng)集群和Mahout,Web UI查看集群是
14、否啟動(dòng)成功,在Master節(jié)點(diǎn)上啟動(dòng)Firefox瀏覽器,在瀏覽器地址欄輸入http://master:50070/,檢查namenode和datanode是否啟動(dòng)正常。啟動(dòng)正常的UI頁面如圖2.10所示:,當(dāng)Hadoop平臺(tái)正常啟動(dòng)后,然后啟動(dòng)Mahout,,Cloud Computing,實(shí)驗(yàn)過程,,首先要準(zhǔn)備數(shù)據(jù),本實(shí)驗(yàn)運(yùn)用的數(shù)據(jù)是在網(wǎng)站:http://archive.ics.uci.edu/ml/databases/synth
15、etic_control/synthetic_control.data中下載相應(yīng)數(shù)據(jù)synthetic_control.data。測試數(shù)據(jù)是由Dr Robert Alcock在1999年利用程序合成的600個(gè)樣本的控制圖數(shù)據(jù)。每個(gè)樣本包括60個(gè)屬性列,一共可以分為6類,分別為:正常(C)、循環(huán)(B)、上升趨勢(E)、下降趨勢(A)、向上移位(D)、向下移位(F)。首先上傳該文本數(shù)據(jù)到HDFS。上傳后在文件系統(tǒng)監(jiān)控界面查看此文件。,,Cl
16、oud Computing,分別執(zhí)行Canopy算法和Kmeans算法,,Cloud Computing,實(shí)驗(yàn)結(jié)果分析,并行算法收斂曲線圖,算法加速比分析,,Cloud Computing,算法可擴(kuò)展性分析,1,2,3,課題的背景,基于Hadoop平臺(tái)的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實(shí)驗(yàn)與結(jié)果分析,課題總結(jié)——已完成的工作,針對傳統(tǒng)的串行K-means聚類算法在處理海量數(shù)據(jù)時(shí)出現(xiàn)性能及
17、初始聚類中心敏感等問題,提出了一種基于Hadoop平臺(tái)的并行CK-means聚類算法,該算法采用Canopy算法和余弦相似度度量來改善K-means算法在確定初始聚類中心的盲目性,采用并行計(jì)算框架對算法并行擴(kuò)展,使之能夠適應(yīng)海量數(shù)據(jù)處理。實(shí)驗(yàn)結(jié)果表明提出的基于Hadoop 平臺(tái)的CK-means并行算法具有更好的聚類質(zhì)量,在處理海量數(shù)據(jù)時(shí)具有良好的加速比和擴(kuò)展性。,課題總結(jié)——已完成的工作,本文的主要工作有:,(1)針對傳統(tǒng)的串行K-m
18、eans聚類算法在處理海量數(shù)據(jù)時(shí)出現(xiàn)性能及初始聚類中心敏感等問題,提出了一種基于Hadoop平臺(tái)的并行CK-means聚類算法。(2)通過利用代價(jià)低的余弦相似性度量方式的Canopy算法快速獲取聚類中心作為K-means并行算法的初始聚類中心,加快K-means算法的收斂速度。(3)該算法對原始數(shù)據(jù)使用基于余弦相似度度量方式的Canopy算法進(jìn)行聚類和覆蓋劃分,使得并行K-means算法進(jìn)行精確聚類時(shí)不需要計(jì)算不處于同一個(gè)C
19、anopy的點(diǎn)之間的距離,這在很大程度上減少計(jì)算量。(4)實(shí)驗(yàn)驗(yàn)證所提出的CK-means算法的聚類質(zhì)量、加速比和擴(kuò)展性。,研究進(jìn)度—存在的問題,雖然在搭建好的Hadoop平臺(tái)上對本文提出的一種基于Hadoop平臺(tái)的CKmeans算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,但實(shí)驗(yàn)數(shù)據(jù)單一,并且由于條件有限,adoop平臺(tái)下處理數(shù)據(jù)的結(jié)點(diǎn)較少,這也造成了該算法在不同量的結(jié)點(diǎn)上得出的結(jié)論,且本實(shí)驗(yàn)沒有在單機(jī)模式下也就是看kmeans串行算法進(jìn)行對比實(shí)驗(yàn),這也將是
20、論文下一步的工作重點(diǎn)。,課題總結(jié)——下一步改進(jìn)計(jì)劃,(1)繼續(xù)對Hadoop平臺(tái)的相關(guān)技術(shù)進(jìn)行研究,對Hadoop中的HDFS分布式存儲(chǔ)系統(tǒng)與MapReduce編程模式做進(jìn)一步研究。(2)繼續(xù)完善實(shí)驗(yàn)平臺(tái),由于實(shí)驗(yàn)室結(jié)點(diǎn)有限,以后要盡量選擇多的節(jié)點(diǎn)對本文提出的算法進(jìn)行并行實(shí)驗(yàn),并選擇不同數(shù)據(jù)集對本文提出的算法驗(yàn)證。,期刊論文發(fā)表情況(已見刊),盧勝宇,王靜宇,張曉琳,高俊峰.基于Hadoop平臺(tái)的K-means聚類算法優(yōu)化研究[J].
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 碩士研究生論文答辯秘書用
- 碩士研究生畢業(yè)學(xué)位論文答辯記錄
- 碩士研究生學(xué)位論文答辯評分表
- 碩士研究生論文答辯及學(xué)位申請
- 2008年碩士研究生學(xué)位論文答辯安排
- 碩士研究生學(xué)位論文答辯孫世元
- 碩士研究生結(jié)業(yè)論文答辯資格審查表
- 碩士研究生畢業(yè)論文答辯資格審查表
- 碩士研究生論文答辯上交材料明細(xì)表
- 2015屆碩士研究生論文答辯安排表
- 碩士研究生畢業(yè)論文答辯資格審查表
- 2016年碩士研究生畢業(yè)論文答辯ppt超贊動(dòng)畫效果
- 2018年碩士研究生學(xué)位論文答辯流程春季學(xué)期
- 2018屆mba碩士研究生畢業(yè)論文答辯安排
- 碩士研究生論文答辯及學(xué)位申請------工作手冊
- 碩士研究生學(xué)位論文答辯委員會(huì)決議模板
- 公共管理mpa專業(yè)碩士研究生畢業(yè)論文答辯安排
- 公共管理mpa專業(yè)碩士研究生畢業(yè)論文答辯安排
- 計(jì)量學(xué)院2004級碩士研究生學(xué)位論文答辯會(huì)
- 公共管理mpa專業(yè)碩士研究生畢業(yè)論文答辯安排
評論
0/150
提交評論