版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,各大IT公司紛紛推出自己的云計算平臺,并把云計算作為未來重要的發(fā)展戰(zhàn)略之一。伴隨著數(shù)據(jù)量的爆炸式增長,由于單臺機器不可能完成海量數(shù)據(jù)存儲和計算性能要求,如何構(gòu)建分布式集群系統(tǒng)來處理海量數(shù)據(jù),是云計算所面臨的主要挑戰(zhàn)之一。而由Apache軟件基金會開發(fā)和推出的Hadoop,由于其高可用性,高可擴展性和高容錯性,已經(jīng)是目前云計算平臺的主流。其中充分利用了集群的存儲和高速計算,Hadoop框架實現(xiàn)了一個分布式文件系統(tǒng)(H
2、adoop Distributed File System),簡稱HDFS,以及一個基于MapReduce的并行編程模型。但由于其發(fā)展時間還不長,還有很多地方值得進一步的深入研究和改進。
HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供搞吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。Hadoop MapReduce是一個使用簡易的編程模型,基于它寫出來的應(yīng)用程序能夠運行在由成千上萬個商用機器組成的大
3、型集群上,并以一種可靠容錯的方式并行處理上T級別的數(shù)據(jù)集。本文對Hadoop平臺下的HDFS和MapReduce分別進行了深入研究和實踐。
本文通過具體分析了HDFS的架構(gòu)設(shè)計,并對HDFS中的NameNode,DataNode,HDFS讀寫文件以及HDFS中RPC(Remote Procedure Call)機制都做了詳細介紹。而為了提升Hadoop平臺的啟動速度,主要指NameNode的啟動,本文對NameNode進行
4、優(yōu)化。NameNode啟動分為兩個階段:FsImage加載和BlockReport階段。而在FsImage加載階段,本文通過修改NameNode源代碼,使用多線程替代單線程并行讀寫NameNode數(shù)據(jù)持久化目錄以達到提升NameNode的啟動速度。
在Hadoop分布式計算平臺中,如何優(yōu)化MapReduce計算性能也是目前研究的一個熱點問題。除了編寫高性能的Map和Reduce函數(shù),主要從優(yōu)化系統(tǒng)框架方面提升運算性能。本文
5、通過詳細介紹MapReduce編程框架,并具體分析了MapReduce中Shuffle階段流程。分別從Map端數(shù)據(jù)壓縮,重構(gòu)遠程數(shù)據(jù)拷貝傳輸協(xié)議,Reduce端內(nèi)存分配優(yōu)化三方面來優(yōu)化和重構(gòu)Shuffle。
最后根據(jù)本文所做的研究工作,搭建了一個小型Hadoop集群,實現(xiàn)了基于WEB日志的分析系統(tǒng)(其中數(shù)據(jù)來源于搜狗實驗室提供的用戶搜索引擎查詢?nèi)罩編?,主要分析用戶每天搜索的時間段熱度。并通過對優(yōu)化前后的Hadoop版本搭
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Hadoop集群調(diào)度優(yōu)化的研究.pdf
- 基于Hadoop集群的節(jié)能優(yōu)化技術(shù)研究.pdf
- Hadoop集群性能優(yōu)化研究.pdf
- Hadoop集群監(jiān)控系統(tǒng)的研究與應(yīng)用.pdf
- 基于Hadoop的MapReduce計算模型優(yōu)化與應(yīng)用研究.pdf
- Hadoop集群系統(tǒng)性能優(yōu)化的研究.pdf
- MapReduce模型在Hadoop中的性能優(yōu)化應(yīng)用研究.pdf
- Hadoop海量小文件處理技術(shù)的應(yīng)用研究.pdf
- Hadoop小文件處理技術(shù)的研究與優(yōu)化.pdf
- 基于Hadoop的交通數(shù)據(jù)清洗研究與應(yīng)用研究.pdf
- hadoop集群作業(yè)的調(diào)度研究
- 面向多磁盤集群的Hadoop系統(tǒng)I-O優(yōu)化研究.pdf
- 基于Hadoop的云計算應(yīng)用研究.pdf
- Hadoop集群監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn).pdf
- Hadoop集群下海量小文件優(yōu)化處理.pdf
- Hadoop中小文件處理技術(shù)的研究與優(yōu)化.pdf
- Hadoop集群環(huán)境下調(diào)度算法的研究與改進.pdf
- 高性能計算集群技術(shù)應(yīng)用研究.pdf
- 基于集群計算的免疫優(yōu)化算法及其應(yīng)用研究.pdf
- 基于Hadoop平臺的DBSCAN算法應(yīng)用研究.pdf
評論
0/150
提交評論