MapReduce模型下數(shù)據(jù)本地性負載平衡策略研究.pdf_第1頁
已閱讀1頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著社會的發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)信息處于爆炸式的增長狀態(tài),每天互聯(lián)網(wǎng)中都會產(chǎn)生海量的數(shù)據(jù)??梢韵胂螅院笕藗兯媾R的數(shù)據(jù)規(guī)模會越來越巨大。從這些巨大的數(shù)據(jù)中如何能夠快速高效地尋找到有價值的數(shù)據(jù)資源變得越來越重要。正是在這樣的背景下,云計算這個新型的數(shù)據(jù)處理技術正在快速的發(fā)展。
  MapReduce是云計算技術中的一種并行處理大規(guī)模數(shù)據(jù)的處理模型,它具有簡單易用、高可擴展性和高容錯性的特點,因此被廣泛應用于云計算領域。Hadoop平

2、臺是MapReduce編程模型一個具體的應用,目前許多公司和高校都采用它開發(fā)和研究云計算技術。然而,它的一些處理機制影響著它性能的發(fā)揮。當面對傾斜數(shù)據(jù)時,原有的分區(qū)算法無法均衡的分配數(shù)據(jù)到各處理節(jié)點,這樣就導致了處理節(jié)點間負載不平衡,并且造成網(wǎng)路負載加重,從而導致集群性能的降低。
  本文所提出的方法針對MapReduce作業(yè)過程中的Partition部分的分區(qū)算法進行調(diào)整和優(yōu)化,設計實現(xiàn)了一個基于數(shù)據(jù)本地性的負載均衡策略(DAL

3、P)。通過合理的抽樣,對作業(yè)數(shù)據(jù)進行預處理,分析出數(shù)據(jù)中各key的頻數(shù)分布情況,然后利用分析的數(shù)據(jù)制定一個數(shù)據(jù)聚合策略(DA),該策略考慮了key的數(shù)據(jù)大小,可以更加合理地為各Reduce節(jié)點分配數(shù)據(jù),能有效地緩解集群節(jié)點的負載不平衡問題,提高了集群整體性能。此外,針對集群中網(wǎng)絡帶寬制約集群性能的問題,結合對平臺數(shù)據(jù)本地性的深入研究,又提出了一個基于數(shù)據(jù)本地性的數(shù)據(jù)分配策略(LP),在數(shù)據(jù)聚合的基礎上利用本地性數(shù)據(jù)分配方法,能夠有效減少

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論