基于MapReduce架構的實時數(shù)據(jù)倉庫關鍵技術研究.pdf_第1頁
已閱讀1頁,還剩153頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著數(shù)字技術和計算機信息化的普及和發(fā)展,大多數(shù)企業(yè)都采用了計算機進行管理和運營。這些計算機系統(tǒng)通常都具有強大的收集、存儲和處理數(shù)據(jù)的能力。生產監(jiān)控數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口統(tǒng)計數(shù)據(jù)、財經數(shù)據(jù)和海洋數(shù)據(jù)等,這些日積月累的數(shù)據(jù)形成了一個巨大的“寶藏”。隨著市場競爭的加劇和信息社會需求的發(fā)展,從大量數(shù)據(jù)中挖掘規(guī)律性知識,指導制定生產和營銷策略,就顯得越來越重要。數(shù)據(jù)倉庫技術正是為此提供解決方案而產生的,也是目前學術界和工業(yè)界研究開發(fā)的熱點問題之一。

2、
  隨著企業(yè)對數(shù)據(jù)倉庫的熟悉,數(shù)據(jù)倉庫支持預測分析的能力越來越好地被用來驅動商業(yè)決策。然而傳統(tǒng)數(shù)據(jù)倉庫是周期性更新的,決策所用的信息和數(shù)據(jù)并沒有包括最新的生產數(shù)據(jù)和信息,基于傳統(tǒng)數(shù)據(jù)倉庫的戰(zhàn)略決策在時間的實時性上不能滿足要求。隨著業(yè)務節(jié)奏的加快,需要分析的實時數(shù)據(jù)信息的數(shù)量呈爆炸性增長。數(shù)據(jù)倉庫必須有能力支持快速的業(yè)務分析,能夠將最新信息盡快反映給決策者,使決策者對瞬息萬變的商業(yè)形勢做出快速的反應。因此,實時數(shù)據(jù)倉庫技術隨之應運

3、而生。實時數(shù)據(jù)倉庫技術與傳統(tǒng)數(shù)據(jù)倉庫有很大的不同,它既要為商業(yè)決策提供實時的數(shù)據(jù)保證,又要提供更快速的查詢分析。為此,本文針對實時數(shù)據(jù)倉庫中的實時體系結構建模、更新與查詢調度、并行數(shù)據(jù)倉庫查詢、并行數(shù)據(jù)立方構建等關鍵問題進行了研究。主要工作包含以下幾點:
  (1)設計了實時數(shù)據(jù)倉庫的總體框架結構,并針對靈活可變卻又十分重要的實時數(shù)據(jù)存儲區(qū)的設計方法進行了研究,包括ODS分區(qū)、雙鏡像交替分區(qū)、數(shù)據(jù)倉庫副本分區(qū)和多級緩存分區(qū)機制等。

4、最后將幾種實時數(shù)據(jù)存儲區(qū)設計方法進行了對比,分析了各種方法適用的環(huán)境。
  (2)提出一種實時數(shù)據(jù)倉庫中基于優(yōu)先級的更新查詢平衡調度算法PBBS,詳細闡述了PBBS算法的系統(tǒng)結構和算法思想。PBBS算法綜合考慮了系統(tǒng)中更新任務的優(yōu)先級、用戶查詢任務的優(yōu)先程度、任務隊列的實時執(zhí)行狀況、系統(tǒng)資源的使用現(xiàn)況,來進行任務的并行調度。PBBS算法不但能夠根據(jù)用戶需求調整更新與查詢的資源分配,也能夠合理利用系統(tǒng)資源,保證優(yōu)先級較高的任務優(yōu)先被

5、調度執(zhí)行。不僅減少了重要查詢的系統(tǒng)響應時間,而且提高了重要數(shù)據(jù)的數(shù)據(jù)新鮮度。
  (3)提出一種實時數(shù)據(jù)倉庫中的支持QoS的更新和查詢調度算法。算法首先提出了實時數(shù)據(jù)倉庫中與查詢相關的一些用戶交互式QoS參數(shù),然后根據(jù)查詢的QoS參數(shù)要求來進行更新任務和查詢任務的實時調度。QoS算法能夠根據(jù)用戶的具體QoS查詢需求,合理地調整任務的執(zhí)行順序,有效地使用系統(tǒng)資源,為用戶查詢提供更快速的響應和更高的數(shù)據(jù)實時性。
  (4)設計了

6、基于MapReduce框架的關系型數(shù)據(jù)的并行運算操作,對傳統(tǒng)的查詢、投影、連接、除、聚集等關系運算基于MapReduce框架進行了設計并實現(xiàn);并提出一種基于分塊結構的分布式關系數(shù)據(jù)庫ChunkDB,詳細設計了ChunkDB的整體架構、數(shù)據(jù)分塊方式、數(shù)據(jù)存放結構、子塊分布策略、元數(shù)據(jù)信息、容錯性和可擴展性等方面;最后設計了基于ChunkDB數(shù)據(jù)庫的MapReduce計算方法,對MapReduce框架進行了擴展,使之與ChunkDB很好地兼

7、容,方便高效地進行數(shù)據(jù)讀取。
  (5)提出一種基于MapReduce框架的并行Dwarf數(shù)據(jù)立方構建算法。算法首先對傳統(tǒng)的單Dwarf立方進行等價劃分,將其分割為多個獨立的子Dwarf立方;其次算法采用MapReduce架構,對Dwarf立方進行并行地構建、查詢和更新。并行Dwarf算法首先能夠提供高效的數(shù)據(jù)立方的建立,其次針對MapReduce機制無索引的順序掃描機制,Dwarf立方的自索引機制提供了高效的查詢;然后并行Dwa

8、rf克服了傳統(tǒng)Dwarf較低的增量更新性能,為Dwarf的實際應用提供了條件;并且并行Dwarf具有良好的可擴展性,隨著數(shù)據(jù)量的增加,可以通過動態(tài)增加結點的方法,有效地提高Dwarf立方的性能。
  (6)設計并實現(xiàn)了MR-RTDWH原型系統(tǒng)。通過將本文所提出的實時數(shù)據(jù)體系結構、更新與查詢調度、基于MapReudce的關系運算、MapReduce架構與關系數(shù)據(jù)庫的融合、實時數(shù)據(jù)立方的并行構建等理論和方法在MR-RTDWH系統(tǒng)中的實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論