MPP架構下的分布式SQL執(zhí)行計劃生成系統(tǒng)的設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、當今社會是一個信息急速膨脹的時代,隨著企業(yè)對數(shù)據量分析要求的急劇擴大,簡單的添加硬件資源不僅提高了成本而且還不能滿足海量數(shù)據的大規(guī)模處理,原有的集群規(guī)模和處理數(shù)據能力已遠遠達不到人們的需求。因此本文提出了一種新的處理解決方案,論文中所描述的系統(tǒng)“Whale”使用MPP(Massively Parallel Processing)無共享架構通過分布式SQL執(zhí)行實現(xiàn)了海量數(shù)據對有效信息的提取,后端使用MySQL作為分析引擎,通過上層節(jié)點并行

2、控制引擎的執(zhí)行,并且應用分布式文件結構使系統(tǒng)存儲具有可靠性。
  首先,為了解決現(xiàn)有海量數(shù)據分析商業(yè)產品的瓶頸和不足,本課題認真研究了國內外有關數(shù)據倉庫、并行計算、分布式架構的情況,對行業(yè)發(fā)展現(xiàn)狀有了一定了解,提出了就容錯性、復雜性分析、可擴展性相關的需求分析和主要涉及技術。
  其次,本文以Windows作為開發(fā)平臺,Eclipse作為開發(fā)工具,并部署在Linux集群上運行。通過對需求分析的滿足提出了主從式架構和工作流程,

3、系統(tǒng)被分為客戶端和服務端,通過遠程過程調用實現(xiàn)端到端的通信,客戶端其主要任務是和用戶進行交互獲取請求返回結果,這一系列的過程中,生成SQL用戶類型的查詢計劃是處理分配數(shù)據的核心步驟,所以其中對SQL語法解析、執(zhí)行計劃生成的完成是解決問題的關鍵。服務端有主守護進程和從屬守護進程,主守護進程部署在中心節(jié)點上,從屬進程部署在從屬節(jié)點上。主節(jié)點從客戶端接受執(zhí)行計劃并在從屬節(jié)點指揮一系列數(shù)據分片并行處理,從屬節(jié)點則通過存儲引擎做實際的數(shù)據分析。M

4、eta-Data模塊集成于主節(jié)點上為整個系統(tǒng)提供服務,其中包括表模式及表中數(shù)據分片位置信息等。這是一種設計合理且輕量級架構,使用MySQL的不同存儲引擎,使得在不同場景下對海量數(shù)據的處理都能得到滿足,上層架構使得系統(tǒng)易于向外進行擴展并且通過添加新節(jié)點來適應不斷增長的大數(shù)據。通過上述設計系統(tǒng)解決了復雜分析、可擴展及并行執(zhí)行能力,滿足用戶對海量數(shù)據處理的需求。
  最后,論文從單元、功能、性能等方面對系統(tǒng)進行測試,并通過對系統(tǒng)相關成果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論