版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著信息化產(chǎn)業(yè)的快速發(fā)展,越來越多的行業(yè)正面臨著數(shù)據(jù)量巨大、數(shù)據(jù)種類復(fù)雜、數(shù)據(jù)處理速度要求更快、數(shù)據(jù)計(jì)算準(zhǔn)確性要求更髙等一系列問題,以單機(jī)為計(jì)算工具的計(jì)算模式已經(jīng)遠(yuǎn)遠(yuǎn)無法勝任大數(shù)據(jù)計(jì)算的存儲(chǔ)需求和性能需求,因此以Hadoop為代表的一系列大數(shù)據(jù)計(jì)算技術(shù)應(yīng)運(yùn)而生,其中最為核心的兩個(gè)工具分別為MapReduce和HDFS,分別解決了計(jì)算性能與計(jì)算存儲(chǔ)的問題。然而,隨著摩爾定律的放緩,近幾年磁盤的讀寫性能一直未能有突破性發(fā)展,這種需要頻繁讀寫
2、磁盤的大數(shù)據(jù)分析工具對(duì)于日漸龐大的數(shù)據(jù)量顯得越來越力不從心。針對(duì)這類問題,University of California in Berkeley的AMPLab實(shí)驗(yàn)室設(shè)計(jì)了一整套以內(nèi)存計(jì)算為核心的計(jì)算框架,其目的是將數(shù)據(jù)緩存在內(nèi)存中以解決頻繁讀寫的問題。然而,在大大提髙了計(jì)算性能的同時(shí),我們也不得不考慮內(nèi)存成本相對(duì)昂貴的問題。另一方面,對(duì)于當(dāng)前計(jì)算機(jī)體系的設(shè)計(jì)而言,整個(gè)計(jì)算系統(tǒng)的性能與擁有的內(nèi)存資源數(shù)量并非正比關(guān)系,系統(tǒng)的控制總線的吞吐
3、率還是會(huì)限制系統(tǒng)對(duì)內(nèi)存資源的調(diào)度效率。因此,如何更髙效地利用內(nèi)存資源對(duì)于內(nèi)存計(jì)算而言顯得尤為重要。
本論文提出了一種內(nèi)存數(shù)據(jù)集動(dòng)態(tài)壓縮的壓縮策略,旨在髙效靈活地為內(nèi)存計(jì)算解決內(nèi)存資源的分配問題。通過充分測(cè)試不同壓縮算法的壓縮性能,以及詳細(xì)地研究Spark內(nèi)存計(jì)算的資源分配模型,該方案能夠針對(duì)不同的數(shù)據(jù)計(jì)算類型,分析出適合的數(shù)據(jù)壓縮算法,然后通過系統(tǒng)各方面的運(yùn)行參數(shù)來判斷是否需要對(duì)數(shù)據(jù)進(jìn)行壓縮并持久化,從而達(dá)到節(jié)省內(nèi)存資源并充分
4、優(yōu)化系統(tǒng)整體性能的目的。此外,對(duì)于內(nèi)存計(jì)算數(shù)據(jù)集多數(shù)采用列式存儲(chǔ)的特點(diǎn),應(yīng)用數(shù)據(jù)壓縮顯得尤為方便。
針對(duì)該論文提出的內(nèi)存數(shù)據(jù)集動(dòng)態(tài)壓縮策略的設(shè)想,本文設(shè)計(jì)并實(shí)現(xiàn)了基于Spark計(jì)算框架的一套數(shù)據(jù)動(dòng)態(tài)壓縮模塊,可根據(jù)計(jì)算數(shù)據(jù)的類型選擇適合的壓縮算法,根據(jù)系統(tǒng)的計(jì)算性能判斷是否需要進(jìn)行數(shù)據(jù)的壓縮和持久化。與此同時(shí),為了將理論研究運(yùn)用到實(shí)際案例中,我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了一套完整的日志大數(shù)據(jù)實(shí)時(shí)處理框架,其中除了已集成我們研究的數(shù)據(jù)動(dòng)態(tài)壓縮
5、策略外,我們還設(shè)計(jì)了一套統(tǒng)一的類SQL的數(shù)據(jù)查詢接口,可以供用戶同時(shí)對(duì)實(shí)時(shí)和非實(shí)時(shí)的數(shù)據(jù)進(jìn)行查詢。此外,我們的系統(tǒng)還包括了一套數(shù)據(jù)收集的消息隊(duì)列系統(tǒng)、用戶輸入SQL查詢的接口以及HTTP消息轉(zhuǎn)發(fā)的后端系統(tǒng)。在論文的最后,通過對(duì)系統(tǒng)中各個(gè)模塊進(jìn)行不同數(shù)據(jù)類型的壓力測(cè)試,驗(yàn)證了系統(tǒng)的性能。具體來說,對(duì)文本統(tǒng)計(jì)等數(shù)據(jù)密集型應(yīng)用而言,動(dòng)態(tài)壓縮算法的性能提升可達(dá)3.6倍;而對(duì)于圖像識(shí)別、機(jī)器學(xué)習(xí)等迭代計(jì)算較多的應(yīng)用,動(dòng)態(tài)壓縮算法的性能提升可達(dá)6倍
6、之多。
本文提出的內(nèi)存數(shù)據(jù)集動(dòng)態(tài)壓縮策略的創(chuàng)新點(diǎn)體現(xiàn)在三方面:首先,它針對(duì)不同的數(shù)據(jù)場(chǎng)景自動(dòng)選擇適合的壓縮算法,大數(shù)據(jù)應(yīng)用開發(fā)人員無需對(duì)系統(tǒng)進(jìn)行反復(fù)調(diào)試與參數(shù)設(shè)置,即可在充分發(fā)揮硬件性能的基礎(chǔ)上最大化計(jì)算效率;其次,對(duì)于列式存儲(chǔ)數(shù)據(jù)集而言,實(shí)現(xiàn)了列級(jí)別的壓縮,并提供了一套完整的SQL查詢接口,以實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)與非實(shí)時(shí)查詢;最后,結(jié)合現(xiàn)在主流的大數(shù)據(jù)技術(shù),我們將本論文的核心壓縮策略運(yùn)用到日志大數(shù)據(jù)的實(shí)時(shí)分析中,有效地將理論與實(shí)際
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 列存儲(chǔ)內(nèi)存數(shù)據(jù)庫的壓縮算法的應(yīng)用研究.pdf
- 基于支持列存儲(chǔ)的數(shù)據(jù)壓縮算法研究.pdf
- 列存儲(chǔ)數(shù)據(jù)倉庫中壓縮技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于列存儲(chǔ)的RFID數(shù)據(jù)的管理技術(shù)的研究與應(yīng)用.pdf
- 壓縮的列存儲(chǔ)數(shù)據(jù)的查詢優(yōu)化研究與實(shí)現(xiàn).pdf
- 基于內(nèi)存的HDFS數(shù)據(jù)存儲(chǔ)技術(shù)研究.pdf
- 基于列數(shù)據(jù)庫存儲(chǔ)稀疏數(shù)據(jù)壓縮算法的研究.pdf
- 列存儲(chǔ)內(nèi)存數(shù)據(jù)庫SQL引擎的實(shí)現(xiàn).pdf
- 基于列存儲(chǔ)的數(shù)據(jù)復(fù)用研究與實(shí)現(xiàn).pdf
- 內(nèi)存數(shù)據(jù)庫的存儲(chǔ)管理與并發(fā)控制技術(shù)及其應(yīng)用.pdf
- 內(nèi)存索引的壓縮存儲(chǔ)及優(yōu)化研究.pdf
- 基于列內(nèi)規(guī)則和列間規(guī)則的數(shù)據(jù)庫壓縮技術(shù)研究與實(shí)現(xiàn).pdf
- 路網(wǎng)軌跡數(shù)據(jù)的壓縮存儲(chǔ)技術(shù)研究.pdf
- 內(nèi)存數(shù)據(jù)庫的存儲(chǔ)管理.pdf
- 基于嵌入式手機(jī)平臺(tái)的內(nèi)存動(dòng)態(tài)加載技術(shù)的研究與應(yīng)用.pdf
- 基于動(dòng)態(tài)預(yù)解壓方法的嵌入式內(nèi)存壓縮技術(shù)及實(shí)現(xiàn).pdf
- 基于壓縮位圖索引的RDF數(shù)據(jù)存儲(chǔ)與管理.pdf
- 基于共享內(nèi)存用于存儲(chǔ)VLR的數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 數(shù)據(jù)存儲(chǔ)轉(zhuǎn)換技術(shù)的研究與應(yīng)用.pdf
- 內(nèi)存數(shù)據(jù)的合并與壓縮算法.pdf
評(píng)論
0/150
提交評(píng)論