版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、但是如果直接刪除該數(shù)據(jù)塊可能會(huì)引起系統(tǒng)抖動(dòng),為防止系統(tǒng)出現(xiàn)抖動(dòng),再次引入前文中設(shè)置的時(shí)間參數(shù)和歷史參數(shù),避免刪除當(dāng)期被引用過的數(shù)據(jù)。
本文結(jié)合分布式平臺(tái)Hadoop構(gòu)建實(shí)現(xiàn)了本方案。通過實(shí)驗(yàn)表明在引入布隆過濾器之后四次測(cè)驗(yàn)系統(tǒng)平均吞吐率從756.3MB/S提高到832.5MB/S,提升了10.08%;對(duì)比DDFS Indexing和Extreme Binning的重復(fù)數(shù)據(jù)刪除率和吞吐率,Adj-Dedup的重復(fù)數(shù)據(jù)刪除率高于E
2、xtreme Binning略低于DDFS Indexing,而Adj-Dedup的吞吐率高于800MB/S,Extreme Binning約為500MB/S,而DDFS Indexing吞吐率低于200MB/S。本文所設(shè)計(jì)的重復(fù)數(shù)據(jù)刪除方案,具有較好的系統(tǒng)性能。
隨著信息全球化的到來,全球數(shù)據(jù)總量呈爆炸式增長(zhǎng),然而物理存儲(chǔ)資源的增長(zhǎng)速度遠(yuǎn)低于數(shù)據(jù)總量的增長(zhǎng)速度,傳統(tǒng)的存儲(chǔ)方式也亟待改進(jìn)。根據(jù)統(tǒng)計(jì),存儲(chǔ)系統(tǒng)中存在著大量的冗余數(shù)
3、據(jù),正是這些相同或者相似的冗余數(shù)據(jù)導(dǎo)致了數(shù)據(jù)總量的爆炸增長(zhǎng)。重復(fù)數(shù)據(jù)的刪除技術(shù)可以有效識(shí)別并刪除存儲(chǔ)系統(tǒng)中的重復(fù)數(shù)據(jù),因此在各個(gè)存儲(chǔ)相關(guān)領(lǐng)域中被普遍運(yùn)用。但是作為一種新興的技術(shù),依然存在有很多需要改進(jìn)的地方,如重復(fù)數(shù)據(jù)刪除索引在未命中的情況下的額外開銷、低效率的相似檢測(cè)方案以及對(duì)于零引用數(shù)據(jù)塊的存儲(chǔ)造成的資源浪費(fèi)等。針對(duì)文件備份系統(tǒng),為了改進(jìn)以上不足,從而提升系統(tǒng)性能,設(shè)計(jì)提出了基于重復(fù)數(shù)據(jù)塊相鄰數(shù)據(jù)塊相似性的重復(fù)數(shù)據(jù)刪除方案。
4、 重復(fù)數(shù)據(jù)的刪除系統(tǒng)首先要將數(shù)據(jù)流進(jìn)行一定處理——數(shù)據(jù)分塊,使其能夠更好地進(jìn)行重復(fù)數(shù)據(jù)檢測(cè)。由于不同的分塊算法,所得到的數(shù)據(jù)塊會(huì)有很大區(qū)別,并且會(huì)直接影響到刪除重復(fù)的數(shù)據(jù)的效果。通過對(duì)不同分塊算法對(duì)比后,本文所設(shè)計(jì)的方案選擇滑動(dòng)塊技術(shù)對(duì)數(shù)據(jù)流進(jìn)行劃分。在對(duì)數(shù)據(jù)塊進(jìn)行檢索之前需要對(duì)數(shù)據(jù)塊進(jìn)行散列運(yùn)算得到其指紋。指紋代表著與之對(duì)應(yīng)的數(shù)據(jù)塊,是進(jìn)行重復(fù)檢測(cè)的基本單位。不同的散列運(yùn)算算法計(jì)算出的指紋的精度也有不同,并且發(fā)生哈希碰撞的可能性也有
5、區(qū)別。本文選用160位的SHA-1安全哈希算法,其發(fā)生哈希碰撞的概率分布區(qū)間為2-55-2-75,能夠滿足系統(tǒng)的需要。由于在PB級(jí)存儲(chǔ)系統(tǒng)中,其指紋索引過大無法完全存放在內(nèi)存中,導(dǎo)致需要訪問硬盤,這就給檢索帶來了更多的開銷。對(duì)此引入Bloom Filter。Bloom Filter能夠快速的判斷某個(gè)元素滿足某集合與否。
在進(jìn)行重復(fù)數(shù)據(jù)刪除相同檢測(cè)之后,系統(tǒng)中依然存儲(chǔ)有海量的相似數(shù)據(jù)。如果對(duì)所有數(shù)據(jù)塊都進(jìn)行相似檢測(cè)是不實(shí)際的。為
6、了更好更高效的檢測(cè)相似數(shù)據(jù),本文建立了一個(gè)數(shù)據(jù)塊價(jià)值評(píng)價(jià)模型,基于此設(shè)定了一個(gè)相似檢測(cè)的閾值。相似檢測(cè)的閾值是根據(jù)數(shù)據(jù)塊在某一期的熱度值和前一期的歷史價(jià)值以及重復(fù)率計(jì)算得出。其中熱度值是通過該數(shù)據(jù)塊在這一期的被引用次數(shù)和最后訪問時(shí)間計(jì)算得出。前一期的歷史價(jià)值是根據(jù)前一期該數(shù)據(jù)塊的熱度值乘以一個(gè)控制參數(shù)計(jì)算得出,是為了防止發(fā)生抖動(dòng)而提出的。通過相似檢測(cè)閾值判定數(shù)據(jù)塊是否需要進(jìn)行相似度檢測(cè),從而提高相似檢測(cè)的效率。
在進(jìn)行重復(fù)的數(shù)
7、據(jù)刪除之后,系統(tǒng)中仍然會(huì)存在零引用的數(shù)據(jù)塊。這些零引用的數(shù)據(jù)塊需要進(jìn)行清理。通過之前設(shè)定的序數(shù)參數(shù)可以判定數(shù)據(jù)塊是否是零引用,即當(dāng)序數(shù)參數(shù)等于零的時(shí)候,則表明該數(shù)據(jù)塊沒有被引用,所以可以被清理。但是如果直接刪除該數(shù)據(jù)塊可能會(huì)引起系統(tǒng)抖動(dòng),為防止系統(tǒng)出現(xiàn)抖動(dòng),再次引入前文中設(shè)置的時(shí)間參數(shù)和歷史參數(shù),避免刪除當(dāng)期被引用過的數(shù)據(jù)。
本文結(jié)合分布式平臺(tái)Hadoop構(gòu)建實(shí)現(xiàn)了本方案。通過實(shí)驗(yàn)表明在引入布隆過濾器之后四次測(cè)驗(yàn)系統(tǒng)平均吞吐率
8、從756.3MB/S提高到832.5MB/S,提升了10.08%;對(duì)比DDFS Indexing和Extreme Binning的重復(fù)數(shù)據(jù)刪除率和吞吐率,Adj-Dedup的重復(fù)數(shù)據(jù)刪除率高于Extreme Binning略低于DDFS Indexing,而Adj-Dedup的吞吐率高于800MB/S,Extreme Binning約為500MB/S,而DDFS Indexing吞吐率低于200MB/S。本文所設(shè)計(jì)的重復(fù)數(shù)據(jù)刪除方案,具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向XML相似性重復(fù)數(shù)據(jù)的清洗方法研究.pdf
- 數(shù)據(jù)備份中基于相似性的重復(fù)數(shù)據(jù)刪除的研究.pdf
- 重復(fù)數(shù)據(jù)刪除系統(tǒng)的性能優(yōu)化研究.pdf
- 數(shù)據(jù)去重系統(tǒng)計(jì)算性能優(yōu)化方案的研究與實(shí)現(xiàn)
- 重復(fù)數(shù)據(jù)刪除技術(shù)的研究與實(shí)現(xiàn).pdf
- 數(shù)據(jù)去重系統(tǒng)計(jì)算性能優(yōu)化方案的研究與實(shí)現(xiàn).pdf
- 在線重復(fù)數(shù)據(jù)刪除技術(shù)的研究與實(shí)現(xiàn).pdf
- 重復(fù)數(shù)據(jù)刪除技術(shù)中的并行性能優(yōu)化算法研究.pdf
- 高性能重復(fù)數(shù)據(jù)檢測(cè)與刪除技術(shù)研究.pdf
- 面向負(fù)載均衡的重復(fù)數(shù)據(jù)刪除研究與優(yōu)化.pdf
- 基于Hadoop的重復(fù)數(shù)據(jù)清理模型研究與實(shí)現(xiàn).pdf
- 數(shù)據(jù)流上的相似性查詢及優(yōu)化.pdf
- 重復(fù)數(shù)據(jù)刪除
- 基于相似性的分布式文件系統(tǒng)在線去重方法研究.pdf
- 相似性學(xué)習(xí)及基于相似性的數(shù)據(jù)低維表示.pdf
- 基于相似性的分布式文件系統(tǒng)在線去重方法研究
- 廣域網(wǎng)重復(fù)數(shù)據(jù)消除方法的研究與實(shí)現(xiàn).pdf
- 基于時(shí)序參數(shù)的重復(fù)數(shù)據(jù)刪除索引研究與實(shí)現(xiàn).pdf
- 重復(fù)數(shù)據(jù)并行化研究.pdf
- 序列數(shù)據(jù)的相似性查詢研究.pdf
評(píng)論
0/150
提交評(píng)論