相鄰重復(fù)數(shù)據(jù)塊相似性去重性能優(yōu)化研究與實現(xiàn).pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-05 格式：pdf 頁數(shù)：44 大小：1.49MB 人氣指數(shù)：12 舉報 版權(quán)申訴

相鄰重復(fù)數(shù)據(jù)塊相似性去重性能優(yōu)化研究與實現(xiàn).pdf_第1頁

已閱讀1頁，還剩43頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、但是如果直接刪除該數(shù)據(jù)塊可能會引起系統(tǒng)抖動，為防止系統(tǒng)出現(xiàn)抖動，再次引入前文中設(shè)置的時間參數(shù)和歷史參數(shù)，避免刪除當(dāng)期被引用過的數(shù)據(jù)。
　　本文結(jié)合分布式平臺Hadoop構(gòu)建實現(xiàn)了本方案。通過實驗表明在引入布隆過濾器之后四次測驗系統(tǒng)平均吞吐率從756.3MB/S提高到832.5MB/S，提升了10.08％；對比DDFS Indexing和Extreme Binning的重復(fù)數(shù)據(jù)刪除率和吞吐率，Adj-Dedup的重復(fù)數(shù)據(jù)刪除率高于E

2、xtreme Binning略低于DDFS Indexing，而Adj-Dedup的吞吐率高于800MB/S，Extreme Binning約為500MB/S，而DDFS Indexing吞吐率低于200MB/S。本文所設(shè)計的重復(fù)數(shù)據(jù)刪除方案，具有較好的系統(tǒng)性能。
　　隨著信息全球化的到來，全球數(shù)據(jù)總量呈爆炸式增長，然而物理存儲資源的增長速度遠低于數(shù)據(jù)總量的增長速度，傳統(tǒng)的存儲方式也亟待改進。根據(jù)統(tǒng)計，存儲系統(tǒng)中存在著大量的冗余數(shù)

3、據(jù)，正是這些相同或者相似的冗余數(shù)據(jù)導(dǎo)致了數(shù)據(jù)總量的爆炸增長。重復(fù)數(shù)據(jù)的刪除技術(shù)可以有效識別并刪除存儲系統(tǒng)中的重復(fù)數(shù)據(jù)，因此在各個存儲相關(guān)領(lǐng)域中被普遍運用。但是作為一種新興的技術(shù)，依然存在有很多需要改進的地方，如重復(fù)數(shù)據(jù)刪除索引在未命中的情況下的額外開銷、低效率的相似檢測方案以及對于零引用數(shù)據(jù)塊的存儲造成的資源浪費等。針對文件備份系統(tǒng)，為了改進以上不足，從而提升系統(tǒng)性能，設(shè)計提出了基于重復(fù)數(shù)據(jù)塊相鄰數(shù)據(jù)塊相似性的重復(fù)數(shù)據(jù)刪除方案。

4、　　重復(fù)數(shù)據(jù)的刪除系統(tǒng)首先要將數(shù)據(jù)流進行一定處理——數(shù)據(jù)分塊，使其能夠更好地進行重復(fù)數(shù)據(jù)檢測。由于不同的分塊算法，所得到的數(shù)據(jù)塊會有很大區(qū)別，并且會直接影響到刪除重復(fù)的數(shù)據(jù)的效果。通過對不同分塊算法對比后，本文所設(shè)計的方案選擇滑動塊技術(shù)對數(shù)據(jù)流進行劃分。在對數(shù)據(jù)塊進行檢索之前需要對數(shù)據(jù)塊進行散列運算得到其指紋。指紋代表著與之對應(yīng)的數(shù)據(jù)塊，是進行重復(fù)檢測的基本單位。不同的散列運算算法計算出的指紋的精度也有不同，并且發(fā)生哈希碰撞的可能性也有

5、區(qū)別。本文選用160位的SHA-1安全哈希算法，其發(fā)生哈希碰撞的概率分布區(qū)間為2-55－2-75，能夠滿足系統(tǒng)的需要。由于在PB級存儲系統(tǒng)中，其指紋索引過大無法完全存放在內(nèi)存中，導(dǎo)致需要訪問硬盤，這就給檢索帶來了更多的開銷。對此引入Bloom Filter。Bloom Filter能夠快速的判斷某個元素滿足某集合與否。
　　在進行重復(fù)數(shù)據(jù)刪除相同檢測之后，系統(tǒng)中依然存儲有海量的相似數(shù)據(jù)。如果對所有數(shù)據(jù)塊都進行相似檢測是不實際的。為

6、了更好更高效的檢測相似數(shù)據(jù)，本文建立了一個數(shù)據(jù)塊價值評價模型，基于此設(shè)定了一個相似檢測的閾值。相似檢測的閾值是根據(jù)數(shù)據(jù)塊在某一期的熱度值和前一期的歷史價值以及重復(fù)率計算得出。其中熱度值是通過該數(shù)據(jù)塊在這一期的被引用次數(shù)和最后訪問時間計算得出。前一期的歷史價值是根據(jù)前一期該數(shù)據(jù)塊的熱度值乘以一個控制參數(shù)計算得出，是為了防止發(fā)生抖動而提出的。通過相似檢測閾值判定數(shù)據(jù)塊是否需要進行相似度檢測，從而提高相似檢測的效率。
　　在進行重復(fù)的數(shù)

7、據(jù)刪除之后，系統(tǒng)中仍然會存在零引用的數(shù)據(jù)塊。這些零引用的數(shù)據(jù)塊需要進行清理。通過之前設(shè)定的序數(shù)參數(shù)可以判定數(shù)據(jù)塊是否是零引用，即當(dāng)序數(shù)參數(shù)等于零的時候，則表明該數(shù)據(jù)塊沒有被引用，所以可以被清理。但是如果直接刪除該數(shù)據(jù)塊可能會引起系統(tǒng)抖動，為防止系統(tǒng)出現(xiàn)抖動，再次引入前文中設(shè)置的時間參數(shù)和歷史參數(shù)，避免刪除當(dāng)期被引用過的數(shù)據(jù)。
　　本文結(jié)合分布式平臺Hadoop構(gòu)建實現(xiàn)了本方案。通過實驗表明在引入布隆過濾器之后四次測驗系統(tǒng)平均吞吐率

8、從756.3MB/S提高到832.5MB/S，提升了10.08%；對比DDFS Indexing和Extreme Binning的重復(fù)數(shù)據(jù)刪除率和吞吐率，Adj-Dedup的重復(fù)數(shù)據(jù)刪除率高于Extreme Binning略低于DDFS Indexing，而Adj-Dedup的吞吐率高于800MB/S，Extreme Binning約為500MB/S，而DDFS Indexing吞吐率低于200MB/S。本文所設(shè)計的重復(fù)數(shù)據(jù)刪除方案，具

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相鄰重復(fù)數(shù)據(jù)塊相似性去重性能優(yōu)化研究與實現(xiàn).pdf

文檔簡介

溫馨提示

最新文檔

評論

相鄰重復(fù)數(shù)據(jù)塊相似性去重性能優(yōu)化研究與實現(xiàn).pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載