內(nèi)容感知存儲(chǔ)系統(tǒng)中信息生命周期管理關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩136頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著存儲(chǔ)系統(tǒng)智能化需求的不斷提高,越來越多的應(yīng)用層功能開始融入存儲(chǔ)系統(tǒng),例如自主管理,數(shù)據(jù)安全以及信息檢索等。傳統(tǒng)的存儲(chǔ)系統(tǒng)以塊級(jí)或?qū)ο蠹?jí)數(shù)據(jù)處理為主,缺乏文件級(jí)信息,無法將信息生命周期管理(Information LifecycleManagement,ILM)功能融入存儲(chǔ)系統(tǒng)。遵循XAM(eXtensible Access Method)規(guī)范的內(nèi)容感知存儲(chǔ)(Content Aware Storage)系統(tǒng),由于使用內(nèi)容元數(shù)據(jù)(Con

2、tentMetadata)對(duì)數(shù)據(jù)的文件級(jí)信息進(jìn)行傳載,因此為ILM 融入存儲(chǔ)系統(tǒng)提供了基礎(chǔ)。研究ILM 融入內(nèi)容感知存儲(chǔ)系統(tǒng)過程中涉及的關(guān)鍵技術(shù),圍繞著內(nèi)容元數(shù)據(jù)構(gòu)建信息整合、內(nèi)容分類、分級(jí)存儲(chǔ)、數(shù)據(jù)備份以及信息歸檔等ILM 數(shù)據(jù)處理階段。本研究主要內(nèi)容包括:
   ⑴提出并實(shí)現(xiàn)了一種基于內(nèi)容元數(shù)據(jù)的信息整合方法。針對(duì)ILM 數(shù)據(jù)處理需求制定了內(nèi)容元數(shù)據(jù)規(guī)范,包括內(nèi)容元數(shù)據(jù)的定義、提取、表示以及傳輸。以內(nèi)容元數(shù)據(jù)為基礎(chǔ),從外在形

3、式和內(nèi)部語義兩方面實(shí)現(xiàn)了非結(jié)構(gòu)化信息數(shù)據(jù)的整合。設(shè)計(jì)并實(shí)現(xiàn)了支持內(nèi)容元數(shù)據(jù)規(guī)范的存儲(chǔ)系統(tǒng)原型,性能測(cè)試表明信息整合提高了數(shù)據(jù)預(yù)處理的速度,同時(shí)對(duì)存儲(chǔ)系統(tǒng)的平均I/O 性能影響極小。
   ⑵提出并實(shí)現(xiàn)了一種面向內(nèi)容元數(shù)據(jù)的信息分類算法。針對(duì)內(nèi)容元數(shù)據(jù)的分類特征數(shù)量少但語義質(zhì)量高的特性,構(gòu)造了一種基于特征詞集合的內(nèi)容元數(shù)據(jù)相似度計(jì)算模型。該模型根據(jù)訓(xùn)練樣本中的特征詞集合構(gòu)造相似度矩陣,并通過對(duì)矩陣進(jìn)行平滑運(yùn)算計(jì)算特征詞之間的隱式相

4、關(guān)性,以此為基礎(chǔ)計(jì)算內(nèi)容元數(shù)據(jù)的特征矢量?;谔卣魇噶?,采用K-Means算法構(gòu)造數(shù)據(jù)分類器。性能測(cè)試表明,該算法比傳統(tǒng)的數(shù)據(jù)分類算法有著更高的精確度和互信息,并極大地降低了分類計(jì)算的時(shí)間。提出并實(shí)現(xiàn)了一種內(nèi)容元數(shù)據(jù)驅(qū)動(dòng)的分級(jí)存儲(chǔ)模型,包括基于應(yīng)用需求的分級(jí)存儲(chǔ)與基于成本需求的分級(jí)存儲(chǔ)。前者滿足信息在備份、歸檔、安全以及訪問控制等應(yīng)用上的需求,后者側(cè)重于降低單位信息的存儲(chǔ)成本同時(shí)確保存儲(chǔ)系統(tǒng)的I/O 性能。提出了一種基于速率控制的自適應(yīng)

5、數(shù)據(jù)遷移算法,將數(shù)據(jù)遷移I/O 對(duì)存儲(chǔ)系統(tǒng)正常I/O的影響降至最低。性能測(cè)試表明,內(nèi)容元數(shù)據(jù)驅(qū)動(dòng)的分級(jí)存儲(chǔ)模型能有效滿足的信息數(shù)據(jù)的存儲(chǔ)需求,同時(shí)不影響存儲(chǔ)系統(tǒng)的整體性能。
   ⑶提出并實(shí)現(xiàn)了一種基于內(nèi)容特征的重復(fù)數(shù)據(jù)刪除算法。針對(duì)當(dāng)前數(shù)據(jù)備份中重復(fù)數(shù)據(jù)刪除算法未考慮不同文件類型的內(nèi)容在比特值分布上的差異,采用候選邊界直方圖來表示文件類型的內(nèi)容特征,并在此基礎(chǔ)上對(duì)傳統(tǒng)重復(fù)數(shù)據(jù)刪除算法的關(guān)鍵參數(shù)進(jìn)行優(yōu)化。算法以降低不同文件類型之

6、間的數(shù)據(jù)縮減率為代價(jià),換取相同類型文件之間數(shù)據(jù)縮減率的提高。設(shè)計(jì)了一種支持變長(zhǎng)數(shù)據(jù)塊高效存儲(chǔ)的文件系統(tǒng)TDFS。性能測(cè)試表明,該算法在特定數(shù)據(jù)集上對(duì)數(shù)據(jù)縮減率(Reduction Ratio)有較大提高。
   ⑷提出并實(shí)現(xiàn)了一種基于內(nèi)容元數(shù)據(jù)的信息歸檔模型。通過引入支持OAIS(OpenArchival Information System)歸檔規(guī)范的內(nèi)容元數(shù)據(jù)標(biāo)簽,實(shí)現(xiàn)信息的邏輯保存。提出一種基于磁盤的軟件WORM(Writ

7、e Once Read Many)模型,通過修改磁盤功能劃分以及對(duì)iSCSI 命令的響應(yīng)行為,實(shí)現(xiàn)信息的物理保存。通過對(duì)歸檔文件加密并在保存逾期后銷毀密鑰,實(shí)現(xiàn)了信息的安全銷毀,同時(shí)提出了一種基于時(shí)間窗口的密鑰管理機(jī)制降低密鑰管理復(fù)雜度。性能測(cè)試表明,基于內(nèi)容元數(shù)據(jù)的信息歸檔模型能有效滿足歸檔信息的功能需求與性能需求。
   ⑸實(shí)驗(yàn)表明,內(nèi)容感知存儲(chǔ)系統(tǒng)能有效解決傳統(tǒng)存儲(chǔ)系統(tǒng)中缺乏文件級(jí)語義的問題,通過以內(nèi)容元數(shù)據(jù)為核心來構(gòu)建I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論