版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、文件系統(tǒng)語義是指文件系統(tǒng)在其生命周期內(nèi)產(chǎn)生的一系列信息所表現(xiàn)出來的含義。相較于只能提供簡單數(shù)據(jù)塊語義的存儲設(shè)備,文件系統(tǒng)能夠提供更加豐富的語義知識來描述上層應(yīng)用的復(fù)雜行為。因此,近年來,文件系統(tǒng)語義已經(jīng)成為學(xué)術(shù)界和產(chǎn)業(yè)界日益關(guān)注的研究和發(fā)展的方向。不過,現(xiàn)有依賴定性描述型信息的語義分析方法卻面臨著巨大的挑戰(zhàn):眾多類型不同的變量要素會影響文件系統(tǒng)語義知識的發(fā)現(xiàn)過程。更糟糕的是,由于這些影響要素本身之間也可能具有相依性,使得該類方法變得日益
2、復(fù)雜且效果很難保證。在上述事實(shí)的背景下,本文提出了一系列文件相關(guān)性量化分析模型從定量的角度研究文件系統(tǒng)語義,這些模型能夠綜合地考慮不同類型要素對文件系統(tǒng)語義分析的影響,從而更加精確地挖掘隱藏在數(shù)據(jù)背后的重要文件語義信息――尤其是文件相關(guān)性信息。具體的,本文工作內(nèi)容包括:
提出了一種文件相關(guān)性量化模型――FARMER。該模型將文件視為由若干語義要素組成的多次元向量空間,空間中的每個項元表示該文件的具體要素特征值。模型假設(shè):文件之
3、間相互關(guān)系的程度(或簡稱為文件關(guān)聯(lián)度),可以經(jīng)由計算每個文件(語義向量)之間的夾角偏差程度(相似度)而反映。這樣,文件語義就被轉(zhuǎn)換成了計算機(jī)可以處理和計算的結(jié)構(gòu)化數(shù)據(jù),文件之間的相關(guān)性問題也就轉(zhuǎn)變成了向量空間之間的相似性問題。FARMER文件相關(guān)性量化模型是進(jìn)一步運(yùn)用各種定量分析方法研究復(fù)雜文件系統(tǒng)語義的重要基礎(chǔ)。實(shí)驗(yàn)結(jié)果表明,根據(jù)FARMER模型評估的文件關(guān)聯(lián)度能夠準(zhǔn)確地反映現(xiàn)實(shí)系統(tǒng)中文件相關(guān)性。
緊接著提出了一種文件相關(guān)性
4、回歸分析模型――CoMiner。該模型根據(jù)文件系統(tǒng)活動中觀測到的興趣現(xiàn)象樣本數(shù)據(jù)建立回歸方程來研究相關(guān)現(xiàn)象的數(shù)量變動關(guān)系。模型重點(diǎn)從兩個方面分析文件相關(guān)現(xiàn)象:首先是在其他變量要素保持不變的情況下,某一種要素的變化對興趣現(xiàn)象(如文件關(guān)聯(lián)度)的影響;其次是運(yùn)用多種樣條或非樣條回歸模型將復(fù)雜的文件相關(guān)現(xiàn)象擬合成為函數(shù)關(guān)系,從而幫助更好的理解文件相關(guān)現(xiàn)象的關(guān)系形式。進(jìn)一步的,CoMiner提供多種回歸方程對現(xiàn)實(shí)世界的文件相關(guān)關(guān)系進(jìn)行擬合,使其能
5、夠在給定合理代價前提下做出準(zhǔn)確的預(yù)測。將CoMiner模型評估的關(guān)系強(qiáng)度結(jié)果應(yīng)用到改進(jìn)后FARMER文件相關(guān)性量化模型可以有效地提升后者的模型準(zhǔn)確度:實(shí)驗(yàn)表明最大能夠提升達(dá)到20%左右。
進(jìn)一步提出了一種文件自相關(guān)性時間序列分析模型――TiMiner。該模型在文件系統(tǒng)語義挖掘過程中引入時間維度,運(yùn)用時間序列分析方法研究文件系統(tǒng)現(xiàn)象隨時間發(fā)生的變化。根據(jù)實(shí)際運(yùn)行情況,總結(jié)了五條文件系統(tǒng)時間序列數(shù)據(jù)特征,分別是趨勢性、周期性、異常
6、觀測值、條件異方差以及非線性特征,并針對這些特征分別采用不同時間序列分析方法進(jìn)行分析。研究發(fā)現(xiàn)某一時刻的文件系統(tǒng)緩存命中率狀態(tài)可以分解成為三個部分:之前時刻系統(tǒng)緩存狀態(tài)的自相關(guān)部分、時間間隔內(nèi)文件請求到達(dá)隨機(jī)分布部分和相鄰時刻狀態(tài)的差分部分。實(shí)驗(yàn)結(jié)果表明,TiMiner文件系統(tǒng)緩存命中率預(yù)取模型能夠比較好的匹配歷史數(shù)據(jù)并有效地預(yù)測未來一段時間內(nèi)的狀態(tài)趨勢。
為了論證上述三種模型的有效性,設(shè)計和實(shí)現(xiàn)了一個實(shí)際的大規(guī)模分布式智能對
7、象存儲系統(tǒng)Cappella,該系統(tǒng)集成了一系列基于文件語義挖掘的服務(wù)優(yōu)化模塊來提高整體性能。本文同時討論和展望了其他一些潛在的文件語義挖掘的應(yīng)用,諸如:文件感知、可靠性和一致性等方面的問題,以及今后可能有更進(jìn)一步研究潛力的方向和方法。此外,從若干典型的分布式文件系統(tǒng)的Trace中抽取出一些常用的文件變量要素并將這些要素集成到Cappella系統(tǒng)的實(shí)驗(yàn)測試環(huán)境中。實(shí)驗(yàn)結(jié)果表明,本文提出的一系列文件相關(guān)性分析模型能夠有效的提升Cappell
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 并行文件系統(tǒng)緩存技術(shù)研究.pdf
- 基于Luster文件系統(tǒng)的文件分片技術(shù)研究.pdf
- 閃存文件系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 分布式文件系統(tǒng)小文件性能優(yōu)化技術(shù)研究.pdf
- 移動終端閃存文件系統(tǒng)的性能分析與優(yōu)化技術(shù)研究.pdf
- NFS網(wǎng)絡(luò)文件系統(tǒng)的安全增強(qiáng)技術(shù)研究.pdf
- 對象文件系統(tǒng)中元數(shù)據(jù)管理技術(shù)研究.pdf
- 大規(guī)模機(jī)群文件系統(tǒng)的關(guān)鍵技術(shù)研究.pdf
- 分布式文件系統(tǒng)元數(shù)據(jù)存取技術(shù)研究.pdf
- 基于Hadoop的分布式文件系統(tǒng)優(yōu)化技術(shù)研究.pdf
- 分布式企業(yè)文件系統(tǒng)的關(guān)鍵技術(shù)研究.pdf
- 分布式文件系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 分布式安全文件系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 基于大容量NAND閃存文件系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 基于分布式文件系統(tǒng)GlusterFS的安全技術(shù)研究.pdf
- 文件系統(tǒng)功耗優(yōu)化技術(shù)的研究.pdf
- p2p文件系統(tǒng)資源定位技術(shù)研究
- 云平臺下分布式文件系統(tǒng)評測技術(shù)研究.pdf
- 基于對象的并行文件系統(tǒng)接口語義擴(kuò)展研究.pdf
- 廣域網(wǎng)絡(luò)虛擬文件系統(tǒng)關(guān)鍵技術(shù)研究.pdf
評論
0/150
提交評論