版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著網(wǎng)絡(luò)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)等持續(xù)增加,形成大量的數(shù)據(jù),這些數(shù)據(jù)給存儲(chǔ)和查詢帶來嚴(yán)峻的挑戰(zhàn)。但可憑借數(shù)據(jù)劃分方法將海量數(shù)據(jù)分塊分布存儲(chǔ)在多個(gè)機(jī)器中,這樣既能能解決單機(jī)器的存儲(chǔ)容量上限問題,也能通過先篩選分塊來縮小查詢目標(biāo)數(shù)據(jù)的范圍,還可利用多機(jī)器協(xié)同查詢以提高數(shù)據(jù)查詢的效率。
本文為進(jìn)行數(shù)據(jù)分塊存儲(chǔ)和查詢需要做一些初始化工作,例如基于機(jī)器性能和數(shù)據(jù)集特點(diǎn),按機(jī)器個(gè)數(shù)和經(jīng)驗(yàn)設(shè)置數(shù)據(jù)區(qū)間;選擇被劃分?jǐn)?shù)據(jù)對(duì)應(yīng)的直角坐標(biāo)到極坐標(biāo)的轉(zhuǎn)化公式;
2、設(shè)計(jì)數(shù)據(jù)區(qū)間索引表,索引表不僅是數(shù)據(jù)劃分的依據(jù),而且是查詢數(shù)據(jù)時(shí)數(shù)據(jù)篩選的依據(jù),為了提高加權(quán)和 Top-K查詢的數(shù)據(jù)區(qū)間篩選效率,設(shè)計(jì)線索樹結(jié)構(gòu)的索引表,為了提高一般查詢的數(shù)據(jù)區(qū)間篩選效率,設(shè)計(jì)簡單樹結(jié)構(gòu)的索引表。本文基于直角坐標(biāo)到極坐標(biāo)的轉(zhuǎn)化公式來計(jì)算待劃分的數(shù)據(jù)相應(yīng)的角度和距離值,并與存儲(chǔ)在索引表中的表示預(yù)設(shè)數(shù)據(jù)區(qū)間情況的角度和距離范圍比較,然后存儲(chǔ)在與此數(shù)據(jù)區(qū)間相對(duì)應(yīng)的機(jī)器文件中。從而實(shí)現(xiàn)大數(shù)據(jù)量的文件以小數(shù)據(jù)量的文件的方式存儲(chǔ),
3、即實(shí)現(xiàn)了數(shù)據(jù)的劃分。隨著被劃分的數(shù)據(jù)增多,當(dāng)某個(gè)數(shù)據(jù)區(qū)間對(duì)應(yīng)的文件存儲(chǔ)的數(shù)據(jù)量過大時(shí),則采用數(shù)據(jù)區(qū)間分裂方法,把該數(shù)據(jù)區(qū)間劃分成幾份新的數(shù)據(jù)區(qū)間,并將原數(shù)據(jù)區(qū)間對(duì)應(yīng)的文件中存儲(chǔ)的數(shù)據(jù)重新按角度和距離再次進(jìn)行劃分到該分區(qū)下屬的新數(shù)據(jù)區(qū)內(nèi)對(duì)應(yīng)的文件中,同時(shí)修改數(shù)據(jù)區(qū)間索引表的分區(qū)信息。此外,基于本文的數(shù)據(jù)劃分存儲(chǔ)方法,給出加權(quán)和 Top-K和一般查詢的方法。先通過索引表找到所屬的數(shù)據(jù)區(qū)間所在的文件,再利用MapReduce任務(wù)對(duì)涉及到的文件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)倉庫系統(tǒng)中的查詢方法研究.pdf
- 基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和查詢方法研究.pdf
- 流式數(shù)據(jù)實(shí)時(shí)查詢方法研究.pdf
- K-匿名數(shù)據(jù)的查詢方法研究.pdf
- 基于SPARQL的鏈接流數(shù)據(jù)查詢方法研究.pdf
- 時(shí)空數(shù)據(jù)庫復(fù)雜查詢方法研究.pdf
- 數(shù)據(jù)庫中的數(shù)據(jù)加密與查詢方法研究.pdf
- 18704.基于mapreduce模式的時(shí)空數(shù)據(jù)組織和查詢方法研究
- 異構(gòu)數(shù)據(jù)源集成與查詢方法的研究.pdf
- 概率數(shù)據(jù)庫中移動(dòng)對(duì)象查詢方法的研究.pdf
- XML查詢方法研究.pdf
- 語義Web數(shù)據(jù)的關(guān)鍵詞查詢方法.pdf
- 濃縮數(shù)據(jù)立方高效實(shí)化和快速查詢方法研究.pdf
- mac查詢方法
- XML模糊SPARQL查詢方法的研究.pdf
- 基于Hibert曲線的查詢方法研究.pdf
- 不確定數(shù)據(jù)的組最近鄰查詢方法研究.pdf
- 基于索引機(jī)制的模糊XML數(shù)據(jù)查詢方法研究.pdf
- 基于結(jié)構(gòu)和內(nèi)容松弛的XML數(shù)據(jù)Top-K近似查詢方法研究.pdf
- 基于semi-join的關(guān)聯(lián)數(shù)據(jù)聯(lián)合查詢方法研究.pdf
評(píng)論
0/150
提交評(píng)論