基于粗集的關(guān)系型聯(lián)機(jī)分析優(yōu)化技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩137頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著數(shù)字時(shí)代的到來(lái),企業(yè)積累的數(shù)據(jù)呈爆炸式增長(zhǎng),在海量數(shù)據(jù)上的分析決策已成為當(dāng)前數(shù)據(jù)庫(kù)領(lǐng)域的一大難題;而與此同時(shí),分布式計(jì)算的飛速發(fā)展則為解決這一難題帶來(lái)了機(jī)遇和新的挑戰(zhàn)。構(gòu)建一個(gè)具有分布式特征的關(guān)系型數(shù)據(jù)倉(cāng)庫(kù),并輔之以高效的聯(lián)機(jī)分析優(yōu)化手段,成為依托已有成熟技術(shù)解決這一難題的首選。多維作為聯(lián)機(jī)分析中最本質(zhì)的特征,在關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)中以視圖的形式體現(xiàn),因此在滿足一定數(shù)據(jù)實(shí)時(shí)性的前提下,高效地維護(hù)視圖成為關(guān)系型聯(lián)機(jī)分析優(yōu)化的最根本任務(wù)。基于

2、這一應(yīng)用背景,在自主研制的企業(yè)加速引擎基礎(chǔ)上集成了聯(lián)機(jī)分析處理功能,構(gòu)建了一個(gè)關(guān)系型的分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)DMWS。利用四層架構(gòu)達(dá)到了DMWS的高可擴(kuò)展性,借助粗集的相對(duì)不可辨識(shí)聚類在自治站點(diǎn)上實(shí)現(xiàn)了數(shù)據(jù)粒度可控的事實(shí)垂直分區(qū),基于粗集約簡(jiǎn)的分層視圖更新有效地提高了大規(guī)模負(fù)載下DMWS更新視圖的效率。
   本文提出了一種基于層次外關(guān)鍵字引用搜索加選擇率度量的負(fù)載水平分布方法。該方法首先基于廣度優(yōu)先搜索一組查詢和更新代價(jià)較高且存在

3、單向外關(guān)鍵字傳遞引用的單親關(guān)系構(gòu)成聯(lián)合集;然后依據(jù)查詢選擇率水平傳遞劃分聯(lián)合集;最后基于DMWS的四層倉(cāng)庫(kù)架構(gòu),采用round-robin方法均勻分布聯(lián)合水平分區(qū)。利用分布于數(shù)據(jù)源和自治站點(diǎn)上的觸發(fā)系統(tǒng),DMWS能夠保證倉(cāng)庫(kù)視圖的強(qiáng)一致性更新;通過(guò)將聯(lián)合集水平分布于自治站點(diǎn),該方法實(shí)現(xiàn)了自治站點(diǎn)對(duì)更新負(fù)載的有效分?jǐn)偅蚨蟠笤鰪?qiáng)了DMWS的可擴(kuò)展性;在此基礎(chǔ)上,依據(jù)選擇率劃分水平分區(qū),使得聯(lián)合集的元組具有站點(diǎn)凝聚特性,且凝聚優(yōu)先考慮與高

4、代價(jià)視圖相關(guān)的更新數(shù)據(jù)。
   本研究通過(guò)粒計(jì)算描述粗集理論及其相關(guān)擴(kuò)展,并提出三種與知識(shí)發(fā)現(xiàn)相關(guān)的粗集擴(kuò)展新方法。基于概率思想的兩層近似方法通過(guò)閥值控制對(duì)象集的近似邊界以線性比率變化,有效提高了知識(shí)獲取的容錯(cuò)性;基于相對(duì)不可辨識(shí)類的偏序結(jié)構(gòu)利用鄰域?qū)ο蠼⑻卣骷?,有利于解決非三角距離的對(duì)象聚類問(wèn)題;在這兩種粒化擴(kuò)展方法之上,既約特征集有力地揭示了特征集內(nèi)部的層次關(guān)系,為特征集的分層類化提供了一條極具啟發(fā)意義的途徑。在聯(lián)合水平分

5、布前提下,提出了一種針對(duì)自治站點(diǎn)上事實(shí)關(guān)系的時(shí)態(tài)垂直分區(qū)劃分方法。利用對(duì)每個(gè)查詢樣本的分解,該方法首先將事實(shí)關(guān)系劃分為一個(gè)由阻塞算子界定的屬性訪問(wèn)特征集;然后基于全部查詢樣本下的特征集構(gòu)建一個(gè)聚類模型。為求解這個(gè)對(duì)象距離不滿足三角不等式的聚類模型,在粗集不可辨識(shí)關(guān)系的基礎(chǔ)上,基于偏序結(jié)構(gòu)迭代收斂的特性,構(gòu)造了一個(gè)粒度可控的聚類求解模型。面向復(fù)雜多樣的查詢時(shí),基于查詢分解構(gòu)造聚類模型并依據(jù)有效性函數(shù)選取候選聚類,可以有效克服傳統(tǒng)事務(wù)劃分方

6、法分區(qū)粒度過(guò)小的缺點(diǎn),因此該方法能夠更加有效地發(fā)掘聯(lián)機(jī)分析查詢?cè)L問(wèn)事實(shí)關(guān)系屬性的時(shí)態(tài)局部性。
   本文針對(duì)多連接視圖提出了一種基于輔助視圖的粗分層增量維護(hù)方法。依據(jù)局部更新負(fù)載在集成器上合并的時(shí)機(jī),弱局部合并和強(qiáng)局部合并對(duì)集成器負(fù)載的影響被放到DMWS環(huán)境下分別加以分析。由于強(qiáng)局部合并下全局查詢的主要負(fù)載集中在各自治查詢上,因而通過(guò)選擇下推,SPJ視圖被轉(zhuǎn)換為自治站點(diǎn)間的多連接視圖進(jìn)行優(yōu)化。在此基礎(chǔ)上,首先基于查詢視圖兩兩之間

7、的共享關(guān)系構(gòu)造輔助視圖的候選空間;然后將查詢視圖和中間視圖分別作為對(duì)象集和特征集,利用粗集約簡(jiǎn)構(gòu)造一個(gè)中間視圖候選集的層次生成方法,并證明了各層中任意候選集內(nèi)的視圖相互獨(dú)立且高層單向依賴于低層視圖集;最后在層內(nèi)選取有效代價(jià)最低者作為待選視圖集,并淘汰待選視圖集中造成聯(lián)合代價(jià)增加的視圖。具有獨(dú)立和依賴特性的待選視圖集改進(jìn)了已有估算選取方法局部考量跨度小的不足,基于有效代價(jià)確定待選視圖集顯著減少了估算時(shí)間復(fù)雜度。層次特征的關(guān)系型聯(lián)機(jī)分析優(yōu)化

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論