數(shù)據(jù)倉庫實體化視圖聯(lián)機一致性維護研究.pdf_第1頁
已閱讀1頁,還剩102頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫是市場激烈競爭的產物,它將大量用于事務處理的數(shù)據(jù)庫數(shù)據(jù)進行清理、抽取和轉換,并按決策主題的需要重新進行組織,以達到有效決策支持的目標。自從它上世紀90年代初被提出以來,迄今已經形成潮流。在美國,數(shù)據(jù)倉庫已成為緊跟Internet之后處于第二位的技術熱點。 作為數(shù)據(jù)倉庫技術研究的熱點之一,實體化視圖的聯(lián)機維護是數(shù)據(jù)倉庫聯(lián)機維護技術中的一個關鍵技術。它是指,在數(shù)據(jù)倉庫為用戶提供服務的同時,當數(shù)據(jù)庫中的原始數(shù)據(jù)發(fā)生改變時,系統(tǒng)

2、能實時地將這種變化反映到數(shù)據(jù)倉庫中,使相應的實體化視圖得到及時的刷新。 現(xiàn)有的數(shù)據(jù)倉庫產品采用的都是定時脫機維護策略:系統(tǒng)先搜集記錄,但不立刻加入數(shù)據(jù)倉庫,而是采用定時技術對數(shù)據(jù)倉庫進行增量更新,期間數(shù)據(jù)倉庫被禁止使用。所以,許多采用現(xiàn)有數(shù)據(jù)倉庫產品的公司都是利用夜晚對數(shù)據(jù)倉庫進行刷新維護,以保證其在正常工作時間內能夠讀取數(shù)據(jù)倉庫內的數(shù)據(jù)。但是,這種維護方式面臨3個重要的問題: 第一,隨著全球經濟一體化的推進,跨地區(qū)、甚

3、至于跨國企業(yè)不斷涌現(xiàn)。對于這些企業(yè)來說,由于時區(qū)的原因,專門對系統(tǒng)進行更新維護的“夜晚”將越來越難以確定,從而可能影響到企業(yè)數(shù)據(jù)的及時傳送。 第二,隨著應用的不斷深入,當數(shù)據(jù)量非常大的時候,這種維護方式所用的時間也會越來越長。同時,由于定時技術在刷新系統(tǒng)期間,對數(shù)據(jù)倉庫是禁止使用的,而系統(tǒng)的維護工作必須在次日清晨用戶開始使用數(shù)據(jù)倉庫之前完成,因此時間是一個必須認真考慮的限制因素。 第三,定時技術容易使信息過時。在一些對實

4、時性要求比較高的關鍵任務中,如戰(zhàn)場決策等,這種脫機維護方式是不能夠被接受的。 因此,開展24(小時)×7(天)的數(shù)據(jù)倉庫實體化視圖聯(lián)機維護工作模式研究,是一個有著實際意義的課題。 對于單數(shù)據(jù)源單視圖環(huán)境下的數(shù)據(jù)倉庫實體化視圖的聯(lián)機維護問題,論文通過引入數(shù)據(jù)擴展模式的概念,對數(shù)據(jù)源的修改信息進行分類記錄;論文采用版本控制、補償思想和應答機制來協(xié)調數(shù)據(jù)源與數(shù)據(jù)倉庫間的數(shù)據(jù)更新,提出了相應維護算法Glide;該算法分為Glid

5、e-DW和Glide-DB兩部分,分別在數(shù)據(jù)倉庫端和源數(shù)據(jù)庫端執(zhí)行,以保證數(shù)據(jù)倉庫實體化視圖數(shù)據(jù)與源的一致性;對于一些必須通過訪問源數(shù)據(jù)庫才能給出的OLAP查詢等,算法Glide也保證了它們的一致性;算法修正了前人算法中的一些不足,并提高了算法的健壯程度和源數(shù)據(jù)庫端CPU的利用率;論文指出,算法Glide是完全一致收斂的,并給出了嚴格的數(shù)學證明;且通過一個示例說明了該算法在實際中的具體運用;對于包含源關系關鍵屬性的數(shù)據(jù)倉庫實體化視圖定義

6、,論文介紹了針對性維護算法ECA-Key. 多數(shù)據(jù)源聯(lián)接的數(shù)據(jù)倉庫實體化視圖的一致性維護,是該論文研究的第二個問題。其問題的難點在于,由于業(yè)務分布、介質及網(wǎng)絡通信等方面的原因,數(shù)據(jù)倉庫收到的查詢計算結果,和它向各數(shù)據(jù)源發(fā)出的計算查詢順序并不一致,從而引起更新維護后數(shù)據(jù)的不一致。對于包含源關系關鍵屬性的數(shù)據(jù)倉庫實體化視圖定義,論文介紹了針對性維護算法Strobe及其改進算法Strobe*,并給出算法Strobe*強一致收斂的理論證

7、明。對于一般情景下的多源維護,論文提出了一個強一致普適性算法M-Glide,它是算法Glide的一個本質推廣;算法引入動作列表(actionlist)概念,用于記錄數(shù)據(jù)倉庫端發(fā)出的操作序列集,并通過它保證維護提交的動作順序和集成器收到的消息的順序一致,從而確保當提交維護事務后數(shù)據(jù)倉庫視圖值與源的一致性;文章同時給出了一個說明示例。 粒度是數(shù)據(jù)倉庫的重要概念,在數(shù)據(jù)倉庫中,多重粒度是必不可少的。如何進行粒度視圖,即基本方體與聚合格

8、間的維護,同時保證它們之間,以及它們與數(shù)據(jù)源之間的數(shù)據(jù)一致性,是論文研究的另外兩個問題。論文引入了視圖更新表(ViewUpdateTable)的概念,以用于記錄各數(shù)據(jù)源記錄變化對數(shù)據(jù)倉庫視圖的影響,于是當視圖更新表判定當返回的查詢結果,已能引起各數(shù)據(jù)倉庫視圖間的數(shù)據(jù)達到一致狀態(tài)時,將由合并進程生成一個統(tǒng)一的維護事務向數(shù)據(jù)倉庫提交;論文介紹了多視圖維護算法SPA及PA,分別用于處理單一更新與集中處理的不同情況;算法保證當數(shù)據(jù)源發(fā)生變化時,

9、多視圖的維護能夠確保視圖數(shù)據(jù)與源之間,同時各視圖之間的數(shù)據(jù)一致性。論文指出,簡單畫筆算法SPA是完全一致收斂的,而畫筆算法PA是強一致收斂。 對于帶有聚集函數(shù)的視圖維護問題,其實際背景是多維數(shù)據(jù)庫的立方體概念。數(shù)據(jù)倉庫的物理結構一般采用星型結構的關系數(shù)據(jù)庫。星型結構由事實表和維表組成,多個維表之間形成多維數(shù)據(jù)結構。星型結構的數(shù)據(jù)體現(xiàn)了空間的多維立方體,聚合格即是事實表與相應維表之間的聚集聯(lián)接。如何維護這些聚合格,可以看作是多視圖

10、維護的一個特例。與多視圖維護不同的是,這些聚合格帶有聚集函數(shù)定義,同時引發(fā)它們更新維護的原因在于基本方體的變化。論文在前人研究的基礎上,提出了改進算法Refresh*,研究當基本方體發(fā)生增刪變化時,聚合格如何反映這種的變化。算法給出了聚合格維護的一個具體方法,與原有的算法相比,算法Refresh*在時間復雜度上有很大的改進。 論文還提出了三層數(shù)據(jù)倉庫結構,和與之相應的集成部件結構。同時,基于論文對數(shù)據(jù)倉庫更新維護上所作研究得到的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論