版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建與應(yīng)用是企業(yè)信息化發(fā)展的必由之路。近十年來(lái),為滿足數(shù)據(jù)的集成、管理和決策支持的目的,在世界各地出現(xiàn)了大量的、不同規(guī)模的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源的類型也越來(lái)越多樣化。尤其是Web數(shù)據(jù)源,文本數(shù)據(jù)源等實(shí)時(shí)數(shù)據(jù)源的出現(xiàn),給數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建以及ETL提出新的挑戰(zhàn)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)面臨若干緊迫問(wèn)題:如何構(gòu)建一個(gè)完善的數(shù)據(jù)倉(cāng)庫(kù)體系以適應(yīng)多種類型的數(shù)據(jù)源;如何高效實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)體系中各個(gè)層次的ETL過(guò)程;如何保證ETL的實(shí)時(shí)性以及如何改進(jìn)數(shù)
2、據(jù)倉(cāng)庫(kù)的訪問(wèn)控制模型等。
本文針對(duì)多類型數(shù)據(jù)源的特點(diǎn),首先分析現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的需求和數(shù)據(jù)源的種類。本文以國(guó)家海洋數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)為例,利用局部ETL和全局ETL兩段式ETL過(guò)程;演化面向多類型數(shù)據(jù)源的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),包括抽取層、歸檔層、匯總層、倉(cāng)庫(kù)層和應(yīng)用層,并且詳細(xì)論證了每一層的設(shè)計(jì)思路和作用?;诖?,本文研究了每一層涉及的若干關(guān)鍵問(wèn)題。
抽取層和歸檔層主要完成數(shù)據(jù)的抽取和歸檔工作,該層的ETL軟件實(shí)現(xiàn)從數(shù)據(jù)源
3、中抽取數(shù)據(jù)并裝載到歸檔庫(kù)中,因此稱為局部ETL。本文重點(diǎn)研究了無(wú)結(jié)構(gòu)的Web頁(yè)面,半結(jié)構(gòu)化文本和結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)庫(kù)這三種數(shù)據(jù)源的局部ETL技術(shù)。首先,針對(duì)無(wú)結(jié)構(gòu)的Web頁(yè)面數(shù)據(jù)源的局部ETL問(wèn)題,提出一種較傳統(tǒng)方式更為高效的Web頁(yè)面采集存儲(chǔ)方法。把頁(yè)面按照其布局特點(diǎn)分為若干個(gè)區(qū)域,把這些區(qū)域作為變化檢測(cè)、存儲(chǔ)和處理單元。
其次,針對(duì)半結(jié)構(gòu)化文本數(shù)據(jù)源的局部ETL問(wèn)題,重點(diǎn)研究了半結(jié)構(gòu)化非自描述型科學(xué)文本數(shù)據(jù),提出了一種
4、文本數(shù)據(jù)關(guān)系化方法,實(shí)現(xiàn)從文本模型到對(duì)象模型進(jìn)而到關(guān)系模型的轉(zhuǎn)換。此外如何保障關(guān)系化的效率和安全性也是本研究的重點(diǎn)。
再次,針對(duì)結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)源的局部ETL問(wèn)題,本文分析和總結(jié)了影響ETL引擎性能的主要因素,提出了一種基于分布式數(shù)據(jù)庫(kù)的ETL新方法,還提出了一種元數(shù)據(jù)驅(qū)動(dòng)的ETL方法來(lái)克服現(xiàn)有ETL工具和手工編碼方式的不足。基于E-LT方法,本文利用SQL語(yǔ)言實(shí)現(xiàn)了元數(shù)據(jù)驅(qū)動(dòng)的ETL工具并詳細(xì)測(cè)試了其執(zhí)行性能。
5、> 匯總層和倉(cāng)庫(kù)層完成從各個(gè)數(shù)據(jù)源的歸檔區(qū)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成工作,該ETL過(guò)程稱為全局ETL。由于數(shù)據(jù)倉(cāng)庫(kù)的實(shí)時(shí)性要求,多數(shù)據(jù)源全局ETL不僅要面臨數(shù)據(jù)集成問(wèn)題,還要保證ETL的實(shí)時(shí)或是近實(shí)時(shí)調(diào)度。本文提出了按照集成的自身規(guī)則觸發(fā)ETL過(guò)程,并分配資源,以解決全局ETL的調(diào)度執(zhí)行,以及它和其它數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用之間爭(zhēng)奪數(shù)據(jù)倉(cāng)庫(kù)資源的問(wèn)題。由于實(shí)時(shí)ETL執(zhí)行過(guò)程中獨(dú)占數(shù)據(jù)倉(cāng)庫(kù)資源,應(yīng)用端一時(shí)無(wú)法連接數(shù)據(jù)倉(cāng)庫(kù)而處于一種離線狀態(tài)。本文設(shè)計(jì)了
6、一個(gè)支持離線運(yùn)行的客戶端框架,使得短時(shí)離線的過(guò)程對(duì)客戶端用戶透明。該離線客戶端框架屬于環(huán)境可感知軟件框架,具有一定的通用性。
數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用層主要包含查詢檢索,OLAP,數(shù)據(jù)挖掘等應(yīng)用,還包括各應(yīng)用的訪問(wèn)控制系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用乃至數(shù)據(jù)倉(cāng)庫(kù)自身都需要一種良好的訪問(wèn)控制機(jī)制。本文提出兩種訪問(wèn)控制模型?;诮巧蜕舷挛牡脑L問(wèn)控制模型是經(jīng)典的基于角色的訪問(wèn)控制模型的擴(kuò)展,適用于數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用以及任何面向最終用戶的軟件系統(tǒng)的訪問(wèn)控制?;?/p>
7、于意圖的訪問(wèn)控制模型適用于數(shù)據(jù)庫(kù)系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)等面向應(yīng)用軟件的系統(tǒng)的訪問(wèn)控制。本研究還在后者的基礎(chǔ)上進(jìn)一步研究了意圖間的層次關(guān)系挖掘算法。
總之,本文提出了一種面向多類型數(shù)據(jù)源的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)和層次劃分,基于該體系結(jié)構(gòu)對(duì)各層次的關(guān)鍵問(wèn)題進(jìn)行分析和研究。所提出的所有模型和算法均給出實(shí)現(xiàn)方法或運(yùn)用在實(shí)際項(xiàng)目中,理論分析和實(shí)驗(yàn)證明了所提出方法和技術(shù)的可行性和有效性。整個(gè)研究?jī)?nèi)容圍繞著數(shù)據(jù)倉(cāng)庫(kù)和ETL過(guò)程的設(shè)計(jì)和實(shí)施,保證了
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向?qū)崟r(shí)數(shù)據(jù)倉(cāng)庫(kù)的ETL研究.pdf
- 構(gòu)建實(shí)時(shí)電力數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)研究.pdf
- 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的ETL系統(tǒng)研究.pdf
- 基于Hadoop平臺(tái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵技術(shù)的研究.pdf
- 面向醫(yī)保數(shù)據(jù)倉(cāng)庫(kù)的ETL技術(shù)研究與應(yīng)用.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)ETL研究及實(shí)現(xiàn).pdf
- 基于XML數(shù)據(jù)源的ETL技術(shù)的研究.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源質(zhì)量保證的方法和步驟.pdf
- 面向領(lǐng)域的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建技術(shù)研究及應(yīng)用.pdf
- 面向醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)庫(kù)的ETL過(guò)程研究與實(shí)現(xiàn).pdf
- 面向數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)整合的ETL系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn).pdf
- 面向商業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量管理關(guān)鍵技術(shù)研究.pdf
- 面向網(wǎng)絡(luò)輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中若干關(guān)鍵技術(shù)的研究.pdf
- 分布式數(shù)據(jù)倉(cāng)庫(kù)中ETL技術(shù)的研究.pdf
- 面向Web文本數(shù)據(jù)倉(cāng)庫(kù)的預(yù)處理關(guān)鍵技術(shù)研究.pdf
- 面向社區(qū)服務(wù)的數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- JL數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究.pdf
- OWB技術(shù)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)ETL的研究與應(yīng)用.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)中ETL建模問(wèn)題的研究.pdf
評(píng)論
0/150
提交評(píng)論