數(shù)據(jù)庫集成畢業(yè)論文_第1頁
已閱讀1頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p><b>  目 錄</b></p><p><b>  目 錄1</b></p><p><b>  第一章 引言3</b></p><p>  1.1 什么是系統(tǒng)集成3</p><p>  1.2 發(fā)展背景3</p><p&

2、gt;  1.3 系統(tǒng)集成的任務(wù)3</p><p>  第二章 分布式環(huán)境下異種數(shù)據(jù)庫系統(tǒng)的集成5</p><p>  2.1 數(shù)據(jù)庫系統(tǒng)之間的差異性5</p><p>  2.2異種數(shù)據(jù)庫集成的方法和要解決的問題5</p><p>  2.2.1 平臺和網(wǎng)絡(luò)的透明性5</p><p>  2.2.2 數(shù)據(jù)

3、模型的轉(zhuǎn)換6</p><p>  2.2.3 模式轉(zhuǎn)換和集成6</p><p>  2.2.4分布式事務(wù)管理6</p><p>  2.2.5 位置透明性6</p><p>  2.2.6語言透明性7</p><p>  2.3異種數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)訪問方法7</p><p>  2.3

4、.1數(shù)據(jù)庫網(wǎng)關(guān)7</p><p>  2.3.2公共協(xié)議7</p><p>  2.3.3公共編程界面7</p><p>  第三章 WWW與數(shù)據(jù)庫集成9</p><p><b>  3.1 背景9</b></p><p>  3.2 Web與數(shù)據(jù)庫的連接9</p>

5、<p>  3.2.1 公共網(wǎng)關(guān)接口(CGI)9</p><p>  3.2.2 基于Web應(yīng)用編程接口(API)10</p><p>  3.2.3 基于Java/JDBC的數(shù)據(jù)庫訪問13</p><p>  3.2.4 數(shù)據(jù)綁定(瀏覽器插件)15</p><p>  第四章 新時期數(shù)據(jù)集成技術(shù)的發(fā)展與應(yīng)用17<

6、;/p><p>  4.1 三層結(jié)構(gòu)的處理方式17</p><p>  4.2分布式對象計算DCOM/CORBA18</p><p>  4.2.1什么叫分布式對象計算18</p><p>  4.2.2分布式組件對象模型(Distributed Component Object Model,DCOM)18</p><

7、p>  4.2.3公共對象請求代理體系(Common Object Request Broker Architecture,CORBA)19</p><p>  4.2.4 DCOM和CORBA的比較19</p><p>  4.3利用XML對數(shù)據(jù)進行集成21</p><p>  第五章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘23</p><p&g

8、t;  5.1數(shù)據(jù)倉庫23</p><p>  5.1.1 什么是數(shù)據(jù)倉庫23</p><p>  5.1.2 數(shù)據(jù)倉庫的特征23</p><p>  5.1.3數(shù)據(jù)倉庫的結(jié)構(gòu)組成23</p><p>  5.2 數(shù)據(jù)挖掘24</p><p>  5.2.1什么是數(shù)據(jù)挖掘24</p><

9、p>  5.2.2 數(shù)據(jù)挖掘過程組成24</p><p><b>  5.3小結(jié)24</b></p><p><b>  參考文獻25</b></p><p><b>  致 謝26</b></p><p><b>  第一章 引言</b>

10、;</p><p>  1.1 什么是系統(tǒng)集成</p><p>  美國專門從事信息行業(yè)調(diào)查研究的IDC公司認為:系統(tǒng)集成是將軟件,硬件與通信技術(shù)組合起來,為用戶解決信息處理問題的業(yè)務(wù)。</p><p>  IBM公司是最大的計算機制造商,也是最大的系統(tǒng)集成承包商。它把系統(tǒng)集成定義為將信息技術(shù),產(chǎn)品與服務(wù)結(jié)合起來,負責實現(xiàn)特定功能的業(yè)務(wù)。</p>&l

11、t;p>  日本通產(chǎn)省的定義是:系統(tǒng)集成是掌握用戶的需求,并根據(jù)用戶的需求全面負責用戶系統(tǒng)的設(shè)計,軟件開發(fā),運行準備與維護的服務(wù)。</p><p>  上述幾種說法雖有不同,但基本內(nèi)涵是一致的。</p><p><b>  1.2 發(fā)展背景</b></p><p>  系統(tǒng)集成的發(fā)展有一系列重要原因。</p><p&g

12、t;  近年來世界各國特別是發(fā)達國家對信息系統(tǒng)的投資急劇增加。</p><p>  現(xiàn)在信息系統(tǒng)日趨復雜,為了優(yōu)化系統(tǒng)的設(shè)計,已不可能只采用一家計算機廠商的產(chǎn)品。</p><p>  網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用增加了對系統(tǒng)集成服務(wù)的需求。</p><p>  隨著信息系統(tǒng)規(guī)模的擴大,系統(tǒng)研制的風險也大幅度的增長。</p><p>  軟件系統(tǒng)日趨復雜

13、,大型應(yīng)用軟件很難由一個單位獨立完成,合理分工協(xié)作的開發(fā)方式已經(jīng)成為一種必然的發(fā)展趨勢。</p><p>  1.3 系統(tǒng)集成的任務(wù)</p><p>  一個計算機應(yīng)用系統(tǒng),尤其是大型計算機信息系統(tǒng),包括:各種計算機硬件,軟件,網(wǎng)絡(luò)和應(yīng)用,它們受相應(yīng)系統(tǒng)的功能要求,工作環(huán)境,經(jīng)費預算,開發(fā)期限等因素的制約,需要有針對性的選用恰當?shù)漠a(chǎn)品及其型號,規(guī)格和指標,同時需要采用恰當?shù)募夹g(shù)手段和依據(jù)一

14、定的規(guī)范將他們組合與集成起來,以充分發(fā)揮設(shè)備的功能,收到總體的最佳效果,這就是系統(tǒng)集成所要完成的任務(wù)。</p><p>  下面我們可以從四個層次對系統(tǒng)集成的任務(wù)進行描述。</p><p><b>  應(yīng)用功能的集成</b></p><p>  應(yīng)用功能集成的核心和關(guān)鍵是數(shù)據(jù)集成,它是指將用戶的實際需求和所提出的實際應(yīng)用功能在同一系統(tǒng)中加以實現(xiàn)

15、。例如,常見的應(yīng)用需求有查詢,檢索,分析,計算等。最終,用戶是通過應(yīng)用功能實現(xiàn)的好壞來判定系統(tǒng)建設(shè)的成敗,</p><p>  因此,應(yīng)用功能的集成不僅反映出系統(tǒng)集成商對用戶系統(tǒng)建設(shè)目標的理解程度,而且直接影響到后續(xù)其他層次任務(wù)的集成。應(yīng)用功能的集成是在系統(tǒng)需求分析,系統(tǒng)設(shè)計及應(yīng)用軟件開發(fā)等階段完成的,最終是在所建立的支撐環(huán)境中通過應(yīng)用軟件實現(xiàn)的。</p><p><b>  支

16、撐系統(tǒng)的集成</b></p><p>  支撐系統(tǒng)(或支持系統(tǒng))的集成是為了實現(xiàn)用戶的應(yīng)用需求和功能而必須建立的支撐環(huán)境的集成。它為應(yīng)用系統(tǒng)的集成提供統(tǒng)一的系統(tǒng)平臺,特別是統(tǒng)一的數(shù)據(jù)庫平臺,以保證數(shù)據(jù)格式的一致性,避免過多的數(shù)據(jù)接口和數(shù)據(jù)轉(zhuǎn)換,以提高工作效率。例如,用戶需要遠程查詢功能,我們不僅要為用戶解決遠程訪問的通信手段,而且還要建立供查詢使用的查詢信息庫和相應(yīng)的服務(wù)器。于是,這個系統(tǒng)就應(yīng)提供三個

17、支持系統(tǒng):網(wǎng)絡(luò)平臺,數(shù)據(jù)庫平臺和服務(wù)器平臺,這三個平臺有共同組成了這個遠程查詢應(yīng)用系統(tǒng)的支撐平臺。</p><p><b>  技術(shù)集成</b></p><p>  無論是功能目標及需求的實現(xiàn),還是集成系統(tǒng)之間的集成,實際上都是通過各種技術(shù)之間的集成來實現(xiàn)的。例如,在網(wǎng)絡(luò)平臺的建設(shè)過程中,往往不僅要采用LAN技術(shù),還要采用WAN技術(shù);不僅需要數(shù)據(jù)通訊技術(shù),還需要多媒體

18、通信技術(shù),甚至在一個LAN 建設(shè)環(huán)境中,也往往集成了10Mbps以太網(wǎng)技術(shù),快速交換以太網(wǎng)技術(shù),甚至ATM技術(shù)。又如,在計算機系統(tǒng)平臺的建設(shè)過程中,可能采用以Client/Server為主的結(jié)構(gòu),但也可能部分采用多終端訪問方式;在OS系統(tǒng)平臺上不但會有UNIX,而且會有Windows NT等其它OS。以上是在同一支撐平臺上不同技術(shù)的集成問題,即使在不同平臺之間,技術(shù)集成的問題也大量存在。例如,異種機網(wǎng)絡(luò)互連問題就是服務(wù)器平臺集成過程中的

19、典型技術(shù)集成問題。又如,數(shù)據(jù)庫系統(tǒng)加載問題涉及到數(shù)據(jù)庫技術(shù),網(wǎng)絡(luò)技術(shù)與服務(wù)器技術(shù)的綜合集成。</p><p><b>  產(chǎn)品集成</b></p><p>  這時系統(tǒng)集成最終,最直接的體現(xiàn)形式。因為,無論是應(yīng)用功能,支撐系統(tǒng),還是技術(shù),其最終的表現(xiàn)形式都落實在具體產(chǎn)品和設(shè)備的集成上。例如,要實現(xiàn)交換以太網(wǎng)技術(shù),就要選這能支持該技術(shù)的產(chǎn)品設(shè)備;為實現(xiàn)漢字遠程查詢訪問功

20、能,就要選擇支持遠程撥號能力的相關(guān)網(wǎng)絡(luò)產(chǎn)品和漢字終端設(shè)備。所謂產(chǎn)品集成,就是把不同種類,不同廠商,不同應(yīng)用的計算機產(chǎn)品設(shè)備(包括軟件)依照設(shè)計有機的組合在一起。</p><p>  我們認為,只有能夠?qū)崿F(xiàn)以上幾個層次的集成,才可成為真正的系統(tǒng)集成商。網(wǎng)絡(luò)實現(xiàn)了設(shè)備的物理連接,或者說是“物理集成”,但它遠遠沒有解決系統(tǒng)的功能集成和信息系統(tǒng)集成,即“邏輯集成”,而后者的集成實現(xiàn)難度更大,技術(shù)更復雜,在實現(xiàn)過程中應(yīng)給予

21、特別的重視。</p><p>  第二章 分布式環(huán)境下異種數(shù)據(jù)庫系統(tǒng)的集成</p><p>  一般的大型信息系統(tǒng)都是基于數(shù)據(jù)庫系統(tǒng)的,所以數(shù)據(jù)(庫)集成也就成為了系統(tǒng)集成的核心。許多企事業(yè)單位在不同時期針對某些特定的業(yè)務(wù)應(yīng)用需求實施了一系列異種數(shù)據(jù)庫應(yīng)用系統(tǒng),出于保持應(yīng)用拓展的連續(xù)性和保護過去投資及信息資源等因素的需要,這些異種應(yīng)用系統(tǒng)往往需要長期共存,因此,對異種數(shù)據(jù)庫進行集成,避免

22、形成“信息化孤島”是很有實際應(yīng)用價值的研究課題。</p><p>  2.1 數(shù)據(jù)庫系統(tǒng)之間的差異性</p><p>  要對分布式環(huán)境下的多個異種數(shù)據(jù)庫系統(tǒng)進行集成,實現(xiàn)相互之間的操作,首先要弄清它們之間的差異性。這里所說的異種數(shù)據(jù)庫包括不同形式的數(shù)據(jù)庫,不同數(shù)據(jù)模型的數(shù)據(jù)庫,同數(shù)據(jù)模型不同廠商的同質(zhì)異型數(shù)據(jù)庫,以及同一數(shù)據(jù)庫廠商的不同版本的,針對不同環(huán)境的數(shù)據(jù)庫產(chǎn)品。</p>

23、;<p>  從實際運行的系統(tǒng)來說,有許多因素都可能造成數(shù)據(jù)庫系統(tǒng)之間的差異性,譬如,計算機硬件,操作系統(tǒng),網(wǎng)絡(luò)通信和協(xié)議(這些就形成所謂的平臺異構(gòu)性),以及DBMS和數(shù)據(jù)模型的不同等等。除了平臺異構(gòu)性外,源自數(shù)據(jù)庫系統(tǒng)自身的差異可以分為DBMS的差異和數(shù)據(jù)語義的差異兩類。</p><p><b>  DBMS的差異</b></p><p>  數(shù)據(jù)模型

24、的不同是DBMS差異的一個重要方面。關(guān)系數(shù)據(jù)庫,層次數(shù)據(jù)庫,網(wǎng)狀數(shù)據(jù)庫,以及新出現(xiàn)的面向?qū)ο髷?shù)據(jù)庫,它們所采用的數(shù)據(jù)模型各不相同,將進一步導致數(shù)據(jù)結(jié)構(gòu),約束和數(shù)據(jù)語言等的差異。</p><p><b>  數(shù)據(jù)語義的差異</b></p><p>  數(shù)據(jù)語義的差異主要源于不同數(shù)據(jù)庫對相同或相關(guān)數(shù)據(jù)的理解,解釋和使用的不一致性。譬如,兩個數(shù)據(jù)庫中對同一屬性名的具體含義定

25、義不一樣,或同一屬性的數(shù)據(jù)值在兩個數(shù)據(jù)庫中的精度定義不同,都可能引起語義差異。</p><p>  2.2異種數(shù)據(jù)庫集成的方法和要解決的問題</p><p>  實現(xiàn)分布環(huán)境下異種數(shù)據(jù)庫的集成可以通過兩個方面的努力:一是轉(zhuǎn)換,二是標準化。</p><p>  2.2.1 平臺和網(wǎng)絡(luò)的透明性</p><p>  由于異種數(shù)據(jù)庫系統(tǒng)可能運行在從桌

26、面機到主機的多種機型上,而且操作系統(tǒng)也可能不同,所以要實現(xiàn)異中數(shù)據(jù)庫的集成,首先應(yīng)當提供平臺的透明性,能夠?qū)σ蕾囉诓煌脚_的數(shù)據(jù)存儲格式,浮點表示,字節(jié)排列,國際字符格式,字符集等自動進行轉(zhuǎn)換,使這些差別對用戶和開發(fā)人員透明。</p><p>  異種數(shù)據(jù)庫系統(tǒng)通常都是在網(wǎng)絡(luò)環(huán)境下進行通信的。異種數(shù)據(jù)庫的集成應(yīng)當提供網(wǎng)絡(luò)的透明性,支持常用的網(wǎng)絡(luò)拓撲和協(xié)議。目前多數(shù)流行的數(shù)據(jù)庫管理系統(tǒng)都能支持Async,DECne

27、t,TCP/IP,SPX/IPX,X.25等常用的網(wǎng)絡(luò)協(xié)議。</p><p>  2.2.2 數(shù)據(jù)模型的轉(zhuǎn)換</p><p>  異種數(shù)據(jù)庫集成可能是關(guān)系,網(wǎng)狀,層次,語義和面向?qū)ο蟮榷喾N數(shù)據(jù)模型的數(shù)據(jù)庫的集成,這就需要在不同的數(shù)據(jù)模型間進行轉(zhuǎn)換,使得用戶能夠采用與本地數(shù)據(jù)庫一致的方式訪問到遠程數(shù)據(jù)庫中不同數(shù)據(jù)模型中的數(shù)據(jù)。</p><p>  數(shù)據(jù)模型的轉(zhuǎn)換有兩種

28、方法:一種是進行數(shù)據(jù)庫語言的轉(zhuǎn)化,譬如在層次數(shù)據(jù)庫,網(wǎng)狀數(shù)據(jù)庫中提供支持SQL語言的機制;另一種是采用公共模型,其它模型均可與這種公共模型進行雙向轉(zhuǎn)換 ,從而實現(xiàn)不同模型之間的轉(zhuǎn)換。</p><p>  2.2.3 模式轉(zhuǎn)換和集成</p><p>  每個本地數(shù)據(jù)庫都有描述自身數(shù)據(jù)結(jié)構(gòu)的本地模式,面向用戶的數(shù)據(jù)庫結(jié)構(gòu)則可用用戶模式來描述。各個本地模式要構(gòu)成全局模式以便于跨數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)操

29、作。由于不同數(shù)據(jù)庫中的本地模式,全局模式和用戶模式可能各不相同,應(yīng)當能夠?qū)⒈镜啬J睫D(zhuǎn)換并集成為全局模式,并從全局模式構(gòu)造出不同的用戶模式。</p><p>  2.2.4分布式事務(wù)管理</p><p>  分布式事務(wù)是包括一條以上語句的任一事務(wù),這些事務(wù)可修改兩個以上不同節(jié)點上的數(shù)據(jù)。異種數(shù)據(jù)庫集成應(yīng)當有分布式事務(wù)管理功能,保證一個事務(wù)的所有語句作為一個單元進行提交或回退,通常是通過兩個階

30、段提交來完成的。</p><p>  2.2.5 位置透明性</p><p>  位置透明性是指用戶和編程人員不必知道數(shù)據(jù)庫中數(shù)據(jù)的具體存放位置,便能直接訪問它。通常用戶和編程人員只要指明數(shù)據(jù)項的邏輯名,系統(tǒng)就能自動把邏輯名映射到該數(shù)據(jù)的物理位置的地址上。</p><p>  2.2.6語言透明性</p><p>  異種數(shù)據(jù)庫集成應(yīng)當提供語

31、言的透明性,讓用戶使用一種公共的標準語言集就能訪問不同數(shù)據(jù)庫的數(shù)據(jù)。選擇公共語言集有兩種方法:一是選不同數(shù)據(jù)庫語言的公共集或標準集;二是取某種數(shù)據(jù)庫的操作語言作為公共語言。SQL語言已成為事實上的標準語言。</p><p>  2.3異種數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)訪問方法</p><p>  當前,異種數(shù)據(jù)庫系統(tǒng)集成主要采用三種方法:數(shù)據(jù)庫網(wǎng)關(guān)(Gateway),公共協(xié)議(Common Protoco

32、l),公共編程接口(Common Programming Interface),它們都是基于Client/Server體系結(jié)構(gòu)的。</p><p>  2.3.1數(shù)據(jù)庫網(wǎng)關(guān)</p><p>  數(shù)據(jù)庫網(wǎng)關(guān)是一個轉(zhuǎn)換器,客戶只要通過它就可以訪問異種數(shù)據(jù)庫。采用數(shù)據(jù)庫網(wǎng)關(guān)可以較為滿意的解決數(shù)據(jù)庫的互操作問題,通過網(wǎng)關(guān),可以把第三方的開發(fā)工具連接到自己的數(shù)據(jù)庫產(chǎn)品上。用戶無需廢棄現(xiàn)有的應(yīng)用程序,

33、就可利用網(wǎng)關(guān)把它們與新的數(shù)據(jù)庫技術(shù)互連起來,從而保護已有的投資,但是,幾個異構(gòu)數(shù)據(jù)庫構(gòu)成的復雜系統(tǒng)中,要實現(xiàn)任意兩個數(shù)據(jù)庫見的互操作,就必須提供n(n-1)/2個網(wǎng)關(guān),而且數(shù)據(jù)庫網(wǎng)關(guān)價格昂貴,這在實際應(yīng)用中是很難投入實用的,而且,有些異構(gòu)數(shù)據(jù)庫間的數(shù)據(jù)格式,語義或語法的轉(zhuǎn)換是行不通的,利用數(shù)據(jù)庫網(wǎng)關(guān)訪問這些數(shù)據(jù)庫不易達到完全透明。</p><p><b>  2.3.2公共協(xié)議</b><

34、;/p><p>  采用公共協(xié)議指對用戶和服務(wù)期間通信的格式和協(xié)議(frame and protocal)以及對數(shù)據(jù)庫語言進行標準化,這是一種最理想的解決異種數(shù)據(jù)庫系統(tǒng)集成的方法。目前比較典型的有關(guān)FAP的標準是ANSI/ISO的RDA標準(ISO/IEC9579)和IBM的分布式關(guān)系數(shù)據(jù)庫體系結(jié)構(gòu)(DRDA)。在數(shù)據(jù)庫語言方面,ISO有數(shù)據(jù)查詢語言SQL的標準(如:ISO9075),很多數(shù)據(jù)庫產(chǎn)品部分或完全支持它。

35、</p><p>  2.3.3公共編程界面</p><p>  公共編程界面包括客戶應(yīng)用編程界面(CAPI)和服務(wù)器應(yīng)用編程界面 (SAPI)。CAPI是一組程序庫,通常以TSR方式或DLL方式駐留在客戶工作站上,一個CAPI通??裳b載后端專用的驅(qū)動程序以訪問不同的數(shù)據(jù)源。SAPI提供一個應(yīng)用編程界面,并提供控制服務(wù)器與客戶應(yīng)用請求和目標數(shù)據(jù)庫之間的交互,像Microsoft的ODBC,

36、Oracle的SQL NET以及IDAPI就是這類用途的API。</p><p>  以上三種方法在異種數(shù)據(jù)庫集成中可以配合使用,并不相互排斥。</p><p>  第三章 WWW與數(shù)據(jù)庫集成</p><p><b>  3.1 背景</b></p><p>  數(shù)據(jù)庫技術(shù)經(jīng)過幾十年的發(fā)展,其功能越來越強大,但隨著以網(wǎng)

37、絡(luò)為中心的計算機時代的到來,以往被廣泛使用的用DBMS建造的數(shù)據(jù)庫資源不能被Web直接訪問,這種狀況影響了數(shù)據(jù)庫資源的共享,造成了資源浪費。</p><p>  當前數(shù)據(jù)庫系統(tǒng)的應(yīng)用環(huán)境由可控制的環(huán)境變成多變的異質(zhì)信息集成環(huán)境和WWW環(huán)境。可以說Web就是一個巨型數(shù)據(jù)庫,Web上的數(shù)據(jù),數(shù)據(jù)量大,類型多,管理不足。而這恰恰是數(shù)據(jù)庫的優(yōu)勢,因此,數(shù)據(jù)庫技術(shù)與Web技術(shù)的結(jié)合已成為當前研究的重點。</p>

38、<p>  一方面,網(wǎng)絡(luò)技術(shù)的發(fā)展推動了Web技術(shù)的發(fā)展,Web上巨大的數(shù)據(jù)量再也不能忍受文件系統(tǒng)的管理模式,迫切需要采用數(shù)據(jù)庫技術(shù)進行管理。用數(shù)據(jù)庫技術(shù)進行管理可使Web頁面更具交互性,動態(tài)性和靈活性。另一方面,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也需要引入Web技術(shù),以便與信息在網(wǎng)絡(luò)上的訪問和發(fā)布。</p><p>  3.2 Web與數(shù)據(jù)庫的連接</p><p>  3.2.1 公共

39、網(wǎng)關(guān)接口(CGI)</p><p>  CGI(Common Gateway Interface)是服務(wù)器和HTML文件之間的接口程序,它負責處理HTML文件與運行在服務(wù)器中的程序之間的數(shù)據(jù)交換。當讀者輸入他們的信息后,便激活了一個CGI程序,一個CGI程序就是一個散發(fā)器,它負責傳送請求給適當?shù)臄?shù)據(jù)庫應(yīng)用服務(wù)器。該CGI 程序又可以調(diào)用操作系統(tǒng)下的其它程序如數(shù)據(jù)庫應(yīng)用服務(wù)完成讀者的查詢?nèi)蝿?wù)。當系統(tǒng)完成查詢?nèi)蝿?wù)之后

40、,又將查詢結(jié)果傳給CGI,通過CGI傳給服務(wù)器,其結(jié)構(gòu)如圖1。</p><p>  優(yōu)點:通用性 由于CGI是作為Web服務(wù)器提供一般的接口而設(shè)計,因此,幾乎所有的服務(wù)器都支持CGI,開發(fā)者可以使用任一Web服務(wù)器內(nèi)置語言編寫CGI程序,如VB,VC等。</p><p><b>  缺點:</b></p><p>  運行慢,開銷大。從上述實

41、現(xiàn)過程我們不難看出,對每個Web用戶提交的請求,服務(wù)器都需進行格式轉(zhuǎn)換。即把HTML格式轉(zhuǎn)化成服務(wù)器所需要的格式。而且服務(wù)器將每一個CGI調(diào)用作為一個進程來運行,每一次對數(shù)據(jù)庫進行操作時,都不許進行數(shù)據(jù)庫服務(wù)器的登錄,打開數(shù)據(jù)庫,操作結(jié)束后關(guān)閉數(shù)據(jù)庫和注銷。這些都無疑增加了處理的開銷,而且消耗了大量時間和資源。在用戶增多情況下,表現(xiàn)尤為突出。</p><p>  由于用戶對數(shù)據(jù)庫操作時是以批處理方式發(fā)送用戶名,用

42、戶口令,因此Web服務(wù)器只能控制用戶所在的域,而不能用數(shù)據(jù)庫級特權(quán)來控制存取權(quán)限,這樣使得對用戶的訪問變得難以控制。</p><p>  CGI程序的編譯,連接是與一個具體的數(shù)據(jù)庫管理系統(tǒng)相聯(lián)系的,因此該程序只能訪問一個具體的數(shù)據(jù)庫。</p><p>  對開發(fā)者來說,CGI編程十分復雜,僅一個簡單的查詢就需要上百條語句實現(xiàn)。</p><p>  3.2.2 基于W

43、eb應(yīng)用編程接口(API)</p><p>  針對CGI的缺陷,一些Web服務(wù)器廠商推出了各自的Web服務(wù)器應(yīng)用編程接口API(Application Programming Interface),如Microsoft的Web服務(wù)器IIS(Internet Information Server)的ISAPI,Netscape的NSAPI等。但是開發(fā)API程序要比CGI程序復雜的多,開發(fā)者須具備進程同步,直接協(xié)議

44、編程等方面的專業(yè)知識。因此,為使Web與數(shù)據(jù)庫之間的連接更為簡潔,方便,Netscape和Microsoft在各自的Web服務(wù)器軟件中提供了基于API的編程接口。微軟在其IIS2.0(Internet information Server)中提供了基于ISAPI的IDC(Internet Database Connector),Netscape Enterprise Server提供了基于NSAPI的LiveWire。</p>

45、;<p>  在此,談?wù)勗贛icrosoft公司的產(chǎn)品IIS中如何訪問數(shù)據(jù)庫的。</p><p>  利用IIS2.0中的IDC連接數(shù)據(jù)庫</p><p>  IDC是IIS的一個動態(tài)鏈接庫(Httpodbc.dll), 運行在Web服務(wù)器上的,它是通過ODBC接口訪問各種數(shù)據(jù)庫的,瀏覽器利用HTTP協(xié)議遞交需求給Internet服務(wù)器,服務(wù)器用HTML語言格式的文檔響應(yīng),服

46、務(wù)器通過調(diào)用IDC完成對數(shù)據(jù)庫的訪問。其過程如圖2。</p><p>  從圖2中看出,整個過程分為6步:</p><p>  Internet Information Server 接收URL(Uniform Resource Locator)。</p><p>  Internet Information Server 載入HTTPODBC.DLL并且提供URL

47、中保留的信息,.IDC文件被映射到HTTPODBC.DLL,HTTPODBC.DLL載入并且包含從URL傳遞到服務(wù)器上的Internet 數(shù)據(jù)庫連接器文件。</p><p>  HTTPODBC.DLL讀Internet數(shù)據(jù)庫連接器文件。</p><p>  IDC與ODBC數(shù)據(jù)源連接,執(zhí)行包含在Internet 數(shù)據(jù)庫連接器文件中的SQL查詢語句。</p><p>

48、;  IDC從數(shù)據(jù)庫中反饋查詢結(jié)果。并將該結(jié)果放入HTML擴展文件 .HTX中。</p><p>  IDC發(fā)送信息給服務(wù)器,服務(wù)器將該信息反饋給客戶。</p><p><b>  圖 2</b></p><p>  我們可以看出,對數(shù)據(jù)庫的一個字段進行瀏覽,可用如下的程序?qū)崿F(xiàn):第一部分為 .HTML(超文本文件),第二部分為.IDC(數(shù)據(jù)庫連

49、接文件),第三部分為.HTX(反饋文件)。因此,只要簡單掌握了SQL語句,運用超文本語言,訪問數(shù)據(jù)庫是十分容易和方便的事,不像編寫CGI程序那樣需要有一定的專業(yè)知識,同時又需要專門的軟件。編寫.IDC文件不需要特殊的軟件,同編寫HTML語句一樣,用Windows的記事本就可以編寫,故在設(shè)計一些具有固定格式的動態(tài)Web頁面時是非常合適的。另一個區(qū)別在于用ISAPI創(chuàng)建的應(yīng)用程序被編譯成動態(tài)鏈接庫(DLL),在WWW服務(wù)器啟動時被裝載,由于

50、程序常駐內(nèi)存,ISAPI程序比CGI 應(yīng)用程序運行速度快。</p><p>  用IIS3.0中的ASP連接數(shù)據(jù)庫</p><p>  相對IIS2.0,Microsoft在IIS3.0中增加了Active Server 的功能。這使得我們可以采用ASP(Active Server Pages)技術(shù)進行數(shù)據(jù)庫的集成。它與IDC技術(shù)類似,也是獲取用戶的HTTP請求,將結(jié)果返回瀏覽器。但在對數(shù)

51、據(jù)庫進行操作時,ASP 技術(shù)要比IDC技術(shù)簡潔,方便的多。</p><p>  ASP 提供了很多ActiveX服務(wù)器構(gòu)件,其中通過ActiveX組件ADO(ActiveX Data Object)便可方便的訪問到數(shù)據(jù)庫服務(wù)器上的數(shù)據(jù)。ADO是Microsoft推出的基于ODBC的數(shù)據(jù)庫訪問對象,ADO通過組件對象模型(COM)為ASP提供了Web與數(shù)據(jù)庫連接的可編程界面,只需幾行腳本語句便可將后臺的數(shù)據(jù)庫信息發(fā)

52、布到網(wǎng)頁上。</p><p>  利用ASP技術(shù)訪問數(shù)據(jù)庫如圖3所示。</p><p>  一個ASP文件包含三部分:(1)TEXT,(2)Html,(3)ASP腳本命令。其中ASP腳本命令是用“<%”和“%〉”括起來的VBScript或Jscript語句組成的。這些腳本經(jīng)服務(wù)器解釋后以Html格式傳給瀏覽器。</p><p>  通過IIS2.0/IDC和I

53、IS3.0/ASP 不僅可以從數(shù)據(jù)庫中查詢數(shù)據(jù),還可以存儲數(shù)據(jù)。由于ASP可直接在HTML文件中包含可執(zhí)行的腳本(VBScript或Jscript),因此整個開發(fā)過程變得一體化。而且,利用ASP開發(fā)的網(wǎng)頁是獨立于瀏覽器的,即無論客戶端采用的是文字瀏覽器還是Internet Explorer,Netscape Navigate都能夠訪問這些網(wǎng)頁。</p><p>  與CGI相比,由于API技術(shù)是Web與數(shù)據(jù)庫中在

54、較深層次上連接,因此使得Web與數(shù)據(jù)庫集成的更為緊密,性能更高,但其最大的缺點是缺乏互通性,且API編程要比 CGI編程更為復雜。而基于Web API訪問數(shù)據(jù)庫的方法實現(xiàn)簡單,編程容易,操作容易,但與各自的Web服務(wù)器捆綁得太緊,即編寫的程序只能在相應(yīng)的Web服務(wù)上運行,缺乏通用性。</p><p>  3.2.3 基于Java/JDBC的數(shù)據(jù)庫訪問</p><p>  JDBC(Java

55、 DataBase Connectivity)是Java語言與數(shù)據(jù)庫管理系統(tǒng)之間的接口,通過它,一個Java應(yīng)用程序可以訪問任何一個關(guān)系型數(shù)據(jù)庫,JDBC是Java語言中執(zhí)行SQL語句的API,它由一系列類(classes)和接口(interfaces)所組成,這些類和接口均是由Java語言寫的,程序開發(fā)者使用這些類和接口與數(shù)據(jù)庫建立連接,發(fā)送SQL語句,處理SQL語句返回的結(jié)果。完成一個基于JDBC的應(yīng)用需要一組層次結(jié)構(gòu)的產(chǎn)品,它包括

56、,JDBC API,JDBC Driver Manager和針對某一特定數(shù)據(jù)庫的Driver,它的一般工作原理如圖4所示。</p><p>  圖4 JDBC的工作原理</p><p>  Java/JDBC方法的基本思想是,分布應(yīng)用程序的代碼,將它傳送給客戶程序,然后由客戶端在用戶的計算機上執(zhí)行這些代碼。這種方式允許在WWW中重新建立數(shù)據(jù)庫系統(tǒng)的界面部分,有助于實現(xiàn)認證,安全性和系統(tǒng)完

57、整性等訪問控制機制。另外,Java的AWT(Abstract Windows Toolkit)提供了豐富的圖形控制調(diào)用,有助于用戶界面圖形化。該訪問有兩種結(jié)構(gòu)形式。</p><p>  兩層結(jié)構(gòu),Java/JDBC兩層結(jié)構(gòu)如圖5。</p><p>  圖5 Java/JDBC兩層結(jié)構(gòu)</p><p>  Web瀏覽器向HTTP服務(wù)器發(fā)出請求,然后對HTTP服務(wù)器返

58、回的HTML文本進行分析處理,決定需要下載的Java字節(jié)碼文件。并且,瀏覽器所帶的JVM(Java Virtual Machine)對其進一步分析,將Applet相關(guān)類的字節(jié)碼文件和JDBC接口類的字節(jié)碼文件下載到客戶端,然后JVM對所下載的字節(jié)碼文件進行檢驗,檢驗通過后就執(zhí)行Applet。此時,客戶機與HTTP服務(wù)器斷開。Applet根據(jù)HTML文本所提供的數(shù)據(jù)庫地址,端口和賬號直接與數(shù)據(jù)庫服務(wù)器建立連接,進行數(shù)據(jù)交互。</p&

59、gt;<p>  三層結(jié)構(gòu),Java/JDBC三層結(jié)構(gòu)如圖6。</p><p>  圖6 Java/JDBC三層結(jié)構(gòu)</p><p>  三層結(jié)構(gòu)中,Applet發(fā)送的命令送至網(wǎng)關(guān)服務(wù)器,由網(wǎng)關(guān)服務(wù)器將SQL語句發(fā)送給數(shù)據(jù)庫,數(shù)據(jù)庫的返回結(jié)果經(jīng)網(wǎng)關(guān)服務(wù)器返回給Web用戶。其優(yōu)點是,網(wǎng)關(guān)服務(wù)器完成了對數(shù)據(jù)庫的存取控制和對返回數(shù)據(jù)的加工,用戶可在更高層次上開發(fā),開發(fā)工作相對簡單

60、。</p><p>  3.2.4 數(shù)據(jù)綁定(瀏覽器插件)</p><p>  Internet Explorer 4.0通過支持Connect-Record Data Binding(當前數(shù)據(jù)綁定)改變了在Web上數(shù)據(jù)訪問的性質(zhì)??蛻艚壎〝?shù)據(jù)意味查找來自數(shù)據(jù)源的數(shù)據(jù)視圖在客戶不必返回到服務(wù)器更新的情況下,可以進行瀏覽和編輯,創(chuàng)建帶有數(shù)據(jù)綁定的Web頁,比在服務(wù)器端的復本更迅速,導致了高

61、級的用戶界面和應(yīng)用。由于為對象綁定數(shù)據(jù),IE4.0引進了二個新的HTML標志:DATASRC和DATAFLD。這兩個標志用于將HTML元素綁定到一個一個紀錄組中一個特別的欄。創(chuàng)建一個可以關(guān)聯(lián)到元素的記錄組需要使用ActiveX控件,與IE4.0一起發(fā)送的有兩個具有從不同數(shù)據(jù)源創(chuàng)建記錄組能力的ActiveX控件:表格式數(shù)據(jù)控件(Tabular Data Control,TDC)和遠程數(shù)據(jù)服務(wù)(Remote Data Services,RD

62、S)。TDC用于訪問文本文件中的有界數(shù)據(jù),RDS用于訪問ODBC數(shù)據(jù)源中的數(shù)據(jù)。</p><p>  一旦Web頁中包含TDC,可以將適當?shù)腍TML元素綁定到數(shù)據(jù)源中的任何字段,RDS具有從任何運行在服務(wù)器上的ODBC數(shù)據(jù)源創(chuàng)建紀錄組能力,并且將數(shù)據(jù)送到客戶端,RDS依賴服務(wù)器端的組件進行數(shù)據(jù)打包。事實上,為了使用客戶端數(shù)據(jù)綁定,必須安裝RDS的服務(wù)器部分,當服務(wù)器建立好之后,就可以使用被稱為高級數(shù)據(jù)控制(Adv

63、ance Data Control,ADC)的RDS的客戶端部分。當應(yīng)用ADS時,為了得到簡單的連接,只需設(shè)置三個屬性:Connect,Server和SQL。</p><p>  第四章 新時期數(shù)據(jù)集成技術(shù)的發(fā)展與應(yīng)用 </p><p>  隨著信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)的存儲遠遠超出了關(guān)系數(shù)據(jù)庫的范疇,出現(xiàn)了各種各樣的異構(gòu)數(shù)據(jù)源,相應(yīng)的也就產(chǎn)生了跨平臺對多種類型的數(shù)據(jù)進行集成的要求。新

64、出現(xiàn)的技術(shù)例如:三層集成方案,DCOM/CORBA和用XML進行集成等都可以對多種異類的數(shù)據(jù)進行集成。數(shù)據(jù)集成技術(shù)還在進一步的發(fā)展之中。</p><p>  4.1 三層結(jié)構(gòu)的處理方式</p><p>  三層結(jié)構(gòu)是最近幾年才出現(xiàn)的新技術(shù),在數(shù)據(jù)集成方面也有著良好的應(yīng)用前景。相對于兩層結(jié)構(gòu),三層架構(gòu)的不同之處在于它在客戶端和服務(wù)器端之間設(shè)立了一個中間層,對數(shù)據(jù)的一切訪問都要通過中間層進行。

65、這樣做的好處很多:首先,在兩層結(jié)構(gòu)中,如果要想若干個客戶端都具有訪問某個數(shù)據(jù)源的能力,就必須在某個客戶端都進行相應(yīng)的配置,而如果每個客戶又要求訪問多個服務(wù)器,又會造成系統(tǒng)的大量冗余和浪費,而在三層結(jié)構(gòu)中,可以把訪問多個異種數(shù)據(jù)源的能力配置在中間層上,每個客戶端只要其有訪問中間層的能力就可以了,這使得系統(tǒng)大為簡單化。另外,兩層結(jié)構(gòu)中,一旦對Server 端提出數(shù)據(jù)的訪問要求,真正的集成就將在客戶端上進行,而在三層結(jié)構(gòu)中,集成可以在中間層上

66、進行,只把最終的結(jié)果返回給用戶,這將減少不必要的網(wǎng)絡(luò)傳輸,大大改善網(wǎng)絡(luò)性能。三層結(jié)構(gòu)處理方式的結(jié)構(gòu)如圖7所示。</p><p>  圖7 三層結(jié)構(gòu)的處理方式</p><p>  4.2分布式對象計算DCOM/CORBA</p><p>  4.2.1什么叫分布式對象計算</p><p>  由于各應(yīng)用系統(tǒng)分布于網(wǎng)絡(luò)不同節(jié)點,基于不同操作平臺和

67、網(wǎng)絡(luò)平臺,而ODBC又不能響應(yīng)跨平臺的數(shù)據(jù)庫操作命令,因此對各應(yīng)用系統(tǒng)數(shù)據(jù)庫的操作與訪問必須依賴于分布式對象計算。分布式對象計算(DOC)融合了對象技術(shù)和分布技術(shù),彌補了ODBC不能響應(yīng)跨平臺操作的不足,它使得位于異構(gòu)環(huán)境中的對象,可通過DOC提供的機制相互作用。目前,DOC領(lǐng)域內(nèi)有兩大陣營:微軟的分布式組件對象模型(DCOM)和對象管理集團(OMG)的公共對象請求代理體系(CORBA)。</p><p>  4

68、.2.2分布式組件對象模型(Distributed Component Object Model,DCOM)</p><p>  4.2.2.1什么叫分布式組件對象模型</p><p>  分布式組件對象模型DCOM作為微軟的分布式計算策略,是在OSF DEC的RPC協(xié)議基礎(chǔ)上開發(fā)的,是微軟的組件對象模型COM的一個擴增版。COM是微軟為了解決應(yīng)用復雜性和隨時間功能改進,版本維護等問題所提

69、出的方案。COM把應(yīng)用看作軟件對象,并定義和實現(xiàn)軟件對象間連接的機制。軟件對象是一組相關(guān)的功能及其狀態(tài)的集合,客戶(對象提供服務(wù)的使用者)和對象直接進行通訊。COM體系結(jié)構(gòu)中的關(guān)鍵是接口的二進制標準,即標準的,與體系無關(guān)的連接格式和協(xié)議,使異構(gòu)平臺上的對象可以相互作用。DCOM和COM的最大不同在于,COM組件運行于單機上,而DCOM組件則是分布在網(wǎng)絡(luò)上。</p><p>  4.2.2.2分布式組件對象模型的特

70、點</p><p>  DCOM完全隱藏了組件在網(wǎng)絡(luò)中的位置這一細節(jié),具有良好的位置獨立性;它可以使用任何網(wǎng)絡(luò)傳輸協(xié)議,提供了面向?qū)ο蟮膮f(xié)議透明性;而且,DCOM完全與開發(fā)語言無關(guān),幾乎所有的語言都可以用來開發(fā)DCOM組件,而開發(fā)出的組件更是可以被更多的語言和工具使用。但DCOM主要使用在Windows平臺上,盡管在非Windows平臺也可使用,但會受到很多限制。</p><p>  4.

71、2.3公共對象請求代理體系(Common Object Request Broker Architecture,CORBA)</p><p>  4.2.3.1什么是CORBA</p><p>  CORBA規(guī)范是建立在OMA(Object Management Architecture,對象管理體系結(jié)構(gòu))參考模型上的。OMA的核心部分是ORB(Object Request Broker,

72、對象請求代理)。ORB提供了一種機制,通過該機制,對象可以透明的發(fā)出請求和接收應(yīng)答?;贠RB機制就可以充分利用分布的,可以互操作的對象構(gòu)造可以互操作的應(yīng)用,使用戶在可以不了解實現(xiàn)交互細節(jié)的情況下,建立共享資源的應(yīng)用。OMA體系由五部分組成:(1)對象請求代理ORB;(2)對象服務(wù);(3)公共設(shè)施;(4)應(yīng)用接口;(5)領(lǐng)域接口。CORBA規(guī)范則是針對OMA參考模型中的ORB而制定的。CORBA規(guī)范定義了IDL(接口定義語言),映射和單

73、個ORB與ORB間的互操作機制。</p><p>  4.2.3.2CORBA的特點</p><p>  對象請求代理ORB是CORBA中的對象總線,使用ORB使得服務(wù)器端的透明性更容易得到實現(xiàn):(1)編程語言可以使用C,C++等,不必與客戶機一致;(2)服務(wù)器平臺可以自由選者硬件結(jié)構(gòu),操作系統(tǒng);(3)服務(wù)器的網(wǎng)絡(luò)位置是任意的,服務(wù)器程序可以任意遷移平臺而不影響客戶端;(4)網(wǎng)絡(luò)協(xié)議由OR

74、B處理,客戶端程序可以不必考慮協(xié)議影響。</p><p>  對于服務(wù)器端,客戶機需要知道的僅僅是服務(wù)器具有的服務(wù)的描述,這些描述是由服務(wù)器使用接口定義語言IDL公布的。IDL不是一種編程語言,只做描述接口的工作,不涉及具體的實現(xiàn)。其語法類似于Java和C++。IDL接口調(diào)用服務(wù)可以是編譯前代碼里預先規(guī)定好的調(diào)用,也可以是編譯以后運行時的調(diào)用。前者是靜態(tài)調(diào)用,后者是動態(tài)調(diào)用,而這各有自己的特點。OMG對這兩種方法

75、都提供支持,提供了一種公共的架構(gòu)。</p><p>  4.2.4 DCOM和CORBA的比較</p><p>  總的來說,DCOM和CORBA基本上是相似的,都提供分布對象基礎(chǔ)架構(gòu)以支持對遠程對象的激活和操作,他們的運作結(jié)構(gòu)都采用遠程進程調(diào)用的方式,只是各部分的名稱不同而已。如圖8,9所示。</p><p>  圖8 DCOM的調(diào)用結(jié)構(gòu)</p>

76、<p>  圖9 CORBA的調(diào)用結(jié)構(gòu)</p><p>  在DCOM中,對組件的透明訪問是通過服務(wù)控制管理員(Server Control Manager)實現(xiàn)的??蛻粢{(diào)用一個組件對象時,會向SCM提出請求,如果對象服務(wù)器是本進程內(nèi)的或是本地的,SCM會查詢注冊服務(wù)器以定位對象服務(wù)器,并將其裝入和激活。這樣,組件對象的變化只要更改相應(yīng)的注冊就可以了,程序可以保持不變。CORBA則將對象實現(xiàn)的信息

77、存儲在實現(xiàn)倉庫中,由ORB負責查詢實現(xiàn)倉庫以實現(xiàn)對象的裝入和激活。</p><p>  因為DCOM和CORBA都采用了包裝的思想,以統(tǒng)一的接口的方式向外提供調(diào)用,并且二者也都實現(xiàn)了對對象的透明訪問,這就給我們對數(shù)據(jù)集成提供了極大的便利。我們可以利用CORBA或DCOM將對源數(shù)據(jù)進行操作的部分進行統(tǒng)一的包裝,而后就可以很容易的在此基礎(chǔ)上建立集成模塊,對包裝過的數(shù)據(jù)進行集成,再提交給用戶。如圖10所示。</p

78、><p>  圖 10 利用DCOM/CORBA進行數(shù)據(jù)集成</p><p>  4.3利用XML對數(shù)據(jù)進行集成</p><p>  近年來,互聯(lián)網(wǎng)得到了迅猛的發(fā)展,Web實際上已經(jīng)成為最大的數(shù)據(jù)來源。而且互聯(lián)網(wǎng)的用戶數(shù)和網(wǎng)頁上的數(shù)據(jù)仍然在飛速增加,在這種情況下,對網(wǎng)頁上的數(shù)據(jù)進行集成勢在必行。但是由于現(xiàn)在的網(wǎng)頁大多用html編寫,而html缺乏缺乏必要的結(jié)構(gòu)和語義信

79、息,這就給數(shù)據(jù)集成帶來了很大的困難,甚至使得幾乎沒有可能設(shè)計出一種集成html頁面上的信息的通用的方法。為了便于以后人們共享網(wǎng)上的數(shù)據(jù),在3WC(World Wide Web Consortium)帶頭下,建立了正式的XML規(guī)范。</p><p>  XML代表擴展表示語言(Extensible Markup Language),它是一個定義其它語言的系統(tǒng)。它采用將結(jié)構(gòu),內(nèi)容和表現(xiàn)相分離的方法,同一個XML源文檔

80、只寫一次,就可以用不同的方法表現(xiàn)出來。所以XML不僅可以用于Internet,而且可以用于需要制作多種媒體文檔的應(yīng)用上。相應(yīng)的,利用XML進行數(shù)據(jù)集成的方法也就對相應(yīng)的領(lǐng)域都適用。XML具體工作過程如圖11。</p><p>  圖11 XML的工作機制</p><p>  XML使用DTD和Schema來定義數(shù)據(jù)的結(jié)構(gòu),利用它可以確定文檔中數(shù)據(jù)是否有效,但更重要的是它們還能夠定義數(shù)據(jù)的

81、類型和數(shù)據(jù)間的關(guān)系,這就使得DTD和Schema功能類似于數(shù)據(jù)庫的源數(shù)據(jù)。充分利用兩者的相似性,我們就可以將傳統(tǒng)的數(shù)據(jù)集成的策略以DTD-Schema為橋梁移植到XML文檔的集成上來。從而實現(xiàn)對XML所寫的Web頁面的集成。</p><p>  其實,XML對數(shù)據(jù)庫集成的貢獻遠不止此。我們完全可以利用它對很多類型的信息進行高度集成。如圖12所示。</p><p>  圖12 XML對多類

82、型信息的高級集成</p><p>  包括RDB在內(nèi)的多種信息來源,我們都可以為其設(shè)計相應(yīng)的包裝器,將其包裝成統(tǒng)一的XML數(shù)據(jù)進行集成,再將集成后的結(jié)果數(shù)據(jù)以XML文檔的形式發(fā)送到各個應(yīng)用客戶端或是更高級的數(shù)據(jù)集成器去。</p><p>  第五章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘</p><p>  數(shù)據(jù)倉庫技術(shù)的出現(xiàn)是由于決策支持系統(tǒng)發(fā)展的需要。它的提出是以關(guān)系數(shù)據(jù)庫,并行

83、處理,分布式技術(shù)以及Internet的飛速發(fā)展為基礎(chǔ),是解決如何利用分散的異構(gòu)環(huán)境數(shù)據(jù)源,及時得到準確的信息,解決信息技術(shù)在發(fā)展過程中一方面擁有大量數(shù)據(jù),另一方面,有用的信息卻很貧乏這種不正?,F(xiàn)象的綜合解決方案。而數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)是一種數(shù)據(jù)處理過程,它通過機器學習,統(tǒng)計分析或其他方法,從大量數(shù)據(jù)中提取出有用的信息。數(shù)據(jù)挖掘是KDD的核心環(huán)節(jié)。它用來發(fā)現(xiàn)隱含的,事

84、先未知的,潛在有用的知識,提取的知識可表示為概念,規(guī)律,模式等形式。</p><p><b>  5.1數(shù)據(jù)倉庫</b></p><p>  5.1.1 什么是數(shù)據(jù)倉庫</p><p>  數(shù)據(jù)倉庫是面向主題的,整合的,穩(wěn)定的,并時時變的收集數(shù)據(jù)以支持管理決策的一種數(shù)據(jù)決策形式。</p><p>  5.1.2 數(shù)據(jù)倉庫

85、的特征</p><p>  通常數(shù)據(jù)倉庫包含以下特征。</p><p>  數(shù)據(jù)進入數(shù)據(jù)倉庫以前,必須經(jīng)過加工與集成,對不同的數(shù)據(jù)來源進行統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和編碼,將原始數(shù)據(jù)由面向應(yīng)用轉(zhuǎn)向面向主題。</p><p>  數(shù)據(jù)倉庫中存儲大量的歷史數(shù)據(jù),并極少或根本不進行更新。</p><p>  數(shù)據(jù)倉庫的數(shù)據(jù)時限在5-10年,故數(shù)據(jù)的編碼包含時間

86、項,因此,倉庫要時變的收集數(shù)據(jù)。</p><p>  通常的數(shù)據(jù)倉庫數(shù)據(jù)量為10GB級,大型數(shù)據(jù)倉庫是一個TB級數(shù)量級。</p><p>  數(shù)據(jù)倉庫支持OLAP(Online Analytical Processing),決策分析及數(shù)據(jù)挖掘。</p><p>  5.1.3數(shù)據(jù)倉庫的結(jié)構(gòu)組成</p><p>  數(shù)據(jù)倉庫至少包含了3個基本的

87、功能部分。</p><p>  數(shù)據(jù)獲?。哼@個部分負責從外部數(shù)據(jù)源獲取數(shù)據(jù)。數(shù)據(jù)被區(qū)分出來,進行拷貝或重新定義格式等處理后,準備載入數(shù)據(jù)倉庫。</p><p>  數(shù)據(jù)存儲和管理:這個部分負責數(shù)據(jù)倉庫的內(nèi)部維護和管理。提供的服務(wù)包括數(shù)據(jù)存儲的組織,數(shù)據(jù)的維護,數(shù)據(jù)的分發(fā),數(shù)據(jù)倉庫的例行維護等。</p><p>  信息訪問:信息訪問部分屬于數(shù)據(jù)倉庫的前端,面向不同種

88、類的最終用戶,這里主要由桌面系統(tǒng)的各種工具組成,數(shù)據(jù)倉庫的最終用戶在這里提取信息,分析數(shù)據(jù)集,實施決策,從而可望取得競爭優(yōu)勢,進行數(shù)據(jù)訪問的軟件工具,主要是查詢生成工具,多維分析工具和數(shù)據(jù)挖掘工具等。新的發(fā)展趨勢是把信息訪問工具緊密集成到數(shù)據(jù)倉庫系統(tǒng)中。</p><p><b>  5.2 數(shù)據(jù)挖掘</b></p><p>  5.2.1什么是數(shù)據(jù)挖掘</p&g

89、t;<p>  數(shù)據(jù)挖掘是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù)。它建立在數(shù)據(jù)庫,尤其是數(shù)據(jù)倉庫基礎(chǔ)上,面向非專業(yè)用戶,它定位于桌面,支持即興的隨機查詢。數(shù)據(jù)挖掘技術(shù)能自動分析數(shù)據(jù),對它們進行歸納性推理和聯(lián)想,尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián),從中發(fā)掘出潛在的,對信息預測和決策行為起著十分重要作用的模式,從而建立新的業(yè)務(wù)模型,以達到幫助決策者制定市場策略,做出正確決策的目的。數(shù)據(jù)挖掘技術(shù)涉及數(shù)據(jù)庫,人工智能,機

90、器學習,神經(jīng)計算和統(tǒng)計分析等多種技術(shù),它是決策支持工具(Decision Supporting System,DSS)跨入了一個新的階段。</p><p>  5.2.2 數(shù)據(jù)挖掘過程組成</p><p>  數(shù)據(jù)挖掘過程一般由三個主要的階段組成:數(shù)據(jù)準備,挖掘操作,結(jié)果表達和解釋。數(shù)據(jù)挖掘算法對數(shù)據(jù)有一定的要求,如數(shù)據(jù)冗余性小,數(shù)據(jù)屬性之間的相關(guān)性小,數(shù)據(jù)出錯率小等。而現(xiàn)實世界所采集到的

91、數(shù)據(jù)通常具有雜亂性,冗余性,不完整性等特點。為此,數(shù)據(jù)采掘必須經(jīng)過數(shù)據(jù)準備階段以提高數(shù)據(jù)挖掘質(zhì)量;挖掘操作包括選擇合適的算法,進行挖掘知識的操作,最后證實發(fā)現(xiàn)的知識;表達解釋階段是對結(jié)果進行分析,提取出最有價值的信息,如果獲得的信息不能使決策者滿意,則需要重復以上數(shù)據(jù)挖掘階段。</p><p><b>  5.3小結(jié)</b></p><p>  數(shù)據(jù)倉庫作為一種新型的

92、數(shù)據(jù)的存儲地,為數(shù)據(jù)挖掘提供了新的支持平臺??梢灶A見,數(shù)據(jù)倉庫以其內(nèi)在的決策支持能力,將會成為數(shù)據(jù)挖掘的主戰(zhàn)場。數(shù)據(jù)倉庫的發(fā)展不僅僅是為數(shù)據(jù)挖掘開辟了新的空間,更為數(shù)據(jù)挖掘技術(shù)提出了新的要求。</p><p><b>  參考文獻</b></p><p>  [1] 李治柱,辦公自動化與系統(tǒng)集成,上海交通大學出版社,1996</p><p> 

93、 [2] Nick N.Duan. 用Java實現(xiàn)對分布式數(shù)據(jù)庫的訪問控制,微電腦世界,1997,10</p><p>  [3] 張然,錢德沛,欒鐘治,基于JDBC技術(shù)的Web數(shù)據(jù)庫集成,計算機科學,2001</p><p>  vol.28 no.3</p><p>  [4] 虞歌,Windows NT上利用IIS訪問數(shù)據(jù)庫的方法,計算機系統(tǒng)應(yīng)用,1998,8

94、</p><p>  [5] 梁莜麗,楊建中,Web與數(shù)據(jù)庫的集成,計算機應(yīng)用研究,1999,4</p><p>  [6] 吳迪文,WWW與數(shù)據(jù)庫系統(tǒng)信息集成技術(shù),微機發(fā)展,1999,1</p><p>  [7] 匡文淵,吳泉源,分布式對象管理結(jié)構(gòu)CORBA與DCOM的研究,計算機術(shù)與自動化,1998,9</p><p>  [8] 黃海

95、峰,馬磊,王永濱,利用組件結(jié)構(gòu)集成基于Web的應(yīng)用,河北工業(yè)大學學報,1999,4</p><p>  [9] 謝鴻強,董逸生,異構(gòu)數(shù)據(jù)源的集成技術(shù),工業(yè)控制計算機,2001,14(6)</p><p>  [10] 王艷君,王巨格,吳麗江,異構(gòu)數(shù)據(jù)庫間數(shù)據(jù)集成的方法,煙臺師范學院學報,1999,15(4)</p><p>  [11] 李俊,李勇,聯(lián)邦式異構(gòu)數(shù)據(jù)庫

96、應(yīng)用系統(tǒng)的集成框架和實現(xiàn)技術(shù)的研究,計算機應(yīng)用研究,2001,4</p><p>  [12] 黃琳倩等,基于DCOM的Web與數(shù)據(jù)庫集成系統(tǒng)的體系結(jié)構(gòu),計算機科學,2001 vol.27 no.5</p><p>  [13] 隆益民,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù),現(xiàn)代電子技術(shù),總第117期</p><p>  [14] 鄒先霞,王淑禮,魏長華,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)淺

97、談,高等函授學報,2001 vol.13 no.3</p><p><b>  致 謝</b></p><p>  這次計算機二專的論文能順利完成,首先要感謝兩年半來給我們悉心上課,給于我許多無私的幫助的老師們。他們并沒有我們是二專的學生就對我們放松要求,仍然高標準,嚴要求,使我們能比較扎實,系統(tǒng)的學習了計算機學科的主干課程。</p><p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論