數(shù)據(jù)庫(kù)系統(tǒng)原理數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)_第1頁(yè)
已閱讀1頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)庫(kù)系統(tǒng)原理第二部分第七章 數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù),,,7.1 數(shù)據(jù)倉(cāng)庫(kù)概述7.2 數(shù)據(jù)挖掘技術(shù)7.3 WEB數(shù)據(jù)挖掘,7.1 數(shù)據(jù)倉(cāng)庫(kù)概述,一、什么是數(shù)據(jù)倉(cāng)庫(kù)二、DBMS與DWMS三、數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)四、數(shù)據(jù)倉(cāng)庫(kù)的工作過程,不同層次的信息處理需求,事務(wù)處理需求不同的事務(wù)處理子系統(tǒng)采購(gòu)子系統(tǒng):訂單、訂單細(xì)則、供應(yīng)商銷售子系統(tǒng):顧客、銷售庫(kù)存子系統(tǒng):出庫(kù)領(lǐng)料單、進(jìn)料入庫(kù)單、庫(kù)存臺(tái)帳人事子系統(tǒng):?jiǎn)T工、部門各種事務(wù)

2、處理需求一筆訂購(gòu)、一筆銷售、一次進(jìn)料、一次出料要求強(qiáng)調(diào)多用戶并發(fā)環(huán)境,數(shù)據(jù)的一致性、完整性,不同層次的信息處理需求,分析處理需求今年銷售量下降的因素(時(shí)間、地區(qū)、商品、銷售部門)某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?要求多個(gè)子系統(tǒng)中的數(shù)據(jù)(數(shù)據(jù)集成)歷史數(shù)據(jù)匯總、綜合的數(shù)據(jù),從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù),事務(wù)處理與分析處理的性能特性不同事務(wù)處理環(huán)境數(shù)據(jù)存取操作頻率高

3、每次操作處理的時(shí)間短占用系統(tǒng)資源少系統(tǒng)可以允許多個(gè)用戶按分時(shí)方式使用資源,保持較短的響應(yīng)時(shí)間分析處理環(huán)境運(yùn)行時(shí)間長(zhǎng)消耗大量系統(tǒng)資源事務(wù)與分析應(yīng)用不宜放在同一中環(huán)境中,從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集成問題事務(wù)處理目的是使業(yè)務(wù)自動(dòng)化只關(guān)注與本部門業(yè)務(wù)相關(guān)的當(dāng)前數(shù)據(jù)事務(wù)處理應(yīng)用的分散:企業(yè)內(nèi)部各事務(wù)處理應(yīng)用間相互獨(dú)立DSS需要集成的數(shù)據(jù)(內(nèi)部各部門數(shù)據(jù)、外部數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù))DSS需要對(duì)分散在各個(gè)事務(wù)處理應(yīng)用中的相關(guān)

4、數(shù)據(jù)進(jìn)行集成,以向分析人員提供統(tǒng)一的數(shù)據(jù)視圖,從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)動(dòng)態(tài)集成問題每次分析都進(jìn)行數(shù)據(jù)集成的開銷太大靜態(tài)集成開始對(duì)所需數(shù)據(jù)進(jìn)行集成,以后就一直以這部分?jǐn)?shù)據(jù)作為分析的基礎(chǔ),不再與數(shù)據(jù)源發(fā)生聯(lián)系如果數(shù)據(jù)源發(fā)生了變化,這些變化不能反映到集成數(shù)據(jù)中,導(dǎo)致決策者使用的是過時(shí)的數(shù)據(jù)動(dòng)態(tài)集成集成數(shù)據(jù)必須以一定的周期進(jìn)行刷新事務(wù)處理系統(tǒng)不具備動(dòng)態(tài)集成的能力,數(shù)據(jù)倉(cāng)庫(kù)的定義,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的(Subject Orien

5、ted),集成的(Integrated),相對(duì)穩(wěn)定的(Nonvolatile),反映歷史變化的(time Variant)數(shù)據(jù)集合。用于支持管理決策,一、什么是數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)所要研究和解決的問題就是從OLTP系統(tǒng)、異構(gòu)分散的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中獲取數(shù)據(jù),處理后為數(shù)據(jù)分析和管理決策提供應(yīng)用服務(wù) 。數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過程

6、。,,,二、 DBMS與DWMS,OLTP主要用來完成基礎(chǔ)業(yè)務(wù)數(shù)據(jù)的增、刪、改等操作 ,對(duì)響應(yīng)時(shí)間要求比較高,強(qiáng)調(diào)的是密集數(shù)據(jù)更新處理的性能和系統(tǒng)的可靠性及效率 OLAP應(yīng)用是對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、輔助領(lǐng)導(dǎo)決策,主要通過多維數(shù)據(jù)的查詢、旋轉(zhuǎn)、鉆取和切片等關(guān)鍵技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析和報(bào)表。,三、數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)與相關(guān)問題,四、數(shù)據(jù)倉(cāng)庫(kù)的工作過程,1.數(shù)據(jù)的抽取2.數(shù)據(jù)的存儲(chǔ)和管理3.數(shù)據(jù)的展現(xiàn)等,1.數(shù)據(jù)的抽取,數(shù)據(jù)的抽取是數(shù)

7、據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。,2.數(shù)據(jù)的存儲(chǔ)和管理,數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的

8、表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。,3.數(shù)據(jù)的展現(xiàn),在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、

9、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識(shí)。,7.2 數(shù)據(jù)挖掘技術(shù),一、問題的提出二、什么是數(shù)據(jù)挖掘三、數(shù)據(jù)挖掘的環(huán)境四、數(shù)據(jù)挖掘的主要步驟五、數(shù)據(jù)挖掘的主要任務(wù)六、數(shù)據(jù)挖

10、掘的主要方法七、數(shù)據(jù)挖掘的主要應(yīng)用八、數(shù)據(jù)挖掘的主要工具,一、問題的提出,一方面規(guī)模龐大、紛繁復(fù)雜的數(shù)據(jù)體系讓使用者漫無頭緒、無從下手;另一方面在這些大量數(shù)據(jù)的背后卻隱藏著很多具有決策意義的有價(jià)值的信息。如何發(fā)現(xiàn)這些有用的知識(shí),使之為管理決策和經(jīng)營(yíng)戰(zhàn)略發(fā)展服務(wù)?-數(shù)據(jù)挖掘(Data Mining)。,一個(gè)廣為流傳的數(shù)據(jù)挖掘例子,美國(guó)加州某個(gè)超市連鎖店通過數(shù)據(jù)挖掘從記錄著每天銷售和顧客基本情況的數(shù)據(jù)庫(kù)中發(fā)現(xiàn):在下班后前來購(gòu)買嬰

11、兒尿布的顧客多數(shù)是男性,他們往往也同時(shí)購(gòu)買啤酒。于是這個(gè)連鎖店的經(jīng)理當(dāng)機(jī)立斷地重新布置了貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆片之類的佐酒小食品,同時(shí)把男士們需要的日常生活用品也就近布置。這樣一來,上述幾種商品的銷量幾乎馬上成倍增長(zhǎng)。,二、什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是一個(gè)利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程 這些模型和關(guān)系可以用來做出決策和預(yù)測(cè)。支持大規(guī)模數(shù)據(jù)分析的方法和

12、過程,選擇或者建立一種適合數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)環(huán)境是數(shù)據(jù)挖掘研究的重要課題之一 數(shù)據(jù)挖掘是一門交叉學(xué)科,會(huì)聚了數(shù)據(jù)庫(kù)、人工智能、統(tǒng)計(jì)學(xué)、可視化、并行計(jì)算等不同學(xué)科和領(lǐng)域,三、數(shù)據(jù)挖掘的環(huán)境,合理而科學(xué)的數(shù)據(jù)環(huán)境是確保數(shù)據(jù)挖掘有效和正確實(shí)施的基礎(chǔ)和關(guān)鍵。數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的探索式分析的起點(diǎn)是聯(lián)機(jī)分析處理(OLAP)。 需要支持OLAP數(shù)據(jù)系統(tǒng)與OLTP數(shù)據(jù)系統(tǒng)的分離,需要服務(wù)于數(shù)據(jù)挖掘總體目標(biāo)的數(shù)據(jù)再組織,需要有單獨(dú)的數(shù)據(jù)分析和數(shù)據(jù)處

13、理環(huán)境。 數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)產(chǎn)品。,四、數(shù)據(jù)挖掘的主要步驟,1、數(shù)據(jù)搜集2、數(shù)據(jù)整理3、數(shù)據(jù)挖掘4、數(shù)據(jù)挖掘結(jié)果的評(píng)估5、分析決策,1.數(shù)據(jù)搜集,大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒有數(shù)據(jù),數(shù)據(jù)挖掘也就無從作起。因此,數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。數(shù)據(jù)可以來自于現(xiàn)有事務(wù)處理系統(tǒng),也可以從數(shù)據(jù)倉(cāng)庫(kù)中得到。,2.數(shù)據(jù)整理,數(shù)據(jù)整理是數(shù)據(jù)挖掘的必要環(huán)節(jié)。由數(shù)據(jù)收集階段得到的

14、數(shù)據(jù)可能有一定的“污染”,表現(xiàn)在數(shù)據(jù)可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等;因此數(shù)據(jù)的整理是必須的。同時(shí),通過數(shù)據(jù)整理,可以對(duì)數(shù)據(jù)做簡(jiǎn)單的泛化處理,從而在原始數(shù)據(jù)的基礎(chǔ)之上得到更為豐富的數(shù)據(jù)信息,進(jìn)而便于下一步數(shù)據(jù)挖掘的順利進(jìn)行。,3.數(shù)據(jù)挖掘,利用各種數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行分析。,4.數(shù)據(jù)挖掘結(jié)果的評(píng)估,數(shù)據(jù)挖掘的結(jié)果有些是有實(shí)際意義的,而有些是沒有實(shí)際意義的,或是與實(shí)際情況相違背的,這就需要進(jìn)行評(píng)估。評(píng)估可以根據(jù)用戶多

15、年的經(jīng)驗(yàn),也可以直接用實(shí)際數(shù)據(jù)來驗(yàn)證模型的正確性,進(jìn)而調(diào)整挖掘模型,不斷重復(fù)進(jìn)行數(shù)據(jù)挖掘。,5.分析決策,數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實(shí)際情況,調(diào)整競(jìng)爭(zhēng)策略等?!?總之,數(shù)據(jù)挖掘過程需要多次的循環(huán)反復(fù),才有可能達(dá)到預(yù)期的效果,五、數(shù)據(jù)挖掘的主要任務(wù),1.數(shù)據(jù)總結(jié)2.分類3.關(guān)聯(lián)分析4.聚類,1.數(shù)據(jù)總結(jié),數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的總體綜合描述。傳統(tǒng)的也是最簡(jiǎn)單的數(shù)據(jù)總

16、結(jié)方法利用統(tǒng)計(jì)學(xué)中的方法計(jì)算出數(shù)據(jù)庫(kù)的各個(gè)數(shù)據(jù)項(xiàng)的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計(jì)量?;蛘咄ㄟ^利用統(tǒng)計(jì)圖形工具,對(duì)數(shù)據(jù)制作直方圖、餅狀圖等。利用OLAP技術(shù)實(shí)現(xiàn)數(shù)據(jù)的多維查詢也是一種廣泛使用的數(shù)據(jù)總結(jié)的方法。,2.分類,分類的主要功能是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。分類應(yīng)用的實(shí)例很多。例如,我們可以將銀行網(wǎng)點(diǎn)分為好、一般和較差三種類型,并以此分析這三種類

17、型銀行網(wǎng)點(diǎn)的各種屬性,特別是位置、盈利情況等屬性,并決定它們分類的關(guān)鍵屬性及相互間關(guān)系。此后就可以根據(jù)這些關(guān)鍵屬性對(duì)每一個(gè)預(yù)期的銀行網(wǎng)點(diǎn)進(jìn)行分析,以便決定預(yù)期銀行網(wǎng)點(diǎn)屬于哪一種類型。,分類分析(Classifiers),含義有一個(gè)記錄集合和一組標(biāo)記,標(biāo)記用以標(biāo)識(shí)記錄的類別先為每個(gè)記錄賦予一個(gè)標(biāo)記(按標(biāo)記對(duì)記錄分類)對(duì)同類記錄的特征進(jìn)行描述顯式描述:例如,一組規(guī)則定義隱式描述:例如,一個(gè)數(shù)學(xué)模型或公式分類具有極其廣泛的應(yīng)用分

18、類常用于預(yù)測(cè)醫(yī)療診斷、性能預(yù)測(cè)、選擇購(gòu)物、信譽(yù)證實(shí)等,分類分析的兩個(gè)步驟,構(gòu)建模型:對(duì)預(yù)先確定的類別給出相應(yīng)的描述先假設(shè)一個(gè)元組(或樣本)集合中的每一個(gè)元組(或樣本)屬于預(yù)先定義的某一個(gè)類別,由一個(gè)類標(biāo)號(hào)屬性(class label attribute)來確定這些元組(或樣本)的集合稱為訓(xùn)練集,用于構(gòu)建模型;由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),稱作有指導(dǎo)的學(xué)習(xí)最終的模型用決策樹、分類規(guī)則或者數(shù)學(xué)公式等來表示模型應(yīng)用: 對(duì)未知的數(shù)據(jù)

19、對(duì)象進(jìn)行分類,分類分析第一步:構(gòu)建模型,分類分析第二步:模型應(yīng)用,分類分析舉例,對(duì)信用卡持卡人的信譽(yù)進(jìn)行分類分析記錄集合: 持卡人的記錄集一組標(biāo)記:良好、普通、較差;(信譽(yù)程度)先為每個(gè)持卡人賦予一個(gè)標(biāo)記,即信譽(yù)等級(jí)對(duì)同類記錄(即同信譽(yù)等級(jí)的持卡人)的特征進(jìn)行描述。例如,信譽(yù)良好的持卡人的特征為:收入在25000以上年齡在45-55之間居住在XYZ地區(qū)對(duì)同類記錄特征的描述(規(guī)則或模型)可用來分類新記錄,分類分析舉例,顧客

20、購(gòu)物分類顧客屬性:姓名、年齡、收入、職業(yè)、信譽(yù)度為每個(gè)顧客賦予一個(gè)標(biāo)記,即是否購(gòu)買計(jì)算機(jī)按該標(biāo)記將顧客分類,建立分類模型新來一個(gè)顧客,按分類模型識(shí)別該顧客是否屬于購(gòu)買計(jì)算機(jī)類若顧客屬于購(gòu)買計(jì)算機(jī)的類別,則將有關(guān)新的計(jì)算機(jī)的促銷材料分發(fā)給他,利用決策樹進(jìn)行數(shù)據(jù)分類,決策樹一個(gè)類似與流程圖的樹結(jié)構(gòu)內(nèi)部接點(diǎn)表示一個(gè)與屬性值相關(guān)的判斷邊表示判斷的結(jié)果每個(gè)葉節(jié)點(diǎn)是一個(gè)類別的標(biāo)識(shí),決策樹分類舉例:訓(xùn)練數(shù)據(jù)集,決策樹分類舉例:計(jì)算屬

21、性的熵,類標(biāo)號(hào)屬性buys_computer,有兩個(gè)不同值{yes,no},有兩個(gè)類,類yes有9個(gè)樣本,類no有5個(gè)樣本,決策樹分類舉例:分枝,age?,overcast,,,,<=30,>40,,30..40,決策樹分類舉例:最終結(jié)果,由決策樹產(chǎn)生規(guī)則,IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “no”IF age

22、= “>40” AND credit_rating = “fair” THEN buys_computer = “yes”,3.關(guān)聯(lián)分析,數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。這種關(guān)聯(lián)關(guān)系有簡(jiǎn)單關(guān)聯(lián)和時(shí)序關(guān)聯(lián)兩種。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。關(guān)聯(lián)模型的一個(gè)典型例子是市場(chǎng)菜籃分析,通過挖掘數(shù)據(jù)派生關(guān)聯(lián)規(guī)則,可以了解客戶的行為。,

23、關(guān)聯(lián)分析(Associations),目的和含義目的:發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)間的相互關(guān)聯(lián)含義:給定一組數(shù)據(jù)項(xiàng)(例如:商品號(hào))和一個(gè)交易集合(例如交易記錄),通過分析記錄集合,推導(dǎo)出數(shù)據(jù)項(xiàng)間的相關(guān)性(例如:在交易活動(dòng)中商品間的相關(guān)性)基本形式給定:一組事務(wù)集每一個(gè)事務(wù)中包含若干個(gè)數(shù)據(jù)項(xiàng)挖掘:各個(gè)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)例如, 98% 的顧客在購(gòu)買電動(dòng)剃須刀的同時(shí)會(huì)購(gòu)買一些電池,4.聚類,當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何

24、分類模式時(shí),可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。,聚類分析(Clustering),含義聚類是把一組對(duì)象按照相似性歸成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小而不同類別上的個(gè)體間的距離盡可能的大。不同的聚類分析工具可以定義不同的規(guī)則集,從而相同的記錄集合可能有不同的劃分應(yīng)用市場(chǎng)

25、或客戶分割、模式識(shí)別、基因分類、Web文檔分類等,六、數(shù)據(jù)挖掘的主要方法,1.決策樹2.相關(guān)規(guī)則3.神經(jīng)元網(wǎng)絡(luò)4.遺傳算法5.可視化、OLAP聯(lián)機(jī)分析處理等,1.決策樹,決策樹是建立在信息論基礎(chǔ)之上,對(duì)數(shù)據(jù)進(jìn)行分類的一種方法。首先,通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹然后,利用建好的決策樹,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè).例如:在金融領(lǐng)域中將貸款對(duì)象分為低貸款風(fēng)險(xiǎn)與高貸款風(fēng)險(xiǎn)兩類。通過決策樹,我們可以很容易地確定貸款申請(qǐng)者是屬于高風(fēng)險(xiǎn)的還

26、是低風(fēng)險(xiǎn)的?! ?決策樹方法精確度比較高,結(jié)果容易理解,效率也比較高,因而比較常用。,2.神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上??梢詫?duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析。神經(jīng)網(wǎng)絡(luò)系統(tǒng)由一系列類似于人腦神經(jīng)元一樣的處理單元(節(jié)點(diǎn))組成。這些節(jié)點(diǎn)通過網(wǎng)絡(luò)彼此互連,如果有數(shù)據(jù)輸入,它們便可以進(jìn)行確定數(shù)據(jù)模式的工作。神經(jīng)網(wǎng)絡(luò)有相互連接的輸入層、中間層(或隱藏層)、輸出層組成

27、。例如:我們可以指定輸入層為代表過去的銷售情況、價(jià)格及季節(jié)等因素,輸出層便可輸出判斷本季度的銷售情況的數(shù)據(jù)。,3.相關(guān)規(guī)則,相關(guān)規(guī)則是一種簡(jiǎn)單卻很實(shí)用的關(guān)聯(lián)分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。例如:超級(jí)市場(chǎng)中通過POS系統(tǒng)收集存儲(chǔ)了大量售貨數(shù)據(jù),記錄了什么樣的顧客在什么時(shí)間購(gòu)買了什么商品,這些數(shù)據(jù)中常常隱含著諸如:購(gòu)買面包的顧客中有90%的人同時(shí)購(gòu)買牛奶的相關(guān)規(guī)則。相關(guān)規(guī)則分析就是依據(jù)一定的可信度、支持度、期望

28、可信度、作用度建立相關(guān)規(guī)則的。,4.遺傳算法,遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的搜索優(yōu)化算法。它首先將問題的可能的解按某種形式進(jìn)行編碼,編碼后的解稱為染色體;隨機(jī)選取N個(gè)染色體作為初始種群,再根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值,性能較好的染色體有較高的適應(yīng)值;選擇適應(yīng)值較高的染色體進(jìn)行復(fù)制,并通過遺傳算子,產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,形成新的種群,直至最后收斂到一個(gè)最適應(yīng)環(huán)境的個(gè)體,得到問題的最優(yōu)化解。,5.聯(lián)機(jī)分析

29、處理,聯(lián)機(jī)分析處理(OLAP)主要通過多維的方式來對(duì)數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表。它不同于傳統(tǒng)的聯(lián)機(jī)事物處理(OLTP)應(yīng)用。OLTP應(yīng)用主要是用來完成用戶的事務(wù)處理,通常要進(jìn)行大量的更新操作,同時(shí)對(duì)響應(yīng)時(shí)間要求比較高。而OLAP應(yīng)用主要是對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析,輔助領(lǐng)導(dǎo)決策。其典型的應(yīng)用有對(duì)銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測(cè)、公司市場(chǎng)營(yíng)銷策略的制定等,主要是進(jìn)行大量的查詢操作,對(duì)時(shí)間的要求不太嚴(yán)格。,6.數(shù)據(jù)可視化,對(duì)大批量數(shù)據(jù)的展

30、現(xiàn)也是數(shù)據(jù)挖掘的重要方面。數(shù)據(jù)可視化工具大大擴(kuò)展了傳統(tǒng)商業(yè)圖形的能力,支持多維數(shù)據(jù)的可視化,從而提供了多方向同時(shí)進(jìn)行數(shù)據(jù)分析的圖形方法。有些工具甚至提供動(dòng)畫能力,使用戶可以“飛越”數(shù)據(jù),觀看到數(shù)據(jù)不同層次的細(xì)節(jié)。,七、數(shù)據(jù)挖掘的主要應(yīng)用,金融數(shù)據(jù)挖掘在金融領(lǐng)域應(yīng)用廣泛,包括:金融市場(chǎng)分析和預(yù)測(cè)、帳戶分類、銀行擔(dān)保和信用評(píng)估等。市場(chǎng)業(yè)市場(chǎng)業(yè)應(yīng)用是利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位和消費(fèi)者分析,輔助制定市場(chǎng)策略。 工程與科學(xué)研究數(shù)據(jù)挖

31、掘技術(shù)可應(yīng)用于各種工程與科學(xué)數(shù)據(jù)分析。產(chǎn)品制造業(yè)制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。 司法數(shù)據(jù)挖掘技術(shù)可應(yīng)用于案件調(diào)查、詐騙監(jiān)測(cè)、洗錢認(rèn)證、犯罪組織分析等,可以給司法工作帶來巨大收益。,八、數(shù)據(jù)挖掘的主要工具,1.應(yīng)用于特定領(lǐng)域的專用數(shù)據(jù)挖掘工具2.應(yīng)用面較廣的通用數(shù)據(jù)挖掘工具。,1.應(yīng)用于特定領(lǐng)域的專用數(shù)據(jù)挖掘工具,專用數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問題提供解決方案。在算法設(shè)計(jì)方面,充分考慮

32、到數(shù)據(jù)、需求的特殊性,并進(jìn)行優(yōu)化。例如:IBM公司的Advanced Scout系統(tǒng),針對(duì)NBA數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合、,2.應(yīng)用面較廣的通用數(shù)據(jù)挖掘工具,通用數(shù)據(jù)挖掘工具處理常見的數(shù)據(jù)類型,采用通用的數(shù)據(jù)挖掘算法,提供較為通用的處理模式,如:分類模式、回歸模式、時(shí)間序列模式、聚類模式、關(guān)聯(lián)模式等。例如:IBM公司的QUEST系統(tǒng)、SGI公司的MineSet系統(tǒng)、加拿大Simon Fraser大學(xué)的DBMiner、美國(guó)Busin

33、ess Objects公司的Business Miner系統(tǒng)、SAS公司的SAS EM(Enterprise Miner)系統(tǒng)等。,數(shù)據(jù)挖掘的發(fā)展,目前,國(guó)內(nèi)外很多大學(xué)、研究機(jī)構(gòu)和公司都已經(jīng)在這個(gè)方面進(jìn)行了實(shí)質(zhì)性的研究和產(chǎn)品開發(fā)。今后研究的焦點(diǎn)可能有:研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言;研究Internet上的數(shù)據(jù)挖掘方法;對(duì)各種非結(jié)構(gòu)化數(shù)據(jù),如:文本數(shù)據(jù)、圖形圖象數(shù)據(jù)、多媒體數(shù)據(jù)的挖掘;研究數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)相結(jié)合的方式,數(shù)據(jù)挖掘與

34、數(shù)據(jù)倉(cāng)庫(kù)一體化的研究等。,7.3 WEB數(shù)據(jù)挖掘,一、 Web挖掘的處理流程 二、 Web數(shù)據(jù)挖掘分類 三、 Web數(shù)據(jù)挖掘應(yīng)用前景,,Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。 與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理,一、 Web挖掘的處理流程,1.查找資源 2.信息選擇和

35、預(yù)處理 :從取得的Web資源中剔除無用信息和將信息進(jìn)行必要的整理 3.模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。 4.模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式。可以是機(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來完成。,研究方向,隨著Web技術(shù)的發(fā)展,基于Web技術(shù)的信 息獲得(IR)、信息抽取(IE) 得到了更多的重視。由于Web 數(shù)據(jù)量非常大,而且可能動(dòng)態(tài)變化,目前的研究方向是用自動(dòng)化、半自動(dòng)化的方法在W

36、eb上進(jìn)行IR和IE。在 Web環(huán)境下既要處理非結(jié)構(gòu)化文檔,又要處理半結(jié)構(gòu)化的數(shù)據(jù),最近幾年在這兩方面都有相應(yīng)的研究成果和具體應(yīng)用,特別是在大型搜索引擎中得到了很好的應(yīng) 用。,二、 Web數(shù)據(jù)挖掘分類,1、Web內(nèi)容挖掘(Web Content mining)、 2、Web結(jié)構(gòu)挖掘( Web structure mining)、 3、Web 用法挖掘(Web usage Mining),1、Web內(nèi)容挖掘,從Web內(nèi)容/數(shù)據(jù)/文檔

37、中發(fā)現(xiàn)有用信息Web內(nèi)容挖 掘的對(duì)象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。針對(duì)無結(jié)構(gòu)化文本進(jìn)行的Web挖掘被歸類到基于文本的知識(shí)發(fā)現(xiàn)(KDT)領(lǐng)域,也 稱文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域,也引起了許多研究者的關(guān)注。最近在Web多媒體數(shù)據(jù)挖掘方面的研究成為另一個(gè)熱點(diǎn)。,1、Web內(nèi)容挖掘,Web 內(nèi)容挖掘一般從兩個(gè)不同的觀點(diǎn)來進(jìn)行研究。從資源查找(IR)的觀點(diǎn)來看,Web內(nèi)容挖掘的任務(wù)是從

38、用戶的角度出發(fā),怎樣提高信息質(zhì)量和幫助用戶過濾信 息。而從DB的角度講Web內(nèi)容挖掘的任務(wù)主要是試圖對(duì)Web上的數(shù)據(jù)進(jìn)行集成、建模,以支持對(duì)Web數(shù)據(jù)的復(fù)雜查詢。,,1.1從資源查找(Information Retrival)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔 非 結(jié)構(gòu)化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對(duì)比較多一些,大部分研究都是建立在詞匯袋(bag of words)或稱向量表示法(vector represe

39、ntation)的基礎(chǔ)上 用資源查找的觀點(diǎn)挖掘半結(jié)構(gòu)化文檔:與非結(jié)構(gòu)化數(shù)據(jù)相比,Web上的半結(jié)構(gòu)化文檔挖掘指在加入了HTML、超連接等附加結(jié)構(gòu)的信息上進(jìn)行挖掘,其應(yīng)用包括超連接文本的分類、聚類、發(fā)現(xiàn)文檔之間的關(guān)系、提出半結(jié)構(gòu)化文檔中的模式和規(guī)則等,,1.2從數(shù)據(jù)庫(kù)(Database)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔 數(shù)據(jù)庫(kù)技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成

40、;Web站點(diǎn)建構(gòu)和重構(gòu)。從數(shù)據(jù)庫(kù)的觀點(diǎn)進(jìn)行Web內(nèi)容挖掘主要是試圖建立Web站點(diǎn)的數(shù)據(jù)模型并加以集成,以支持復(fù)雜查詢,而不止是簡(jiǎn)單的基于關(guān)鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數(shù)據(jù)倉(cāng)庫(kù)或Web知識(shí)庫(kù)或虛擬數(shù)據(jù)庫(kù)來實(shí)現(xiàn)。相關(guān)研究主要是基于半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行的,2、Web結(jié)構(gòu)挖掘,Web結(jié)構(gòu)挖掘的對(duì)象是Web本身的超連接,即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。對(duì)于給定的Web文檔集合,應(yīng)該能夠通過算法發(fā)現(xiàn)他們之間連接情況的有用信息,

41、文檔之間的超連接反映了文檔之間的包含、引用或者從屬關(guān)系。Web 結(jié)構(gòu)挖掘在一定程度上得益于社會(huì)網(wǎng)絡(luò)和引用分析的研究。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的算法是HITS算法和PageRank算法。他們的共同點(diǎn)是使用一定方法計(jì)算Web頁(yè)面之 間超連接的質(zhì)量,從而得到頁(yè)面的權(quán)重。著名的Clever和Google搜索引擎就采用了該類算法。,3、Web用法挖掘,即Web 使用記錄挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過挖掘相關(guān)的Web日志記錄,來

42、發(fā)現(xiàn)用戶訪問Web頁(yè)面的模式,通過分析日志記錄中的規(guī)律,可以識(shí)別 用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。,3、Web用法挖掘,根據(jù)對(duì)數(shù)據(jù)源的不同處理方法,Web 用法挖掘可以分為兩類一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法對(duì)關(guān)系表中的數(shù)據(jù)進(jìn)行常規(guī)挖掘;另一類是將Web 使用記錄的數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘。,三、 Web數(shù)據(jù)挖掘的應(yīng)用前景,電子商務(wù)  運(yùn)用網(wǎng)絡(luò)挖掘技術(shù)能

43、夠從服務(wù)器和瀏覽器端日志記錄中自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,從而做出預(yù)測(cè)性分析。 網(wǎng)站設(shè)計(jì)  通過對(duì)網(wǎng)站內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息 搜索引擎  用搜索引擎進(jìn)行網(wǎng)絡(luò)信息挖掘的最大特色體現(xiàn)在他所采用的對(duì)網(wǎng)頁(yè)鏈接信息的挖掘技術(shù)上。通過對(duì)網(wǎng)頁(yè)內(nèi)容挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類、分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;運(yùn)用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論