第5章數(shù)據(jù)挖掘的實(shí)施過程_第1頁
已閱讀1頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第五章數(shù)據(jù)挖掘的實(shí)施過程,第5章,前面介紹了數(shù)據(jù)挖掘的基本方法。在本章中我們進(jìn)一步說明數(shù)據(jù)挖掘的實(shí)施過程。,5.1 數(shù)據(jù)挖掘過程模型5A,數(shù)據(jù)挖掘是一個(gè)過程,它是從大量數(shù)據(jù)中抽取出有價(jià)值的信息或知識以提供決策依據(jù)。 由于每一種數(shù)據(jù)挖掘方法(算法及技術(shù)要求)都有其自身的特點(diǎn)且實(shí)現(xiàn)步驟與具體應(yīng)用問題有密切相關(guān)性,因此成功應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)的過程本身就是一件很復(fù)雜的事情。,5.1 數(shù)據(jù)挖掘過程模型5A,一

2、般來說,數(shù)據(jù)挖掘項(xiàng)目要經(jīng)歷的過程包括問題的理解、數(shù)據(jù)的理解收集和準(zhǔn)備、建立數(shù)據(jù)挖掘模型、評價(jià)所建的模型、將建立的模型投入應(yīng)用等一系列任務(wù)。這里,數(shù)據(jù)挖掘過程的系統(tǒng)化、工程化方法學(xué)和支持系統(tǒng)(軟件或工程)對解決應(yīng)用問題起著至關(guān)重要的作用。,5.1 數(shù)據(jù)挖掘過程模型5A,為了抽象系統(tǒng)化方法 ,人們提出了一些數(shù)據(jù)挖掘過程的參考模型或標(biāo)準(zhǔn): ·SPSS提出的5A(Assess、Access、

3、 Analyze、Act、Automate); ·SAS提出的SEMMA(采樣Sample,探索 Explore,修正Modify,建模Model, 評估Assess) ·數(shù)據(jù)挖掘特別興趣小組提出的“數(shù)據(jù)挖掘 交叉行業(yè)標(biāo)準(zhǔn)過程”CRISP-DM

4、 (Cross-Industry Standard Process for Data Mining)。,5.1 數(shù)據(jù)挖掘過程模型5A,在這些模型中,5A模型強(qiáng)調(diào)的是支持?jǐn)?shù)據(jù)挖掘過程的工具應(yīng)具備的功能和能力,它是對支持?jǐn)?shù)據(jù)挖掘工具的定義。 SEMMA強(qiáng)調(diào)的是結(jié)合SAS公司的挖掘工具進(jìn)行應(yīng)用開發(fā)的方法。 CRISP-DM則從進(jìn)行

5、數(shù)據(jù)挖掘方法學(xué)的角度強(qiáng)調(diào)實(shí)施數(shù)據(jù)挖掘項(xiàng)目的方法和步驟,并獨(dú)立于每種具體數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘系統(tǒng)。,5.1 數(shù)據(jù)挖掘過程模型5A,5A模型認(rèn)為任何數(shù)據(jù)挖掘方法學(xué)都由5個(gè)基本元素組成,即Assess、Access、Analyze、Act、Automate。 ·Assess:正確、徹底的評價(jià)任務(wù)的需求及數(shù)據(jù)。 ·Access:方便、快速的存取任務(wù)所涉及的數(shù)據(jù)。 ·Analyze:適當(dāng)、完備的分

6、析技術(shù)和工具。 ·Act:具有推薦性、有說服力的演示。用大量的列表和圖形或者通過辦公軟件來演示數(shù)據(jù)挖掘軟件的能力。軟件應(yīng)該具備快速回答用戶提問的控制性和靈活性,這樣才便于用戶更好、更快地做決策。 ·Automate:為用戶提供最易于使用、最方 便的自動(dòng)化軟件。,5.1 數(shù)據(jù)挖掘過程模型5A,針對著5個(gè)過程,5A描述了各元素在數(shù)據(jù)挖掘技術(shù)應(yīng)用中所需完成的任

7、務(wù)和應(yīng)該提供的支持功能。(1)Assess Assess是指要正確地理解和設(shè)置數(shù)據(jù),一旦充分了解了數(shù)據(jù)的上下文后,就可以正確地收集它并在其上做需要的決策。實(shí)現(xiàn)Assess的軟件技術(shù)方案可以不同,但問題含義相同。a.將技術(shù)與組織的目標(biāo)、策略和步驟結(jié)合起來。b.擁有世界范圍的咨詢和培訓(xùn),目的是交付高級分析工具給分析員后,能快速實(shí)現(xiàn)數(shù)據(jù)挖掘及其應(yīng)用 。,5.1 數(shù)據(jù)挖掘過程模型5A,(2)Access

8、 Access是指數(shù)據(jù)集合(DB、DW、DM)應(yīng)該完全符合評價(jià)的要求和質(zhì)量。若數(shù)據(jù)集合不充分,須補(bǔ)充附加的數(shù)據(jù)。選用的數(shù)據(jù)挖掘軟件必須在所要求的數(shù)據(jù)上靈活地工作,并滿足下列存取準(zhǔn)則。 ·易于存取和連接各種數(shù)據(jù)源,包括數(shù)據(jù)表、公司數(shù)據(jù)庫、數(shù)據(jù)倉庫和其它必要的外部數(shù)據(jù)庫。 ·能直接從ASCII正文、數(shù)據(jù)表、數(shù)據(jù)庫文件讀入數(shù)據(jù)。 ·能處理大量(GB以上)的數(shù)據(jù)文件。,5.1 數(shù)據(jù)挖

9、掘過程模型5A,(3)Analyze Analyze要求分析工具具備兩類分析方法和工具:發(fā)現(xiàn)工具和驗(yàn)證工具。 驗(yàn)證工具檢驗(yàn)發(fā)現(xiàn)工具所產(chǎn)生的結(jié)果是否合理。 發(fā)現(xiàn)型方法和工具包括基因遺傳算法、規(guī)則推導(dǎo)、模糊邏輯、數(shù)據(jù)可視化、聚類算法、因素分析、神經(jīng)網(wǎng)絡(luò)、決策樹等。 驗(yàn)證方法和工具包括回歸、邏輯回歸、判別分析、預(yù)測建模等。

10、 理想的數(shù)據(jù)挖掘軟件應(yīng)該具備這兩類分析方法和工具,同時(shí)應(yīng)該包括下列分析特性。,5.1 數(shù)據(jù)挖掘過程模型5A,·統(tǒng)計(jì)過程、范圍和深度較強(qiáng),應(yīng)包括預(yù)測、分段、分類等。 ·集成商業(yè)和統(tǒng)計(jì)圖形功能、具備多種可選的2D/3D圖類,能用數(shù)據(jù)定點(diǎn)模式顯示和跟蹤等。 ·輔助分析的模版、過程導(dǎo)引、示范、在線幫助等,能幫助分析員快速選擇和獲得結(jié)果。 ·數(shù)據(jù)、文件、中間結(jié)果管理功能。能合并和分離文件、

11、選擇數(shù)據(jù)子集、處理數(shù)據(jù)缺值、凈化、改善數(shù)據(jù)完整性、支持IF-THEN-ELSE條件操作。 ·數(shù)據(jù)轉(zhuǎn)換功能。有一組完備的轉(zhuǎn)換函數(shù)支持變量/特征和條件的計(jì)算,可以重復(fù)計(jì)算、編輯原來的變量/特征。,5.1 數(shù)據(jù)挖掘過程模型5A,·可裁減的工作環(huán)境。有腳本/宏語言支持的可重復(fù)任務(wù)的自動(dòng)化、批處理及其菜單按鈕功能,以支持一般用戶快速使用。 ·靈活的動(dòng)態(tài)輸出。表結(jié)果可以轉(zhuǎn)動(dòng)和輪換,易于觀察數(shù)據(jù)全貌和用鼠標(biāo)重

12、新組織表數(shù)據(jù),以便于清晰的提交、觀察、探索數(shù)據(jù)結(jié)果并做進(jìn)一步的特殊分析。 ·基于線性回歸和ANOVA的預(yù)測性建模,具有相關(guān)性、分類分析、預(yù)測等基本分析功能。 ·插件/模塊功能。可以提供特殊的功能模塊,以支持特定的分析。,5.1 數(shù)據(jù)挖掘過程模型5A,(4)Act 用大量的列表和圖形或者通過辦公軟件來演示數(shù)據(jù)挖掘軟件的能力。軟件應(yīng)該具備快速回答用戶提問的控制性和靈活性,這樣才便于用

13、戶更好、更快地做決策。數(shù)據(jù)挖掘軟件應(yīng)該提供下面的演示特性。l完好的集成圖形功能,以提供專業(yè)級的演示。lOLE支持,以易于嵌入圖表節(jié)省報(bào)告時(shí)間。lINTERNET特性,以易于圖表的網(wǎng)上傳輸和本地察看。l演示模版特性,以節(jié)省編輯時(shí)間。l特殊查詢功能,以利于快速提供附加的分析能力來響應(yīng)用戶的提問。l報(bào)告注解功能,以加入注解到報(bào)告中。,5.1 數(shù)據(jù)挖掘過程模型5A,(5)Automate Automate是指

14、面向用戶的操作盡可能完善和自動(dòng)化軟件的應(yīng)用過程。吸取專業(yè)分析決策人員及多數(shù)用戶的意見和見解,以最快的方式顯示分析結(jié)果,以標(biāo)準(zhǔn)的接口、按鈕式的功能/菜單、豐富的幫助、可選的附加分析將軟件呈現(xiàn)給用戶。為此,軟件應(yīng)提供以下自動(dòng)化功能:,5.1 數(shù)據(jù)挖掘過程模型5A,lOLE自動(dòng)化開發(fā)者的機(jī)制,允許用戶在通用代碼級(VB、EXCEL、ACCESS、PB等)使用軟件。l內(nèi)建編程語言/腳本/宏,使用戶可以方便的創(chuàng)建自己的應(yīng)用。l制作能力,能編寫

15、產(chǎn)生日常報(bào)告的命令行文件。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,CRISP-DM模型是由幾家相關(guān)開發(fā)和應(yīng)用行業(yè)的跨國公司和集團(tuán)所支持(并由歐洲委員會(huì)部分支持)的一個(gè)特別興趣小組在1997年7月到1999年4月間研究后提出的。 這幾家公司分別是數(shù)據(jù)倉庫提供商N(yùn)CR在丹麥的SEC公司,德國的汽車、航天航空、電信和咨詢業(yè)公司DAIMLER-BENZ AG,英國的數(shù)據(jù)挖掘系統(tǒng)開發(fā)商ISL(CLEMENTINE的研發(fā)商

16、,1998年其成為SPSS的子公司)以及荷蘭最大的銀行、保險(xiǎn)業(yè)公司OHRA。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,由于其直接動(dòng)機(jī)是將數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)化為商業(yè)應(yīng)用,所提出的過程模型均在項(xiàng)目中進(jìn)行實(shí)際實(shí)踐和驗(yàn)證,因此具有一定的代表性。 CRISP-DM模型采用分層方法將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生存周期定義為6個(gè)階段(PHASE)和4個(gè)層次(LEVEL)。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,CRISP-DM模型6個(gè)階

17、段為:BUSINESS UNDERSTANDING、DATA UNDERSTANDING 、DATA PREPARATION、MODELING、EVALUATION和DEPLOYMENT 階段間的順序并不嚴(yán)格,比如商業(yè)理解和數(shù)據(jù)理解之間常常需要反復(fù),數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)模型建立也常常需要反復(fù)。 階段間有循環(huán),比如在對模型進(jìn)行評價(jià)后,如果不滿意,可能需要重新對商業(yè)問題進(jìn)行理解,重新開始建模。

18、一個(gè)階段的任務(wù)完成后,如果需要繼續(xù)擴(kuò)展挖掘的范圍,則需要重新開始循環(huán)。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,CRISP-DM模型4個(gè)層次是: 階段劃分(PHASE) 定義通用任務(wù)(GENERIC TASK) 定義專用任務(wù)(SPECIALIZED TASK) 處理實(shí)例(PROCESS INSTANCE) 每個(gè)PHASE由若干GENERIC TASK組成,每個(gè)GENERIC TASK又需要

19、實(shí)施若干SPECIALIZED TASK,每個(gè)SPECIALIZED TASK由若干PROCESS INSTANCE來完成。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,其中,上兩層獨(dú)立于具體數(shù)據(jù)挖掘方法,即是一般數(shù)據(jù)挖掘項(xiàng)目均需實(shí)施的步驟(這解決了“WHAT TO DO?”的問題)。這兩層的任務(wù)將結(jié)合具體數(shù)據(jù)挖掘項(xiàng)目的“上下文”(CONTEXT)映射到下兩層的具體任務(wù)和過程。 項(xiàng)目的“上下文”是指項(xiàng)目開發(fā)中密切相關(guān)

20、、需要綜合考慮的一些關(guān)鍵問題,如應(yīng)用領(lǐng)域、數(shù)據(jù)挖掘問題類型、技術(shù)難點(diǎn)、工具及其提供的技術(shù)等。 下兩層注重解決如何完成每個(gè)階段所要完成的任務(wù)和任務(wù)的輸出所要求的必要映射活動(dòng)(這用于解決“HOW TO DO”的問題)。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,CRISP-DM6個(gè)階段的含義是:(1)BUSINESS UNDERSTANDING 在開始階段,專注于從商業(yè)的角度理解項(xiàng)目目標(biāo)和需求,

21、然后將這種知識轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問題定義,并設(shè)計(jì)出達(dá)到目標(biāo)的一個(gè)初步計(jì)劃。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,(2)DATA UNDERSTANDING 在數(shù)據(jù)理解階段,先收集初步的數(shù)據(jù),然后進(jìn)行熟悉數(shù)據(jù)的各種活動(dòng),包括識別數(shù)據(jù)的質(zhì)量問題、找到對數(shù)據(jù)的基本觀察或假設(shè)隱含的信息來檢測出感興趣的數(shù)據(jù)子集。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,(3)DATA PREPARATION

22、 數(shù)據(jù)預(yù)處理階段覆蓋了從數(shù)據(jù)構(gòu)造到最終數(shù)據(jù)集合(將要輸入建模工具的數(shù)據(jù))的所有活動(dòng)。數(shù)據(jù)預(yù)處理任務(wù)很可能要執(zhí)行多次,并且沒有任何規(guī)定的順序。任務(wù)包括表、記錄屬性的選擇以及為了適合建模工具的要求對數(shù)據(jù)進(jìn)行的轉(zhuǎn)換和凈化。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,(4) MODELING 在建模階段,可以選擇和應(yīng)用各種建模技術(shù)將其參數(shù)校正到優(yōu)化值。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,(5)EVALUAT

23、ION 從數(shù)據(jù)分析的觀點(diǎn)看:在開始進(jìn)入這個(gè)階段時(shí)已經(jīng)建立了看上去是高質(zhì)量的模型。但在最終擴(kuò)展模型之前,要更徹底地評價(jià)模型,對所建模型再次考察其執(zhí)行的步驟并確信其正確地達(dá)到了商業(yè)目標(biāo)。 這里,一個(gè)關(guān)鍵的目的是確定是否有某些重要的商業(yè)問題還沒有充分地考慮。在這個(gè)階段的結(jié)尾,應(yīng)該獲得使用數(shù)據(jù)挖掘結(jié)果的判定。,5.2數(shù)據(jù)挖掘過程模型CRISP-DM,(6)DEPLOYMENT

24、 創(chuàng)建完模型并不意味著項(xiàng)目結(jié)束。所獲得的知識要用一種用戶可以使用的方式來組織和表示。根據(jù)要求,擴(kuò)展階段可以簡單到只生成一份報(bào)告,或復(fù)雜到實(shí)現(xiàn)一個(gè)可重復(fù)的數(shù)據(jù)挖掘過程。在許多情況下,這將由客戶而不是分析員來實(shí)施。所以分析員來實(shí)施擴(kuò)展將達(dá)不到預(yù)期的擴(kuò)展效果,因此在這之前,客戶理解和利用所建模型所要實(shí)施的動(dòng)作很重要。,5.3 數(shù)據(jù)挖掘過程中的相關(guān)問題,TWO CROWS公司的數(shù)據(jù)挖掘過程模型同CRISP-DM模型很類似,并且比較簡潔,其基本

25、數(shù)據(jù)挖掘步驟包括:l         定義商業(yè)問題;l        建立數(shù)據(jù)挖掘倉庫;l         分析數(shù)據(jù);l      

26、   準(zhǔn)備數(shù)據(jù);l         建立模型;l         評價(jià)模型;l         實(shí)施。 下面結(jié)合這個(gè)數(shù)據(jù)挖掘過程模型說明在數(shù)據(jù)挖掘過程中

27、的相關(guān)問題。,5.3.1 定義商業(yè)問題,我們的最終目的是希望從技術(shù)和商業(yè)角度為公司建立一個(gè)能夠理解和實(shí)施數(shù)據(jù)挖掘的工作環(huán)境。數(shù)據(jù)挖掘的成功,并不在于特定工具和算法的選擇,而是一個(gè)合適的環(huán)境。 一個(gè)企業(yè)的執(zhí)行能力越強(qiáng),數(shù)據(jù)挖掘的能力就越大。,5.3.1 定義商業(yè)問題,企業(yè)所處的商業(yè)環(huán)境往往在戰(zhàn)略上、顧客定位、數(shù)據(jù)倉庫建立、市場定位、生命周期、分析技術(shù)等方面各不相同,成功的基礎(chǔ)必須是基于對數(shù)據(jù)挖掘與商業(yè)規(guī)律良好結(jié)合的環(huán)境,建立

28、自己的挖掘平臺。 在開始數(shù)據(jù)挖掘之前,最重要的是要了解數(shù)據(jù)和相關(guān)的業(yè)務(wù)問題。比如要分析電信領(lǐng)域的客戶呼叫行為,需要了解電信的業(yè)務(wù)構(gòu)成、業(yè)務(wù)運(yùn)營以及其它諸多的行業(yè)知識。,5.3.1 定義商業(yè)問題,要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須對目標(biāo)有一個(gè)清晰明確的定義,了解數(shù)據(jù)和相關(guān)的業(yè)務(wù)問題是決定到底想干什么的前提。 數(shù)據(jù)挖掘?qū)ο到y(tǒng)分析/開發(fā)人員提出了更高的要求,它要求分析/開發(fā)人員具有比較寬廣的基礎(chǔ)知識

29、和行業(yè)背景。,商業(yè)理解體系的核心——語義層,業(yè)務(wù)數(shù)據(jù)庫,商業(yè)理解體系的核心——語義層,數(shù)據(jù)源,終端用戶,商業(yè)元語,查詢面板,數(shù)據(jù)源,5.3.2 建立數(shù)據(jù)挖掘庫,建立數(shù)據(jù)挖掘倉庫、分析數(shù)據(jù)、選擇變量構(gòu)成了數(shù)據(jù)預(yù)處理的核心,這三步比其它所有的步驟加在一起所花的時(shí)間和精力還多。數(shù)據(jù)準(zhǔn)備工作大概要花去整個(gè)數(shù)據(jù)挖掘項(xiàng)目的50%~90%的時(shí)間和精力。,5.3.2 建立數(shù)據(jù)挖掘庫,我們應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個(gè)數(shù)據(jù)庫中(或者存放在數(shù)據(jù)倉庫中,通常

30、是以關(guān)系表得方式存儲)。 當(dāng)然,這并不是說一定要使用一個(gè)數(shù)據(jù)庫管理系統(tǒng)。根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時(shí)一個(gè)簡單的平面文件或電子表格就足夠了 。,5.3.2 建立數(shù)據(jù)挖掘庫,數(shù)據(jù)挖掘系統(tǒng)可以作為一個(gè)獨(dú)立的系統(tǒng)存在。 對于一個(gè)大型的企業(yè)將數(shù)據(jù)挖掘系統(tǒng)建立在數(shù)據(jù)倉庫的基礎(chǔ)上是非常合理的想法,因?yàn)閿?shù)據(jù)倉庫已經(jīng)為數(shù)據(jù)挖掘累積了大量的歷史數(shù)據(jù),要將這些數(shù)據(jù)充分發(fā)揮作用,

31、就需要一個(gè)良好的數(shù)據(jù)挖掘系統(tǒng)。,5.3.2 建立數(shù)據(jù)挖掘庫,但是,一般我們并不直接在公司的數(shù)據(jù)倉庫上進(jìn)行數(shù)據(jù)挖掘。原因有以下幾點(diǎn):1)數(shù)據(jù)倉庫中的數(shù)據(jù)量很大,許多數(shù)據(jù)并不 是數(shù)據(jù)挖掘問題所關(guān)心的。2)數(shù)據(jù)挖掘需要的信息涉及的方面很廣,這 些信息可能存放在數(shù)據(jù)倉庫的許多表中, 如果直接在數(shù)據(jù)倉庫中挖掘,將使數(shù)據(jù) 的訪問性能受到影響。3)數(shù)據(jù)挖掘需要反復(fù)進(jìn)行,不斷地對模型

32、 進(jìn)行優(yōu)化。,5.3.2 建立數(shù)據(jù)挖掘庫,4)在數(shù)據(jù)挖掘過程中需要對變量進(jìn)行轉(zhuǎn)化,比如神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型的變量,對于非數(shù)值型的變量需要轉(zhuǎn)化。而數(shù)據(jù)倉庫不支持更新操作。5)多個(gè)數(shù)據(jù)挖掘的主題可能同步進(jìn)行,如果直接在數(shù)據(jù)倉庫中進(jìn)行,數(shù)據(jù)倉庫需要增加相應(yīng)地控制機(jī)制。6)數(shù)據(jù)倉庫系統(tǒng)還有其它工作,比如定期地?cái)?shù)據(jù)刷新、對OLAP系統(tǒng)的支持等。,5.3.2 建立數(shù)據(jù)挖掘庫,因此有必要從數(shù)據(jù)倉庫中抽取出需要的數(shù)據(jù)單獨(dú)存放在數(shù)據(jù)挖掘庫中,這樣

33、可以達(dá)到以下目的。l 數(shù)據(jù)量大大地減小了:l 多個(gè)數(shù)據(jù)挖掘主題可以并行地進(jìn)行:l多個(gè)數(shù)據(jù)挖掘主題在物理上分開,對數(shù) 據(jù)的更新互不影響;l數(shù)據(jù)挖掘的結(jié)果可以回寫進(jìn)數(shù)據(jù)倉庫,供OLAP工具展現(xiàn)使用。,5.3.2 建立數(shù)據(jù)挖掘庫,如果數(shù)據(jù)倉庫允許建立一個(gè)在邏輯上獨(dú)立的數(shù)據(jù)庫并且在計(jì)算資源上也足夠,那么在它上面進(jìn)行數(shù)據(jù)挖掘也是可以的。建立數(shù)據(jù)挖掘庫可以分成下面幾個(gè)部分:l 

34、0;       數(shù)據(jù)收集;l         對數(shù)據(jù)進(jìn)行描述;l         選擇數(shù)據(jù);l         數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清

35、理;l         對數(shù)據(jù)進(jìn)行合并和整合;l         構(gòu)建元數(shù)據(jù);l         將數(shù)據(jù)加載到數(shù)據(jù)挖掘庫;l     

36、0;   維護(hù)數(shù)據(jù)挖掘庫。,5.3.2 建立數(shù)據(jù)挖掘庫,這些步驟并不一定要按步驟執(zhí)行,而應(yīng)該按需要進(jìn)行。比如在收集數(shù)據(jù)時(shí)就開始構(gòu)建元數(shù)據(jù),并隨著工作的進(jìn)行不斷的對其進(jìn)行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評估過程中發(fā)現(xiàn)問題可能需要修改最初的數(shù)據(jù)選擇。,5.3.2 建立數(shù)據(jù)挖掘庫,1.數(shù)據(jù)收集 首先,確定要挖掘的數(shù)據(jù)源。 在數(shù)據(jù)倉庫中已經(jīng)提供了豐富的數(shù)據(jù),但是還需要一些外部的數(shù)據(jù),比如

37、人口統(tǒng)計(jì)或天氣數(shù)據(jù)等。對于一些有償數(shù)據(jù),甚至需要向?qū)iT提供數(shù)據(jù)服務(wù)的公司購買。 我們可以用一個(gè)數(shù)據(jù)搜集報(bào)告把所需的各種不同的數(shù)據(jù)源的屬性列出來。此報(bào)告至少應(yīng)包含如下的內(nèi)容:,5.3.2 建立數(shù)據(jù)挖掘庫,l數(shù)據(jù)源;l數(shù)據(jù)的擁有者;l負(fù)責(zé)維護(hù)此數(shù)據(jù)的人/組織;l設(shè)計(jì)該數(shù)據(jù)庫的DBA;l如果數(shù)據(jù)需要購買,則需要說明費(fèi)用 ;l數(shù)據(jù)使用的存儲方式,如ORACLE數(shù)據(jù)庫,平面文件;l數(shù)據(jù)中包含的表,字段,記錄的數(shù)

38、目;l數(shù)據(jù)的大?。籰數(shù)據(jù)的物理存儲介質(zhì),如CD-ROM,磁帶,磁盤陣列等;l安全需求;l數(shù)據(jù)在使用上的限制;l數(shù)據(jù)是否涉及用戶的隱私問題。,5.3.2 建立數(shù)據(jù)挖掘庫,2.數(shù)據(jù)描述數(shù)據(jù)描述報(bào)告中應(yīng)包含如下內(nèi)容:l         字段/列的數(shù)目;l        

39、 字段是空(缺值)的數(shù)目/百分比;l         字段名;,5.3.2 建立數(shù)據(jù)挖掘庫,對于對每個(gè)字段,我們通常需要記錄:l         數(shù)據(jù)類型;l         數(shù)據(jù)定義;l&#

40、160;        數(shù)據(jù)描述;l         計(jì)量單位;l         所有不同值的個(gè)數(shù);l         值

41、的列表;l         值的范圍;l         空值的百分比;l         收集信息;l       &#

42、160; 時(shí)間頻度;l         特別時(shí)間數(shù)據(jù);l 主鍵/外鍵關(guān)系。,5.3.2 建立數(shù)據(jù)挖掘庫,3.數(shù)據(jù)選擇 接下來要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)。這與對數(shù)據(jù)進(jìn)行采樣和選擇預(yù)測變量是不同的,這里只是粗略的把冗余或無關(guān)的數(shù)據(jù)除去或由于資源的限制、費(fèi)用的限制、數(shù)據(jù)使用的限制和質(zhì)量問題而必須做出的選擇。,5.3.2 建立

43、數(shù)據(jù)挖掘庫,4.數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理 要想得到好的模型必須用好數(shù)據(jù)。數(shù)據(jù)質(zhì)量評估就是要確定數(shù)據(jù)的哪些性質(zhì)會(huì)最終影響模型的質(zhì)量。我們不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情。,5.3.2 建立數(shù)據(jù)挖掘庫,數(shù)據(jù)域中可能包括了不正確的值。比如,身份證號碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。 即使單個(gè)域中包含的數(shù)據(jù)是正確的,但這些域組合起來時(shí)也可能就出現(xiàn)錯(cuò)誤的記

44、錄,如小學(xué)生的年齡是90。 有時(shí)域中的值為空。 當(dāng)從多個(gè)不同的源整合數(shù)據(jù)的時(shí)候,一定要注意不同源之間數(shù)據(jù)的一致性。 這些工作看起來和數(shù)據(jù)倉庫的數(shù)據(jù)清洗轉(zhuǎn)換工作很相似。,5.3.2 建立數(shù)據(jù)挖掘庫,缺值是一個(gè)非常有害的問題,并且在實(shí)際情況中常常出現(xiàn)。比如在網(wǎng)上調(diào)查或者問卷調(diào)查中,填寫人會(huì)漏填甚至不填某些選項(xiàng)。 如果有一個(gè)數(shù)據(jù)域缺值就把這個(gè)記錄刪除

45、掉,那么最后可能得到一個(gè)很小的數(shù)據(jù)集合。如果可用的數(shù)據(jù)集合太小,則這個(gè)集合就不能代表整體的特征,因此在這樣的數(shù)據(jù)集合上進(jìn)行分析的結(jié)果與實(shí)際情況有較大的出入 。,5.3.2 建立數(shù)據(jù)挖掘庫,我們應(yīng)當(dāng)考慮一些合適的方法進(jìn)行彌補(bǔ),可能的方法有:a.據(jù)其它字段來推測缺失字段,比如通過身份證計(jì)算出客戶的性別、年齡信息,從而填補(bǔ)這兩個(gè)字段數(shù)據(jù)的缺失。如果客戶的身份證有誤,這個(gè)方法就失效了。b.用非空值的數(shù)據(jù)通過計(jì)算后代替空值數(shù)據(jù)。我們通過計(jì)算收

46、入水平的非空數(shù)據(jù)的平均值來取代空值數(shù)據(jù)。c.使用非空值的數(shù)據(jù)的統(tǒng)計(jì)特征來填充空值數(shù)據(jù)。問卷中非空字段包含35%男性和65%女性,在為性別字段缺失的記錄添值時(shí),按照這個(gè)比例隨機(jī)進(jìn)行賦值。,5.3.2 建立數(shù)據(jù)挖掘庫,d.以缺值的字段為預(yù)測目標(biāo),用數(shù)據(jù)挖掘技術(shù)建立一個(gè)預(yù)測模型,通過非空的記錄對其進(jìn)行訓(xùn)練和評價(jià),然后按照這個(gè)模型的預(yù)測結(jié)果添值。 這種方法比較好,因?yàn)槭褂脭?shù)據(jù)本身的特征來填寫數(shù)據(jù),但是,這將花費(fèi)較多的

47、時(shí)間。,5.3.2 建立數(shù)據(jù)挖掘庫,e.利用以往的經(jīng)驗(yàn),行業(yè)規(guī)則或者挖掘得到的規(guī)則對空值進(jìn)行填充。 比如在宣傳化妝品的過程中,會(huì)對問卷回應(yīng)的大部分顧客是女性,男性僅占很少的比例,比如10%,我們可以根據(jù)這個(gè)特征對空值進(jìn)行填充。,5.3.2 建立數(shù)據(jù)挖掘庫,5. 合并和整合 進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)來自于不同的內(nèi)部和外部數(shù)據(jù)源,并且數(shù)據(jù)源之間的數(shù)據(jù)常常存在沖突和不一致。 不同

48、的數(shù)據(jù)庫間在數(shù)據(jù)定義和使用上存在巨大的差距。有些不一致問題是容易解決的,然而有些則非常棘手。 同一個(gè)名字的字段被用在不同的數(shù)據(jù)項(xiàng)上具有不同的含義,或同一個(gè)數(shù)據(jù)項(xiàng)用了不同的名字。在數(shù)據(jù)計(jì)量上還有單位不統(tǒng)一的問題,比如人民幣和港元之間不能做運(yùn)算。關(guān)于數(shù)據(jù)整合和集成的問題,我們在數(shù)據(jù)倉庫中已經(jīng)進(jìn)行了詳細(xì)的說明。,5.3.2 建立數(shù)據(jù)挖掘庫,6. 構(gòu)建元數(shù)據(jù) 元數(shù)據(jù)就是描述數(shù)據(jù)的數(shù)據(jù)。數(shù)據(jù)收集報(bào)

49、告和數(shù)據(jù)描述報(bào)告是建立元數(shù)據(jù)的基礎(chǔ)和重要組成部分。我們需要利用挖掘工具提供的元數(shù)據(jù)管理工具或者自己設(shè)計(jì)一個(gè)元數(shù)據(jù)庫,為分析數(shù)據(jù)以及建立模型提供輔助信息。,5.3.2 建立數(shù)據(jù)挖掘庫,7.加載數(shù)據(jù) 大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到獨(dú)立的挖掘庫中。如果數(shù)據(jù)量大并且復(fù)雜,那么數(shù)據(jù)挖掘庫通常是一個(gè)RDBMS。如果數(shù)據(jù)量很少,使用一個(gè)簡單的平面文件即可。經(jīng)過前面所有的搜集、整理之后,現(xiàn)在把這些數(shù)據(jù)加載過來。,5.3.

50、2 建立數(shù)據(jù)挖掘庫,8. 維護(hù)數(shù)據(jù)挖掘庫 挖掘庫一旦建好,就需要對其進(jìn)行維護(hù)。維護(hù)工作包括:l定期進(jìn)行數(shù)據(jù)備份;l 監(jiān)視挖掘庫的性能;l 維護(hù)元數(shù)據(jù);l根據(jù)需要不斷的增加存儲空間,提供硬 件的性能。 對放在RDBMS內(nèi)的復(fù)雜挖掘庫來說,維護(hù)它需要計(jì)算機(jī)專業(yè)人員來完成。,5.3.3 分析數(shù)據(jù)/變量,分析數(shù)據(jù)的目的是找到對預(yù)測輸出影響最大的字段,并決定是否需要增加導(dǎo)出 字段。如果數(shù)

51、據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情。這時(shí),我們需要一個(gè)具有好的界面和功能強(qiáng)大的工具庫軟件來協(xié)助完成這些事情。此步驟可劃分成4個(gè)部分:l 選擇變量;l 選擇記錄;l 創(chuàng)建新變量;l 轉(zhuǎn)換變量。,5.3.3 分析數(shù)據(jù)/變量,1 選擇變量 理想情況下,我們可以選擇全部變量,把它們輸入到數(shù)據(jù)挖掘工具中,讓數(shù)據(jù)挖掘工具來選擇哪些是最好的預(yù)測變量。

52、 實(shí)際上這樣做并不是很好,一方面隨著變量個(gè)數(shù)的增加,模型的建立時(shí)間也隨之上升;,5.3.3 分析數(shù)據(jù)/變量,1 選擇變量 另一方面盲目的把所有的變量都加進(jìn)去會(huì)導(dǎo)致建立錯(cuò)誤的模型。比如,建立預(yù)測模型的一個(gè)常見錯(cuò)誤就是把一個(gè)依賴于目標(biāo)變量的變量作為預(yù)測變量,像用變量“出生年份”來“預(yù)測”目標(biāo)變量年齡,其結(jié)果將導(dǎo)致目標(biāo)變量“年齡”直接同預(yù)測變量“出生年份”相關(guān),而其它的因素將被排除,這顯然同預(yù)測的初衷是不

53、符合的。,5.3.3 分析數(shù)據(jù)/變量,我們在利用分析工具進(jìn)行挖掘前,需要完成以下工作。l去除同目標(biāo)變量具有強(qiáng)相關(guān)性的變量l去除毫無關(guān)系的變量 這樣既可以節(jié)約進(jìn)行數(shù)據(jù)挖掘的時(shí)間,又可以避免降低其它重要變量對目標(biāo)變量的影響力。,5.3.3 分析數(shù)據(jù)/變量,2 選擇記錄 選擇記錄有兩重含義: a.在數(shù)據(jù)量不大的時(shí)候,可以用所有的數(shù)據(jù)行來建立模型。如果數(shù)據(jù)量非常巨大,使用所有的數(shù)據(jù)行來建立模型要花費(fèi)很長時(shí)間

54、,要么買一臺計(jì)算能力非常強(qiáng)大的機(jī)器。因此,數(shù)據(jù)量特別大就需要進(jìn)行數(shù)據(jù)抽樣。如果數(shù)據(jù)抽樣做得足夠仔細(xì),保證抽樣是按真正的隨機(jī)來進(jìn)行的,采樣對大部分商業(yè)問題來說都不會(huì)丟失信息。 我們可以用所有的數(shù)據(jù)建立一個(gè)模型,還可以根據(jù)不同的采樣方法建立幾個(gè)模型,然后評價(jià)這幾個(gè)模型并選擇一個(gè)最好的。通常認(rèn)為后種方法得到的模型更準(zhǔn)確。,5.3.3 分析數(shù)據(jù)/變量,b.在進(jìn)行挖掘前,我們需要?jiǎng)h除明顯的異常數(shù)據(jù)。然而在某些情況下,這些看來

55、異常的數(shù)據(jù)可能包含了要建立模型的重要信息。因此,對于數(shù)據(jù)是否異常,必須按照實(shí)際的業(yè)務(wù)邏輯和商業(yè)邏輯來判斷。,5.3.3 分析數(shù)據(jù)/變量,3 創(chuàng)建新變量 很多情況下,我們需要從原始數(shù)據(jù)中衍生一些新的變量作為預(yù)測變量。創(chuàng)建新變量通常有兩種方法。 a.將變量利用加、減、比率等計(jì)算組合起來可能會(huì)比這些變量自身影響力更大。比如,用負(fù)債占收入百分比來預(yù)測信用風(fēng)險(xiǎn),比直接用負(fù)債值和收入值做預(yù)測變量更準(zhǔn)

56、確一些,也更容易理解。再如,預(yù)測一個(gè)客戶是否可能成為大客戶,使用它這幾個(gè)月來的通話費(fèi)用的增長額或者增長率,可能比直接使用這幾個(gè)月的話費(fèi)對目標(biāo)量影響更大。,5.3.3 分析數(shù)據(jù)/變量,b.一些變量如果擴(kuò)大它的范圍,可能成為一個(gè)非常好的預(yù)測變量。 比如,預(yù)測客戶是否為有價(jià)值客戶,可以使用一段時(shí)間內(nèi)話費(fèi)變化情況代替某一個(gè)月的話費(fèi)情況。 我們需要?jiǎng)?chuàng)建哪些新變量不是主觀臆想的結(jié)果,而需要研究商業(yè)問題

57、,甚至要向該方面的專家請教。是否能夠創(chuàng)建合適的變量,對于模型的準(zhǔn)確性影響很大。,5.3.3 分析數(shù)據(jù)/變量,4. 轉(zhuǎn)換變量。 不同的算法可能對變量的要求不同,所以在進(jìn)行挖掘之前,我們需要根據(jù)選擇的算法,決定對數(shù)據(jù)進(jìn)行哪些轉(zhuǎn)換工作。 比如神經(jīng)網(wǎng)絡(luò)要求所有的變量都在0~1之間,因此在這些數(shù)據(jù)被提交到算法之前必須先對不在[0,1]內(nèi)的變量進(jìn)行映射。類似一些決策樹算法不接受數(shù)值型變量作為輸入,在使用

58、它們之前也要把這些數(shù)值映射到“高,中,低”等。使用的轉(zhuǎn)換方式在一定程度上會(huì)影響模型的準(zhǔn)確度。,5.3.3 分析數(shù)據(jù)/變量,現(xiàn)在的一些比較先進(jìn)的數(shù)據(jù)挖掘工具已經(jīng)能夠自動(dòng)對變量進(jìn)行必要的轉(zhuǎn)換工作。但是,目標(biāo)變量的轉(zhuǎn)化工作通常還是需要用戶自己來完成。比如使用神經(jīng)網(wǎng)絡(luò)的方法,需要將目標(biāo)變量映射到0~1之間。,5.3.4 模型訓(xùn)練方法,建立模型是一個(gè)反復(fù)的過程。我們需要仔細(xì)考察不同的模型來判斷哪個(gè)模型對具體的商業(yè)問題最有用。

59、 我們在尋找好模型的過程中,可能會(huì)得到新的啟發(fā),在這些啟發(fā)的作用下可能會(huì)修改數(shù)據(jù),甚至改變最初對問題的定義和理解。 在數(shù)據(jù)挖掘中不要害怕反復(fù),因?yàn)槊恳淮畏磸?fù)是向更完善的模型又進(jìn)了一步。,5.3.4 模型訓(xùn)練方法,我們首先需要決定預(yù)測的類型是對事物進(jìn)行分類,還是對事物進(jìn)行回歸預(yù)測。然后對于預(yù)測選擇數(shù)學(xué)模型。選擇什么樣的模型,決定了我們需對數(shù)據(jù)做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對輸入數(shù)

60、據(jù)的格式有特定的限制等。所有的數(shù)據(jù)準(zhǔn)備好之后才可以開始訓(xùn)練模型。,5.3.4 模型訓(xùn)練方法,為了保證得到的模型具有較好的準(zhǔn)確度和健壯性,需要先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試這個(gè)得到的模型。有時(shí)還需要第3個(gè)數(shù)據(jù)集,稱為驗(yàn)證集。因?yàn)闇y試集可能受模型特性的影響,還需要一個(gè)獨(dú)立的數(shù)據(jù)集來驗(yàn)證模型的準(zhǔn)確性。,5.3.4 模型訓(xùn)練方法,訓(xùn)練和測試數(shù)據(jù)挖掘模型至少要把數(shù)據(jù)分成兩個(gè)部分:一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測試。

61、 如果使用相同的訓(xùn)練和測試集,那么模型的準(zhǔn)確度就很難使人信服。用訓(xùn)練集把模型建立出來之后,可以先在測試集數(shù)據(jù)上做實(shí)驗(yàn),此模型在測試集上的預(yù)測準(zhǔn)確度就是一個(gè)很好的指導(dǎo)數(shù)據(jù),它表示將來與數(shù)據(jù)集和測試集類似的數(shù)據(jù)用此模型預(yù)測時(shí)正確的百分比。 但這并不能保證模型的正確性,它只是說明在相似的數(shù)據(jù)集合的情況下用此模型會(huì)得出相似的結(jié)果。,5.3.4 模型訓(xùn)練方法,常用的驗(yàn)證方法包括簡單驗(yàn)證,交叉驗(yàn)證和N維交叉驗(yàn)證。

62、1. 簡單驗(yàn)證 簡單驗(yàn)證是最基本的測試方法。它從原始數(shù)據(jù)集合中拿出一定百分比的數(shù)據(jù)作為測試數(shù)據(jù),這個(gè)百分比大概在5%~33%之間。 注意:在把數(shù)據(jù)集合分成幾部分時(shí),一定要保證選擇的隨機(jī)性,這樣才能使分開的各部分?jǐn)?shù)據(jù)的性質(zhì)是一致的。,5.3.4 模型訓(xùn)練方法,先用數(shù)據(jù)集合的主體把模型建立起來,然后用此模型來預(yù)測測試集中的數(shù)據(jù)。出現(xiàn)錯(cuò)誤的預(yù)測與預(yù)測總數(shù)之間的比稱為錯(cuò)誤率。

63、 對于分類問題,我們可以簡單的下結(jié)論:“對”與“錯(cuò)”,此時(shí)錯(cuò)誤率很容易計(jì)算?;貧w問題不能使用簡單的“對”或“錯(cuò)”來衡量,但可以用方差來描述準(zhǔn)確的程度。比如,用3年內(nèi)預(yù)計(jì)的客戶增長數(shù)量同3年內(nèi)實(shí)際的數(shù)據(jù)進(jìn)行比較。,5.3.4 模型訓(xùn)練方法,在一次模型的建立過程中,這種最簡單的驗(yàn)證通常要執(zhí)行幾十次。例如,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),幾乎每一個(gè)訓(xùn)練周期都要在測試集上運(yùn)行一次,不斷的訓(xùn)練測試,直到在測試集上的準(zhǔn)確率不再提高為止。,5.3.4 模型訓(xùn)

64、練方法,2   交叉驗(yàn)證 簡單驗(yàn)證適合在挖掘數(shù)據(jù)充沛的時(shí)候使用。如果數(shù)據(jù)不是很多,可能無法再把一部分?jǐn)?shù)據(jù)放到一邊不用,這樣會(huì)使得數(shù)據(jù)的特征丟失。 交叉驗(yàn)證提供了一種使用全部數(shù)據(jù)的方法。首先把原始數(shù)據(jù)隨機(jī)平分成兩份,一部分做訓(xùn)練集,另一部分做測試集計(jì)算錯(cuò)誤率,再把兩部分?jǐn)?shù)據(jù)交換再計(jì)算一次錯(cuò)誤率。最后再用所有的數(shù)據(jù)建立一個(gè)模型,把上面得到的兩個(gè)錯(cuò)誤率進(jìn)行平均做為最后模型的錯(cuò)誤率。,5

65、.3.4 模型訓(xùn)練方法,3. N-維交叉驗(yàn)證 N-維交叉驗(yàn)證是更通用的算法。它先把數(shù)據(jù)隨機(jī)份成不相交的N份,比如把數(shù)據(jù)分成10份。先把第一份拿出來放在一邊用做模型測試,把其它9份合在一起來建立模型,然后把這個(gè)用90%的數(shù)據(jù)建立起來的模型用第一份數(shù)據(jù)做測試。這個(gè)過程對每一份數(shù)據(jù)都重復(fù)進(jìn)行一次,得到10個(gè)不同的錯(cuò)誤率。最后把所有數(shù)據(jù)放在一起建立一個(gè)模型,模型的錯(cuò)誤率為上面10個(gè)錯(cuò)誤率的平均。,5.3.4 模型訓(xùn)練

66、方法,我們可以依據(jù)得到的模型和對模型的預(yù)期結(jié)果修改參數(shù),再用同樣的算法建立新的模型,甚至可以采用其它的算法建立模型。 在數(shù)據(jù)挖掘中,不同的商業(yè)問題采用哪種模型效果更好,在沒有行業(yè)經(jīng)驗(yàn)的情況下,最好用不同的方法(參數(shù)或算法)建立幾個(gè)模型,從中選擇最好的。,5.3.4 模型訓(xùn)練方法,圖9-19展示了一個(gè)多種算法結(jié)果的比較。圖的橫坐標(biāo)是指選擇的客戶占客戶群體的比例,縱坐標(biāo)是指選中大客戶的比例(假定大客戶在客戶群體中占10

67、%)。不同的曲線代表不同算法的結(jié)果。從圖中可以看出,選擇10%的客戶時(shí),神經(jīng)網(wǎng)絡(luò)的正確率為90%;回歸算法的正確率是85%;決策樹的正確率是70%;隨機(jī)抽樣的正確率為10%,因此神經(jīng)網(wǎng)絡(luò)算法的效果較好。 從圖9-19還可以看出,隨著選擇客戶的比例增大,算法的效果逐漸下降。原因是在選擇客戶的初期,算法已經(jīng)把絕大部分的大客戶選擇出來了。從本圖可以充分的看出,使用模型進(jìn)行選擇和利用隨機(jī)選擇,其效果相差極大。,5.3.4

68、 模型訓(xùn)練方法,,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,在模型建立好之后必須評價(jià)其結(jié)果,并解釋模型的含義和價(jià)值,只有這樣才能將模型最終應(yīng)用到商業(yè)環(huán)境中。 從測試集中得到的準(zhǔn)確率只對建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會(huì)變化。更重要的是準(zhǔn)確度自身并不是選擇最好模型的正確評價(jià)方法。 比如,模型A可能在某些不太重要的問題上正確率高于模型B,此時(shí)我們不能簡單地判斷模

69、型A比模型B好。需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來的相關(guān)效益/損失的多少。,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(1)無序矩陣 對分類問題來說,無序矩陣是理解結(jié)果非常好的工具。用無序矩陣將預(yù)測的客戶類型結(jié)果與實(shí)際的情況進(jìn)行對比,得到的結(jié)果如表9-1所示。它不僅說明了模型預(yù)測的準(zhǔn)確情況,也展現(xiàn)了模型問題的所在。,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(1)無序矩陣表的理解:共有80名客戶,實(shí)際有32個(gè)高價(jià)值客戶,

70、其中20個(gè)被正確預(yù)測,另外12個(gè)高價(jià)值客戶被預(yù)測成了非高價(jià)值客戶。實(shí)際有48個(gè)非高價(jià)值客戶,其中28個(gè)被正確預(yù)測,另外20個(gè)被錯(cuò)誤預(yù)測成了高價(jià)值客戶。 顯然模型總體準(zhǔn)確度是60%。無序矩陣比簡單的說總體準(zhǔn)確度是60%體現(xiàn)了更多的信息。,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(1)無序矩陣 在實(shí)際應(yīng)用中,如果每種不同的預(yù)測錯(cuò)誤所需付出的代價(jià)也不同,那么考慮代價(jià)最小的模型(而不一定是錯(cuò)誤率最小的模型

71、)就是所要選擇的模型。 如果每個(gè)準(zhǔn)確的預(yù)測會(huì)帶來¥10的收益,錯(cuò)誤的預(yù)測A(非高價(jià)值客戶預(yù)測成高價(jià)值客戶)要付出¥5的代價(jià),B(高價(jià)值客戶預(yù)測成非高價(jià)值客戶)要付出¥10的代價(jià),整個(gè)模型的價(jià)值是: (10*20)- (5*20)+ (10*28) - (10*12)=$260,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(1)無序矩陣 考察下面的無序矩陣,雖然準(zhǔn)確度降

72、低到57.5%(46/80) ,但價(jià)值卻升高了。 (10*8)- (5*32)+ (10*38) - (10*2)=$280 這就是我們前面提到的正確率最高的模型不一定就是實(shí)際問題中最優(yōu)的模型。,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(2)收益表 通過無序矩陣確定最優(yōu)的模型后還需要確定模型實(shí)施的范圍。隨著模型實(shí)施范圍的變化,其產(chǎn)生的效果也將發(fā)生變化。因?yàn)槟P蛯?shí)施的范圍變大意味著需要更多的

73、投入來實(shí)施,而其產(chǎn)生的效益隨著范圍的擴(kuò)大可能很緩慢地增長。 我們可以采用收益表來確定模型的最佳實(shí)施范圍。針對不同的問題,收益表有兩種形式:響應(yīng)率變化曲線和投資回報(bào)率變化曲線。,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(2)收益表 圖9-20顯示了通過郵件推銷商品客戶響應(yīng)率的變化情況。變化的比率稱為lift。例如,隨機(jī)抽取的方法選擇10%的客戶的響應(yīng)率是 10%,而通過模型選取10%的客戶的響應(yīng)率是 30

74、%,則lift的值為3。 我們可以根據(jù)圖中的結(jié)果,確定對客戶進(jìn)行推銷的比例。比如規(guī)定lift值應(yīng)高于2.5,則推銷客戶占總客戶的比例可以設(shè)為15%。,,,5.3.5 數(shù)據(jù)挖掘模型的評價(jià)方法,(2)收益表 收益表的另一種形式是投資回報(bào)率變化曲線(這里定義ROI利潤與為此付出開銷的比值)。圖9-21是一個(gè)描述模型投資回報(bào)率的圖表。當(dāng)選取比例超過80%時(shí),ROI變成了負(fù)數(shù),ROI最高是在橫坐標(biāo)為20%時(shí)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論