客戶關(guān)系管理——第九章——數(shù)據(jù)挖掘與客戶關(guān)系管理_第1頁(yè)
已閱讀1頁(yè),還剩111頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、客戶關(guān)系管理軟件與數(shù)據(jù)挖掘,案例 卓越亞馬遜的推薦系統(tǒng),學(xué)習(xí)目標(biāo),通過(guò)本章的學(xué)習(xí),將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術(shù)掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程了解客戶關(guān)系管理對(duì)數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用,第9章 CRM與數(shù)據(jù)挖掘,9.1 數(shù)據(jù)挖掘概述9.2 數(shù)據(jù)挖掘的任務(wù)、技術(shù)和實(shí)施過(guò)程9.3 數(shù)據(jù)挖掘在CRM中應(yīng)用9.4 CRM數(shù)據(jù)挖掘應(yīng)用實(shí)例9.5 數(shù)據(jù)挖掘軟件在CRM中的

2、應(yīng)用示例,9.1.1 數(shù)據(jù)挖掘的產(chǎn)生,數(shù)據(jù)爆炸但知識(shí)貧乏 支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)數(shù)據(jù)挖掘逐漸演變的過(guò)程,有價(jià)值的知識(shí),可怕的數(shù)據(jù),數(shù)據(jù)爆炸但知識(shí)貧乏,數(shù)據(jù)挖掘的出現(xiàn),數(shù)據(jù)爆炸,知識(shí)貧乏,苦惱: 淹沒(méi)在數(shù)據(jù)中 ; 不能制定合適的決策!,數(shù)據(jù),知識(shí),決策,,更大,更便宜的存儲(chǔ)器 -- 磁盤(pán)密度以Moore’s law增長(zhǎng) -- 存儲(chǔ)器價(jià)格飛快下降更快,更便宜的信息處理器 -- 分析更多的數(shù)據(jù) -

3、- 適應(yīng)更多復(fù)雜的模型 -- 引起更多查詢技術(shù) -- 激起更強(qiáng)的可視化技術(shù) 數(shù)據(jù)挖掘處理技術(shù) -- 數(shù)理統(tǒng)計(jì) -- 人工智能 -- 機(jī)器學(xué)習(xí),支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ),數(shù)據(jù)挖掘的演化,機(jī)器學(xué)習(xí) 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn) 數(shù)據(jù)挖掘,9.1.2 數(shù)據(jù)挖掘的定義,SAS研究所(19910):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。Bhavani(1999):“使用模式識(shí)別技術(shù)、

4、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢(shì)的過(guò)程”。Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫(kù)中尋找有意義、有價(jià)值信息的過(guò)程”。,數(shù)據(jù)挖掘的定義,技術(shù)角度的含義商業(yè)角度的含義與傳統(tǒng)方法的區(qū)別,數(shù)據(jù)挖掘的技術(shù)上的定義,數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。這個(gè)定義包括

5、好幾層含義(1)數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;(2)發(fā)現(xiàn)的是用戶感興趣的知識(shí);(3)發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;(4)并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。,數(shù)據(jù)挖掘的商業(yè)角度的定義,按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。,客戶接觸,客戶信息,客戶數(shù)據(jù)庫(kù),統(tǒng)計(jì)分析與數(shù)據(jù)挖掘,,,,客戶知識(shí)發(fā)現(xiàn),,,客戶管理,知識(shí)發(fā)現(xiàn):

6、從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息,從商業(yè)數(shù)據(jù)到商業(yè)智能,數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別,數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí).。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征.先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有

7、價(jià)值。在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系,9.1.3 數(shù)據(jù)挖掘的功能,自動(dòng)預(yù)測(cè)趨勢(shì)和行為 關(guān)聯(lián)分析對(duì)象分類 聚類分析概念描述 偏差檢測(cè),數(shù)據(jù)挖掘功能—預(yù)測(cè),數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場(chǎng)預(yù)測(cè)問(wèn)題,數(shù)據(jù)挖掘使用過(guò)去有關(guān)促銷的數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶,其它可預(yù)測(cè)的問(wèn)題包括

8、預(yù)報(bào)破產(chǎn)以及認(rèn)定對(duì)指定事件最可能作出反應(yīng)的群體。,數(shù)據(jù)挖掘功能—關(guān)聯(lián)分析,數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)是某種事物發(fā)生時(shí)其他事物會(huì)發(fā)生的這樣一種聯(lián)系。例如:每天購(gòu)買啤酒的人也有可能

9、購(gòu)買香煙,比重有多大,可以通過(guò)關(guān)聯(lián)的支持度和可信度來(lái)描述。時(shí)序關(guān)聯(lián)是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。,數(shù)據(jù)挖掘功能——分類,按照分析對(duì)象的屬性、特征,建立不同的組類來(lái)描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。,數(shù)據(jù)挖掘功能——聚類,數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏

10、差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。聚類技術(shù)在劃分對(duì)象時(shí)不僅考慮對(duì)象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。,數(shù)據(jù)挖掘功能—概念描述,概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。生成區(qū)別性描述的方法很多,

11、如決策樹(shù)方法、遺傳算法等。,數(shù)據(jù)挖掘功能—偏差檢測(cè),數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。偏差檢測(cè)對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬(wàn)筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營(yíng),就要發(fā)現(xiàn)這500例的

12、內(nèi)在因素,減小以后經(jīng)營(yíng)的風(fēng)險(xiǎn)。,9.1.4 數(shù)據(jù)挖掘應(yīng)用,應(yīng)用領(lǐng)域:銀行、電信、保險(xiǎn)、交通、零售等商業(yè)領(lǐng)域能解決的典型商業(yè)問(wèn)題包括:數(shù)據(jù)庫(kù)營(yíng)銷(Database Marketing)客戶群體劃分(Customer Segmentation&Classification)背景分析(Profile Analysis)交叉銷售(Cross-selling)客戶流失性分析(Churn Analysis)客戶信用記分(C

13、redit Scoring)欺詐發(fā)現(xiàn)(Fraud Detection),數(shù)據(jù)挖掘的應(yīng)用,神經(jīng)網(wǎng)絡(luò) Neural Networks,聚類分析 Clustering,序列分析 Sequence Analysis,決策樹(shù) Decision Trees,傾向性分析,客戶保留 客戶生命周期管理 目標(biāo)市場(chǎng) 價(jià)格彈性分析,客戶細(xì)分 市場(chǎng)細(xì)分,傾向性分析 客戶保留 目標(biāo)市場(chǎng) 欺詐檢測(cè),關(guān)聯(lián)分析 Association,市場(chǎng)組合分析 套

14、裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售,數(shù)據(jù)挖掘的應(yīng)用,9.1.5 數(shù)據(jù)挖掘未來(lái)研究方向,發(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,也許會(huì)像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)WebMining;加強(qiáng)對(duì)

15、各種非結(jié)構(gòu)化數(shù)據(jù)的開(kāi)采(DataMiningforAudio&Video),如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開(kāi)采;處理的數(shù)據(jù)將會(huì)涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的費(fèi)時(shí)和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。交互式發(fā)現(xiàn)和知識(shí)的維護(hù)更新。,9.2 數(shù)據(jù)挖掘的任務(wù)、技術(shù)

16、、方法和實(shí)施過(guò)程,9.2.1 數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)總結(jié)分類發(fā)現(xiàn)聚類分析關(guān)聯(lián)規(guī)則發(fā)現(xiàn),9.2.2 數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘的方法很多,大致可分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。統(tǒng)計(jì)方法可細(xì)分為:回歸分析、判別分析、聚類分析、探索性分析以及模糊集、粗糙集、支持向量機(jī)等。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法、基于范例的推理CBR、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細(xì)分為前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)

17、網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。,●數(shù)據(jù)挖掘技術(shù)的分類,——回顧分析:注重解決過(guò)去和現(xiàn)在的問(wèn)題,如:兩年來(lái)不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績(jī)分析,——預(yù)測(cè)分析:在歷史信息的基礎(chǔ)上預(yù)測(cè)某些事件和行為,如:建立預(yù)測(cè)模型來(lái)描述客戶的流失率,——分類:根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫(kù)記錄分類到許多預(yù)先定義好的類別,如:信用卡公司將客戶記錄分為好、中、差三

18、類 分類可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過(guò)5000萬(wàn)元,年齡在45-55歲之間,居住在某地區(qū),那么他的信用等級(jí)為好。,數(shù)據(jù)挖掘技術(shù),●數(shù)據(jù)挖掘技術(shù)的分類,——聚類:根據(jù)某些屬性將數(shù)據(jù)庫(kù)分割為一些子集和簇,如:在了解客戶的過(guò)程中,嘗試使用從未使用過(guò)的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇,——關(guān)聯(lián):通過(guò)考察記錄來(lái)識(shí)別數(shù)據(jù)間的密切關(guān)系,關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購(gòu)物籃分析如:所有包含A和B的記錄中有60%同時(shí)包含C。,——時(shí)間

19、序列:用于幫助識(shí)別與時(shí)間有關(guān)的模式,如:通過(guò)對(duì)客戶多次購(gòu)物行為的分析可以發(fā)現(xiàn)購(gòu)物行為在時(shí)間上的關(guān)系 常用于產(chǎn)品目錄營(yíng)銷的分析,數(shù)據(jù)挖掘的一般目的就是檢測(cè)、解釋和預(yù)測(cè)數(shù)據(jù)中定性的和/或定量的模式,數(shù)據(jù)挖掘技術(shù),●數(shù)據(jù)挖掘方法學(xué),——模式,數(shù)據(jù)庫(kù)中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。,模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身,——模型,對(duì)構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫(kù)的描述,并

20、且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對(duì)缺少的數(shù)據(jù)作出預(yù)測(cè)或?qū)ζ谕臄?shù)據(jù)作出說(shuō)明。,模型的一般表現(xiàn)形式,數(shù)學(xué)方程式,描述各客戶段的規(guī)則集,計(jì)算機(jī)表示方式,模式可視化,數(shù)據(jù)挖掘技術(shù),●數(shù)據(jù)挖掘方法學(xué),——取樣,根據(jù)問(wèn)題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型,數(shù)據(jù)本身的處理過(guò)程需要驗(yàn)證,——驗(yàn)證模型,模型創(chuàng)建過(guò)程需要保證正確,模型應(yīng)用的驗(yàn)證,在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類

21、似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。,數(shù)據(jù)挖掘技術(shù),人工神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)近來(lái)越來(lái)越受到人們的關(guān)注,因?yàn)樗鼮榻鉀Q大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的簡(jiǎn)單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問(wèn)題(當(dāng)然實(shí)際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說(shuō)的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多)。神經(jīng)網(wǎng)絡(luò)常用于兩類問(wèn)題:分類和回歸。,決策樹(shù),決策樹(shù)把數(shù)據(jù)歸入可能對(duì)一個(gè)目標(biāo)變量有不同效果的規(guī)則組。例如,我們希望發(fā)現(xiàn)可能會(huì)對(duì)直郵有反應(yīng)的個(gè)人特

22、點(diǎn)。這些特點(diǎn)可以解釋為一組規(guī)則。,決策樹(shù),假設(shè)您是一個(gè)銷售一種新的銀行服務(wù)的直郵計(jì)劃研究的負(fù)責(zé)人。為最大程度地獲益,您希望確定基于前次促銷活動(dòng)的家庭細(xì)分最有可能響應(yīng)相似的促銷活動(dòng)。通常這可以通過(guò)查找最能把響應(yīng)前次促銷的家庭和沒(méi)有響應(yīng)的家庭區(qū)分開(kāi)的人口統(tǒng)計(jì)信息變量的組合來(lái)實(shí)現(xiàn)。決策樹(shù)為您提供諸如誰(shuí)會(huì)最好地響應(yīng)新的促銷等重要線索,并通過(guò)只郵寄給最有可能響應(yīng)的人來(lái)最大程度地獲得直郵效益,提高整體響應(yīng)率,并極有希望同時(shí)增加銷售。,決策樹(shù)圖,決

23、策樹(shù)應(yīng)用,決策樹(shù)也是分析消耗(流線性生產(chǎn))、發(fā)現(xiàn)交叉銷售機(jī)會(huì)、進(jìn)行促銷、信用風(fēng)險(xiǎn)或破產(chǎn)分析和發(fā)覺(jué)欺詐行為的得力工具。,聚類分析,聚類如同通常所說(shuō)的“物以類聚”,是把一組個(gè)體按照相似性歸成若干類別。它的目的是使屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別上的個(gè)體間的距離盡可能的大。它反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異性質(zhì)的特征型知識(shí)。通過(guò)聚類,數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)

24、的認(rèn)識(shí),是進(jìn)行概念描述和偏差分析的先決條件。,聚類分析,簇(Cluster):一個(gè)數(shù)據(jù)對(duì)象的集合在同一個(gè)類中,對(duì)象之間具有相似性;不同類的對(duì)象之間是相異的。聚類分析把一個(gè)給定的數(shù)據(jù)對(duì)象集合分成不同的簇;聚類是一種無(wú)監(jiān)督分類法: 沒(méi)有預(yù)先指定的類別;典型的應(yīng)用作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布; 作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;,聚類分析應(yīng)用,市場(chǎng)銷售: 幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來(lái)開(kāi)展一個(gè)

25、目標(biāo)明確的市場(chǎng)計(jì)劃;土地使用: 在一個(gè)陸地觀察數(shù)據(jù)庫(kù)中標(biāo)識(shí)那些土地使用相似的地區(qū);保險(xiǎn): 對(duì)購(gòu)買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)那些有較高平均賠償成本的客戶;城市規(guī)劃: 根據(jù)類型、價(jià)格、地理位置等來(lái)劃分不同類型的住宅;地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;,聚類分析的評(píng)判,一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果——簇,這些簇要具備以下兩個(gè)特點(diǎn):高的簇內(nèi)相似性低的簇間相似性 聚類結(jié)果的好壞取決于該聚類方法采

26、用的相似性評(píng)估方法以及該方法的具體實(shí)現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;,遺傳算法,遺傳算法(Genetic Algorithms)是J.H.Holland根據(jù)生物進(jìn)化的模型提出的一種優(yōu)化算法。雖然GA剛提出時(shí)沒(méi)有受到重視,但近年來(lái),人們把它應(yīng)用于學(xué)習(xí)、優(yōu)化、自適應(yīng)等問(wèn)題中。模擬生物進(jìn)化過(guò)程的算法,由繁殖(選擇)、交叉(重組)、 變異(突變)三個(gè)基本算子組成。遺傳算法已在優(yōu)化計(jì)算、分類、機(jī)器學(xué)習(xí)等方面發(fā)揮了

27、顯著作用。遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。,遺傳算法,GA的算法首先在解空間中取一群點(diǎn),作為遺傳開(kāi)始的第一代。每個(gè)點(diǎn)(基因)用一二進(jìn)制的數(shù)字串表示,其優(yōu)劣程度用一目標(biāo)函數(shù)(Fitness function)來(lái)衡量。在向下一代的遺傳演變中,首先把前一代中的每個(gè)數(shù)字串根據(jù)由其目標(biāo)函數(shù)值決定的概率分配到配對(duì)池中。好的數(shù)字串以高的概率被復(fù)制下來(lái),劣的數(shù)字串被淘汰掉。然后將配對(duì)池中的數(shù)字任意配對(duì)

28、,并對(duì)每一數(shù)字串進(jìn)行交叉操作,產(chǎn)生新的子孫(數(shù)字串)。最后對(duì)新的數(shù)字串的某一位進(jìn)行變異。這樣就產(chǎn)生了新的一代。按照同樣的方法,經(jīng)過(guò)數(shù)代的遺傳演變后,在最后一代中得到全局最優(yōu)解或近似最優(yōu)解。,規(guī)則推導(dǎo),規(guī)則推導(dǎo),從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo),得到關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。,可視化技術(shù),用圖表等方式把數(shù)據(jù)特征用直觀地表述出來(lái),如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計(jì)的方法??梢?/p>

29、化技術(shù)面對(duì)的一個(gè)難題是高維數(shù)據(jù)的可視化。信息可視化和數(shù)據(jù)挖掘是兩個(gè)可互為補(bǔ)充利用的相關(guān)研究領(lǐng)域。當(dāng)信息可視化作為數(shù)據(jù)挖掘的技術(shù)之一時(shí),同其它技術(shù)相比,它有一個(gè)獨(dú)特之處:能極大地發(fā)揮用戶的主動(dòng)參預(yù)性。由于對(duì)數(shù)據(jù)進(jìn)行了可視化,用戶愿意進(jìn)行探索(Explore),在探索過(guò)程中有可能發(fā)現(xiàn)意外的知識(shí)。,其他技術(shù),近鄰算法,將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。統(tǒng)計(jì)分析方法,在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系

30、)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采用回歸分析、相關(guān)分析、主成分分析等方法。模糊論方法,利用模糊集合理論,對(duì)實(shí)際問(wèn)題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。,●經(jīng)典方法,——統(tǒng)計(jì),統(tǒng)計(jì)可以通過(guò)對(duì)類似下列問(wèn)題的回答獲得模式,○在我的數(shù)據(jù)庫(kù)中存在什么模式,○某個(gè)事件發(fā)生的可能性是什么,○那些模式是重要的模式,統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對(duì)數(shù)據(jù)庫(kù)的高層視圖,這種視圖提供了有用的信息,但不要

31、求在細(xì)節(jié)上理解數(shù)據(jù)庫(kù)的每一條記錄。,9.2.3 數(shù)據(jù)挖掘方法,,●經(jīng)典方法,——最近鄰,通過(guò)檢測(cè)與預(yù)測(cè)對(duì)象最接近的對(duì)象的狀況對(duì)預(yù)測(cè)對(duì)象進(jìn)行預(yù)測(cè),原理:,某一特定對(duì)象可能與其他某一或某些對(duì)象比其 它一些第三對(duì)象更接近;,相互之間“接近”的對(duì)象會(huì)有相似的取值,根據(jù)其中一個(gè)對(duì)象的取值,預(yù)測(cè)其最近鄰對(duì)象的預(yù)測(cè)值,商業(yè) 應(yīng)用:,文獻(xiàn)檢索,市場(chǎng)籃子分析,應(yīng)用 評(píng)價(jià):,最近鄰的數(shù)量,最近鄰的距離,,決定最近鄰預(yù)測(cè)的可信度,

32、數(shù)據(jù)挖掘方法,●現(xiàn)代方法,——基礎(chǔ)理論,有指導(dǎo)的學(xué)習(xí)(Supervised Learning),,,,歸納 概念 分類標(biāo)準(zhǔn)與模型 分類,有指導(dǎo)的學(xué)習(xí)的目的:建立分類模型,用模型確定新數(shù)據(jù)實(shí)例的類別,訓(xùn)練數(shù)據(jù)(Training Data)與檢驗(yàn)集(Test Set),用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱為訓(xùn)練數(shù)據(jù),用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱為檢驗(yàn)集,數(shù)據(jù)挖掘方法,有指導(dǎo)的學(xué)習(xí)(Su

33、pervised Learning),淋巴腫,數(shù)據(jù)挖掘方法,有指導(dǎo)的學(xué)習(xí)(Supervised Learning),,淋巴腫,,,發(fā) 燒,,,,No,No,Yes,Yes,咽炎,敏感癥,感冒,淋巴腫、發(fā)燒是有意義的屬性,嗓子痛、充血、頭痛是無(wú)意義的屬性,數(shù)據(jù)挖掘方法,有指導(dǎo)的學(xué)習(xí)(Supervised Learning),,淋巴腫,,,發(fā) 燒,,,,No,No,Yes,Yes,咽炎,敏感癥,感冒,未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集),數(shù)據(jù)挖掘方

34、法,無(wú)指導(dǎo)的學(xué)習(xí)(Unsupervised Learning),為沒(méi)有預(yù)先定義分類標(biāo)準(zhǔn)的數(shù)據(jù)建立模型,ABC投資公司客戶表,數(shù)據(jù)挖掘方法,無(wú)指導(dǎo)的學(xué)習(xí)(Unsupervised Learning),區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么,一個(gè)新客戶未開(kāi)設(shè)交易保證金帳戶,如何確定其將來(lái)是否會(huì)開(kāi)設(shè)這種帳戶,能建立一個(gè)預(yù)測(cè)新投資者月均交易數(shù)的模型嗎,女性和男性投資者有什么不同的特征,交易方式,交易保證金帳戶,月均交易數(shù),性別,數(shù) 據(jù) 挖 掘

35、 問(wèn) 題,屬 性,哪些屬性相似性決定ABC公司的客戶分組,屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫(kù),有指導(dǎo)的學(xué)習(xí),,無(wú)指導(dǎo)的學(xué)習(xí),數(shù)據(jù)挖掘方法,●現(xiàn)代方法,——決策樹(shù)(Decision Tree),決策樹(shù)是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法,決策樹(shù)的組成,決策節(jié)點(diǎn)、分支、葉子,———根節(jié)點(diǎn),分支,———葉子,Debt<10% of Income,Debt=0%,GoodCreditRisks,BadCreditRisks,Goo

36、dCreditRisks,,,,,,,Yes,Yes,Yes,NO,NO,NO,Income>$40K,,,節(jié)點(diǎn),,,決策樹(shù)的分支過(guò)程就是對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程,利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過(guò)程也就是數(shù)據(jù)的“純化”過(guò)程。,數(shù)據(jù)挖掘方法,決策樹(shù)的算法步驟,○假設(shè)T為訓(xùn)練實(shí)例集○選擇一個(gè)最能區(qū)別T中實(shí)例的屬性

37、○創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性○創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值○使用分支的值,將數(shù)據(jù)實(shí)例分割為子類○對(duì)于步驟5所創(chuàng)建的各個(gè)子類: ★如果子類中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹(shù)對(duì)新數(shù)據(jù)實(shí)例指定類別 ☆分割中只包含一條數(shù)據(jù)實(shí)例 ☆分割中所有數(shù)據(jù)實(shí)例的屬性都相同

38、 ☆繼續(xù)分割得到的改進(jìn)不明顯 ★如果子類不滿足上述條件,則設(shè)T’為當(dāng)前子類數(shù)據(jù)實(shí)例集合,返回步驟 2,數(shù)據(jù)挖掘方法,,決策樹(shù)的屬性選取,屬性選取標(biāo)準(zhǔn):,最大化反映數(shù)據(jù)差異,使樹(shù)的層次和節(jié)點(diǎn)數(shù)最小,淋巴腫,,,發(fā) 燒,,,,No,No,Yes,Yes,咽炎,敏感癥,感冒,數(shù)據(jù)挖掘方法,,淋巴腫,,,發(fā) 燒,,,,No,No,Yes,Yes,敏感癥,敏感癥,咽炎,,,No,Yes,,頭 痛,,淋巴腫,,,

39、感冒,,發(fā) 燒,,,,淋巴腫,,,No,Yes,咽炎,No,Yes,數(shù)據(jù)挖掘方法,決策樹(shù)的屬性選取,屬性選取標(biāo)準(zhǔn):,最大化反映數(shù)據(jù)差異,使樹(shù)的層次和節(jié)點(diǎn)數(shù)最小,信用卡促銷數(shù)據(jù)庫(kù),○選取收入段為根節(jié)點(diǎn),○選取壽險(xiǎn)促銷為輸出屬性,○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類,,收入段,,,,,2Yes2No,4Yes1No,3No 1Yes,2Yes,2—3萬(wàn),3—4萬(wàn),4—5萬(wàn),5—6萬(wàn),○訓(xùn)練集分類的正確性為11/15=103%,數(shù)據(jù)

40、挖掘方法,——決策樹(shù)(Decision Tree):例,信用卡促銷數(shù)據(jù)庫(kù),○選取信用卡保險(xiǎn)為根節(jié)點(diǎn),○選取壽險(xiǎn)促銷為輸出屬性,○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類,,信用卡保險(xiǎn),,,6Yes6No,3Yes 0No,No,Yes,○訓(xùn)練集分類的正確性為9/15=60%,數(shù)據(jù)挖掘方法,——決策樹(shù)(Decision Tree):例,信用卡促銷數(shù)據(jù)庫(kù),○選取數(shù)值型屬性年齡為根節(jié)點(diǎn),○選取壽險(xiǎn)促銷為輸出屬性,○依照年齡排序,對(duì)照輸出屬性

41、進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn),,年 齡,,,9Yes3No,0Yes 3No,≤43,>43,○以年齡≤43結(jié)合壽險(xiǎn)促銷=Y(jié)es,訓(xùn)練集分類的正確性為12/15=80%,數(shù)據(jù)挖掘方法,——決策樹(shù)(Decision Tree):例,信用卡促銷數(shù)據(jù)庫(kù),,年 齡,,,Yes(6/1),No(2/1),≤43,>43,,性 別,,,F M,,信用卡保險(xiǎn),,,Yes(2/0),No(3/0),No Ye

42、s,信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹(shù),○訓(xùn)練集分類的正確性為13/15=810%,數(shù)據(jù)挖掘方法,——決策樹(shù)(DecisionTree):例,信用卡促銷數(shù)據(jù)庫(kù),,信用卡保險(xiǎn),,,Yes(5/2),No(4/1),No,Yes,,性 別,,,F M,Yes(3/0),信用卡數(shù)據(jù)庫(kù)的兩節(jié)點(diǎn)決策樹(shù),○訓(xùn)練集分類的正確性為12/15=80%,數(shù)據(jù)挖掘方法,——決策樹(shù)(Decision Tree):例,信用卡促銷數(shù)據(jù)庫(kù)檢驗(yàn)集,

43、,年 齡,,,Yes(6/1),No(2/1),≤43,>43,,性 別,,,F M,,信用卡保險(xiǎn),,,Yes(2/0),No(3/0),No Yes,信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹(shù),,,數(shù)據(jù)挖掘方法,●現(xiàn)代方法,——K-平均值算法,K-平均值算法是一種簡(jiǎn)單而有效的無(wú)指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇,算 法 步 驟,○選擇一個(gè)K值,用以確定簇的總數(shù),○在數(shù)據(jù)集中任意選擇K個(gè)數(shù)據(jù)

44、實(shí)例,作為初始的簇中心,○試用簡(jiǎn)單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心,○試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值,○如果新的平均值等于次迭代的平均值,終止該過(guò)程。否則,用新平均值作為簇中心并重復(fù)步驟3-5。,點(diǎn)A(x1,y1)與點(diǎn)B(x2,y2)之間的歐氏距離計(jì)算式為,數(shù)據(jù)挖掘方法,K-平均值算法:例,K-平均值輸入屬性,1.選擇K=2,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇,2.選擇實(shí)例1作為第1個(gè)簇的中心,實(shí)例3作為第2個(gè)簇

45、的中心,3.計(jì)算各數(shù)據(jù)實(shí)例與C1、C2之間的歐氏距離,Dist(C1-1)=0.00 Dist(C2-1)=1.00 C1Dist(C1-2)=3.00 Dist(C2-2)=3.16 C1Dist(C1-3)=1.00 Dist(C2-3)=0.00 C2Dist(C1-4)=2.24 Dist(C2-4)=2.00 C2Dist(C1-5

46、)=2.24 Dist(C2-5)=1.41 C2Dist(C1-6)=6.02 Dist(C2-6)=5.41 C2,4.迭代結(jié)果得到以下兩個(gè)簇簇C1包含實(shí)例1、2,簇C2包含實(shí)例3、4、5、6,,,,,,,,,Y,X,,,數(shù)據(jù)挖掘方法,——K-平均值算法:例,K-平均值輸入屬性,5.重新計(jì)算每個(gè)簇的中心,對(duì)于C1:x=(1.0+1.0)/2=1.0

47、y=(1.5+4.5)/2=3.0 對(duì)于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.3105 因此,新的簇中心為C1=(1.0,3.0) C2=(3.0,3.3105),,,,,,,,,Y,X,6.由于簇中心改變,進(jìn)行第2次迭代,,,K-平均值算法:例,K

48、-平均值輸入屬性,Dist(C1-1)=1.50 Dist(C2-1)=2.104 C1Dist(C1-2)=1.50 Dist(C2-2)=2.29 C1Dist(C1-3)=1.80 Dist(C2-3)=2.125 C1Dist(C1-4)=1.12 Dist(C2-4)=1.01 C2Dist(C1-5)=2.06 Dist(C2-5)

49、=0.8105 C2Dist(C1-6)=5.00 Dist(C2-6)=3.30 C2,第2次迭代的結(jié)果導(dǎo)致了簇的變化:C1包含實(shí)例1、2和3,C2包含4、5和6,,,,,,,,,Y,X,,,K-平均值算法:例,K-平均值輸入屬性,9.重新計(jì)算每個(gè)簇的中心,對(duì)于C1:x=(1.0+1.0+2.0)/3=1.33 y=(1.5+4.5+1.5)/3=2.50 對(duì)于C2

50、:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心為C1=(1.33,2.50) C2=(3.33,4.00),8.由于簇中心改變,繼續(xù)進(jìn)行第3次迭代,,,,,,,,,Y,,,X,K-平均值算法:例,數(shù)據(jù)實(shí)例與它們所對(duì)應(yīng)的簇中心之間的誤差平方和最小,K-平均值算

51、法的幾個(gè)應(yīng)用,K-平均值算法的最優(yōu)聚類標(biāo)準(zhǔn),,,,,,,,,Y,,,X,,,,,,,,,Y,,X,,,,,,,,,,Y,X,,,●現(xiàn)代方法,——關(guān)聯(lián)規(guī)則(Association Rules),關(guān)聯(lián)規(guī)則的表現(xiàn)形式,關(guān)聯(lián)規(guī)則是一種無(wú)指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍的知識(shí)發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。,“如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣”,關(guān)聯(lián)規(guī)則的構(gòu)成,前件——“

52、如果怎么樣、怎么樣、怎么樣”,后件——“那么就怎么樣”,——如果買了西裝,就會(huì)買領(lǐng)帶,——如果買精顯彩電,就會(huì)買家庭影院系統(tǒng),,,規(guī)則的構(gòu)成,如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣,前件,激發(fā)條件,后件,結(jié)果,規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn),關(guān)聯(lián)規(guī)則(Association Rules),規(guī)則的置信度和支持度,關(guān)聯(lián)規(guī)則(Association Rules),規(guī)則的置信度又稱為規(guī)則的正確率,是指在前

53、提出現(xiàn)的情況下,后件出現(xiàn)的概率,規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比,例:如果客戶買牛奶,那么他們也會(huì)買面包,置信度:在10000次交易中客戶購(gòu)買了牛奶,而且其中的5000個(gè)交易也同時(shí)購(gòu)買了面包,則上述規(guī)則的置信度為5000/10000=50% 支持度:在超市一個(gè)月的客戶交易中,共有600000次交易,其中購(gòu)買牛奶的交易為60000次,支持度為60000/600000=10%,規(guī)

54、則的生成,——關(guān)聯(lián)規(guī)則(Association Rules),決策樹(shù)方法,規(guī)則1:如果客戶參加了信用卡保險(xiǎn),那么他就會(huì)參加壽險(xiǎn)促銷(置信度=3/3=100%,支持度=3/15=20%),規(guī)則2:如果一個(gè)男性客戶沒(méi)有參加信用卡保險(xiǎn),那么他也不會(huì)參加壽險(xiǎn) 促銷(置信度=4/5=80%,支持度=5/15=33%) 規(guī)則3:如果一個(gè)女性客戶沒(méi)有參加信用卡保險(xiǎn),那么她可能會(huì)參加壽險(xiǎn)促銷(置信度=5/10=101%,支持度=10/

55、15=410%) 規(guī)則4:如果是一個(gè)女性客戶,那么她可能會(huì)參加壽險(xiǎn)促銷(置信度=6/8=105%,支持度=8/15=53%),,信用卡保險(xiǎn),,,Yes(5/2),No(4/1),No,Yes,,性 別,,,F M,Yes(3/0),規(guī)則的生成,●現(xiàn)代方法,——關(guān)聯(lián)規(guī)則(Association Rules),最近鄰方法,規(guī)則:如果一個(gè)客戶處于●的狀況,那么他可能是一個(gè)逃款者,,關(guān)聯(lián)規(guī)則可以使用

56、傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。,規(guī)則的生成,●現(xiàn)代方法,——關(guān)聯(lián)規(guī)則(Association Rules),apriori方法,apriori方法步驟:,1.設(shè)置最小的屬性-值支持度要求,apriori方法是通過(guò)生成條目集,按照一定的準(zhǔn)則要求從中選擇規(guī)則的方法。,條目集是指符合一定支持度要求的“屬性-值”的組合,2.生成條目集,3.使用生成的條目集來(lái)創(chuàng)建規(guī)

57、則,規(guī)則的生成,●現(xiàn)代方法,——關(guān)聯(lián)規(guī)則(Association Rules),apriori方法:例,1.設(shè)置最小的屬性-值支持度要求(>30%),2.生成條目集,單項(xiàng)條目集合,規(guī)則的生成,●現(xiàn)代方法,——關(guān)聯(lián)規(guī)則(Association Rules),apriori方法:例,雙項(xiàng)條目集合,規(guī)則的生成,●現(xiàn)代方法,——關(guān)聯(lián)規(guī)則(Association Rules),apriori方法:例,確定最小置信度(如>50%),利用雙項(xiàng)條

58、目集合生成規(guī)則,3.使用生成的條目集來(lái)創(chuàng)建規(guī)則,規(guī)則1:如果雜志促銷=Y(jié),那么壽險(xiǎn)促銷=Y(jié)(5/10) 置信度=5/10=101%,支持度=10/10=100%,規(guī)則2:如果壽險(xiǎn)促銷=Y(jié),那么雜志促銷=Y(jié)(5/5) 置信度=5/5=100%,支持度=5/10=50%,規(guī)則的生成,——關(guān)聯(lián)規(guī)則(Association Rules),市場(chǎng)籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn),時(shí)間序列分析是

59、一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則,,,,,規(guī)則的應(yīng)用,——關(guān)聯(lián)規(guī)則(Association Rules),——以前件為目標(biāo),——?dú)w納所有前件一樣的規(guī)則,——分析后件的營(yíng)銷效果,——設(shè)計(jì)促銷方案(完善前件),——例,——收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這些商品打折是否促進(jìn)其他高利潤(rùn)商品的銷售,從而調(diào)整商品結(jié)構(gòu)、設(shè)計(jì)促銷方案,規(guī)則的應(yīng)用,——關(guān)聯(lián)規(guī)則(Association Rules),——以后件為目標(biāo),——?dú)w納所有后

60、件一樣的規(guī)則,——分析什么因素與后件有關(guān)或?qū)蠹杏绊?——設(shè)計(jì)前件促成后件,——例,——收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關(guān),從而可以考慮將這些因素集合在一起而產(chǎn)生促銷效果。,規(guī)則的應(yīng)用,——關(guān)聯(lián)規(guī)則(Association Rules),規(guī)則的置信度和支持度,規(guī)則很少是正確的,但可以經(jīng)常使用,規(guī)則很少是正確的,而且很少被使用,規(guī)則多數(shù)情況下是正確,但很少被使用,規(guī)則多數(shù)情況下是正確

61、的,而且可以經(jīng)常使用,——以置信度或支持度為目標(biāo),9.2.4 數(shù)據(jù)挖掘的流程,數(shù)據(jù)挖掘的流程,確定業(yè)務(wù)對(duì)象數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果分析和知識(shí)同化,數(shù)據(jù)挖掘的流程-確定業(yè)務(wù)對(duì)象,清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。,數(shù)據(jù)挖掘的流程-數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇

62、出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備,并確定將要進(jìn)行的挖掘操作的類型。數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的,建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。,數(shù)據(jù)挖掘的流程-數(shù)據(jù)挖掘,對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。,數(shù)據(jù)挖掘的流程-分析和同化,結(jié)果分析:解釋并評(píng)估結(jié)果,其使用的分析方法一

63、般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。,數(shù)據(jù)挖掘過(guò)程工作量,在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對(duì)象是整個(gè)過(guò)程的基礎(chǔ),它驅(qū)動(dòng)了整個(gè)數(shù)據(jù)挖掘過(guò)程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)。數(shù)據(jù)挖掘的過(guò)程并不是自動(dòng)的,絕大多數(shù)的工作需要人工完成。其中60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說(shuō)明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅占總工作量的10%.,數(shù)據(jù)挖掘過(guò)程工作量,數(shù)據(jù)挖

64、掘需要的人員,數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn),不同的步會(huì)需要是有不同專長(zhǎng)的人員,他們大體可以分為三類。業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。,9.3 數(shù)據(jù)挖掘在CRM中的應(yīng)用,從客戶生命

65、周期角度分析數(shù)據(jù)挖掘技術(shù)的應(yīng)用從行業(yè)角度分析數(shù)據(jù)挖掘技術(shù)的應(yīng)用,從客戶生命周期角度分析,在客戶生命周期的過(guò)程中,各個(gè)不同的階段包含了許多重要的事件。數(shù)據(jù)挖掘技術(shù)可以應(yīng)用于客戶生命周期的各個(gè)階段提高企業(yè)客戶關(guān)系管理能力,包括爭(zhēng)取新的客戶,讓已有的客戶創(chuàng)造更多的利潤(rùn)、保持住有價(jià)值的客戶等等。,從客戶各生命周期角度分析,,潛在客戶期市場(chǎng)活動(dòng)及數(shù)據(jù)挖掘應(yīng)用,潛在客戶獲得活動(dòng)是針對(duì)目標(biāo)市場(chǎng)的營(yíng)銷活動(dòng),尋找對(duì)企業(yè)產(chǎn)品或服務(wù)感興趣的人。值得注意的是

66、,在這個(gè)階段缺乏客戶數(shù)據(jù)。數(shù)據(jù)挖掘可以把以前的客戶對(duì)類似活動(dòng)的響應(yīng)進(jìn)行挖掘,從而把市場(chǎng)活動(dòng)重點(diǎn)鎖定在以前的響應(yīng)者身上。一個(gè)更好的方法就是尋找和高價(jià)值的客戶類似的潛在客戶——只要一次就獲得正確的客戶。通常,獲得活動(dòng)使用廣告和其它市場(chǎng)宣傳媒體。無(wú)論何種渠道,數(shù)據(jù)挖掘在發(fā)現(xiàn)最重要的客戶特定市場(chǎng)中發(fā)揮重要作用,決定著市場(chǎng)活動(dòng)的類型、廣告空間等一些宣傳問(wèn)題。,客戶響應(yīng)期市場(chǎng)活動(dòng)及數(shù)據(jù)挖掘應(yīng)用,潛在客戶通過(guò)以下幾種途徑成為響應(yīng)者:登陸企業(yè)網(wǎng)站;

67、撥打免費(fèi)電話;填寫(xiě)申請(qǐng)表等。把潛在客戶改變成為確定的客戶、能夠被鎖定和跟蹤的客戶。雖然響應(yīng)者還沒(méi)有購(gòu)買任何產(chǎn)品或服務(wù),但他們有很大的可能性成為購(gòu)買者,并成為企業(yè)客戶。數(shù)據(jù)挖掘通常被用來(lái)判定哪些潛在客戶會(huì)變成響應(yīng)者。預(yù)測(cè)模型也用來(lái)判定哪些響應(yīng)者會(huì)成為企業(yè)即得客戶。,即得客戶市場(chǎng)活動(dòng)及數(shù)據(jù)挖應(yīng)用(1),響應(yīng)者購(gòu)買企業(yè)產(chǎn)品的時(shí)候就變成了企業(yè)即得客戶。這意味著他們已經(jīng)進(jìn)行了第一次的購(gòu)買活動(dòng)。在即得客戶階段包括許多活動(dòng)。最重要的活動(dòng)可以劃分

68、為三:刺激使用(使用展現(xiàn)了客戶行為,當(dāng)使用是企業(yè)收入的主要來(lái)源,刺激使用就成為企業(yè)的重要目標(biāo)。使用模式因不同的客戶市場(chǎng)而有所不同);交叉銷售(鼓勵(lì)客戶購(gòu)買與第一次購(gòu)買不同的產(chǎn)品或服務(wù)的市場(chǎng)營(yíng)銷活動(dòng)); 升級(jí)銷售(鼓勵(lì)客戶升級(jí)現(xiàn)有的產(chǎn)品和服務(wù)的市場(chǎng)營(yíng)銷活動(dòng))。,即得客戶市場(chǎng)活動(dòng)及應(yīng)用(2),即得客戶是數(shù)據(jù)挖掘的重要區(qū)域??蛻羰褂没顒?dòng)提供了客戶行為模式的最本質(zhì)的東西。預(yù)測(cè)什么時(shí)候會(huì)發(fā)生客戶活動(dòng),判定哪個(gè)客戶可能對(duì)交叉銷售和升級(jí)銷售活動(dòng)做

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論