數(shù)據(jù)挖掘外文翻譯(中文)--一種用于零售銀行客戶流失分析的數(shù)據(jù)挖掘方法_第1頁
已閱讀1頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p>  Applied intelligence, 2005, 22,47-60. </p><p><b>  中文10700字</b></p><p>  一種用于零售銀行客戶流失分析的數(shù)據(jù)挖掘方法</p><p><b>  作者:胡曉華</b></p><p>  作者單位:美

2、國費城卓克索大學(xué)信息科學(xué)學(xué)院</p><p>  摘 要 在金融服務(wù)業(yè)中解除管制,和新技術(shù)的廣泛運用在金融市場上增加了競爭優(yōu)勢。每一個金融服務(wù)公司的經(jīng)營策略的關(guān)鍵是保留現(xiàn)有客戶,和挖掘新的潛在客戶。數(shù)據(jù)挖掘技術(shù)在這些方面發(fā)揮了重要的作用。在本文中,我們采用數(shù)據(jù)挖掘方法對零售銀行客戶流失進行分析。我們討論了具有挑戰(zhàn)性的問題,如傾向性數(shù)據(jù)、數(shù)據(jù)按時序展開、字段遺漏檢測等,以及一項零售銀行損失分析數(shù)據(jù)挖掘任務(wù)的步驟

3、。我們使用枚舉法作為損失分析的適當方法,用枚舉法比較了決策樹,選擇條件下的貝葉斯網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)和上述分類的集成的數(shù)據(jù)挖掘模型。一些有趣的調(diào)查結(jié)果被報道。而我們的研究結(jié)果表明,數(shù)據(jù)挖掘技術(shù)在零售業(yè)銀行中的有效性。</p><p>  關(guān)鍵詞 數(shù)據(jù)挖掘 分類方法 損失分析</p><p><b>  簡介</b></p><p>  在金融服務(wù)業(yè)

4、中解除管制,和新技術(shù)的廣泛運用在金融市場上增加了競爭優(yōu)勢。每一個金融服務(wù)公司經(jīng)營策略的關(guān)鍵是保留現(xiàn)有客戶,和挖掘新的潛在客戶。數(shù)據(jù)挖掘技術(shù)在這些方面中發(fā)揮了重要的作用。數(shù)據(jù)挖掘是一個結(jié)合商業(yè)知識,機器學(xué)習(xí)方法,工具和大量相關(guān)的準確信息的反復(fù)過程,使隱藏在組織中的企業(yè)數(shù)據(jù)的非直觀見解被發(fā)現(xiàn)。這個技術(shù)可以改善現(xiàn)有的進程,發(fā)現(xiàn)趨勢和幫助制定公司的客戶和員工的關(guān)系政策。在金融領(lǐng)域,數(shù)據(jù)挖掘技術(shù)已成功地被應(yīng)用。</p><p&

5、gt;  ?誰可能成為下兩個月的流失客戶?</p><p>  ?誰可能變成你的盈利客戶?</p><p>  ?你的盈利客戶經(jīng)濟行為是什么?</p><p>  ?什么產(chǎn)品的不同部分可能被購買?</p><p>  ?不同的群體的價值觀是什么?</p><p>  ?不同部分的特征是什么和每個部分在個人利益中扮演的角

6、色是什么?</p><p>  在本論文中,我們關(guān)注的是應(yīng)用數(shù)據(jù)挖掘技術(shù)來幫助分析零售銀行損失分析。損失分析的目的是確定一組高流失率的客戶,然后公司可以控制市場活動來改變所需方向的行為(改變他們的行為,降低流失率)。</p><p>  在直接營銷活動的數(shù)據(jù)挖掘中,每一個目標客戶是無利可圖的,無效的,這個概念很容易被理解。因為有限的營銷預(yù)算和員工,所以數(shù)據(jù)挖掘模型過去常常被用來排列客戶組成

7、,且只有一定比例的客戶通過郵件,電話等聯(lián)系。如果建立更完善的數(shù)據(jù)挖掘模型和定義正確的目標,該公司便就能夠接觸潛在的高密度客戶流失的集中群體。下面描述了銀行流失分析的數(shù)據(jù)挖掘過程的步驟:</p><p>  1.商業(yè)問題的定義:在客戶保留的領(lǐng)域中商業(yè)問題的明確說明</p><p>  2.數(shù)據(jù)審查和初步篩選</p><p>  3.在現(xiàn)有的數(shù)據(jù)方面問題的說明</

8、p><p>  4.數(shù)據(jù)集成,編目和格式化</p><p>  5.數(shù)據(jù)預(yù)處理:(a)數(shù)據(jù)清洗,數(shù)據(jù)展開和定義時間敏感度的變量定義,定義目標變量,(b)統(tǒng)計分析,(C)敏感度分析,(d)漏泄檢測,(e)特征選擇</p><p>  6.通過分類模型建立數(shù)據(jù)模型:決策樹,神經(jīng)網(wǎng)絡(luò),促進樸素貝葉斯網(wǎng)絡(luò),自然選擇條件下的貝葉斯網(wǎng)絡(luò),分類器的集成</p><

9、p>  7.結(jié)果表達與分析:用數(shù)據(jù)挖掘模型來預(yù)測當前用戶中可能的流失客戶</p><p>  8.調(diào)度展示:定義可能成為流失客戶的對象(稱為正式)</p><p>  這篇論文描述了一種用來分析零售銀行客戶流失的數(shù)據(jù)挖掘方法。目的是確認規(guī)則、趨向、模式和能夠被作為潛在的流失指標的群體和提前確定潛在流失客戶,因此銀行能夠采取積極主動地預(yù)防措施來降低流失指數(shù)。本論文安排如下:首先我們在第

10、二部分定義客戶保留區(qū)域上的問題和商業(yè)問題的說明,接著我們在第三部分討論數(shù)據(jù)選擇、數(shù)據(jù)審查和初步篩選,然后是數(shù)據(jù)集成、數(shù)據(jù)目錄的編輯和數(shù)據(jù)格式化、數(shù)據(jù)演變和時間敏感度變量的定義。接著我們討論敏感度分析、遺漏偵測和特征選擇。在第四部分我們通過決策樹,神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)和自然選擇條件下的貝葉斯網(wǎng)絡(luò)和上述四種分類器的集成來描述數(shù)據(jù)模型。在第五部分,我們主要討論調(diào)查結(jié)果、字段檢測結(jié)果。最后,我們在第六部分得出結(jié)論。</p><

11、;p><b>  2. 商業(yè)問題</b></p><p>  2.1. 主要問題的解釋</p><p>  我們的客戶是世界十大零售銀行之一,這些銀行根據(jù)不同的客戶提供各種種類的金融產(chǎn)品。本論文中討論的產(chǎn)品屬于一項特定的貸款服務(wù)。目前超過750,000的客戶正在使用這項仍有150億美元的資金未解決的產(chǎn)品,這項產(chǎn)品已經(jīng)有了顯著的的高流失率。由于高流失率,稅收受到了

12、挑戰(zhàn):每個月呼叫中心會受到超過4500個要求注銷銀行賬戶的電話;另外接近1200條記錄屬于緩慢流失(連續(xù)超過12個月以上處于不平衡狀態(tài)),同時非法賬戶對于產(chǎn)品收益率構(gòu)成了一系列的挑戰(zhàn),由于指數(shù)、貸款限額以及傭金的影響,每月零售銀行的流失指數(shù)總計達到5700。另外,很多客戶只在優(yōu)惠價時才使用該產(chǎn)品,過期后便作廢。每一個賬戶都有客戶管理項目成本和客戶獲得成本,郵遞需要在每個客戶上花1美元,電話營銷需要在每個客戶上花5美元。而刺激成本(比如降

13、低利率來留住客戶)能夠被考慮,主要取決于你提供了什么樣的產(chǎn)品。我們的客戶沒有主動性的或者反應(yīng)性。在大多數(shù)情況下,盡管有人認為價格下降并不是僅有的或者最好的策略,但是這還是一種主要的方法。我們以上描述的情況已經(jīng)使得我們客戶的商務(wù)和技術(shù)部門的管理者們開始審視采取相關(guān)知識為基礎(chǔ)通過一系列有效的客戶分類、客戶概</p><p><b>  2.2. 問題定義</b></p><p

14、>  在這個部分描述了在基于現(xiàn)有的數(shù)據(jù),時間周期以及目標字段如何理解和定義問題的步驟。在此步驟上,所有數(shù)據(jù)挖掘中,最冗長和最費力的部分是數(shù)據(jù)選擇、數(shù)據(jù)準備、數(shù)據(jù)結(jié)構(gòu)[1, 6, 7]。在生產(chǎn)線上有五種流失因素:</p><p>  ?緩慢流失客戶:指到凍結(jié)帳戶時才還款的客戶。自主性流失因素有多種行為表現(xiàn)而在此處可以被全面地理解。</p><p>  ?快速流失客戶:指快速還款后立即通

15、過電話或?qū)懶配N戶的客戶。</p><p>  ?交叉銷售:指的是可能購買現(xiàn)有貸款客戶提供的諸如人生保險之類的替代產(chǎn)品的客戶。不斷增加的聯(lián)系被認為是減少客戶流失的一種手段。</p><p>  ?高風(fēng)險:可能變成高風(fēng)險的客戶。</p><p>  ?客戶挖掘:可能放棄我們的產(chǎn)品而選擇我們競爭對手產(chǎn)品的客戶。這種情況不是單一的個例:一個客戶能夠在貸款周期中顯示這類情況的

16、子集。此時,他/她能夠通過有效的被刺激手段和策略影響來改變他們的行為。鑒于此,這些客戶的態(tài)度可以被量化表現(xiàn)在狀態(tài)圖表1上。</p><p>  表1表達了客戶管理的優(yōu)勢以及預(yù)測問題。1.確定緩慢客戶流失。2.交叉銷售產(chǎn)品。3.確定高風(fēng)險客戶。4.確定客戶可能被競爭對手挖掘。</p><p>  如上圖中所示,一個客戶通過他的行為,能夠按組別屬性在每個狀態(tài)被定義時,在活躍和流失之間活動?;A(chǔ)

17、上圖,我們決定聚焦到兩個流失問題上:</p><p> ?。?)利用過去連續(xù)4個月所開的賬戶為數(shù)據(jù),在提前60天的情況下,預(yù)測特定客戶是否會自主通過電話或?qū)懶抛N她/他的賬戶。</p><p>  (2)利用過去連續(xù)4個月所開的賬戶為數(shù)據(jù),在提前60天情況下,預(yù)測一個特定客戶是否可能會將他的賬戶轉(zhuǎn)移到競爭對手手上。而賬戶不一定仍保持開通。模型的發(fā)展和隨后的活動焦點將會聚集到提高產(chǎn)品線業(yè)務(wù)及

18、改善該項產(chǎn)品客戶維持度和客戶活躍度的問題上:</p><p>  問題1:保留現(xiàn)有客戶</p><p>  為了劃分不同客戶層這個問題需要如下規(guī)則來制定模型:</p><p>  ?在連續(xù)30-60天的基礎(chǔ)上建立一個能夠預(yù)測損失的客戶模型。</p><p>  ?識別出最具盈利可能性/最值得擁有的客戶群體的特征以便開發(fā)一種好的策略使他們對我們

19、的持續(xù)支持得到保證以及獲得更多擁有同樣優(yōu)質(zhì)客戶特征的客戶。</p><p>  問題2:客戶激勵政策</p><p>  區(qū)分出從潛在客戶和非營利性客戶變成盈利客戶的群體的特征。一旦找到了這些因素,我們能借助這些因素來發(fā)展風(fēng)險、維護和機會等各項策略來促成客戶可盈利化的成功轉(zhuǎn)變。</p><p><b>  數(shù)據(jù)選擇</b></p>

20、<p>  像所有的數(shù)據(jù)挖掘活動一樣,正確的數(shù)量和超過重要時間段里的相關(guān)數(shù)據(jù)的區(qū)分對于模型的進展是很關(guān)鍵的[1, 8, 9]。鑒于此,且與這個領(lǐng)域的專家合作,我們采集了經(jīng)過識別和初步審查后所需的數(shù)據(jù)源。表1概括了確定的數(shù)據(jù)源和它們的預(yù)期功能。</p><p>  表 一 :描述確定的(潛在的)相關(guān)數(shù)據(jù)來源。圖表描述了數(shù)據(jù)挖掘來源以及它們的概述以及相關(guān)的流失模型。</p><p>

21、;  DDS數(shù)據(jù)倉庫:信用卡數(shù)據(jù)倉庫包含約200個產(chǎn)品的具體字段。起源于不同的點(寫入數(shù)據(jù),外部數(shù)據(jù)庫,分數(shù)等),數(shù)據(jù)根據(jù)一系列可操作的規(guī)則(即在不變化字段的情況下減小了字段的大?。┻M行壓縮。這個倉庫包含6個月的數(shù)據(jù),且在每月的基礎(chǔ)上交替循環(huán)。在當前的情況下,這個周期包含4個月的歷史信息。信用卡數(shù)據(jù)倉庫是保留數(shù)據(jù)建模問題的主要來源。</p><p>  第三方數(shù)據(jù):一組相關(guān)的人口和信用局的信息。數(shù)據(jù)可從外部供應(yīng)商

22、得到,例如,丹麥公司。連接DDS數(shù)據(jù)庫的數(shù)據(jù)提供額外的預(yù)測數(shù)據(jù)。</p><p>  分割文件:基于客戶的分割的方案設(shè)立賬戶相關(guān)的分割值,結(jié)合風(fēng)險,盈利和外部潛在能力。該段數(shù)據(jù)結(jié)合DDS數(shù)據(jù)提取與模型結(jié)果覆蓋。</p><p>  支付數(shù)據(jù)庫:數(shù)據(jù)庫存儲了所有的進程。數(shù)據(jù)庫能夠分類檢查。這樣的數(shù)據(jù)庫允許集允許日期的檢測,平衡和開戶者和用來檢查識別客戶挖掘賬戶。</p><

23、;p>  3.1數(shù)據(jù)預(yù)處理目標</p><p>  數(shù)據(jù)預(yù)處理包括一系列必要活動來創(chuàng)建一個壓縮文件,如下所示:</p><p>  ?反映數(shù)據(jù)隨時間而變化。</p><p>  ?識別和移除統(tǒng)計中不重要的字段。</p><p>  ?定義與介紹“目標”字段。</p><p>  ?允許第二領(lǐng)域的預(yù)處理和統(tǒng)計分析,

24、這個將通過三個步驟來完成,在下面的章節(jié)詳細介紹。</p><p>  ?通過時間順序來展開。</p><p><b>  ?目標值的定義。</b></p><p>  ?第一階段的統(tǒng)計分析。</p><p>  3.1.1. 確定數(shù)據(jù)周期</p><p>  在給定有效數(shù)據(jù)以及時間周期后,我們決定

25、選取一項狀態(tài)為“開通”的賬戶的記錄的子集開始數(shù)據(jù)選擇,,例子是選取周期在12/2001–3/2002間的合法客戶。另外為了對比,我們還獲取在11/2001之后狀態(tài)是“保密”或者是“注銷”的賬戶數(shù)據(jù)。這將使得我們能夠檢測出流失客戶的特征以及能夠形成自愿型流失客戶。基于這個考慮,45814條隨機記錄被選擇,每一項代表一個賬戶,其中42547個是公開的,剩下的3267個是自2001年以來是保密的。獲得的數(shù)據(jù)被放入一個臨時的表格中,連接到所有產(chǎn)

26、生的包含每個賬戶、賬戶的狀態(tài)、每月的和過去四個月的相關(guān)表格。這意味著我們能夠重新建立從2001年11月開始的所有字段而不僅僅是2002年3月的數(shù)據(jù)。</p><p>  3.1.2. 通過時間順序展開</p><p>  在數(shù)據(jù)源中的每個賬戶中每月都有一列。在操作中,歷史客戶數(shù)據(jù)被劃分為流失客戶和保留客戶。為了數(shù)據(jù)節(jié)省空間,每個月我們都核對先前一個月的數(shù)據(jù)。如果沒有變化,我們就不增加列,有

27、效開始日期的值保持和最后一次修改時的數(shù)據(jù)(即新的一列被插入)保持一致。如果屬性發(fā)生了改變,一個新的有效起始日期列就會被相應(yīng)的增加。因此一些賬戶記錄會少于標準月的數(shù)量,因為有些月份沒有活動被記錄下來。如,如果一個賬戶直到2001年12月都沒有變化,最后一列將會成為當前月的一列,被用來推算當前的這個月的結(jié)論。在理解這些的基礎(chǔ)后,創(chuàng)建客戶流失模型。</p><p>  鑒于數(shù)據(jù)文件中的數(shù)據(jù)記錄是每月每戶一列,我們需要使

28、用過去四個月的歷史數(shù)據(jù)來建立一個預(yù)測模型。為了表示數(shù)據(jù)隨時間和季節(jié)性的行為而變化,我們需把過去獨立的四個月的數(shù)據(jù)結(jié)合在一個數(shù)據(jù)文件里,而在數(shù)據(jù)文件里每個賬戶有一個包含過去四個月金融信息的列。使用的數(shù)據(jù)格式,要求隱性數(shù)據(jù)成為顯形,而時序被分為單獨的字段。為了完成這一點,我們將變量分成靜態(tài)變量和時間敏感度的變量[1]。靜態(tài)變量不隨時間而變化。</p><p>  例子如下:賬號,母姓,住址和愛好。時間敏感值每月而變化

29、且為了找到季節(jié)性/時間相關(guān)性行為保留在過去4個月的不同值。時間敏感值被分配到一個時間前綴(TO意味著最近一個月,T1意味著前二個月,T2意味著三個月前,T3意味著四個月前)。因此,例如,在2001年12月到2002年3月當前賬戶余額反映在表二中定義。</p><p>  鑒于此,下一個任務(wù)是包含了在“干凈”的格式化文件生成額外的文件以及將它們添加到結(jié)果文件。時間序列數(shù)據(jù)顯示于表三,數(shù)據(jù)值設(shè)置從250增加到870。

30、</p><p>  表二:以四個月為周期的時間敏感度DDS數(shù)據(jù)庫。周期與命名:上個月(2002.3),TO當前賬戶余額;一個月前(2002.2),T1當前賬戶余額;二個月前(2002.1),T2當前賬戶余額;三個月前(2001.12),T3當前賬戶余額。</p><p>  表三:按時間順序展開的數(shù)據(jù)集。</p><p>  3.1.3. 目標值的定義</p

31、><p>  像很多真實的數(shù)據(jù)挖掘應(yīng)用程序一樣,通常在數(shù)據(jù)倉庫中是不會直接定義數(shù)據(jù)挖掘目標字段的,因此,定義合適的商業(yè)領(lǐng)域研究的目標字段也是數(shù)據(jù)挖掘工作的一部分。在商業(yè)領(lǐng)域?qū)<业膸椭?,我們在一些存在的?shù)據(jù)中定義數(shù)據(jù)目標值,并籍此定義目標變量的值,換言之,變量能夠測量流失客戶,因此定義會計賬戶中價值分析(1為客戶流失;0為保留客戶)。定義如下:</p><p>  1. 狀態(tài)代碼 (CRD S

32、T CD)</p><p>  2. 狀態(tài)更改日期 (CRD STATUS CHANGEDATE)</p><p>  3. 注銷原因代碼 (CRD CLS REA CD)</p><p>  公式定義為:CRD ST CD=C(注銷);狀態(tài)更改日期在2001年12月和2002年3月31日之間;CRD CLS REA CD(注銷原因代碼)在[0 1 23 25 26

33、 28 29 30 35 36 40 41 42 80 81 82 83 84 97 98 31 32 33 34]之間。</p><p>  自主客戶流失的原因代碼是(客戶需求):“0 1 23 25 26 28 29 30 35 36 40 41 42”,自主客戶流失的原因代碼(客戶需求)的相關(guān)價格是:“31 32 33 34”。根據(jù)定義,在四個月內(nèi)所有的客戶的平均折損率為2.2%。</p>&

34、lt;p>  3.1.4. 第一步驟:數(shù)據(jù)統(tǒng)計分析</p><p>  在時序數(shù)據(jù)集中的870個字段中,一個重要的部分是常量、空字段。在早期階段中,把他們過濾掉能大大減少數(shù)據(jù)挖掘的時間以及提高模型準確性。據(jù)統(tǒng)計分析,序列中的第一步,是為了獲得對數(shù)據(jù)質(zhì)量的初步理解:未知字段的數(shù)量,相關(guān)的頻率,早期的指示,平均值和目標數(shù)據(jù)的分布。在最初的字段分辨中,一個單值在所有記錄中出現(xiàn)超過99.95%或者為空將被認為是無價

35、值的,然后從屬性集中移除字段。這些字段將在數(shù)據(jù)和源數(shù)據(jù)文件中被移除,來確保從建模步驟中被移除,因此,減少了計算的時間。</p><p>  3.2. 數(shù)據(jù)預(yù)模型化</p><p>  數(shù)據(jù)預(yù)模型化階段是下一步模型文件生成的關(guān)鍵步驟,這一步有三個主要階段構(gòu)成:</p><p> ?。?)對低關(guān)聯(lián)度過濾字段的敏感度分析以此來確定字段目標和檢測數(shù)據(jù)是否遺漏。</p&

36、gt;<p> ?。?)字段簡練以此來增加高關(guān)聯(lián)度字段成為更緊湊的文件。</p><p> ?。?)所有平衡和不平衡文件的生成設(shè)置了對測試的整枝、測試、對于結(jié)果的迭代證明以及模型的精煉。</p><p>  3.2.1. 字段敏感度分析和字段修減</p><p>  字段敏感度分析用來測試每一個屬性對于模型處理的“促進作用”。我們使用一個粗略集的字段選

37、擇算法[4]。我們的算法為每一個字段生成一個價值,考慮到字段之間的聯(lián)系/相關(guān)性,從全部字段里選出字段的最小子集。而從另一方面來說,如果一個字段的值過高,它將被認為是潛在的遺漏[10]。遺漏是目標“遺漏”信息的字段。例如,一個有賬戶注銷價值的字段會使客戶流失信息遺漏,也會混亂模型效果。我們發(fā)現(xiàn)當一些流失立即被發(fā)現(xiàn)時,很多時候他們被包含在與目標關(guān)系不明顯的商業(yè)規(guī)則里。因此,確立一個字段是否是遺漏點的最好方法是討論相似情況,對數(shù)據(jù)圖表和對商業(yè)

38、問題的調(diào)查。一些我們從數(shù)據(jù)集中區(qū)分出來的遺漏的字段是破產(chǎn)數(shù)值、風(fēng)險等級、破產(chǎn)理由代碼、使用卡的時間次數(shù)、賣的次數(shù)、關(guān)閉賬戶里原因代碼等等。在很多循環(huán)中,字段名和字段值是不會經(jīng)常直接表現(xiàn)出他們功能,而是需要解釋。從另一方面來說,預(yù)測失誤的字段最后組成了模型的潛力預(yù)測。因此,字段的值是恒定的(即標準零誤差),而優(yōu)點的值就是零。為了提高數(shù)據(jù)發(fā)掘的速度和產(chǎn)生更完美的模型,這些字段將被移除。在流失字段分析后,我們將對數(shù)據(jù)集運用到新的特征選擇算法[

39、4],來鑒定出與目標特征字段關(guān)聯(lián)度</p><p>  3.2.2. 產(chǎn)生文件集</p><p>  我們的樣本文件中包含45814個記錄,而每月的流失指數(shù)是0.55%,過去四個月累積的流失指數(shù)大概是在2.2%。為了在這樣一個高度不對稱的數(shù)據(jù)集中建立一個好的模型,我們需要來建立一個更加平衡的流失客戶和保留客戶在數(shù)據(jù)集中的描述。理由是在原始數(shù)據(jù)集中,我們有相當高的保留客戶比例和極少的流失客戶

40、比例(97.8% VS 2.2%),而一個學(xué)術(shù)模型能夠通過經(jīng)常預(yù)測每個客戶是否是未流失客戶來達到較高的準確性。顯然,這樣一個高準確率的模型對流失分析是沒什么用的[10, 11]。我們建立了一個包含938個流失客戶的隨機樣本文件,然后我們在其中增加了足夠多的未流失客戶來使得我們的數(shù)據(jù)集達到兩方50%-50%(客戶流失VS保留客戶)的比例,然后文件將被劃分為平衡的文件、行列文件和測試文件就像原始文件一樣(換言之,是不平衡文件),用來說明注釋

41、文件。平衡的一系列文件中50%的記錄包含目標值,換言之VA ACCTS=1。而平衡測試、原始測試、原始旁釋文件組成了大約每個目標的1/6。在前面3.1.3的定義中,原始文件的目標表現(xiàn)出所有被審查文件的2.2%。這些文件被數(shù)據(jù)挖掘用來下一步的統(tǒng)計分析,數(shù)據(jù)挖掘和聚類分析工</p><p>  4. 數(shù)據(jù)挖掘模型建立步驟</p><p>  4.1. 評價準則:枚舉法</p>&

42、lt;p>  就像 [4,5,11,12]中所說的那樣,預(yù)測精度被用來評估挖掘算法,這不是一個合適的評價準則,例如流失分析。主要的理由如下:</p><p>  1.分類錯誤(錯誤的正面和錯誤的負面)被平等對待的,但是在流失分析時錯誤的正面和錯誤的負面因素會產(chǎn)生不同的影響和后果,因此他們需要被區(qū)別對待。</p><p>  2.準確度被用來衡量所學(xué)算法在數(shù)據(jù)集上的表現(xiàn),流失分析的目的

43、不是預(yù)測每個客戶的行為,而是找到流失幾率很大的客戶的一個好的子集。流失分析是高度不平衡而且高噪音的,因此很難建立一個準確的模型。</p><p>  在流失分析中,我們的目的是使用歷史信息來建立一個有效的數(shù)據(jù)挖掘模型,然后用使用數(shù)據(jù)挖掘模型來預(yù)測可能性最大的流失客戶,接下來采取預(yù)先措施來防止客戶流失。因此,學(xué)術(shù)算法需要被劃分入一個可信賴的度量,如:一個可能的評估因素和確定的因素(也被稱為流失分析的分值)。分值能使

44、得我們?yōu)橥茝V中的市場和目標市場的客戶來排序。替代預(yù)測準確率的枚舉法可被用來作為評價標準。像[9]中所指出的那樣,如果數(shù)據(jù)挖掘模型足夠好,我們應(yīng)該在列表頂端找到一個高集中度的流失客戶群體,這個更高的客戶流失比例可以用枚舉法衡量,來查看基于這個模型的目標比隨機的有多好??偟膩碚f,枚舉法能夠通過累積性的目標完成到p%來被計算。如,分類表中前10%的數(shù)據(jù)可能包含了35%的客戶流失,這個模型枚舉了35/10=3.5的例子。一個枚舉反映了測試中在測

45、試樣本被分級后測試響應(yīng)者的重新劃分。學(xué)術(shù)算法將所有從最有可能回應(yīng)到最不可能回應(yīng)的測試樣本排位后,我們把已經(jīng)排序的列表分為一些十分位數(shù)(前10%在經(jīng)驗中是最精良的部分:我們在每個百分比中用枚舉法測試),接著我們觀察最初回應(yīng)者在這些十分位數(shù)里如何分布。枚舉法在模型得分排序表的基礎(chǔ)上衡量目標子集已經(jīng)</p><p>  4.2. 基于不同算法的數(shù)據(jù)挖掘模型</p><p>  我們對于最大字段模

46、型感興趣。在我們的分析中,一個好的模型對產(chǎn)生客戶流失的模型列表的頂端那些可能成為流失客戶的重點關(guān)注。我們需要使用的算法是為了排列測試樣而產(chǎn)生數(shù)值。算法,例如:自然條件下的貝葉斯,決策樹,神經(jīng)網(wǎng)絡(luò)來滿足我們的需求。我們需要使用四種不同的數(shù)據(jù)挖掘算法來進行分析,并對上述4種算法的分類進行集成[4]:</p><p>  1.促進樸素貝葉斯網(wǎng)絡(luò)(BNB)</p><p>  2.神經(jīng)網(wǎng)絡(luò)(人工神

47、經(jīng)網(wǎng)絡(luò)預(yù)測:一種商業(yè)性神經(jīng)網(wǎng)絡(luò),來自人工神經(jīng)網(wǎng)絡(luò)公司)</p><p><b>  3.決策樹</b></p><p>  4.自然選擇條件下的貝葉斯(SNB)</p><p>  5.對上訴四種分類的集成[4]</p><p>  4.2. 1促進自然條件下的貝葉斯網(wǎng)絡(luò)(BNB)</p><p>

48、;  樸素貝葉斯網(wǎng)絡(luò)數(shù)據(jù)庫挖掘方法結(jié)合了促進和樸素貝葉斯的學(xué)習(xí)[6,13-15]。促進是一種連續(xù)兩個階段的一般算法,這種算法改進了兩類學(xué)習(xí)算法的準確性。在第一階段中,所有的測試樣本權(quán)重相同且兩類學(xué)習(xí)算法用來獲得一個分類器。在第二階段,第一分類器中錯誤分類的測試樣本變得權(quán)重不同。在第三階段中,第二分類器中的錯誤分類的樣本也變得權(quán)重不同,第三分類器形成。促進過程可以重復(fù)所需的步驟。應(yīng)用于樸素貝葉斯的學(xué)習(xí),通常進行5-20個步驟是有益的,這里

49、所描述的結(jié)果只使用了五個步驟。</p><p>  像其他軟件一樣,樸素貝葉斯網(wǎng)絡(luò)確定了一個目標樣本的哪些屬性石最具預(yù)測價值的。不像大多數(shù)其它軟件,樸素貝葉斯的值(或數(shù)值范圍)的屬性石最預(yù)測性的。例如,樸素貝葉斯自動識別T1的CRD賬目格式化的屬性值2是一個重要預(yù)測。根據(jù)所提供的資料,此值2表示“賬戶一直活躍但目前不活躍”。也不想其他軟件,樸素貝葉斯網(wǎng)絡(luò)評估這個已經(jīng)報道的預(yù)測的統(tǒng)計意義。一個預(yù)測的意義取決于它的字

50、段(即預(yù)期效益)和它的覆蓋率(即一些應(yīng)用例子)。樸素貝葉斯網(wǎng)絡(luò)因為地覆蓋率和低字段,所以可能被認為是虛假的預(yù)測。</p><p>  樸素貝葉斯網(wǎng)絡(luò)的字段值在圖解2中顯示。</p><p>  Figure 2. Boosted Na¨?ve Bayesian model lift chart.</p><p>  圖解2:枚舉柱狀圖:促進貝葉斯模型的圖解

51、。橫軸為賬戶百分比,縱軸為流失客戶數(shù)量。</p><p><b>  結(jié)果如上圖所示。</b></p><p><b>  利益的可變因素</b></p><p>  自然條件下的貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)14個最重要的正向預(yù)測目標類。前4個屬性將在下面按次序被展開。每一個預(yù)測的屬性都有確定值(或數(shù)值范圍)。值“Z”在原始數(shù)據(jù)集意味著

52、零。“計數(shù)”是與目標相對的非目標值的屬性?!皕值”是一種重要的統(tǒng)計措施。</p><p>  ?屬性84 T0 經(jīng)常項目差額{經(jīng)常項目差額帶來數(shù)百美分}數(shù)值在 1840.52和1277.62之間:計數(shù)209 / 86,比值2.43418,z數(shù)為: 7.17529。</p><p>  ?屬性119 T1_CRD帳戶格式化{帳戶記錄格式化,值是:1 =不活躍的帳戶,2 =賬戶一直活躍但目前不

53、活躍,3 =當前活躍帳戶,4 =拖欠帳款} 值在1.9和2.2之間,計數(shù)281/154,概率為1.82764,z數(shù)為6.10613。</p><p>  ?屬性56 T0非轉(zhuǎn)換系數(shù)的最小應(yīng)付總額Z值{這個數(shù)字相當于在最后陳述的最低付款。這是用在與累計拖欠和周期數(shù)偏差允許時自動調(diào)整。}計數(shù)為353 / 214,比值1.65221,z數(shù)為 5.8568。</p><p>  ?屬性40 T0非

54、轉(zhuǎn)換系數(shù)的訂貨單的平衡 {它出現(xiàn)在持卡人最新聲明中的現(xiàn)行的最后平衡中,字段沒有被調(diào)整所影響。} 值在1840.52和1277.62之間:計數(shù)189 / 98,比值1.93171,z數(shù)為 5.38532。</p><p>  4.2.2. 決策樹</p><p>  決策樹方法是一個建立規(guī)則的集合的預(yù)測模型[ 10,16,17 ]。決策樹方法的優(yōu)勢是:規(guī)則容易被理解,且有助于發(fā)現(xiàn)潛在的業(yè)務(wù)流

55、程。決策樹方法的劣勢是:決策樹模型通常不像其他模型一樣運算。我們已經(jīng)開發(fā)出一種決策樹專有的算法用來解決“枚舉”問題[ 10 ],例如:我們要盡量減少前25%的預(yù)測數(shù)據(jù)。這是一種常見的問題,例如:客戶流失和目標郵件。決策樹的柱狀圖如圖3所示。</p><p><b>  一些規(guī)則如下:</b></p><p>  規(guī)則8:(枚舉值=5.347,1-保險值=0.029)&

56、lt;/p><p>  T0 一個月重載的轉(zhuǎn)換系數(shù) " 2</p><p>  T3 客戶需求日 = A1</p><p>  ->等級1 [0.889]</p><p>  規(guī)則 12: (枚舉值= 4.102, 1-保險值 = 0.162)</p><p>  T0 當前賬目余額轉(zhuǎn)換系數(shù) "

57、407.06</p><p>  T2 日期最后結(jié)算單轉(zhuǎn)換系數(shù)" 1998.055</p><p>  T3客戶需求日 = A2</p><p>  ->等級 1 [0.859]</p><p>  規(guī)則 14: (枚舉值 = 3.927, 1-保險值 = 0.318)</p><p>  T2 人工神

58、經(jīng)網(wǎng)絡(luò)電荷研制試驗轉(zhuǎn)換系數(shù)" 1998.164</p><p>  T0 未購買網(wǎng)絡(luò)的轉(zhuǎn)換系數(shù) " 0</p><p>  T0當前賬目余額轉(zhuǎn)換系數(shù) " 407.06</p><p>  T3 客戶需求日= A1</p><p>  -> 等級 1 [0.812]</p><p> 

59、 規(guī)則9: (枚舉值 = 3.868, 1-保險值 = 0.385)</p><p>  T0 當前賬戶余額轉(zhuǎn)換系數(shù) " 407.06</p><p>  T3 自上而下抽樣控制寄存轉(zhuǎn)換系數(shù) > 606</p><p>  T3 客戶需求日= A3</p><p>  T3 是否使用計算機會計信息處理轉(zhuǎn)換系數(shù) 3 > 9

60、260</p><p>  ->等級 1 [0.889]</p><p>  Figure 3. Decision tree model lift chart</p><p>  圖解3:決策樹模型柱狀圖。紅色為:決策樹;白色為:沒有模型。橫軸為賬戶百分比,縱軸為流失客戶數(shù)量。</p><p><b>  上圖為決策樹結(jié)果。&

61、lt;/b></p><p>  4.2.3. 神經(jīng)網(wǎng)絡(luò)</p><p>  神經(jīng)網(wǎng)絡(luò)對于模型建立來說是一種完善的建模方法[7,14,18]。這種方法的優(yōu)勢是:神經(jīng)網(wǎng)絡(luò)模型可能成為最精確的預(yù)測模型。神經(jīng)網(wǎng)絡(luò)模型的劣勢是:它的輸出可能很難被理解。為了我們的調(diào)查,我們使用了一個商業(yè)軟件包(人工神經(jīng)網(wǎng)絡(luò)軟件):</p><p>  ? 對于字段選擇適當?shù)妮斎朕D(zhuǎn)移功能

62、</p><p>  ?選擇變量自己的數(shù)據(jù)模型</p><p>  ? 建立“有建設(shè)性”的神經(jīng)網(wǎng)絡(luò)模型</p><p>  圖解4中枚舉了神經(jīng)網(wǎng)絡(luò)柱狀圖。</p><p>  Figure 4. Neural net model lift chart.</p><p>  圖解四:神經(jīng)網(wǎng)絡(luò)模型柱狀圖 。圖示為每個百分比

63、賬戶中,客戶流失的數(shù)量。</p><p><b>  結(jié)果如上圖所示。</b></p><p>  4.2.4. 自然選擇下的樸素貝葉斯網(wǎng)絡(luò)</p><p>  樸素貝葉斯分類器是一種概率預(yù)測模型,假設(shè)所有的屬性都是有條件的相互獨立的目標變量[19],即在每個分類器中的屬性是沒有關(guān)系的。樸素貝葉斯分類器是簡單的,內(nèi)在的強大的噪音,并能很好地進行

64、擴展功能,包括許多不相關(guān)的功能。此外,盡管它的簡單性和在每個獨立分類器的屬性有著強大的假設(shè)性,它已被證明在許多自然領(lǐng)域中,能夠得到高準確性。自然條件下的樸素貝葉斯分類器是一種擴展的樸素貝葉斯分類器的設(shè)計,有更好的高度相關(guān)(冗余)功能性。直覺是高度相關(guān)的功能,如果不選擇,分類應(yīng)該有更好的表現(xiàn)其特征獨立性假設(shè)。屬性中選擇一個空集的屬性開始,然后逐步增加,單個屬性(由未選擇的屬性的組)的屬性,該屬性最提高所得的分類器的精確度上的測試集。屬性中

65、選擇,直到添加任何其他屬性的查詢結(jié)果中的分類器的精確度下降。自然選擇條件下的樸素貝葉斯網(wǎng)絡(luò)如圖解5所示。</p><p>  Figure 5. Selective Na¨?ve Bayesian network model lift chart.</p><p>  圖解5:選擇貝葉斯網(wǎng)絡(luò)模型的柱狀圖。</p><p><b>  結(jié)果如上圖所

66、示。</b></p><p>  4.2.5. 一種混合方法: 一種分類器集成方法</p><p>  一種分類器的集成是生成一組分類器而不是新項目分類的一種分類器,希望多種分類器的結(jié)合從而得到更精確的值[ 4,15,20,21 ]。分類器的集成已被證明是提高分類精度的一個非常有效的方法,因為個體分類器所犯的不相關(guān)的錯誤能夠通過投票從而被刪除。一種分類器,利用分類規(guī)則中一組最小

67、分類來區(qū)分未來的例子,可能會導(dǎo)致錯誤。分類器的集成是一系列的分類器,這些分類器在一些方面來劃分新樣本。為構(gòu)建分類器的集成創(chuàng)建了一些方法,有些是一般的算法和有些特定的算法[ 4,8 ]。我們采用了一種混合的方法:首先,我們用自然條件下的貝葉斯網(wǎng)絡(luò)(BNB)來建立4種分類器,人工神經(jīng)網(wǎng)絡(luò)的預(yù)測,決策樹,自然選擇條件下的貝葉斯網(wǎng)絡(luò)(SNB),然后我們在主要通過投票將從4個分類集合成一個分類器[4]。集成分類器比任何4個個體分類器得到更精確的字

68、段。</p><p>  上圖是集成分類器所得到的結(jié)果。</p><p><b>  5. 數(shù)據(jù)挖掘發(fā)現(xiàn)</b></p><p>  最初的研究揭露了一系列變量之間的關(guān)系以及臨界值來進一步的探討與分析。如下總結(jié)了重要的觀點和一些可能的含義:</p><p>  上表顯示,一些特定的值(或數(shù)值范圍)的屬性是來預(yù)測保留客戶和

69、/流失客戶。這些解釋增加了我們的信心,而這些屬性值將繼續(xù)在未來繼續(xù)預(yù)測。</p><p><b>  字段檢測</b></p><p>  為了檢測數(shù)據(jù)挖掘的有效性,我們的客戶采取了字段檢測。測試要顯示出兩個要點:</p><p>  1.客戶流失率包含了集中的流失客戶。</p><p>  2.基于營銷方法的數(shù)據(jù)挖掘?qū)?/p>

70、于保留目標是有效的。</p><p>  他們對現(xiàn)有客戶的分類方法從而生成的模型,然后將客戶流失比率再次進行分類。他們決定與列表中的前4%的現(xiàn)有客戶進行聯(lián)系(大約750000名),其中有大約30000名客戶。他們把客戶隨機分為2組,每一組大約有15000名,然后對不同組的客戶采取積極主動地行動:第一組,市場營銷部門接觸每一個客戶,并提供了一些優(yōu)惠措施來鼓勵客戶留在公司;而第二組,沒有采取任何聯(lián)系。經(jīng)過2個月后,他

71、們檢查列表然后發(fā)現(xiàn),在第一組中,流失率非常低(0.12%),而在第二組中,流失率非常高,幾乎是5.6%,在兩個月累積平均流失率為1.1%,因此獲得了5.0的字段(在測試數(shù)據(jù)段中,列表中始終保持著數(shù)據(jù)4.6)。在第一組中較低的流失率顯示,如果積極主動的行動是及時的和適當?shù)模@對客戶行為確實有影響,而第二組的高流失率證明,我們的數(shù)據(jù)挖掘模型是正確和前4 %高比例的流失率被捕捉。</p><p><b>  

72、6. 結(jié)論</b></p><p>  在此篇論文中,我們演示了一種零售銀行客戶損失分析數(shù)據(jù)挖掘方法。我們討論了關(guān)于傾向性數(shù)據(jù)、時序數(shù)據(jù)展開、遺漏檢測和一項零售銀行損失分析數(shù)據(jù)挖掘任務(wù)的步驟。我們討論枚舉法在作為損失分析的適當方法上的用處,比較了決策樹枚舉法,貝葉斯網(wǎng)絡(luò)等多種數(shù)據(jù)挖掘方法以及這些方法的效果。我們最初的發(fā)現(xiàn)顯示出一些有趣的結(jié)果。我們客戶的實踐檢驗證明了損失數(shù)據(jù)挖掘預(yù)測模型是很準確的,目標

73、導(dǎo)向的措施也是有效的。</p><p><b>  參 考 文 獻</b></p><p>  [1]輝戈碩士,1996年。挖掘客戶數(shù)據(jù)庫的電力二代的策略和技巧。《完整的數(shù)據(jù)庫營銷》。</p><p>  [2]北森, 埃格蒙特彼得森, 布朗,為僧尼絲。“學(xué)習(xí)貝葉斯網(wǎng)絡(luò)分類器對使用馬爾可夫鏈的信用評分”技術(shù)報告,荷蘭烏特列支大學(xué),信息與計算機科

74、學(xué)學(xué)院。</p><p>  [3]杯踏查瑞亞,1998年?!安捎眠z傳算法直接營銷的反應(yīng)模式”,第四國際的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議,144–148頁。</p><p>  [4]胡茬,2001年。“利用粗糙集理論和操作數(shù)據(jù)庫,構(gòu)建數(shù)據(jù)挖掘應(yīng)用的一個很好的集成分類器,”的過程。2001屆IEEE國際會議上的數(shù)據(jù)挖掘技術(shù), 233–240頁。</p><p>  [5]

75、教務(wù)長和福塞特“分類器的性能可視化分析:不精確的類和成本分配的比較,“三屆國際會議的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘會議,43–48頁。</p><p>  [6]漿果和洛妮芙,1998年。精通數(shù)據(jù)挖掘:客戶關(guān)系管理的科學(xué)與藝術(shù)。</p><p>  [7] 碩士,1995年。神經(jīng),新穎的混合時間序列預(yù)測算法,約翰威利父子公司。</p><p>  [8] 聯(lián)合國英達科尼和肖洛姆

76、,2001年。“解決基于規(guī)則的集成分類器的回歸問題,”的過程, 287–292頁。</p><p>  [9] 夏皮羅,疲沓沓撕開,馬思德,“估計運動的好處和模擬電梯,”的程序。第五國際會議上的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘,185–193頁。</p><p>  [10] 胡查,2002 年。“客戶流失分析的分類方法的比較”的過程。第三屆國際會議,《粗糙集和當前的趨勢》,施普林格出版社,487–49

77、2頁。</p><p>  [11]林茨和里茨,1998 年?!爸苯訝I銷數(shù)據(jù)挖掘:問題和解決方案”。第四屆國際會議的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘,73–79頁。</p><p>  [12]馬珊德和夏皮羅,1996 年。“最大化企業(yè)盈利預(yù)測模型比較”。第二國際的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議,195–201年。</p><p>  [13]埃爾坎,1997年9月?!按龠M樸素樸素貝葉斯

78、學(xué)習(xí),”技術(shù)報告號CS97–557,加利福尼亞大學(xué),迭戈。</p><p>  [14]墾利尼,1996年?!皠邮幍臅r間序列數(shù)據(jù)的非線性金融預(yù)測一個簡單的神經(jīng)網(wǎng)絡(luò)預(yù)測的過程”。第四屆國際會議的神經(jīng)網(wǎng)絡(luò)在資本市場,134–140頁。</p><p>  [15] 思噶波,弗氏,扒塔拉特,和李,“提高保證金:投票的方法有效性的一種新的解釋”統(tǒng)計年鑒。</p><p> 

79、 [16] 強尼昆蘭,“決策樹”機器學(xué)習(xí),卷1,1號,81–96頁。</p><p>  [17] 強尼昆蘭,1996年?!把b袋,促進,與C4.5算法”。在第十三屆人工智能程序,725–730頁。</p><p>  [18] 格蘭達塔斯和廣,1996 年。“神經(jīng)網(wǎng)絡(luò)的黃金期貨價格預(yù)測的重要因素”。第四屆國際會議的神經(jīng)網(wǎng)絡(luò)在資本市場,163–176頁。</p><p&g

80、t;  [19] 弗里德曼,蓋革和金子蜜桃撒,1997 年?!柏惾~斯網(wǎng)絡(luò)分類器,“機器學(xué)習(xí),卷29,131–163頁。</p><p>  [20] 斯佩爾,2002 年?!疤岣邫C器學(xué)習(xí)方法:概述”非線性估計和分類研討會。</p><p>  [21]瑞切爾,斯佩爾,拉希姆和噶破塔,2002 年。“將實驗知識提高”。第十九的機器學(xué)習(xí)國際研討會。</p><p>  

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論