數(shù)據(jù)挖掘外文翻譯(中文)--一種用于零售銀行客戶流失分析的數(shù)據(jù)挖掘方法_第1頁(yè)
已閱讀1頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  Applied intelligence, 2005, 22,47-60. </p><p><b>  中文10700字</b></p><p>  一種用于零售銀行客戶流失分析的數(shù)據(jù)挖掘方法</p><p><b>  作者:胡曉華</b></p><p>  作者單位:美

2、國(guó)費(fèi)城卓克索大學(xué)信息科學(xué)學(xué)院</p><p>  摘 要 在金融服務(wù)業(yè)中解除管制,和新技術(shù)的廣泛運(yùn)用在金融市場(chǎng)上增加了競(jìng)爭(zhēng)優(yōu)勢(shì)。每一個(gè)金融服務(wù)公司的經(jīng)營(yíng)策略的關(guān)鍵是保留現(xiàn)有客戶,和挖掘新的潛在客戶。數(shù)據(jù)挖掘技術(shù)在這些方面發(fā)揮了重要的作用。在本文中,我們采用數(shù)據(jù)挖掘方法對(duì)零售銀行客戶流失進(jìn)行分析。我們討論了具有挑戰(zhàn)性的問(wèn)題,如傾向性數(shù)據(jù)、數(shù)據(jù)按時(shí)序展開(kāi)、字段遺漏檢測(cè)等,以及一項(xiàng)零售銀行損失分析數(shù)據(jù)挖掘任務(wù)的步驟

3、。我們使用枚舉法作為損失分析的適當(dāng)方法,用枚舉法比較了決策樹(shù),選擇條件下的貝葉斯網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)和上述分類(lèi)的集成的數(shù)據(jù)挖掘模型。一些有趣的調(diào)查結(jié)果被報(bào)道。而我們的研究結(jié)果表明,數(shù)據(jù)挖掘技術(shù)在零售業(yè)銀行中的有效性。</p><p>  關(guān)鍵詞 數(shù)據(jù)挖掘 分類(lèi)方法 損失分析</p><p><b>  簡(jiǎn)介</b></p><p>  在金融服務(wù)業(yè)

4、中解除管制,和新技術(shù)的廣泛運(yùn)用在金融市場(chǎng)上增加了競(jìng)爭(zhēng)優(yōu)勢(shì)。每一個(gè)金融服務(wù)公司經(jīng)營(yíng)策略的關(guān)鍵是保留現(xiàn)有客戶,和挖掘新的潛在客戶。數(shù)據(jù)挖掘技術(shù)在這些方面中發(fā)揮了重要的作用。數(shù)據(jù)挖掘是一個(gè)結(jié)合商業(yè)知識(shí),機(jī)器學(xué)習(xí)方法,工具和大量相關(guān)的準(zhǔn)確信息的反復(fù)過(guò)程,使隱藏在組織中的企業(yè)數(shù)據(jù)的非直觀見(jiàn)解被發(fā)現(xiàn)。這個(gè)技術(shù)可以改善現(xiàn)有的進(jìn)程,發(fā)現(xiàn)趨勢(shì)和幫助制定公司的客戶和員工的關(guān)系政策。在金融領(lǐng)域,數(shù)據(jù)挖掘技術(shù)已成功地被應(yīng)用。</p><p&

5、gt;  ?誰(shuí)可能成為下兩個(gè)月的流失客戶?</p><p>  ?誰(shuí)可能變成你的盈利客戶?</p><p>  ?你的盈利客戶經(jīng)濟(jì)行為是什么?</p><p>  ?什么產(chǎn)品的不同部分可能被購(gòu)買(mǎi)?</p><p>  ?不同的群體的價(jià)值觀是什么?</p><p>  ?不同部分的特征是什么和每個(gè)部分在個(gè)人利益中扮演的角

6、色是什么?</p><p>  在本論文中,我們關(guān)注的是應(yīng)用數(shù)據(jù)挖掘技術(shù)來(lái)幫助分析零售銀行損失分析。損失分析的目的是確定一組高流失率的客戶,然后公司可以控制市場(chǎng)活動(dòng)來(lái)改變所需方向的行為(改變他們的行為,降低流失率)。</p><p>  在直接營(yíng)銷(xiāo)活動(dòng)的數(shù)據(jù)挖掘中,每一個(gè)目標(biāo)客戶是無(wú)利可圖的,無(wú)效的,這個(gè)概念很容易被理解。因?yàn)橛邢薜臓I(yíng)銷(xiāo)預(yù)算和員工,所以數(shù)據(jù)挖掘模型過(guò)去常常被用來(lái)排列客戶組成

7、,且只有一定比例的客戶通過(guò)郵件,電話等聯(lián)系。如果建立更完善的數(shù)據(jù)挖掘模型和定義正確的目標(biāo),該公司便就能夠接觸潛在的高密度客戶流失的集中群體。下面描述了銀行流失分析的數(shù)據(jù)挖掘過(guò)程的步驟:</p><p>  1.商業(yè)問(wèn)題的定義:在客戶保留的領(lǐng)域中商業(yè)問(wèn)題的明確說(shuō)明</p><p>  2.數(shù)據(jù)審查和初步篩選</p><p>  3.在現(xiàn)有的數(shù)據(jù)方面問(wèn)題的說(shuō)明</

8、p><p>  4.數(shù)據(jù)集成,編目和格式化</p><p>  5.數(shù)據(jù)預(yù)處理:(a)數(shù)據(jù)清洗,數(shù)據(jù)展開(kāi)和定義時(shí)間敏感度的變量定義,定義目標(biāo)變量,(b)統(tǒng)計(jì)分析,(C)敏感度分析,(d)漏泄檢測(cè),(e)特征選擇</p><p>  6.通過(guò)分類(lèi)模型建立數(shù)據(jù)模型:決策樹(shù),神經(jīng)網(wǎng)絡(luò),促進(jìn)樸素貝葉斯網(wǎng)絡(luò),自然選擇條件下的貝葉斯網(wǎng)絡(luò),分類(lèi)器的集成</p><

9、p>  7.結(jié)果表達(dá)與分析:用數(shù)據(jù)挖掘模型來(lái)預(yù)測(cè)當(dāng)前用戶中可能的流失客戶</p><p>  8.調(diào)度展示:定義可能成為流失客戶的對(duì)象(稱為正式)</p><p>  這篇論文描述了一種用來(lái)分析零售銀行客戶流失的數(shù)據(jù)挖掘方法。目的是確認(rèn)規(guī)則、趨向、模式和能夠被作為潛在的流失指標(biāo)的群體和提前確定潛在流失客戶,因此銀行能夠采取積極主動(dòng)地預(yù)防措施來(lái)降低流失指數(shù)。本論文安排如下:首先我們?cè)诘?/p>

10、二部分定義客戶保留區(qū)域上的問(wèn)題和商業(yè)問(wèn)題的說(shuō)明,接著我們?cè)诘谌糠钟懻摂?shù)據(jù)選擇、數(shù)據(jù)審查和初步篩選,然后是數(shù)據(jù)集成、數(shù)據(jù)目錄的編輯和數(shù)據(jù)格式化、數(shù)據(jù)演變和時(shí)間敏感度變量的定義。接著我們討論敏感度分析、遺漏偵測(cè)和特征選擇。在第四部分我們通過(guò)決策樹(shù),神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)和自然選擇條件下的貝葉斯網(wǎng)絡(luò)和上述四種分類(lèi)器的集成來(lái)描述數(shù)據(jù)模型。在第五部分,我們主要討論調(diào)查結(jié)果、字段檢測(cè)結(jié)果。最后,我們?cè)诘诹糠值贸鼋Y(jié)論。</p><

11、;p><b>  2. 商業(yè)問(wèn)題</b></p><p>  2.1. 主要問(wèn)題的解釋</p><p>  我們的客戶是世界十大零售銀行之一,這些銀行根據(jù)不同的客戶提供各種種類(lèi)的金融產(chǎn)品。本論文中討論的產(chǎn)品屬于一項(xiàng)特定的貸款服務(wù)。目前超過(guò)750,000的客戶正在使用這項(xiàng)仍有150億美元的資金未解決的產(chǎn)品,這項(xiàng)產(chǎn)品已經(jīng)有了顯著的的高流失率。由于高流失率,稅收受到了

12、挑戰(zhàn):每個(gè)月呼叫中心會(huì)受到超過(guò)4500個(gè)要求注銷(xiāo)銀行賬戶的電話;另外接近1200條記錄屬于緩慢流失(連續(xù)超過(guò)12個(gè)月以上處于不平衡狀態(tài)),同時(shí)非法賬戶對(duì)于產(chǎn)品收益率構(gòu)成了一系列的挑戰(zhàn),由于指數(shù)、貸款限額以及傭金的影響,每月零售銀行的流失指數(shù)總計(jì)達(dá)到5700。另外,很多客戶只在優(yōu)惠價(jià)時(shí)才使用該產(chǎn)品,過(guò)期后便作廢。每一個(gè)賬戶都有客戶管理項(xiàng)目成本和客戶獲得成本,郵遞需要在每個(gè)客戶上花1美元,電話營(yíng)銷(xiāo)需要在每個(gè)客戶上花5美元。而刺激成本(比如降

13、低利率來(lái)留住客戶)能夠被考慮,主要取決于你提供了什么樣的產(chǎn)品。我們的客戶沒(méi)有主動(dòng)性的或者反應(yīng)性。在大多數(shù)情況下,盡管有人認(rèn)為價(jià)格下降并不是僅有的或者最好的策略,但是這還是一種主要的方法。我們以上描述的情況已經(jīng)使得我們客戶的商務(wù)和技術(shù)部門(mén)的管理者們開(kāi)始審視采取相關(guān)知識(shí)為基礎(chǔ)通過(guò)一系列有效的客戶分類(lèi)、客戶概</p><p><b>  2.2. 問(wèn)題定義</b></p><p

14、>  在這個(gè)部分描述了在基于現(xiàn)有的數(shù)據(jù),時(shí)間周期以及目標(biāo)字段如何理解和定義問(wèn)題的步驟。在此步驟上,所有數(shù)據(jù)挖掘中,最冗長(zhǎng)和最費(fèi)力的部分是數(shù)據(jù)選擇、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)結(jié)構(gòu)[1, 6, 7]。在生產(chǎn)線上有五種流失因素:</p><p>  ?緩慢流失客戶:指到凍結(jié)帳戶時(shí)才還款的客戶。自主性流失因素有多種行為表現(xiàn)而在此處可以被全面地理解。</p><p>  ?快速流失客戶:指快速還款后立即通

15、過(guò)電話或?qū)懶配N(xiāo)戶的客戶。</p><p>  ?交叉銷(xiāo)售:指的是可能購(gòu)買(mǎi)現(xiàn)有貸款客戶提供的諸如人生保險(xiǎn)之類(lèi)的替代產(chǎn)品的客戶。不斷增加的聯(lián)系被認(rèn)為是減少客戶流失的一種手段。</p><p>  ?高風(fēng)險(xiǎn):可能變成高風(fēng)險(xiǎn)的客戶。</p><p>  ?客戶挖掘:可能放棄我們的產(chǎn)品而選擇我們競(jìng)爭(zhēng)對(duì)手產(chǎn)品的客戶。這種情況不是單一的個(gè)例:一個(gè)客戶能夠在貸款周期中顯示這類(lèi)情況的

16、子集。此時(shí),他/她能夠通過(guò)有效的被刺激手段和策略影響來(lái)改變他們的行為。鑒于此,這些客戶的態(tài)度可以被量化表現(xiàn)在狀態(tài)圖表1上。</p><p>  表1表達(dá)了客戶管理的優(yōu)勢(shì)以及預(yù)測(cè)問(wèn)題。1.確定緩慢客戶流失。2.交叉銷(xiāo)售產(chǎn)品。3.確定高風(fēng)險(xiǎn)客戶。4.確定客戶可能被競(jìng)爭(zhēng)對(duì)手挖掘。</p><p>  如上圖中所示,一個(gè)客戶通過(guò)他的行為,能夠按組別屬性在每個(gè)狀態(tài)被定義時(shí),在活躍和流失之間活動(dòng)。基礎(chǔ)

17、上圖,我們決定聚焦到兩個(gè)流失問(wèn)題上:</p><p> ?。?)利用過(guò)去連續(xù)4個(gè)月所開(kāi)的賬戶為數(shù)據(jù),在提前60天的情況下,預(yù)測(cè)特定客戶是否會(huì)自主通過(guò)電話或?qū)懶抛N(xiāo)她/他的賬戶。</p><p> ?。?)利用過(guò)去連續(xù)4個(gè)月所開(kāi)的賬戶為數(shù)據(jù),在提前60天情況下,預(yù)測(cè)一個(gè)特定客戶是否可能會(huì)將他的賬戶轉(zhuǎn)移到競(jìng)爭(zhēng)對(duì)手手上。而賬戶不一定仍保持開(kāi)通。模型的發(fā)展和隨后的活動(dòng)焦點(diǎn)將會(huì)聚集到提高產(chǎn)品線業(yè)務(wù)及

18、改善該項(xiàng)產(chǎn)品客戶維持度和客戶活躍度的問(wèn)題上:</p><p>  問(wèn)題1:保留現(xiàn)有客戶</p><p>  為了劃分不同客戶層這個(gè)問(wèn)題需要如下規(guī)則來(lái)制定模型:</p><p>  ?在連續(xù)30-60天的基礎(chǔ)上建立一個(gè)能夠預(yù)測(cè)損失的客戶模型。</p><p>  ?識(shí)別出最具盈利可能性/最值得擁有的客戶群體的特征以便開(kāi)發(fā)一種好的策略使他們對(duì)我們

19、的持續(xù)支持得到保證以及獲得更多擁有同樣優(yōu)質(zhì)客戶特征的客戶。</p><p>  問(wèn)題2:客戶激勵(lì)政策</p><p>  區(qū)分出從潛在客戶和非營(yíng)利性客戶變成盈利客戶的群體的特征。一旦找到了這些因素,我們能借助這些因素來(lái)發(fā)展風(fēng)險(xiǎn)、維護(hù)和機(jī)會(huì)等各項(xiàng)策略來(lái)促成客戶可盈利化的成功轉(zhuǎn)變。</p><p><b>  數(shù)據(jù)選擇</b></p>

20、<p>  像所有的數(shù)據(jù)挖掘活動(dòng)一樣,正確的數(shù)量和超過(guò)重要時(shí)間段里的相關(guān)數(shù)據(jù)的區(qū)分對(duì)于模型的進(jìn)展是很關(guān)鍵的[1, 8, 9]。鑒于此,且與這個(gè)領(lǐng)域的專(zhuān)家合作,我們采集了經(jīng)過(guò)識(shí)別和初步審查后所需的數(shù)據(jù)源。表1概括了確定的數(shù)據(jù)源和它們的預(yù)期功能。</p><p>  表 一 :描述確定的(潛在的)相關(guān)數(shù)據(jù)來(lái)源。圖表描述了數(shù)據(jù)挖掘來(lái)源以及它們的概述以及相關(guān)的流失模型。</p><p>

21、;  DDS數(shù)據(jù)倉(cāng)庫(kù):信用卡數(shù)據(jù)倉(cāng)庫(kù)包含約200個(gè)產(chǎn)品的具體字段。起源于不同的點(diǎn)(寫(xiě)入數(shù)據(jù),外部數(shù)據(jù)庫(kù),分?jǐn)?shù)等),數(shù)據(jù)根據(jù)一系列可操作的規(guī)則(即在不變化字段的情況下減小了字段的大?。┻M(jìn)行壓縮。這個(gè)倉(cāng)庫(kù)包含6個(gè)月的數(shù)據(jù),且在每月的基礎(chǔ)上交替循環(huán)。在當(dāng)前的情況下,這個(gè)周期包含4個(gè)月的歷史信息。信用卡數(shù)據(jù)倉(cāng)庫(kù)是保留數(shù)據(jù)建模問(wèn)題的主要來(lái)源。</p><p>  第三方數(shù)據(jù):一組相關(guān)的人口和信用局的信息。數(shù)據(jù)可從外部供應(yīng)商

22、得到,例如,丹麥公司。連接DDS數(shù)據(jù)庫(kù)的數(shù)據(jù)提供額外的預(yù)測(cè)數(shù)據(jù)。</p><p>  分割文件:基于客戶的分割的方案設(shè)立賬戶相關(guān)的分割值,結(jié)合風(fēng)險(xiǎn),盈利和外部潛在能力。該段數(shù)據(jù)結(jié)合DDS數(shù)據(jù)提取與模型結(jié)果覆蓋。</p><p>  支付數(shù)據(jù)庫(kù):數(shù)據(jù)庫(kù)存儲(chǔ)了所有的進(jìn)程。數(shù)據(jù)庫(kù)能夠分類(lèi)檢查。這樣的數(shù)據(jù)庫(kù)允許集允許日期的檢測(cè),平衡和開(kāi)戶者和用來(lái)檢查識(shí)別客戶挖掘賬戶。</p><

23、;p>  3.1數(shù)據(jù)預(yù)處理目標(biāo)</p><p>  數(shù)據(jù)預(yù)處理包括一系列必要活動(dòng)來(lái)創(chuàng)建一個(gè)壓縮文件,如下所示:</p><p>  ?反映數(shù)據(jù)隨時(shí)間而變化。</p><p>  ?識(shí)別和移除統(tǒng)計(jì)中不重要的字段。</p><p>  ?定義與介紹“目標(biāo)”字段。</p><p>  ?允許第二領(lǐng)域的預(yù)處理和統(tǒng)計(jì)分析,

24、這個(gè)將通過(guò)三個(gè)步驟來(lái)完成,在下面的章節(jié)詳細(xì)介紹。</p><p>  ?通過(guò)時(shí)間順序來(lái)展開(kāi)。</p><p><b>  ?目標(biāo)值的定義。</b></p><p>  ?第一階段的統(tǒng)計(jì)分析。</p><p>  3.1.1. 確定數(shù)據(jù)周期</p><p>  在給定有效數(shù)據(jù)以及時(shí)間周期后,我們決定

25、選取一項(xiàng)狀態(tài)為“開(kāi)通”的賬戶的記錄的子集開(kāi)始數(shù)據(jù)選擇,,例子是選取周期在12/2001–3/2002間的合法客戶。另外為了對(duì)比,我們還獲取在11/2001之后狀態(tài)是“保密”或者是“注銷(xiāo)”的賬戶數(shù)據(jù)。這將使得我們能夠檢測(cè)出流失客戶的特征以及能夠形成自愿型流失客戶?;谶@個(gè)考慮,45814條隨機(jī)記錄被選擇,每一項(xiàng)代表一個(gè)賬戶,其中42547個(gè)是公開(kāi)的,剩下的3267個(gè)是自2001年以來(lái)是保密的。獲得的數(shù)據(jù)被放入一個(gè)臨時(shí)的表格中,連接到所有產(chǎn)

26、生的包含每個(gè)賬戶、賬戶的狀態(tài)、每月的和過(guò)去四個(gè)月的相關(guān)表格。這意味著我們能夠重新建立從2001年11月開(kāi)始的所有字段而不僅僅是2002年3月的數(shù)據(jù)。</p><p>  3.1.2. 通過(guò)時(shí)間順序展開(kāi)</p><p>  在數(shù)據(jù)源中的每個(gè)賬戶中每月都有一列。在操作中,歷史客戶數(shù)據(jù)被劃分為流失客戶和保留客戶。為了數(shù)據(jù)節(jié)省空間,每個(gè)月我們都核對(duì)先前一個(gè)月的數(shù)據(jù)。如果沒(méi)有變化,我們就不增加列,有

27、效開(kāi)始日期的值保持和最后一次修改時(shí)的數(shù)據(jù)(即新的一列被插入)保持一致。如果屬性發(fā)生了改變,一個(gè)新的有效起始日期列就會(huì)被相應(yīng)的增加。因此一些賬戶記錄會(huì)少于標(biāo)準(zhǔn)月的數(shù)量,因?yàn)橛行┰路輿](méi)有活動(dòng)被記錄下來(lái)。如,如果一個(gè)賬戶直到2001年12月都沒(méi)有變化,最后一列將會(huì)成為當(dāng)前月的一列,被用來(lái)推算當(dāng)前的這個(gè)月的結(jié)論。在理解這些的基礎(chǔ)后,創(chuàng)建客戶流失模型。</p><p>  鑒于數(shù)據(jù)文件中的數(shù)據(jù)記錄是每月每戶一列,我們需要使

28、用過(guò)去四個(gè)月的歷史數(shù)據(jù)來(lái)建立一個(gè)預(yù)測(cè)模型。為了表示數(shù)據(jù)隨時(shí)間和季節(jié)性的行為而變化,我們需把過(guò)去獨(dú)立的四個(gè)月的數(shù)據(jù)結(jié)合在一個(gè)數(shù)據(jù)文件里,而在數(shù)據(jù)文件里每個(gè)賬戶有一個(gè)包含過(guò)去四個(gè)月金融信息的列。使用的數(shù)據(jù)格式,要求隱性數(shù)據(jù)成為顯形,而時(shí)序被分為單獨(dú)的字段。為了完成這一點(diǎn),我們將變量分成靜態(tài)變量和時(shí)間敏感度的變量[1]。靜態(tài)變量不隨時(shí)間而變化。</p><p>  例子如下:賬號(hào),母姓,住址和愛(ài)好。時(shí)間敏感值每月而變化

29、且為了找到季節(jié)性/時(shí)間相關(guān)性行為保留在過(guò)去4個(gè)月的不同值。時(shí)間敏感值被分配到一個(gè)時(shí)間前綴(TO意味著最近一個(gè)月,T1意味著前二個(gè)月,T2意味著三個(gè)月前,T3意味著四個(gè)月前)。因此,例如,在2001年12月到2002年3月當(dāng)前賬戶余額反映在表二中定義。</p><p>  鑒于此,下一個(gè)任務(wù)是包含了在“干凈”的格式化文件生成額外的文件以及將它們添加到結(jié)果文件。時(shí)間序列數(shù)據(jù)顯示于表三,數(shù)據(jù)值設(shè)置從250增加到870。

30、</p><p>  表二:以四個(gè)月為周期的時(shí)間敏感度DDS數(shù)據(jù)庫(kù)。周期與命名:上個(gè)月(2002.3),TO當(dāng)前賬戶余額;一個(gè)月前(2002.2),T1當(dāng)前賬戶余額;二個(gè)月前(2002.1),T2當(dāng)前賬戶余額;三個(gè)月前(2001.12),T3當(dāng)前賬戶余額。</p><p>  表三:按時(shí)間順序展開(kāi)的數(shù)據(jù)集。</p><p>  3.1.3. 目標(biāo)值的定義</p

31、><p>  像很多真實(shí)的數(shù)據(jù)挖掘應(yīng)用程序一樣,通常在數(shù)據(jù)倉(cāng)庫(kù)中是不會(huì)直接定義數(shù)據(jù)挖掘目標(biāo)字段的,因此,定義合適的商業(yè)領(lǐng)域研究的目標(biāo)字段也是數(shù)據(jù)挖掘工作的一部分。在商業(yè)領(lǐng)域?qū)<业膸椭?,我們?cè)谝恍┐嬖诘臄?shù)據(jù)中定義數(shù)據(jù)目標(biāo)值,并籍此定義目標(biāo)變量的值,換言之,變量能夠測(cè)量流失客戶,因此定義會(huì)計(jì)賬戶中價(jià)值分析(1為客戶流失;0為保留客戶)。定義如下:</p><p>  1. 狀態(tài)代碼 (CRD S

32、T CD)</p><p>  2. 狀態(tài)更改日期 (CRD STATUS CHANGEDATE)</p><p>  3. 注銷(xiāo)原因代碼 (CRD CLS REA CD)</p><p>  公式定義為:CRD ST CD=C(注銷(xiāo));狀態(tài)更改日期在2001年12月和2002年3月31日之間;CRD CLS REA CD(注銷(xiāo)原因代碼)在[0 1 23 25 26

33、 28 29 30 35 36 40 41 42 80 81 82 83 84 97 98 31 32 33 34]之間。</p><p>  自主客戶流失的原因代碼是(客戶需求):“0 1 23 25 26 28 29 30 35 36 40 41 42”,自主客戶流失的原因代碼(客戶需求)的相關(guān)價(jià)格是:“31 32 33 34”。根據(jù)定義,在四個(gè)月內(nèi)所有的客戶的平均折損率為2.2%。</p>&

34、lt;p>  3.1.4. 第一步驟:數(shù)據(jù)統(tǒng)計(jì)分析</p><p>  在時(shí)序數(shù)據(jù)集中的870個(gè)字段中,一個(gè)重要的部分是常量、空字段。在早期階段中,把他們過(guò)濾掉能大大減少數(shù)據(jù)挖掘的時(shí)間以及提高模型準(zhǔn)確性。據(jù)統(tǒng)計(jì)分析,序列中的第一步,是為了獲得對(duì)數(shù)據(jù)質(zhì)量的初步理解:未知字段的數(shù)量,相關(guān)的頻率,早期的指示,平均值和目標(biāo)數(shù)據(jù)的分布。在最初的字段分辨中,一個(gè)單值在所有記錄中出現(xiàn)超過(guò)99.95%或者為空將被認(rèn)為是無(wú)價(jià)

35、值的,然后從屬性集中移除字段。這些字段將在數(shù)據(jù)和源數(shù)據(jù)文件中被移除,來(lái)確保從建模步驟中被移除,因此,減少了計(jì)算的時(shí)間。</p><p>  3.2. 數(shù)據(jù)預(yù)模型化</p><p>  數(shù)據(jù)預(yù)模型化階段是下一步模型文件生成的關(guān)鍵步驟,這一步有三個(gè)主要階段構(gòu)成:</p><p> ?。?)對(duì)低關(guān)聯(lián)度過(guò)濾字段的敏感度分析以此來(lái)確定字段目標(biāo)和檢測(cè)數(shù)據(jù)是否遺漏。</p&

36、gt;<p> ?。?)字段簡(jiǎn)練以此來(lái)增加高關(guān)聯(lián)度字段成為更緊湊的文件。</p><p> ?。?)所有平衡和不平衡文件的生成設(shè)置了對(duì)測(cè)試的整枝、測(cè)試、對(duì)于結(jié)果的迭代證明以及模型的精煉。</p><p>  3.2.1. 字段敏感度分析和字段修減</p><p>  字段敏感度分析用來(lái)測(cè)試每一個(gè)屬性對(duì)于模型處理的“促進(jìn)作用”。我們使用一個(gè)粗略集的字段選

37、擇算法[4]。我們的算法為每一個(gè)字段生成一個(gè)價(jià)值,考慮到字段之間的聯(lián)系/相關(guān)性,從全部字段里選出字段的最小子集。而從另一方面來(lái)說(shuō),如果一個(gè)字段的值過(guò)高,它將被認(rèn)為是潛在的遺漏[10]。遺漏是目標(biāo)“遺漏”信息的字段。例如,一個(gè)有賬戶注銷(xiāo)價(jià)值的字段會(huì)使客戶流失信息遺漏,也會(huì)混亂模型效果。我們發(fā)現(xiàn)當(dāng)一些流失立即被發(fā)現(xiàn)時(shí),很多時(shí)候他們被包含在與目標(biāo)關(guān)系不明顯的商業(yè)規(guī)則里。因此,確立一個(gè)字段是否是遺漏點(diǎn)的最好方法是討論相似情況,對(duì)數(shù)據(jù)圖表和對(duì)商業(yè)

38、問(wèn)題的調(diào)查。一些我們從數(shù)據(jù)集中區(qū)分出來(lái)的遺漏的字段是破產(chǎn)數(shù)值、風(fēng)險(xiǎn)等級(jí)、破產(chǎn)理由代碼、使用卡的時(shí)間次數(shù)、賣(mài)的次數(shù)、關(guān)閉賬戶里原因代碼等等。在很多循環(huán)中,字段名和字段值是不會(huì)經(jīng)常直接表現(xiàn)出他們功能,而是需要解釋。從另一方面來(lái)說(shuō),預(yù)測(cè)失誤的字段最后組成了模型的潛力預(yù)測(cè)。因此,字段的值是恒定的(即標(biāo)準(zhǔn)零誤差),而優(yōu)點(diǎn)的值就是零。為了提高數(shù)據(jù)發(fā)掘的速度和產(chǎn)生更完美的模型,這些字段將被移除。在流失字段分析后,我們將對(duì)數(shù)據(jù)集運(yùn)用到新的特征選擇算法[

39、4],來(lái)鑒定出與目標(biāo)特征字段關(guān)聯(lián)度</p><p>  3.2.2. 產(chǎn)生文件集</p><p>  我們的樣本文件中包含45814個(gè)記錄,而每月的流失指數(shù)是0.55%,過(guò)去四個(gè)月累積的流失指數(shù)大概是在2.2%。為了在這樣一個(gè)高度不對(duì)稱的數(shù)據(jù)集中建立一個(gè)好的模型,我們需要來(lái)建立一個(gè)更加平衡的流失客戶和保留客戶在數(shù)據(jù)集中的描述。理由是在原始數(shù)據(jù)集中,我們有相當(dāng)高的保留客戶比例和極少的流失客戶

40、比例(97.8% VS 2.2%),而一個(gè)學(xué)術(shù)模型能夠通過(guò)經(jīng)常預(yù)測(cè)每個(gè)客戶是否是未流失客戶來(lái)達(dá)到較高的準(zhǔn)確性。顯然,這樣一個(gè)高準(zhǔn)確率的模型對(duì)流失分析是沒(méi)什么用的[10, 11]。我們建立了一個(gè)包含938個(gè)流失客戶的隨機(jī)樣本文件,然后我們?cè)谄渲性黾恿俗銐蚨嗟奈戳魇Э蛻魜?lái)使得我們的數(shù)據(jù)集達(dá)到兩方50%-50%(客戶流失VS保留客戶)的比例,然后文件將被劃分為平衡的文件、行列文件和測(cè)試文件就像原始文件一樣(換言之,是不平衡文件),用來(lái)說(shuō)明注釋

41、文件。平衡的一系列文件中50%的記錄包含目標(biāo)值,換言之VA ACCTS=1。而平衡測(cè)試、原始測(cè)試、原始旁釋文件組成了大約每個(gè)目標(biāo)的1/6。在前面3.1.3的定義中,原始文件的目標(biāo)表現(xiàn)出所有被審查文件的2.2%。這些文件被數(shù)據(jù)挖掘用來(lái)下一步的統(tǒng)計(jì)分析,數(shù)據(jù)挖掘和聚類(lèi)分析工</p><p>  4. 數(shù)據(jù)挖掘模型建立步驟</p><p>  4.1. 評(píng)價(jià)準(zhǔn)則:枚舉法</p>&

42、lt;p>  就像 [4,5,11,12]中所說(shuō)的那樣,預(yù)測(cè)精度被用來(lái)評(píng)估挖掘算法,這不是一個(gè)合適的評(píng)價(jià)準(zhǔn)則,例如流失分析。主要的理由如下:</p><p>  1.分類(lèi)錯(cuò)誤(錯(cuò)誤的正面和錯(cuò)誤的負(fù)面)被平等對(duì)待的,但是在流失分析時(shí)錯(cuò)誤的正面和錯(cuò)誤的負(fù)面因素會(huì)產(chǎn)生不同的影響和后果,因此他們需要被區(qū)別對(duì)待。</p><p>  2.準(zhǔn)確度被用來(lái)衡量所學(xué)算法在數(shù)據(jù)集上的表現(xiàn),流失分析的目的

43、不是預(yù)測(cè)每個(gè)客戶的行為,而是找到流失幾率很大的客戶的一個(gè)好的子集。流失分析是高度不平衡而且高噪音的,因此很難建立一個(gè)準(zhǔn)確的模型。</p><p>  在流失分析中,我們的目的是使用歷史信息來(lái)建立一個(gè)有效的數(shù)據(jù)挖掘模型,然后用使用數(shù)據(jù)挖掘模型來(lái)預(yù)測(cè)可能性最大的流失客戶,接下來(lái)采取預(yù)先措施來(lái)防止客戶流失。因此,學(xué)術(shù)算法需要被劃分入一個(gè)可信賴的度量,如:一個(gè)可能的評(píng)估因素和確定的因素(也被稱為流失分析的分值)。分值能使

44、得我們?yōu)橥茝V中的市場(chǎng)和目標(biāo)市場(chǎng)的客戶來(lái)排序。替代預(yù)測(cè)準(zhǔn)確率的枚舉法可被用來(lái)作為評(píng)價(jià)標(biāo)準(zhǔn)。像[9]中所指出的那樣,如果數(shù)據(jù)挖掘模型足夠好,我們應(yīng)該在列表頂端找到一個(gè)高集中度的流失客戶群體,這個(gè)更高的客戶流失比例可以用枚舉法衡量,來(lái)查看基于這個(gè)模型的目標(biāo)比隨機(jī)的有多好。總的來(lái)說(shuō),枚舉法能夠通過(guò)累積性的目標(biāo)完成到p%來(lái)被計(jì)算。如,分類(lèi)表中前10%的數(shù)據(jù)可能包含了35%的客戶流失,這個(gè)模型枚舉了35/10=3.5的例子。一個(gè)枚舉反映了測(cè)試中在測(cè)

45、試樣本被分級(jí)后測(cè)試響應(yīng)者的重新劃分。學(xué)術(shù)算法將所有從最有可能回應(yīng)到最不可能回應(yīng)的測(cè)試樣本排位后,我們把已經(jīng)排序的列表分為一些十分位數(shù)(前10%在經(jīng)驗(yàn)中是最精良的部分:我們?cè)诿總€(gè)百分比中用枚舉法測(cè)試),接著我們觀察最初回應(yīng)者在這些十分位數(shù)里如何分布。枚舉法在模型得分排序表的基礎(chǔ)上衡量目標(biāo)子集已經(jīng)</p><p>  4.2. 基于不同算法的數(shù)據(jù)挖掘模型</p><p>  我們對(duì)于最大字段模

46、型感興趣。在我們的分析中,一個(gè)好的模型對(duì)產(chǎn)生客戶流失的模型列表的頂端那些可能成為流失客戶的重點(diǎn)關(guān)注。我們需要使用的算法是為了排列測(cè)試樣而產(chǎn)生數(shù)值。算法,例如:自然條件下的貝葉斯,決策樹(shù),神經(jīng)網(wǎng)絡(luò)來(lái)滿足我們的需求。我們需要使用四種不同的數(shù)據(jù)挖掘算法來(lái)進(jìn)行分析,并對(duì)上述4種算法的分類(lèi)進(jìn)行集成[4]:</p><p>  1.促進(jìn)樸素貝葉斯網(wǎng)絡(luò)(BNB)</p><p>  2.神經(jīng)網(wǎng)絡(luò)(人工神

47、經(jīng)網(wǎng)絡(luò)預(yù)測(cè):一種商業(yè)性神經(jīng)網(wǎng)絡(luò),來(lái)自人工神經(jīng)網(wǎng)絡(luò)公司)</p><p><b>  3.決策樹(shù)</b></p><p>  4.自然選擇條件下的貝葉斯(SNB)</p><p>  5.對(duì)上訴四種分類(lèi)的集成[4]</p><p>  4.2. 1促進(jìn)自然條件下的貝葉斯網(wǎng)絡(luò)(BNB)</p><p>

48、;  樸素貝葉斯網(wǎng)絡(luò)數(shù)據(jù)庫(kù)挖掘方法結(jié)合了促進(jìn)和樸素貝葉斯的學(xué)習(xí)[6,13-15]。促進(jìn)是一種連續(xù)兩個(gè)階段的一般算法,這種算法改進(jìn)了兩類(lèi)學(xué)習(xí)算法的準(zhǔn)確性。在第一階段中,所有的測(cè)試樣本權(quán)重相同且兩類(lèi)學(xué)習(xí)算法用來(lái)獲得一個(gè)分類(lèi)器。在第二階段,第一分類(lèi)器中錯(cuò)誤分類(lèi)的測(cè)試樣本變得權(quán)重不同。在第三階段中,第二分類(lèi)器中的錯(cuò)誤分類(lèi)的樣本也變得權(quán)重不同,第三分類(lèi)器形成。促進(jìn)過(guò)程可以重復(fù)所需的步驟。應(yīng)用于樸素貝葉斯的學(xué)習(xí),通常進(jìn)行5-20個(gè)步驟是有益的,這里

49、所描述的結(jié)果只使用了五個(gè)步驟。</p><p>  像其他軟件一樣,樸素貝葉斯網(wǎng)絡(luò)確定了一個(gè)目標(biāo)樣本的哪些屬性石最具預(yù)測(cè)價(jià)值的。不像大多數(shù)其它軟件,樸素貝葉斯的值(或數(shù)值范圍)的屬性石最預(yù)測(cè)性的。例如,樸素貝葉斯自動(dòng)識(shí)別T1的CRD賬目格式化的屬性值2是一個(gè)重要預(yù)測(cè)。根據(jù)所提供的資料,此值2表示“賬戶一直活躍但目前不活躍”。也不想其他軟件,樸素貝葉斯網(wǎng)絡(luò)評(píng)估這個(gè)已經(jīng)報(bào)道的預(yù)測(cè)的統(tǒng)計(jì)意義。一個(gè)預(yù)測(cè)的意義取決于它的字

50、段(即預(yù)期效益)和它的覆蓋率(即一些應(yīng)用例子)。樸素貝葉斯網(wǎng)絡(luò)因?yàn)榈馗采w率和低字段,所以可能被認(rèn)為是虛假的預(yù)測(cè)。</p><p>  樸素貝葉斯網(wǎng)絡(luò)的字段值在圖解2中顯示。</p><p>  Figure 2. Boosted Na¨?ve Bayesian model lift chart.</p><p>  圖解2:枚舉柱狀圖:促進(jìn)貝葉斯模型的圖解

51、。橫軸為賬戶百分比,縱軸為流失客戶數(shù)量。</p><p><b>  結(jié)果如上圖所示。</b></p><p><b>  利益的可變因素</b></p><p>  自然條件下的貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)14個(gè)最重要的正向預(yù)測(cè)目標(biāo)類(lèi)。前4個(gè)屬性將在下面按次序被展開(kāi)。每一個(gè)預(yù)測(cè)的屬性都有確定值(或數(shù)值范圍)。值“Z”在原始數(shù)據(jù)集意味著

52、零?!坝?jì)數(shù)”是與目標(biāo)相對(duì)的非目標(biāo)值的屬性?!皕值”是一種重要的統(tǒng)計(jì)措施。</p><p>  ?屬性84 T0 經(jīng)常項(xiàng)目差額{經(jīng)常項(xiàng)目差額帶來(lái)數(shù)百美分}數(shù)值在 1840.52和1277.62之間:計(jì)數(shù)209 / 86,比值2.43418,z數(shù)為: 7.17529。</p><p>  ?屬性119 T1_CRD帳戶格式化{帳戶記錄格式化,值是:1 =不活躍的帳戶,2 =賬戶一直活躍但目前不

53、活躍,3 =當(dāng)前活躍帳戶,4 =拖欠帳款} 值在1.9和2.2之間,計(jì)數(shù)281/154,概率為1.82764,z數(shù)為6.10613。</p><p>  ?屬性56 T0非轉(zhuǎn)換系數(shù)的最小應(yīng)付總額Z值{這個(gè)數(shù)字相當(dāng)于在最后陳述的最低付款。這是用在與累計(jì)拖欠和周期數(shù)偏差允許時(shí)自動(dòng)調(diào)整。}計(jì)數(shù)為353 / 214,比值1.65221,z數(shù)為 5.8568。</p><p>  ?屬性40 T0非

54、轉(zhuǎn)換系數(shù)的訂貨單的平衡 {它出現(xiàn)在持卡人最新聲明中的現(xiàn)行的最后平衡中,字段沒(méi)有被調(diào)整所影響。} 值在1840.52和1277.62之間:計(jì)數(shù)189 / 98,比值1.93171,z數(shù)為 5.38532。</p><p>  4.2.2. 決策樹(shù)</p><p>  決策樹(shù)方法是一個(gè)建立規(guī)則的集合的預(yù)測(cè)模型[ 10,16,17 ]。決策樹(shù)方法的優(yōu)勢(shì)是:規(guī)則容易被理解,且有助于發(fā)現(xiàn)潛在的業(yè)務(wù)流

55、程。決策樹(shù)方法的劣勢(shì)是:決策樹(shù)模型通常不像其他模型一樣運(yùn)算。我們已經(jīng)開(kāi)發(fā)出一種決策樹(shù)專(zhuān)有的算法用來(lái)解決“枚舉”問(wèn)題[ 10 ],例如:我們要盡量減少前25%的預(yù)測(cè)數(shù)據(jù)。這是一種常見(jiàn)的問(wèn)題,例如:客戶流失和目標(biāo)郵件。決策樹(shù)的柱狀圖如圖3所示。</p><p><b>  一些規(guī)則如下:</b></p><p>  規(guī)則8:(枚舉值=5.347,1-保險(xiǎn)值=0.029)&

56、lt;/p><p>  T0 一個(gè)月重載的轉(zhuǎn)換系數(shù) " 2</p><p>  T3 客戶需求日 = A1</p><p>  ->等級(jí)1 [0.889]</p><p>  規(guī)則 12: (枚舉值= 4.102, 1-保險(xiǎn)值 = 0.162)</p><p>  T0 當(dāng)前賬目余額轉(zhuǎn)換系數(shù) "

57、407.06</p><p>  T2 日期最后結(jié)算單轉(zhuǎn)換系數(shù)" 1998.055</p><p>  T3客戶需求日 = A2</p><p>  ->等級(jí) 1 [0.859]</p><p>  規(guī)則 14: (枚舉值 = 3.927, 1-保險(xiǎn)值 = 0.318)</p><p>  T2 人工神

58、經(jīng)網(wǎng)絡(luò)電荷研制試驗(yàn)轉(zhuǎn)換系數(shù)" 1998.164</p><p>  T0 未購(gòu)買(mǎi)網(wǎng)絡(luò)的轉(zhuǎn)換系數(shù) " 0</p><p>  T0當(dāng)前賬目余額轉(zhuǎn)換系數(shù) " 407.06</p><p>  T3 客戶需求日= A1</p><p>  -> 等級(jí) 1 [0.812]</p><p> 

59、 規(guī)則9: (枚舉值 = 3.868, 1-保險(xiǎn)值 = 0.385)</p><p>  T0 當(dāng)前賬戶余額轉(zhuǎn)換系數(shù) " 407.06</p><p>  T3 自上而下抽樣控制寄存轉(zhuǎn)換系數(shù) > 606</p><p>  T3 客戶需求日= A3</p><p>  T3 是否使用計(jì)算機(jī)會(huì)計(jì)信息處理轉(zhuǎn)換系數(shù) 3 > 9

60、260</p><p>  ->等級(jí) 1 [0.889]</p><p>  Figure 3. Decision tree model lift chart</p><p>  圖解3:決策樹(shù)模型柱狀圖。紅色為:決策樹(shù);白色為:沒(méi)有模型。橫軸為賬戶百分比,縱軸為流失客戶數(shù)量。</p><p><b>  上圖為決策樹(shù)結(jié)果。&

61、lt;/b></p><p>  4.2.3. 神經(jīng)網(wǎng)絡(luò)</p><p>  神經(jīng)網(wǎng)絡(luò)對(duì)于模型建立來(lái)說(shuō)是一種完善的建模方法[7,14,18]。這種方法的優(yōu)勢(shì)是:神經(jīng)網(wǎng)絡(luò)模型可能成為最精確的預(yù)測(cè)模型。神經(jīng)網(wǎng)絡(luò)模型的劣勢(shì)是:它的輸出可能很難被理解。為了我們的調(diào)查,我們使用了一個(gè)商業(yè)軟件包(人工神經(jīng)網(wǎng)絡(luò)軟件):</p><p>  ? 對(duì)于字段選擇適當(dāng)?shù)妮斎朕D(zhuǎn)移功能

62、</p><p>  ?選擇變量自己的數(shù)據(jù)模型</p><p>  ? 建立“有建設(shè)性”的神經(jīng)網(wǎng)絡(luò)模型</p><p>  圖解4中枚舉了神經(jīng)網(wǎng)絡(luò)柱狀圖。</p><p>  Figure 4. Neural net model lift chart.</p><p>  圖解四:神經(jīng)網(wǎng)絡(luò)模型柱狀圖 。圖示為每個(gè)百分比

63、賬戶中,客戶流失的數(shù)量。</p><p><b>  結(jié)果如上圖所示。</b></p><p>  4.2.4. 自然選擇下的樸素貝葉斯網(wǎng)絡(luò)</p><p>  樸素貝葉斯分類(lèi)器是一種概率預(yù)測(cè)模型,假設(shè)所有的屬性都是有條件的相互獨(dú)立的目標(biāo)變量[19],即在每個(gè)分類(lèi)器中的屬性是沒(méi)有關(guān)系的。樸素貝葉斯分類(lèi)器是簡(jiǎn)單的,內(nèi)在的強(qiáng)大的噪音,并能很好地進(jìn)行

64、擴(kuò)展功能,包括許多不相關(guān)的功能。此外,盡管它的簡(jiǎn)單性和在每個(gè)獨(dú)立分類(lèi)器的屬性有著強(qiáng)大的假設(shè)性,它已被證明在許多自然領(lǐng)域中,能夠得到高準(zhǔn)確性。自然條件下的樸素貝葉斯分類(lèi)器是一種擴(kuò)展的樸素貝葉斯分類(lèi)器的設(shè)計(jì),有更好的高度相關(guān)(冗余)功能性。直覺(jué)是高度相關(guān)的功能,如果不選擇,分類(lèi)應(yīng)該有更好的表現(xiàn)其特征獨(dú)立性假設(shè)。屬性中選擇一個(gè)空集的屬性開(kāi)始,然后逐步增加,單個(gè)屬性(由未選擇的屬性的組)的屬性,該屬性最提高所得的分類(lèi)器的精確度上的測(cè)試集。屬性中

65、選擇,直到添加任何其他屬性的查詢結(jié)果中的分類(lèi)器的精確度下降。自然選擇條件下的樸素貝葉斯網(wǎng)絡(luò)如圖解5所示。</p><p>  Figure 5. Selective Na¨?ve Bayesian network model lift chart.</p><p>  圖解5:選擇貝葉斯網(wǎng)絡(luò)模型的柱狀圖。</p><p><b>  結(jié)果如上圖所

66、示。</b></p><p>  4.2.5. 一種混合方法: 一種分類(lèi)器集成方法</p><p>  一種分類(lèi)器的集成是生成一組分類(lèi)器而不是新項(xiàng)目分類(lèi)的一種分類(lèi)器,希望多種分類(lèi)器的結(jié)合從而得到更精確的值[ 4,15,20,21 ]。分類(lèi)器的集成已被證明是提高分類(lèi)精度的一個(gè)非常有效的方法,因?yàn)閭€(gè)體分類(lèi)器所犯的不相關(guān)的錯(cuò)誤能夠通過(guò)投票從而被刪除。一種分類(lèi)器,利用分類(lèi)規(guī)則中一組最小

67、分類(lèi)來(lái)區(qū)分未來(lái)的例子,可能會(huì)導(dǎo)致錯(cuò)誤。分類(lèi)器的集成是一系列的分類(lèi)器,這些分類(lèi)器在一些方面來(lái)劃分新樣本。為構(gòu)建分類(lèi)器的集成創(chuàng)建了一些方法,有些是一般的算法和有些特定的算法[ 4,8 ]。我們采用了一種混合的方法:首先,我們用自然條件下的貝葉斯網(wǎng)絡(luò)(BNB)來(lái)建立4種分類(lèi)器,人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè),決策樹(shù),自然選擇條件下的貝葉斯網(wǎng)絡(luò)(SNB),然后我們?cè)谥饕ㄟ^(guò)投票將從4個(gè)分類(lèi)集合成一個(gè)分類(lèi)器[4]。集成分類(lèi)器比任何4個(gè)個(gè)體分類(lèi)器得到更精確的字

68、段。</p><p>  上圖是集成分類(lèi)器所得到的結(jié)果。</p><p><b>  5. 數(shù)據(jù)挖掘發(fā)現(xiàn)</b></p><p>  最初的研究揭露了一系列變量之間的關(guān)系以及臨界值來(lái)進(jìn)一步的探討與分析。如下總結(jié)了重要的觀點(diǎn)和一些可能的含義:</p><p>  上表顯示,一些特定的值(或數(shù)值范圍)的屬性是來(lái)預(yù)測(cè)保留客戶和

69、/流失客戶。這些解釋增加了我們的信心,而這些屬性值將繼續(xù)在未來(lái)繼續(xù)預(yù)測(cè)。</p><p><b>  字段檢測(cè)</b></p><p>  為了檢測(cè)數(shù)據(jù)挖掘的有效性,我們的客戶采取了字段檢測(cè)。測(cè)試要顯示出兩個(gè)要點(diǎn):</p><p>  1.客戶流失率包含了集中的流失客戶。</p><p>  2.基于營(yíng)銷(xiāo)方法的數(shù)據(jù)挖掘?qū)?/p>

70、于保留目標(biāo)是有效的。</p><p>  他們對(duì)現(xiàn)有客戶的分類(lèi)方法從而生成的模型,然后將客戶流失比率再次進(jìn)行分類(lèi)。他們決定與列表中的前4%的現(xiàn)有客戶進(jìn)行聯(lián)系(大約750000名),其中有大約30000名客戶。他們把客戶隨機(jī)分為2組,每一組大約有15000名,然后對(duì)不同組的客戶采取積極主動(dòng)地行動(dòng):第一組,市場(chǎng)營(yíng)銷(xiāo)部門(mén)接觸每一個(gè)客戶,并提供了一些優(yōu)惠措施來(lái)鼓勵(lì)客戶留在公司;而第二組,沒(méi)有采取任何聯(lián)系。經(jīng)過(guò)2個(gè)月后,他

71、們檢查列表然后發(fā)現(xiàn),在第一組中,流失率非常低(0.12%),而在第二組中,流失率非常高,幾乎是5.6%,在兩個(gè)月累積平均流失率為1.1%,因此獲得了5.0的字段(在測(cè)試數(shù)據(jù)段中,列表中始終保持著數(shù)據(jù)4.6)。在第一組中較低的流失率顯示,如果積極主動(dòng)的行動(dòng)是及時(shí)的和適當(dāng)?shù)模@對(duì)客戶行為確實(shí)有影響,而第二組的高流失率證明,我們的數(shù)據(jù)挖掘模型是正確和前4 %高比例的流失率被捕捉。</p><p><b>  

72、6. 結(jié)論</b></p><p>  在此篇論文中,我們演示了一種零售銀行客戶損失分析數(shù)據(jù)挖掘方法。我們討論了關(guān)于傾向性數(shù)據(jù)、時(shí)序數(shù)據(jù)展開(kāi)、遺漏檢測(cè)和一項(xiàng)零售銀行損失分析數(shù)據(jù)挖掘任務(wù)的步驟。我們討論枚舉法在作為損失分析的適當(dāng)方法上的用處,比較了決策樹(shù)枚舉法,貝葉斯網(wǎng)絡(luò)等多種數(shù)據(jù)挖掘方法以及這些方法的效果。我們最初的發(fā)現(xiàn)顯示出一些有趣的結(jié)果。我們客戶的實(shí)踐檢驗(yàn)證明了損失數(shù)據(jù)挖掘預(yù)測(cè)模型是很準(zhǔn)確的,目標(biāo)

73、導(dǎo)向的措施也是有效的。</p><p><b>  參 考 文 獻(xiàn)</b></p><p>  [1]輝戈碩士,1996年。挖掘客戶數(shù)據(jù)庫(kù)的電力二代的策略和技巧?!锻暾臄?shù)據(jù)庫(kù)營(yíng)銷(xiāo)》。</p><p>  [2]北森, 埃格蒙特彼得森, 布朗,為僧尼絲。“學(xué)習(xí)貝葉斯網(wǎng)絡(luò)分類(lèi)器對(duì)使用馬爾可夫鏈的信用評(píng)分”技術(shù)報(bào)告,荷蘭烏特列支大學(xué),信息與計(jì)算機(jī)科

74、學(xué)學(xué)院。</p><p>  [3]杯踏查瑞亞,1998年?!安捎眠z傳算法直接營(yíng)銷(xiāo)的反應(yīng)模式”,第四國(guó)際的知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘會(huì)議,144–148頁(yè)。</p><p>  [4]胡茬,2001年?!袄么植诩碚摵筒僮鲾?shù)據(jù)庫(kù),構(gòu)建數(shù)據(jù)挖掘應(yīng)用的一個(gè)很好的集成分類(lèi)器,”的過(guò)程。2001屆IEEE國(guó)際會(huì)議上的數(shù)據(jù)挖掘技術(shù), 233–240頁(yè)。</p><p>  [5]

75、教務(wù)長(zhǎng)和福塞特“分類(lèi)器的性能可視化分析:不精確的類(lèi)和成本分配的比較,“三屆國(guó)際會(huì)議的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘會(huì)議,43–48頁(yè)。</p><p>  [6]漿果和洛妮芙,1998年。精通數(shù)據(jù)挖掘:客戶關(guān)系管理的科學(xué)與藝術(shù)。</p><p>  [7] 碩士,1995年。神經(jīng),新穎的混合時(shí)間序列預(yù)測(cè)算法,約翰威利父子公司。</p><p>  [8] 聯(lián)合國(guó)英達(dá)科尼和肖洛姆

76、,2001年。“解決基于規(guī)則的集成分類(lèi)器的回歸問(wèn)題,”的過(guò)程, 287–292頁(yè)。</p><p>  [9] 夏皮羅,疲沓沓撕開(kāi),馬思德,“估計(jì)運(yùn)動(dòng)的好處和模擬電梯,”的程序。第五國(guó)際會(huì)議上的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘,185–193頁(yè)。</p><p>  [10] 胡查,2002 年?!翱蛻袅魇Х治龅姆诸?lèi)方法的比較”的過(guò)程。第三屆國(guó)際會(huì)議,《粗糙集和當(dāng)前的趨勢(shì)》,施普林格出版社,487–49

77、2頁(yè)。</p><p>  [11]林茨和里茨,1998 年?!爸苯訝I(yíng)銷(xiāo)數(shù)據(jù)挖掘:?jiǎn)栴}和解決方案”。第四屆國(guó)際會(huì)議的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘,73–79頁(yè)。</p><p>  [12]馬珊德和夏皮羅,1996 年?!白畲蠡髽I(yè)盈利預(yù)測(cè)模型比較”。第二國(guó)際的知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘會(huì)議,195–201年。</p><p>  [13]埃爾坎,1997年9月?!按龠M(jìn)樸素樸素貝葉斯

78、學(xué)習(xí),”技術(shù)報(bào)告號(hào)CS97–557,加利福尼亞大學(xué),迭戈。</p><p>  [14]墾利尼,1996年?!皠?dòng)蕩的時(shí)間序列數(shù)據(jù)的非線性金融預(yù)測(cè)一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的過(guò)程”。第四屆國(guó)際會(huì)議的神經(jīng)網(wǎng)絡(luò)在資本市場(chǎng),134–140頁(yè)。</p><p>  [15] 思噶波,弗氏,扒塔拉特,和李,“提高保證金:投票的方法有效性的一種新的解釋”統(tǒng)計(jì)年鑒。</p><p> 

79、 [16] 強(qiáng)尼昆蘭,“決策樹(shù)”機(jī)器學(xué)習(xí),卷1,1號(hào),81–96頁(yè)。</p><p>  [17] 強(qiáng)尼昆蘭,1996年?!把b袋,促進(jìn),與C4.5算法”。在第十三屆人工智能程序,725–730頁(yè)。</p><p>  [18] 格蘭達(dá)塔斯和廣,1996 年?!吧窠?jīng)網(wǎng)絡(luò)的黃金期貨價(jià)格預(yù)測(cè)的重要因素”。第四屆國(guó)際會(huì)議的神經(jīng)網(wǎng)絡(luò)在資本市場(chǎng),163–176頁(yè)。</p><p&g

80、t;  [19] 弗里德曼,蓋革和金子蜜桃撒,1997 年?!柏惾~斯網(wǎng)絡(luò)分類(lèi)器,“機(jī)器學(xué)習(xí),卷29,131–163頁(yè)。</p><p>  [20] 斯佩爾,2002 年?!疤岣邫C(jī)器學(xué)習(xí)方法:概述”非線性估計(jì)和分類(lèi)研討會(huì)。</p><p>  [21]瑞切爾,斯佩爾,拉希姆和噶破塔,2002 年?!皩?shí)驗(yàn)知識(shí)提高”。第十九的機(jī)器學(xué)習(xí)國(guó)際研討會(huì)。</p><p>  

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論