版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù) 據(jù) 挖 掘,主講教師:駱懿玲E-mail: luoyiling79@foxmail.com,教科書和參考書,教科書數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘陳志泊主編 ,清華大學(xué)出版社 2009.5.參考書數(shù)據(jù)挖掘概念與技術(shù),Jiawei Han和Micheline Kamber 著,機(jī)械工業(yè)出版社(2001),中文版,數(shù)據(jù)倉(cāng)庫(kù)與數(shù) 據(jù) 挖 掘,指定選修 32學(xué)時(shí) 2學(xué)分 8周總評(píng)成績(jī)=期末考試(70%)+作業(yè)(30%)
2、作業(yè):第1次交作業(yè):第1章習(xí)題(1-12題) 第2章全部習(xí)題第2次交作業(yè):第4章第3次交作業(yè):第5章 第6章,作業(yè)格式,填空題:1、數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。
3、問答題11. 什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)主要有哪些?答: 數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,通常用于輔助決策支持。 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)包含以下幾個(gè)方面: (1) 面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織是面向事務(wù)處理任務(wù), ………………,數(shù)據(jù)挖掘的發(fā)展動(dòng)力,數(shù)據(jù)爆炸問題 自動(dòng)數(shù)據(jù)收集
4、工具和成熟的數(shù)據(jù)庫(kù)技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息 解決方法:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束),數(shù)據(jù)庫(kù)技術(shù)的演化 (1),1960s和以前:文件系統(tǒng)1970s: 層次數(shù)據(jù)庫(kù)和網(wǎng)狀數(shù)據(jù)庫(kù)1980s早期:關(guān)系數(shù)據(jù)模型, 關(guān)
5、系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的實(shí)現(xiàn),數(shù)據(jù)庫(kù)技術(shù)的演化 (2),1980s晚期:各種高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù),面向?qū)ο髷?shù)據(jù)庫(kù)等等.) 面向應(yīng)用的數(shù)據(jù)庫(kù)系統(tǒng) (空間數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)等等)1990s: 數(shù)據(jù)挖掘, 數(shù)據(jù)倉(cāng)庫(kù), 多媒體數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)2000s流數(shù)據(jù)管理和挖掘基于各種應(yīng)用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫(kù)和整合的信息系統(tǒng),什么是數(shù)據(jù)挖掘?,數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining),就是從
6、大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡(jiǎn)單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí),又被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD) 數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)知識(shí)提煉、數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。,數(shù)據(jù)挖掘: 數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD),數(shù)據(jù)挖掘——知識(shí)挖掘的核心,,,,,,,,,,,,,
7、,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),,,,,,,,,Knowledge,任務(wù)相關(guān)數(shù)據(jù),選擇,數(shù)據(jù)挖掘,模式評(píng)估,,,,,,,,,,KDD的步驟,從KDD對(duì)數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的狹義和廣義認(rèn)識(shí)數(shù)據(jù)清理: (這個(gè)可能要占全過程60%的工作量)數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式)模式評(píng)估知識(shí)表示,典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu),,,,,,數(shù)據(jù)倉(cāng)庫(kù),,,,,,,,數(shù)據(jù)清洗,
8、過濾,,,,,數(shù)據(jù)庫(kù),,,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,數(shù)據(jù)挖掘引擎,模式評(píng)估,圖形用戶界面,,,,,,,,,,知識(shí)庫(kù),數(shù)據(jù)集成,并非所有的東西都是數(shù)據(jù)挖掘,基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合,在何種數(shù)據(jù)上進(jìn)
9、行數(shù)據(jù)挖掘,關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事務(wù)數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)空間數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)流數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW),空間數(shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù)是指在關(guān)系型數(shù)據(jù)庫(kù)(DBMS)內(nèi)部對(duì)地理信息進(jìn)行物理存儲(chǔ)??臻g數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)包括對(duì)象的空間拓?fù)涮卣鳌⒎强臻g屬性特征以及對(duì)象在時(shí)間上的狀態(tài)變化。常見的空間數(shù)據(jù)庫(kù)數(shù)據(jù)類型
10、地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學(xué)圖像數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用:通過空間分類和空間趨勢(shì)分析,引入機(jī)器學(xué)習(xí)算法,對(duì)有用模式進(jìn)行智能檢索,時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù),時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)都存放與時(shí)間有關(guān)的數(shù)據(jù)。時(shí)間數(shù)據(jù)庫(kù)通常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。時(shí)序數(shù)據(jù)庫(kù)存放隨時(shí)間變化的值序列。對(duì)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對(duì)象的演變特征或?qū)ο笞兓厔?shì)。,流數(shù)據(jù),
11、與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、輸入量大的數(shù)據(jù)。主要應(yīng)用場(chǎng)合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁(yè)點(diǎn)擊流股票市場(chǎng)流媒體…等等與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比,流數(shù)據(jù)在存儲(chǔ)、查詢、訪問、實(shí)時(shí)性的要求等方面都有很大區(qū)別。,多媒體數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制
12、對(duì)象的形式進(jìn)行存儲(chǔ)。對(duì)于多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,需要將存儲(chǔ)和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫(kù)的多特征提取和基于相似性的模式匹配。,面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù),面向?qū)ο髷?shù)據(jù)庫(kù)是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對(duì)數(shù)據(jù)以對(duì)象的形式進(jìn)行存儲(chǔ),并在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢數(shù)據(jù)庫(kù)的能力等。對(duì)象-關(guān)系數(shù)據(jù)庫(kù)基于對(duì)象-關(guān)系模型構(gòu)造,該模型通過處
13、理復(fù)雜對(duì)象的豐富數(shù)據(jù)類型和對(duì)象定位等功能,擴(kuò)充關(guān)系模型。面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘會(huì)涉及一些新的技術(shù),比如處理復(fù)雜對(duì)象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。,異構(gòu)數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù),歷史數(shù)據(jù)庫(kù)是一系列的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的集合,包括不同種類的數(shù)據(jù)庫(kù)系統(tǒng),像關(guān)系數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、文件系統(tǒng)等等。有效利用歷史數(shù)據(jù)庫(kù)的關(guān)鍵在于實(shí)現(xiàn)不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)信息資源、硬件設(shè)備資源和人力資源
14、的合并和共享。對(duì)于異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)共享應(yīng)當(dāng)達(dá)到兩點(diǎn):一是實(shí)現(xiàn)數(shù)據(jù)庫(kù)轉(zhuǎn)換;二是實(shí)現(xiàn)數(shù)據(jù)的透明訪問。WEB SERVICE技術(shù)的出現(xiàn)有利于歷史數(shù)據(jù)庫(kù)數(shù)據(jù)的重新利用。,文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW),文本數(shù)據(jù)庫(kù)存儲(chǔ)的是對(duì)對(duì)象的文字性描述。文本數(shù)據(jù)庫(kù)的分類無結(jié)構(gòu)類型(大部分的文本資料和網(wǎng)頁(yè))半結(jié)構(gòu)類型(XML數(shù)據(jù))結(jié)構(gòu)類型(圖書館數(shù)據(jù))萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘內(nèi)容內(nèi)容檢索WEB訪問模式檢索,數(shù)
15、據(jù)挖掘系統(tǒng)的分類 (1),數(shù)據(jù)挖掘的多學(xué)科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫(kù)分類關(guān)系數(shù)據(jù)庫(kù),事務(wù)數(shù)據(jù)庫(kù),流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫(kù),對(duì)象關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),空間數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù),異構(gòu)數(shù)據(jù)庫(kù),歷史數(shù)據(jù)庫(kù),WWW,數(shù)據(jù)挖掘系統(tǒng)的分類 (2),根據(jù)挖掘的知識(shí)類型特征分析, 區(qū)分, 關(guān)聯(lián)分析, 分類聚類, 孤立點(diǎn)分析/演變分析, 偏差分析等等.多種方法的集成和多層
16、機(jī)挖掘根據(jù)挖掘所用的技術(shù)面向數(shù)據(jù)庫(kù)的挖掘、數(shù)據(jù)倉(cāng)庫(kù) 、OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等等.根據(jù)挖掘所用的應(yīng)用金融,電信,銀行, 欺詐分析, DNA分析,股票市場(chǎng), Web挖掘等等.,數(shù)據(jù)挖掘是多個(gè)學(xué)科的融合,數(shù)據(jù)挖掘,數(shù)據(jù)庫(kù)系統(tǒng),統(tǒng)計(jì)學(xué),其他學(xué)科,算法,機(jī)器學(xué)習(xí),可視化,,,,,,,數(shù)據(jù)挖掘涉及的技術(shù)問題 (1),數(shù)據(jù)挖掘是多個(gè)學(xué)科融合,但本課程所關(guān)注的是:海量數(shù)據(jù)的挖掘的效率和可擴(kuò)展性本課程涉及的主要技術(shù)問題有:挖掘
17、方法和用戶交互在數(shù)據(jù)庫(kù)中挖掘不同類型的知識(shí)在不同抽象層上的交互式知識(shí)挖掘背景知識(shí)的合并數(shù)據(jù)挖掘查詢語(yǔ)言和特定的數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表示和可視化處理噪聲和不完全數(shù)據(jù)模式評(píng)估: 興趣度問題,數(shù)據(jù)挖掘涉及的技術(shù)問題 (2),性能問題數(shù)據(jù)挖掘算法的效率和可擴(kuò)展性(scalability)(什么是可擴(kuò)展性?)并行,分布式和增量挖掘算法(數(shù)據(jù)的分塊挖掘)其他和多樣化的數(shù)據(jù)庫(kù)類型相關(guān)的問題關(guān)系型和復(fù)雜數(shù)據(jù)類型的處理為特定
18、的數(shù)據(jù)類型構(gòu)建特定的數(shù)據(jù)挖掘系統(tǒng)從異構(gòu)數(shù)據(jù)庫(kù)中挖掘WEB數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的主要功能——可以挖掘哪些模式?,一般功能描述性的數(shù)據(jù)挖掘 預(yù)測(cè)性的數(shù)據(jù)挖掘通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對(duì)此我們會(huì)在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:概念/類描述: 特性化和區(qū)分關(guān)聯(lián)分析分類和預(yù)測(cè) 聚類分析孤立點(diǎn)分析趨勢(shì)和演變分析,概念/類描述: 特性化和區(qū)分,概念描述:為數(shù)據(jù)的特征化和
19、比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對(duì)象時(shí),也稱為類描述)特征化:提供給定數(shù)據(jù)集的簡(jiǎn)潔匯總。例:對(duì)AllElectronic公司的“大客戶”(年消費(fèi)額$1000以上)的特征化描述:40-50歲,有固定職業(yè),信譽(yù)良好,等等區(qū)分:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。例:,關(guān)聯(lián)分析,關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫(kù),關(guān)系數(shù)據(jù)庫(kù)和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。廣泛的用于購(gòu)物籃或事務(wù)數(shù)據(jù)分析。
20、例:,分類和預(yù)測(cè),根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)(分類),用來預(yù)測(cè)類型標(biāo)志未知的對(duì)象類(預(yù)測(cè))。比如:按氣候?qū)?guó)家分類,按汽油消耗定額將汽車分類導(dǎo)出模型的表示: 判定樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)可以用來預(yù)報(bào)某些未知的或丟失的數(shù)字值 例:IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “yes”IF a
21、ge = “>40” AND credit_rating = “fair” THEN buys_computer = “no”,聚類分析,聚類分析:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。最大化類內(nèi)的相似性和最小化類間的相似性例:對(duì)WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問模式,孤立點(diǎn)分析,孤立點(diǎn)分析孤立點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺
22、騙檢測(cè)中卻可以通過對(duì)罕見事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。應(yīng)用信用卡欺詐檢測(cè)移動(dòng)電話欺詐檢測(cè)客戶劃分醫(yī)療分析(異常),趨勢(shì)和演變分析,描述行為隨時(shí)間變化的對(duì)象的發(fā)展規(guī)律或趨勢(shì)(時(shí)序數(shù)據(jù)庫(kù))趨勢(shì)和偏差: 回歸分析序列模式匹配:周期性分析基于類似性的分析,所有模式都是有趣的嗎?,數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個(gè)模式是有趣的,如果(1) 它易于被人理解 ;(
23、2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)模式興趣度的客觀和主觀度量客觀度量: 基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì), 比如: 支持度、置信度等等主觀度量: 基于用戶對(duì)數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動(dòng)的等等,能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?,找出所有有趣的模式: 數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索 vs.
24、窮舉搜索關(guān)聯(lián) vs. 分類 vs. 聚類只搜索有趣的模式: 數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化,數(shù)據(jù)挖掘應(yīng)用—一個(gè)經(jīng)典營(yíng)銷故事,“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國(guó)沃爾瑪超市中,沃爾瑪超市管理人員分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同
25、一個(gè)購(gòu)物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。 在美國(guó)有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購(gòu)買尿布。父親在購(gòu)買尿布的同時(shí),往往會(huì)順便為自己購(gòu)買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。如果這個(gè)年輕的父親在賣場(chǎng)只能買到兩件商品之一,則他很有可能會(huì)放棄購(gòu)物而到另一家商店,直到可以一次同時(shí)買到啤酒與尿布為止。沃爾瑪發(fā)
26、現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場(chǎng)嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購(gòu)物;而沃爾瑪超市也可以讓這些客戶一次購(gòu)買兩件商品、而不是一件,從而獲得了很好的商品銷售收入。,數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理(1),數(shù)據(jù)來源信用卡交易, 會(huì)員卡, 商家的優(yōu)惠卷, 消費(fèi)者投訴電話, 公眾生活方式研究目標(biāo)市場(chǎng)構(gòu)建一系列的“客戶群模型”,這些顧客具有相同特征: 興趣愛好, 收入水平, 消費(fèi)習(xí)慣,等等確定顧
27、客的購(gòu)買模式交叉市場(chǎng)分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測(cè),數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理(2),顧客分析哪類顧客購(gòu)買那種商品 (聚類分析或分類預(yù)測(cè))客戶需求分析確定適合不同顧客的最佳商品預(yù)測(cè)何種因素能夠吸引新顧客提供概要信息多維度的綜合報(bào)告統(tǒng)計(jì)概要信息 (數(shù)據(jù)的集中趨勢(shì)和變化),數(shù)據(jù)挖掘應(yīng)用——公司分析和風(fēng)險(xiǎn)管理,財(cái)務(wù)計(jì)劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測(cè)交叉區(qū)域分析和時(shí)間序列分析(財(cái)務(wù)資金比率,趨勢(shì)分析等
28、等)資源計(jì)劃總結(jié)和比較資源和花費(fèi)競(jìng)爭(zhēng)對(duì)競(jìng)爭(zhēng)者和市場(chǎng)趨勢(shì)的監(jiān)控 將顧客按等級(jí)分組和基于等級(jí)的定價(jià)過程將定價(jià)策略應(yīng)用于競(jìng)爭(zhēng)更激烈的市場(chǎng)中,數(shù)據(jù)挖掘應(yīng)用——欺詐行為檢測(cè)和異常模式的發(fā)現(xiàn),方法: 對(duì)欺騙行為進(jìn)行聚類和建模,并進(jìn)行孤立點(diǎn)分析應(yīng)用: 衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險(xiǎn): 相撞事件的分析 洗錢: 發(fā)現(xiàn)可疑的貨幣交易行為 醫(yī)療保險(xiǎn)職業(yè)病人, 醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測(cè)試電信: 電話呼叫欺騙
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘常用算法概述
- 挖掘機(jī)概述-構(gòu)造
- 數(shù)據(jù)加密概述
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 數(shù)據(jù)挖掘
- 外文翻譯-----數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)與數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘案例
- 大數(shù)據(jù)挖掘外文翻譯—大數(shù)據(jù)挖掘研究
- 數(shù)據(jù)挖掘2
- 數(shù)據(jù)挖掘 3
- 數(shù)據(jù)挖掘試題
- 數(shù)據(jù)挖掘題
- 大數(shù)據(jù)數(shù)據(jù)挖掘案例
- 數(shù)據(jù)挖掘中的文本挖掘
- 數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告-數(shù)據(jù)挖掘的基本數(shù)據(jù)分析
- 大數(shù)據(jù)挖掘-
- 數(shù)據(jù)挖掘4
評(píng)論
0/150
提交評(píng)論