版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)數(shù)據(jù)挖掘案例【篇一:大數(shù)據(jù)數(shù)據(jù)挖掘案例】本文為系列文,該篇為第一篇。下面是正文: 本文為系列文,該篇為第一篇。下面是正文: 簡而言之,數(shù)據(jù)挖掘( 簡而言之,數(shù)據(jù)挖掘(data mining data mining)是有組織有目的地收集數(shù)據(jù), )是有組織有目的地收集數(shù)據(jù),通過分析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形 通過分析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形 成規(guī)則或知識的技術。在本文中,我們從數(shù)據(jù)挖掘
2、的實例出發(fā),并 成規(guī)則或知識的技術。在本文中,我們從數(shù)據(jù)挖掘的實例出發(fā),并 以數(shù)據(jù)挖掘中比較經典的分類算法入手,給讀者介紹我們怎樣利用 以數(shù)據(jù)挖掘中比較經典的分類算法入手,給讀者介紹我們怎樣利用 數(shù)據(jù)挖掘的技術解決現(xiàn)實中出現(xiàn)的問題。 數(shù)據(jù)挖掘的技術解決現(xiàn)實中出現(xiàn)的問題。 數(shù)據(jù)挖掘是如何解決問題的? 數(shù)據(jù)挖掘是如何解決問題的?本節(jié)通過幾個數(shù)據(jù)挖掘實際案例來詮釋如何通過數(shù)據(jù)挖掘解決商業(yè) 本節(jié)通過幾個數(shù)據(jù)挖掘實際案例來詮釋如何通過數(shù)據(jù)挖掘解決
3、商業(yè) 中遇到的問題。下面關于 中遇到的問題。下面關于“啤酒和尿不濕 啤酒和尿不濕”的故事是數(shù)據(jù)挖掘中最經 的故事是數(shù)據(jù)挖掘中最經典的案例。而 典的案例。而 target target 公司通過 公司通過“懷孕預測指數(shù) 懷孕預測指數(shù)”來預測女顧客是否懷 來預測女顧客是否懷孕的案例也是近來為數(shù)據(jù)挖掘學者最津津樂道的一個話題。 孕的案例也是近來為數(shù)據(jù)挖掘學者最津津樂道的一個話題。 尿不濕和啤酒很多人會問,究竟數(shù)據(jù)挖掘能夠為企業(yè)做些什么?下 尿
4、不濕和啤酒很多人會問,究竟數(shù)據(jù)挖掘能夠為企業(yè)做些什么?下 面我們通過一個在數(shù)據(jù)挖掘中最經典的案例來解釋這個問題 面我們通過一個在數(shù)據(jù)挖掘中最經典的案例來解釋這個問題—— ——一個關于尿不濕與啤酒的故事。超級商業(yè)零售連鎖巨無霸沃爾瑪公司 個關于尿不濕與啤酒的故事。超級商業(yè)零售連鎖巨無霸沃爾瑪公司 (wal mart wal mart)擁有世上最大的數(shù)據(jù)倉庫系統(tǒng)之一。為了能夠準確了 )擁有世上最大的數(shù)據(jù)倉庫系統(tǒng)之一。為了能夠準確了解顧客在其
5、門店的購買習慣,沃爾瑪對其顧客的購物行為進行了購 解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行了購 物籃關聯(lián)規(guī)則分析,從而知道顧客經常一起購買的商品有哪些。在 物籃關聯(lián)規(guī)則分析,從而知道顧客經常一起購買的商品有哪些。在沃爾瑪龐大的數(shù)據(jù)倉庫里集合了其所有門店的詳細原始交易數(shù)據(jù), 沃爾瑪龐大的數(shù)據(jù)倉庫里集合了其所有門店的詳細原始交易數(shù)據(jù), 在這些原始交易數(shù)據(jù)的基礎上,沃爾瑪利用數(shù)據(jù)挖掘工具對這些數(shù) 在這些原始交易數(shù)據(jù)的基礎上,沃爾
6、瑪利用數(shù)據(jù)挖掘工具對這些數(shù) 據(jù)進行分析和挖掘。一個令人驚奇和意外的結果出現(xiàn)了: 據(jù)進行分析和挖掘。一個令人驚奇和意外的結果出現(xiàn)了:“跟尿不濕 跟尿不濕一起購買最多的商品竟是啤酒 一起購買最多的商品竟是啤酒”!這是數(shù)據(jù)挖掘技術對歷史數(shù)據(jù)進行 !這是數(shù)據(jù)挖掘技術對歷史數(shù)據(jù)進行分析的結果,反映的是數(shù)據(jù)的內在規(guī)律。那么這個結果符合現(xiàn)實情 分析的結果,反映的是數(shù)據(jù)的內在規(guī)律。那么這個結果符合現(xiàn)實情 況嗎?是否是一個有用的知識?是否有利用價值? 況
7、嗎?是否是一個有用的知識?是否有利用價值? 為了驗證這一結果,沃爾瑪派出市場調查人員和分析師對這一結果 為了驗證這一結果,沃爾瑪派出市場調查人員和分析師對這一結果 進行調查分析。經過大量實際調查和分析,他們揭示了一個隱藏在 進行調查分析。經過大量實際調查和分析,他們揭示了一個隱藏在 “尿不濕與啤酒 尿不濕與啤酒”背后的美國消費者的一種行為模式: 背后的美國消費者的一種行為模式:在美國,到超市去買嬰兒尿不濕是一些年輕的父親下班后的日常工
8、在美國,到超市去買嬰兒尿不濕是一些年輕的父親下班后的日常工 作,而他們中有 作,而他們中有 30% 30%~40% 40%的人同時也會為自己買一些啤酒。產生 的人同時也會為自己買一些啤酒。產生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫不要忘了下班 這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫不要忘了下班 后為小孩買尿不濕,而丈夫們在買尿不濕后又隨手帶回了他們喜歡 后為小孩買尿不濕,而丈夫們在買尿不濕后又隨手帶回了他們喜歡 的啤酒。
9、另一種情況是丈夫們在買啤酒時突然記起他們的責任,又 的啤酒。另一種情況是丈夫們在買啤酒時突然記起他們的責任,又 去買了尿不濕。既然尿不濕與啤酒一起被購買的機會很多,那么沃 去買了尿不濕。既然尿不濕與啤酒一起被購買的機會很多,那么沃其訪問內容的信息,但擁有了這些信息卻不等于能夠充分利用這些 其訪問內容的信息,但擁有了這些信息卻不等于能夠充分利用這些 信息。 信息。 那么如果將這些數(shù)據(jù)轉換到數(shù)據(jù)倉庫中呢?這些帶有大量信息的數(shù) 那么如果將這些
10、數(shù)據(jù)轉換到數(shù)據(jù)倉庫中呢?這些帶有大量信息的數(shù) 據(jù)借助數(shù)據(jù)倉庫報告系統(tǒng)(一般稱作在線分析處理系統(tǒng)),雖然能 據(jù)借助數(shù)據(jù)倉庫報告系統(tǒng)(一般稱作在線分析處理系統(tǒng)),雖然能 給出可直接觀察到的和相對簡單直接的信息,卻也不能告訴網(wǎng)站其 給出可直接觀察到的和相對簡單直接的信息,卻也不能告訴網(wǎng)站其信息模式及怎樣對其進行處理,而且它一般不能分析復雜信息。所 信息模式及怎樣對其進行處理,而且它一般不能分析復雜信息。所 以對于這些相對復雜的信息或是不那么直
11、觀的問題,我們就只能通 以對于這些相對復雜的信息或是不那么直觀的問題,我們就只能通 過數(shù)據(jù)挖掘技術來解決,即通過機器學習算法,找到數(shù)據(jù)庫中的隱 過數(shù)據(jù)挖掘技術來解決,即通過機器學習算法,找到數(shù)據(jù)庫中的隱 含模式,報告結果或按照結果執(zhí)行。為了讓電子商務網(wǎng)站能夠充分 含模式,報告結果或按照結果執(zhí)行。為了讓電子商務網(wǎng)站能夠充分 應用數(shù)據(jù)挖掘技術,我們需要采集更加全面的數(shù)據(jù),采集的數(shù)據(jù)越 應用數(shù)據(jù)挖掘技術,我們需要采集更加全面的數(shù)據(jù),采集的數(shù)據(jù)
12、越 全面,分析就能越精準。在實際操作中,有以下幾個方面的數(shù)據(jù)可 全面,分析就能越精準。在實際操作中,有以下幾個方面的數(shù)據(jù)可 以被采集: 以被采集: 訪客的系統(tǒng)屬性特征。比如所采用的操作系統(tǒng)、瀏覽器、域名和訪 訪客的系統(tǒng)屬性特征。比如所采用的操作系統(tǒng)、瀏覽器、域名和訪 問速度等。訪問特征。包括停留時間、點擊的 問速度等。訪問特征。包括停留時間、點擊的 url url 等。條款特征。包 等。條款特征。包括網(wǎng)絡內容信息類型、內容分類和來訪 括
13、網(wǎng)絡內容信息類型、內容分類和來訪 url url 等。產品特征。包括所訪 等。產品特征。包括所訪問的產品編號、產品目錄、產品顏色、產品價格、產品利潤、產品 問的產品編號、產品目錄、產品顏色、產品價格、產品利潤、產品 數(shù)量和特價等級等。當訪客訪問該網(wǎng)站時,以上有關此訪客的數(shù)據(jù) 數(shù)量和特價等級等。當訪客訪問該網(wǎng)站時,以上有關此訪客的數(shù)據(jù) 信息便會逐漸被積累起來,那么我們就可以通過這些積累而成的數(shù) 信息便會逐漸被積累起來,那么我們就可以通過這
14、些積累而成的數(shù) 據(jù)信息整理出與這個訪客有關的信息以供網(wǎng)站使用??梢哉沓尚?據(jù)信息整理出與這個訪客有關的信息以供網(wǎng)站使用??梢哉沓尚?的信息大致可以分為以下幾個方面: 的信息大致可以分為以下幾個方面: 訪客的購買歷史以及廣告點擊歷史。訪客點擊的超鏈接的歷史信息。 訪客的購買歷史以及廣告點擊歷史。訪客點擊的超鏈接的歷史信息。 訪客的總鏈接機會(提供給訪客的超級鏈接)。訪客總的訪問時間。 訪客的總鏈接機會(提供給訪客的超級鏈接)。訪客總的
15、訪問時間。 訪客所瀏覽的全部網(wǎng)頁。訪客每次會話的產出利潤。訪客每個月的 訪客所瀏覽的全部網(wǎng)頁。訪客每次會話的產出利潤。訪客每個月的訪問次數(shù)及上一次的訪問時間等。訪客對于商標總體正面或負面的 訪問次數(shù)及上一次的訪問時間等。訪客對于商標總體正面或負面的 評價。分類:從人臉識別系統(tǒng)說起美國電視劇《反恐 評價。分類:從人臉識別系統(tǒng)說起美國電視劇《反恐 24 24 小時》中有 小時》中有一集,當一個恐怖分子用手機撥打了一個電話,從 一集,當一個恐
16、怖分子用手機撥打了一個電話,從 ctu ctu(反恐部隊) (反恐部隊)的計算機系統(tǒng)中便立刻發(fā)出恐怖分子出現(xiàn)的預警。很多好萊塢的大 的計算機系統(tǒng)中便立刻發(fā)出恐怖分子出現(xiàn)的預警。很多好萊塢的大 片中此類智能系統(tǒng)的應用也比比皆是,它能從茫茫人群中實時找出 片中此類智能系統(tǒng)的應用也比比皆是,它能從茫茫人群中實時找出 正在苦苦追蹤的恐怖分子或間諜。而在 正在苦苦追蹤的恐怖分子或間諜。而在 2008 2008 年北京奧運會上,最引 年北京奧運會上
17、,最引人注意的 人注意的 it it 熱點莫過于 熱點莫過于“實時人臉識別技術 實時人臉識別技術”在奧運會安檢系統(tǒng)中的 在奧運會安檢系統(tǒng)中的應用,這種技術通過對人臉關鍵部位的數(shù)據(jù)采集,讓系統(tǒng)能夠精確 應用,這種技術通過對人臉關鍵部位的數(shù)據(jù)采集,讓系統(tǒng)能夠精確 地識別出所有進出奧運場館的觀眾身份。 地識別出所有進出奧運場館的觀眾身份。目前人臉識別技術正廣泛的應用于各種安檢系統(tǒng)中,警方只需將犯 目前人臉識別技術正廣泛的應用于各種安檢系統(tǒng)中,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大數(shù)據(jù)數(shù)據(jù)挖掘案例
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)挖掘外文翻譯—大數(shù)據(jù)挖掘研究
- 大數(shù)據(jù)與數(shù)據(jù)挖掘
- 大數(shù)據(jù)挖掘-
- 大數(shù)據(jù)挖掘外文翻譯—大數(shù)據(jù)挖掘研究(原文)
- 大數(shù)據(jù)挖掘技術
- 大數(shù)據(jù)與數(shù)據(jù)挖掘實驗系統(tǒng)
- 數(shù)據(jù)挖掘與大數(shù)據(jù)技術應用
- 大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易
- 數(shù)據(jù)挖掘商業(yè)案例
- 大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)應用案例分析
- 工業(yè)大數(shù)據(jù)案例
- 大數(shù)據(jù)營銷案例
- 大數(shù)據(jù)應用案例分析
- 大數(shù)據(jù)應用案例分析
- 大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘
評論
0/150
提交評論