2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、<p><b>  學士學位論文</b></p><p>  題目:數(shù)據(jù)挖掘技術及其在電子商務中的應用</p><p><b>  摘 要</b></p><p>  介紹數(shù)據(jù)挖掘技術,數(shù)據(jù)挖掘方法。如何使用數(shù)據(jù)挖掘技術分析電子商務活動中的客戶訪問行為,購買行為以及客戶的性別、年齡等特征,從而調(diào)整電子商務網(wǎng)

2、站的站點結(jié)構(gòu),廣告宣傳,商品推薦,客戶引導以及商品的規(guī)劃等。使電子商務活動更具有針對性,用戶體驗更加人性化,以及為電商企業(yè)決策提供數(shù)據(jù)支持。</p><p><b>  關鍵詞</b></p><p>  數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 電子商務 信息處理 預測</p><p><b>  第一章 引言</b></p&

3、gt;<p>  目前互聯(lián)網(wǎng)電子商務行業(yè)猶如雨后春筍遍地開花,如淘寶、京東、當當、凡客、蘇寧易購、庫巴購物網(wǎng)、拍拍網(wǎng)等。眾多的電商在互聯(lián)網(wǎng)中活躍著,其中有綜合性的電商網(wǎng)站,如淘寶、京東、當當?shù)?。也有專門性從事某一類商品的電商活動的網(wǎng)站,如麥包包專門進行箱包類的電商活動,聚美優(yōu)品則專門進行化妝品類商品的網(wǎng)上交易。</p><p>  電子商務推動生產(chǎn)生活方式的發(fā)展,已經(jīng)滲透到各個行業(yè)和領域,對拉動經(jīng)濟

4、增長、促進轉(zhuǎn)變有著重要作用。電子商務服務業(yè)正在成為現(xiàn)代服務業(yè)一個核心產(chǎn)業(yè)。截至2011年底,中國網(wǎng)民規(guī)模突破5億關口,達5.13億人。中國網(wǎng)絡購物用戶規(guī)模達1.94億人,同比增長20.8%,網(wǎng)購使用率37.8%,未來網(wǎng)絡購物用戶規(guī)模將持續(xù)增長。網(wǎng)絡購物用戶對于網(wǎng)絡購物的依賴性較高,大部分網(wǎng)絡購物用戶瀏覽網(wǎng)購網(wǎng)站的頻率較高。其中,超過四成網(wǎng)購消費者每天瀏覽網(wǎng)購網(wǎng)站一次以上,近六成用戶每天都要進行網(wǎng)購網(wǎng)站的瀏覽。而對于絕大多數(shù)(接近95%)

5、的網(wǎng)購用戶來講,每周至少瀏覽一次網(wǎng)購網(wǎng)站。</p><p>  2011年中國電子商務交易總額為5.8萬億元,同比增長29.2%,其中網(wǎng)絡購物交易規(guī)模突破7825億元,占社會消費品零售總額比重達到4.3%。其中,B2B領域,無論是中小企業(yè)、還是規(guī)模較大企業(yè)均加大了網(wǎng)絡渠道的應用,通過互聯(lián)網(wǎng)促成交易的達成。得益于網(wǎng)購的蓬勃發(fā)展,物流業(yè)市場得到井噴式發(fā)展,年均增長率達27.23%。2011年底,中國電子商務服務企業(yè)突

6、破15萬家,中國網(wǎng)上零售市場成交值達230億美金,已僅次于美國位列第二,隨著基礎建設和網(wǎng)上貿(mào)易的發(fā)展,預計未來3年內(nèi),中國電子商務交易額將保持年均29%以上的增長速度。到2015年我國網(wǎng)絡消費用戶數(shù)量將激增至3.29億人。網(wǎng)絡消費支出有望使中國電子商務市場的規(guī)模超過美國,達12萬億元人民幣以上,成為全球第一大電子商務市場。</p><p>  不管是綜合性還是專業(yè)性的電商網(wǎng)站,都存在著非常大的競爭,比如前不久的京

7、東和蘇寧、國美的價格大戰(zhàn),不僅考驗著電商們系統(tǒng)的壓力,也考驗了他們的數(shù)據(jù)分析處理能力。同時各大電商企業(yè)基本都擁有大量的用戶,如何去分析他們的用戶的訪問習慣,購買行為,以及分析競爭對手的相關數(shù)據(jù)從而調(diào)整電子商務網(wǎng)站的站點結(jié)構(gòu),廣告宣傳,商品推薦,客戶引導以及商品的規(guī)劃、潛在用戶的挖掘等。使電子商務活動更具有針對性,用戶體驗更加人性化,提高自己的競爭力。</p><p>  在這樣的大數(shù)據(jù)環(huán)境下我們就需要用到數(shù)據(jù)挖掘

8、技術來幫助企業(yè)進行數(shù)據(jù)的分析。數(shù)據(jù)挖掘(Data Mining)是從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程。這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等,可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。</p><p>  第二章 數(shù)據(jù)挖掘技術概述</p><p>  2.1數(shù)據(jù)挖掘定義</p><p&

9、gt;  數(shù)據(jù)挖掘之所以引起信息產(chǎn)業(yè)界的極大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛地用于各種應用,包括商務管理、生產(chǎn)控制、市場分析、工程設計和科學探索。所以,數(shù)據(jù)挖掘是信息技術自然演化的結(jié)果,因而是重要的。那么什么是數(shù)據(jù)挖掘呢?</p><p>  數(shù)據(jù)挖掘開山鼻祖Usama Fayyad: 數(shù)據(jù)挖掘是從數(shù)據(jù)集中識別出有效的、新穎的、潛

10、在的,以及最終可理解的模式的非平凡過程。</p><p>  Zekulin: 數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前未知的、可理解的、可執(zhí)行的信息,并用它來進行關鍵的商業(yè)決策的過程。</p><p>  Ferruzza: 數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辨識存在于數(shù)據(jù)中的未知關系和模式的一些方法。</p><p>  John: 數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。

11、</p><p>  Parsaye: 數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個決策支持過程。</p><p>  數(shù)據(jù)挖掘的定義各一,但他們都有一個中心的思想就是數(shù)據(jù)的提取和分析,那我們可以從技術的角度來給數(shù)據(jù)挖掘下一個定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。<

12、;/p><p>  2.2數(shù)據(jù)挖掘類型</p><p><b>  2.2.1分類</b></p><p>  這是最常見的數(shù)據(jù)挖掘類型,其中數(shù)據(jù)的目標數(shù)據(jù)項表示數(shù)據(jù)所代表的對象的類型。例如在醫(yī)學應用中,對象可分為有病和沒病兩類;在金融應用中,對象可分為低風險和高風險兩類。分類數(shù)據(jù)挖掘先從一個已分類的數(shù)據(jù)集(訓練集)得到一個模型,這個模型就包

13、含了從該訓練集中得到的知識。然后應用這個模型(知識)對新的未分類的數(shù)據(jù)進行分類。</p><p><b>  2.2.2估計</b></p><p>  這是一種與分類相類似的類型。分類的目標數(shù)據(jù)項是離散化的,而估計的目標數(shù)據(jù)項是連續(xù)的。</p><p><b>  2.2.3預測</b></p><

14、;p>  通過分析代表對象過去和現(xiàn)在行為的數(shù)據(jù)來預測對象未來的行為。這實際上是一種特殊的分類或估計,其目標數(shù)據(jù)項就是要預測的值。</p><p>  2.2.4相似分組或市場籃分析</p><p>  確定哪些對象會集中在一起,典型的應用是確定在超級市場中顧客會將哪些商品放在一個購物車或購物籃中,即他們會同時購買那些商品。</p><p><b>

15、  2.2.5聚集</b></p><p>  將一組對象分為幾部分,每一部分稱為一個簇,簇中的對象具有類似的特點。聚集分析通常是其他數(shù)據(jù)挖掘方法的前一步驟。</p><p>  2.3數(shù)據(jù)挖掘過程</p><p>  圖1 數(shù)據(jù)挖掘基本過程</p><p>  2.3.1確定業(yè)務對象</p><p&g

16、t;  清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。</p><p>  2.3.2數(shù)據(jù)準備 </p><p>  數(shù)據(jù)的選擇:搜索所有與業(yè)務對象有關的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù)。取得數(shù)據(jù)源。數(shù)據(jù)挖掘最理想的數(shù)據(jù)源是數(shù)據(jù)倉庫

17、。數(shù)據(jù)倉庫由來自多個數(shù)據(jù)庫的數(shù)據(jù)組成,并消除它們之間的不一致。如數(shù)據(jù)倉庫不可得,則要從各個數(shù)據(jù)庫中取得數(shù)據(jù)。數(shù)據(jù)挖掘有時還需要對原有數(shù)據(jù)庫進改造以得到可用的數(shù)據(jù)源,例如延長歷史數(shù)據(jù)的保留期。</p><p>  數(shù)據(jù)的預處理:研究數(shù)據(jù)的質(zhì)量,為進一步的分析作準備.并確定將要進行的挖掘操作的類型。包括消除來自不同數(shù)據(jù)庫甚至不同類型計算機數(shù)據(jù)表示的不一致,在數(shù)據(jù)中加入新的數(shù)據(jù)項(例如對原有數(shù)據(jù)項進行有意義的數(shù)學計算而

18、得到新的數(shù)據(jù)項)以發(fā)現(xiàn)更多的規(guī)律,將數(shù)據(jù)分為訓練集和測試集等方面。</p><p>  數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵。</p><p>  2.3.3數(shù)據(jù)挖掘</p><p>  對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘.除了完善和選擇合適的挖掘算法外,其余一切工作都能自動地

19、完成。</p><p>  2.3.4分析和同化</p><p>  結(jié)論分析:解釋并評估結(jié)果,其使用的分析方法一般應作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術。</p><p>  知識的同化:將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結(jié)構(gòu)中去。</p><p>  2.4數(shù)據(jù)挖掘的常用方法</p><p>  

20、2.4.1市場籃分析(Market Basket Analysis)</p><p>  找到在一次交易或活動中會同時出現(xiàn)的對象,由此得到的模型將給出一組對象同時出現(xiàn)的可能性。其具體方法是計算訓練集中各種對象組合出現(xiàn)的概率,當概率超過一定的閾值時,可以認為該對象組合代表了會同時出現(xiàn)的對象。</p><p>  2.4.2基于記憶推理(Memory-Based Reason-ing, M

21、BR)</p><p>  這種方法用已知對象的特征(記憶)來估計未知對象的特征。MBR在已知對象集合中尋找與未知對象最接近的對象,然后將這些對象特征組合起來估計未知對象的特征。MBR的關鍵在于正確定義用來尋找最接近對象的距離函數(shù)和組合對象特征的組合函數(shù)。</p><p>  2.4.3聚集分析(Cluster Detection)</p><p>  通過對數(shù)據(jù)

22、的分析將一個數(shù)據(jù)集分為幾個特征相同的簇,即把特征相同的數(shù)據(jù)聚集在一起。</p><p>  2.4.4鏈路分析(Link Analysis)</p><p>  它用來分析對象之間的關系。具體方法是將對象(數(shù)據(jù))看成是圖的節(jié)點,它們之間存在的關系看成是圖的邊(鏈路),然后用圖論的方法進行分析。</p><p>  2.4.5決策樹(Decision Tree)&

23、lt;/p><p>  它將訓練集中數(shù)據(jù)分為不相交的子集,每個子集可由一定的規(guī)則來描述。此規(guī)則在邏輯上具有層次結(jié)構(gòu),因此可用樹型數(shù)據(jù)結(jié)構(gòu)來表示,樹上的每個節(jié)點代表一條規(guī)則。</p><p>  2.4.6神經(jīng)網(wǎng)絡(Neutral Network)</p><p>  這是最常見的一種數(shù)據(jù)挖掘方法。它是在計算機上模擬神經(jīng)元及其連接的方法。神經(jīng)網(wǎng)絡實際上完成從已知數(shù)據(jù)項到

24、目標數(shù)據(jù)項的一種復雜的非線性映射,它獲取的知識就存在于網(wǎng)絡結(jié)構(gòu)中。神經(jīng)網(wǎng)絡主要用來進行分類、估計和預測等有向數(shù)據(jù)挖掘,也可用于聚集等無向數(shù)據(jù)挖掘。</p><p>  2.4.7遺傳算法(Genetic Algorithms)</p><p>  它是一種應用遺傳學原理和自然選擇機制來搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,它用來尋找實現(xiàn)分類、估計和預測功能的最優(yōu)參數(shù)集。這種方法先產(chǎn)生一組解法,

25、然后用重組、突變和選擇等進化過程來得到下一代解法。隨著進化過程的繼續(xù),較差解法被拋棄,從而逐步得到最優(yōu)解法。</p><p>  2.4.8Rough集(Rough Set)</p><p>  它所使用的數(shù)據(jù)結(jié)構(gòu)是決策表,決策表中的每一項數(shù)據(jù)由條件屬性和決策屬性構(gòu)成,其目的是通過簡化決策表即去掉某些條件屬性來確定條件屬性和決策屬性的映射關系,最終得到一組用條件屬性來表示決策屬性的規(guī)則。

26、這種方法用Rough集理論中一些概念和方法來考察決策表中條件屬性的重要性,以確定那些屬性是可以去掉的,那些屬性是要保留的。</p><p>  第三章 電子商務中的數(shù)據(jù)挖掘技術應用</p><p>  3.1電子商務簡介</p><p>  電子商務是指個人或企業(yè)通過Internet網(wǎng)絡,采用數(shù)字化電子方式進行商務數(shù)據(jù)交換和開展商務業(yè)務活動.目前國內(nèi)已有網(wǎng)上商

27、情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務形式。</p><p>  電子商務有以下優(yōu)勢:</p><p>  ·服務不受時間限制,給客戶帶來了極大方便.客戶可以足不出戶、一天二十四小時地進行各種信息查詢、商品查詢、即時購物等活動</p><p>  ·全球性資源共享.Internet上的信息容量無比巨大,任何人都

28、可以從中受益</p><p>  ·突破了地域的限制,可以直接與全市、全國、甚至全世界的客戶打交道</p><p>  ·大大降低了商家的經(jīng)營成本.商家不再需要真正的店鋪,而且可以直接進貨、減少倉儲,加快資金周轉(zhuǎn),可節(jié)省大量的人力、物力和財力</p><p>  ·商家可以更方便、更直接、更系統(tǒng)地接受客戶反饋,有利于商家做好售后服務和市

29、場調(diào)查</p><p>  ·由于絕大部分信息可以在網(wǎng)上實時地發(fā)送,故可以大大降低廣告費用和信息發(fā)布費用,且能增加時效性</p><p>  ·Internet數(shù)字化、主動式、交互性的特點是電話、傳真、電視、報紙等傳統(tǒng)媒介不能替代、無可比擬的</p><p>  ·節(jié)省購物空間.因為網(wǎng)上購物均為無店鋪直銷形式,廠家可直接與消費者掛鉤,并

30、通過信息反饋及時調(diào)整產(chǎn)品供求關系,買主感覺商店就在身邊,廠家可以避免盲目生產(chǎn)造成的積壓.</p><p>  3.2挖掘客戶的購買行為</p><p>  客戶購買行為的分析是線下銷售和在線電子商務活動中最基礎最常用的數(shù)據(jù)挖掘行為。經(jīng)典的啤酒和尿布案例就是通過分析客戶的購買行為發(fā)現(xiàn)在外國的超市里男人去買尿布的同時也買走了啤酒,從而決定將尿布和啤酒的擺放位置調(diào)整得更合理,促進超市里啤酒的

31、銷量,同時也省去了尋找啤酒和尿布的時間,縮短了每客戶購物的時間,進而提高銷售業(yè)績。這是線下超市的一個經(jīng)典案例,在電子商務活動中也同樣適用。我們可以從網(wǎng)站的數(shù)據(jù)庫中記錄的客戶的購買記錄,可以是一次交易,也可以是一段時間內(nèi)的交易記錄,去分析客戶在交易中所購買的商品。找出商品與商品之間的聯(lián)系,商品與客戶行為的聯(lián)系,從而調(diào)整電子商務網(wǎng)站的商品推薦策略、購買建議等。為客戶縮短搜索商品的時間,簡化操作,增強用戶的購買體驗。</p>&

32、lt;p>  2012年4月由IT168和盛拓傳媒主辦的2012數(shù)據(jù)庫技術大會上有一場是關于數(shù)據(jù)挖掘技術的,他們邀請到了淘寶的數(shù)據(jù)挖掘工程師來進行分享。會上淘寶的工程師分享了這么一個案例,他們分析了每年的情人節(jié)、七夕、圣誕節(jié)這三個節(jié)日淘寶上商品的銷售情況。發(fā)現(xiàn)在這三個節(jié)日,淘寶用戶基本會購買鮮花和巧克力等商品。這也不奇怪,通常情況下在這些節(jié)日都是男女互贈禮物以示愛意,鮮花和巧克力銷量大增也是正常。但是過了大概半月到一月的時間,他們

33、又對這些在節(jié)日購買了鮮花和巧克力的客戶進行了一次購買行為的分析,分析發(fā)現(xiàn),這部分客戶在購買了鮮花或巧克力后的一周到一個月間大部分的客戶都購買了另一種商品,那就是‘安全套’。而后又分析了每月的‘安全套’交易量,對比了情人節(jié)、七夕、圣誕三個節(jié)日所在的月和其它月份‘安全套’的交易量。最后得出一個結(jié)論,客戶在重要的節(jié)日購買鮮花和巧克力后的一周到一個月時間內(nèi)很大概率會購買計生用品。</p><p>  根據(jù)此項分析結(jié)論淘寶

34、可以在客戶將鮮花或巧克力放入購物車后推薦客戶購買計生用品,如:xxx客戶您好,80%購買鮮花和巧克力的客戶還購買了以下商品。把計生用品為客戶做一個列表展示。</p><p>  合理的商品推薦策略、購買建議可以縮短客戶搜索商品的時間、簡化客戶的購買操作、同時也增強了客戶的購買體驗。從而縮短每客戶的購物時間,提高每次交易的商品數(shù)量和交易金額,使電子商務活動更高效。</p><p>  3.3

35、分析客戶對站點的訪問行為</p><p>  電子商務是通過Internet網(wǎng)絡,采用數(shù)字化電子方式進行商務數(shù)據(jù)交換和開展商務業(yè)務活動。這種活動都需要基于電子商務站點進行,站點內(nèi)的訪問行為體現(xiàn)的是客戶的購買意向,和感興趣的商品,以及對站點功能使用的熟練程度,如站點的搜索、物品分類等。客戶對某個站點的訪問方式體現(xiàn)的是個人的上網(wǎng)習慣、對網(wǎng)絡的使用頻度、對電子商務(網(wǎng)上交易)的認知程度等。</p>&

36、lt;p>  打仗時知己知彼方能百戰(zhàn)不殆,電子商務活動雖不是打仗,但是越多的了解你的客戶客戶群,掌握他們的習慣和愛好對開展電子商務活動絕對是至關重要的,可以更好的去留住客戶和發(fā)展新的客戶,對提高企業(yè)的競爭力非常的重要。使用數(shù)據(jù)挖掘技術對客戶的站點訪問行為數(shù)據(jù)進行分析從而對客戶更深入的了解,制定合適的導航信息、站點內(nèi)部的分類、站點的便捷功能、站點的廣告推廣等。</p><p>  客戶對站點的訪問行為分析分兩

37、類進行,一類是分析客戶在站點內(nèi)部的訪問行為記錄。如,客戶首先進入主站點,而后統(tǒng)計出進入主站點后訪問最多的前三個或五個頁面,找到這些頁面后分析這些頁面,找出頁面的特性,分析客戶從主站點直接進入該頁面的目的。例如,可以發(fā)現(xiàn),有大部分客戶進入主站點后進入搜索頁面或者是商品分類頁面,而不是直接進入商品的詳細頁面。這說明,大部分客戶非常明白自己要購買什么商品,目的明確,不是閑逛的,進入主站后直接搜索或進入所需要的商品的類目進行查找。據(jù)此再對此類客

38、戶的購買記錄進行分析,看看他們是不是找到了自己需要的商品,并進行了購買活動。如果客戶進行了搜索查找,而成交量卻比較的低,說明存在問題。是客戶找到了商品沒有進行購買還是客戶根本就沒有搜索到相關的商品,此時就需要去核實一下站點的搜索功能是否可用、實用、好用,分類是否合理、便捷等從而對站點進行相關的優(yōu)化,提高性能和體驗,使客戶在本站點購物簡單愉快。</p><p>  第二類是分析客戶對站點的訪問方式,如直接輸入站點地

39、址進行訪問的客戶則可能是經(jīng)常光顧本站,有一定網(wǎng)購經(jīng)驗,對網(wǎng)絡比較熟悉甚至依賴。對這類客戶不需要太多的引導和推廣,因為他們已經(jīng)是老手了。比如還有的是通過百度搜索或者其他的網(wǎng)站鏈接進入到站點的,那可以推斷這些客戶并不經(jīng)常在網(wǎng)絡上活動,甚至他們需要間接的通過其他站點來訪問我們的電子商務網(wǎng)站,對這類客戶就需要有一定的引導,比如提示他們將我們的站點收藏到IE收藏夾,或者引導他們?nèi)绾斡涀』蛉绾沃苯釉L問到我們的站點。</p><p

40、>  3.4從歷史銷售數(shù)據(jù)中挖掘交易規(guī)律</p><p>  數(shù)據(jù)挖掘基本過程的第一項就是確定業(yè)務對象,也就是說我們進行數(shù)據(jù)挖掘的目標,數(shù)據(jù)挖掘只作為一種技術,通過此項技術來實現(xiàn)或者是驗證我們一開始設定的目標。簡單的說就是在進行數(shù)據(jù)挖掘前我們先要有一個猜想,猜想會有什么樣的規(guī)律或者情況,而后通過數(shù)據(jù)挖掘相關技術去驗證。</p><p>  電子商務活動中產(chǎn)生的大量的交易數(shù)據(jù)是一類

41、非常有挖掘價值的數(shù)據(jù),關鍵在于從什么角度去挖掘,確定什么樣的目標。比如可以利用商品的歷史銷售數(shù)據(jù)從時間(天)、成交量兩個維度進行數(shù)據(jù)挖掘分析得出某類商品是否存在交易的規(guī)律。淘寶的數(shù)據(jù)分析師們也做過這樣的猜測和分析,他們在眾多的交易分析中發(fā)現(xiàn)有一種商品每個月月初的時候交易明顯比平常高出好幾倍,是什么呢?‘手機充值卡’,它的交易是有規(guī)律的,因為移動運營商一般會在月初進行費用結(jié)算,很多人也就在這時候需要進充值。</p><

42、p>  找到商品的交易規(guī)律則可以事先做好庫存的準備,避免脫銷的現(xiàn)象,就能抓住時機,達成最有效的交易。</p><p>  3.5定位客戶的網(wǎng)絡性別</p><p>  電子商務活動中一般都需要客戶在網(wǎng)站進行注冊填寫相關個人信息而后才可以進行正常的電子商務活動??蛻舻膫€人信息必須是要保密的不可以隨意的泄露,所以在利用和分析此類信息的時候需要更多的考慮客戶的信息安全和隱私。其實單從客

43、戶注冊信息中的性別去判斷或分類客戶是不太準確的,為什么這么說呢?例如,我們可以做這樣一個分析,調(diào)取網(wǎng)站注冊信息為男性的客戶的交易記錄進行分析,看看這些所謂的男性客戶都買過什么樣的商品,有多少百分比的商品是男性用品。分析大概可以得出結(jié)論是男性注冊用戶其實有50%左右在購買女性商品,這其實是一個普遍的現(xiàn)象,男士在網(wǎng)上購物大多數(shù)情況下其實不是為自己在消費,更多的是在替女性進行消費,從整個電子商務行業(yè)的調(diào)查來看女性消費主體也是大于男性消費的,如

44、果我們單純的以用戶的注冊性別來進行男女顧客的分類然后進行相關的營銷廣告、商品的推薦策略制定的話那效果是不那么準確和明顯的。更應該結(jié)合客戶的購買記錄進行商品的性別分析,從而分析得出客戶在電子商務活動中,在網(wǎng)絡中的性別。</p><p><b>  3.6路徑分析</b></p><p>  路徑分析可以被用于判定在一個Web站點中最頻繁訪問的路徑。還有一些其他的有關

45、路徑的信息通過路徑分析可以得出:</p><p>  ·70%的用戶端在訪問/company/product2時,是從/company開始,經(jīng)過/company/new, /company/products,/company/product1。</p><p>  ·80%的訪問這個站點的客戶是從/company/products開始的。</p><

46、p>  ·65%的客戶在瀏覽4個或更少的頁面后就離開了。</p><p>  第一條規(guī)則在/company/product2頁面上有有用的信息,但因為客戶對站點進行的是迂回繞行的訪問,所以這個有用信息并不明顯。第二條規(guī)則說明了客戶對站點的訪問一般不是從主頁開始的,而是從/company/products開始的,如果在這個頁面上包含一些產(chǎn)品的目錄類型的信息,將是一個不錯的主意。第三條規(guī)則說明了客戶在

47、網(wǎng)站上駐留的時間。既然客戶在這個網(wǎng)站上瀏覽一般不超過4個頁面,就可以把重要的商品信息放在這些頁面中。通過路徑分析,可以改進頁面及網(wǎng)站結(jié)構(gòu)的設計。</p><p>  3.7關聯(lián)分析方法的運用</p><p>  關聯(lián)分析可形式化地描述為:設I= {i1,i2,…,im}是m個不同項目的集合,D是針對I上的事件的集合,D中每一項事件包含若干項目I’,且I’ I。則關聯(lián)規(guī)則表示為X Y,其

48、中X,Y I,并且X∩Y=Φ。X稱作規(guī)則的前提,Y是結(jié)果。針對每一條規(guī)則應同時計算最小支持度和最小置信度,得出的最小支持度和最小置信度必須同時大于用戶給出的最小支持度和最小置信度閥值,這條規(guī)則才被認為有參考的價值,并被列入分析的結(jié)果。</p><p>  定義1:對于D I,X是包含于D的事件子集,則子集X在集合D上的最小支持度為:support(X)=S(X)/S(D),其中S(X)表示包含項目X的事件個數(shù),S

49、(D)表示事件D的個數(shù)。定義2:X Y的最小置信度為:confidence(X Y)=S(X∪Y)/S(X),其中S(X∪Y)表示同時包含項目X和Y的事件個數(shù)。</p><p>  關聯(lián)分析就是要分析I上的事件集合D,針對D中的每一個項目X,計算最小支持度,對那些大于用戶給出的最小支持度閥值的X,進而計算其與另一個項目Y的最小置信度,若得到值大于用戶給出的最小置信度閥值,則認為規(guī)則X Y成立,也即斷言項目X、Y在

50、一定程度上發(fā)生關聯(lián)。下面結(jié)合顧客購買實例提出一個可行的關聯(lián)分析方法。</p><p>  某公司專業(yè)生產(chǎn)化妝用品和沐浴用品,該公司在全國各大城市的各大商場都設點銷售,公司對一定時間范圍內(nèi)顧客購買詳細情況作了收集,情況如表1所示(限于篇幅,僅列出6個顧客、5種產(chǎn)品為例)。</p><p>  表1 顧客購買情況表</p><p>  針對表1進行關聯(lián)分析,首先構(gòu)造兩種

51、商品間的關聯(lián)表,如表2所示,表中每一個數(shù)值表示的是行、列代表的兩種商品同時被一個用戶購買的次數(shù)。</p><p>  表2兩種商品間關聯(lián)表</p><p>  第二步,針對設定的最小支持度閥值,計算每一個X的最小支持度,將大于最小支持度閥值的X列出(本例,設最小支持度閥值為0.5):support(洗面奶)=0.6; support(晚霜)=0.6; support(洗發(fā)水)=0.8; s

52、upport(沐浴乳)=0.6.第三步,針對設定的最小置信度閥值和上步列出的X,計算的最小置信度表,如表3所示:</p><p>  表3 X Y的最小置信度表</p><p>  第四步,將大于最小置信度閥值的列出(本例,設最小置信度閥值為0.5),即為關聯(lián)分析所得出的規(guī)則:</p><p>  Rule1:晚霜 洗面奶,support=0.6, confiden

53、ce=0.667</p><p>  Rule2:洗面奶 晚霜,support=0.6, confidence=0.667</p><p>  Rule3:洗發(fā)水 沐浴乳,support=0.8, confidence=0.75</p><p>  Rule4:沐浴乳 洗發(fā)水,support=0.6, confidence=1</p><p>

54、;  從上述規(guī)則可以初步得出結(jié)論:(1)購買本公司產(chǎn)品的顧客中相當比例的人有晚上用洗面奶洗面,并用晚霜保養(yǎng)皮膚的習慣(估計顧客中有一定比例是白領上班族,早上匆忙,晚上空暇)。(2)購買洗發(fā)水的顧客多半會同時購買沐浴乳,而購買沐浴乳的顧客則幾乎肯定會購買洗發(fā)水(因多數(shù)人沐浴時同時洗發(fā),并且洗發(fā)次數(shù)多于沐浴)。</p><p>  根據(jù)上述規(guī)則,公司在營銷時采取了如下措施:(1)將晚霜與洗面奶、洗發(fā)水與沐浴乳放置在一

55、起,方便顧客購買。(2)顧客購買了一種商品后,適當推薦另一種商品。(3)在生產(chǎn)與發(fā)貨運輸上,將關聯(lián)產(chǎn)品配套按排。采取這些措施后,顧客的交叉消費大為提高。</p><p><b>  第四章 結(jié)束語</b></p><p>  數(shù)據(jù)挖掘綜合了機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫和數(shù)據(jù)分析等多領域的研究成果,目前已經(jīng)普遍應用于了很多的領域,利用數(shù)據(jù)挖掘得出決策規(guī)則, 還應

56、包括對分析所用到的原始數(shù)據(jù)進行清理,濾去數(shù)據(jù)“噪聲”的數(shù)據(jù)整理工作、對得出的規(guī)則進行衡量的結(jié)果評價工作以及對挖掘模型的優(yōu)化工作等等。在大數(shù)據(jù)環(huán)境下進行數(shù)據(jù)挖掘成本是不需要考慮的因素,要將數(shù)據(jù)挖掘更好的應用到各個行業(yè)則需要開發(fā)更高效的挖掘算法、研制可視化的挖掘界面、研究基于不同媒體的挖掘、研究如何確定規(guī)則的評價標準和如何與其他系統(tǒng)集成等。</p><p>  隨著數(shù)據(jù)挖掘技術的迅速發(fā)展,越發(fā)掀起了投資數(shù)據(jù)挖掘項目的

57、高潮.但在實現(xiàn)這一復雜、昂貴的技術同時,也暴露了很多問題.投資者往往對其存有過高期望,低估成本,帶來了極大的風險;另外還需要有專門的內(nèi)部專業(yè)技術人員或咨詢機構(gòu)解釋、評價數(shù)據(jù)挖掘結(jié)果,增加了成本.因此信息管理人員和投資者還需充分認識其潛在的問題,要從需求、數(shù)據(jù)、財力及技術4個方面考慮,認真進行成本/效益分析,避免不必要的開支和風險。</p><p><b>  參考文獻</b></p&g

58、t;<p>  [1] Harjinder S Gill.數(shù)據(jù)倉庫—客戶/方服務器計算指南.北京:清華大學出版社,1998</p><p>  [2] 王清毅、陳恩紅、蔡慶生.知識發(fā)現(xiàn)的若干問題及應用研究.計算機科學,1997Vol.24 No.5</p><p>  [3] 孫義、方真.電子商務.北京:北京大學出版社,2010-8-1</p><p&g

59、t;  [4] 周曙東.電子商務概論.南京:東南大學出版社,2011-7-1</p><p>  [5](加)韓家煒,堪博 著,范明,孟小峰 譯.數(shù)據(jù)挖掘概念與技術(原書第2版).機械工業(yè)出版社,2007-3-1</p><p>  [6] 鄒顯春、謝 中、周彥暉.電子商務與Web數(shù)據(jù)挖掘.重慶:西南師范大學計算機與信息科學學院,2001-5</p><p>  [

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論