版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、3.資料關聯(lián) Association,關聯(lián)範例三:鐵達尼號關聯(lián)分析,資料關聯(lián)範例一,函數(shù)【apriori】檔案 beer.xls5 records 6 fields,關聯(lián)法則基本概念,在資料探勘的領域之中,關聯(lián)性法則(association rule)是最常被使用的方法。關聯(lián)性法則在於找出資料庫中的資料間彼此的相關聯(lián)性。在關聯(lián)性法則之使用中,Apriori是最為著名且廣泛運用的演算法。最早是由Agrawal & Srikan
2、t 等兩位學者於1994年首先提出。if前項antecedent(s) then後項consequent(s),關聯(lián)規(guī)則分析,Transaction 項目列表, 每一列均為單一購物籃中的項目名稱列表,以逗點或空格相隔,項目名稱必須是英文,關聯(lián)規(guī)則分析,規(guī)則X? Y X和Y為物件的集合X稱為前項antecedents (lhs:left hand sides) Y稱為後項consequents (rhs:right hand si
3、des)支援度support: X和Y同時出現(xiàn)的次數(shù)/所有交易數(shù)信賴度confidence: X和Y同時出現(xiàn)的次數(shù)/X出現(xiàn)的次數(shù)提昇lift: support/ ((support(X) * (support(Y))Given X, the probability of buying Y increases規(guī)則範例:{Milk, Diaper} ? {Beer} (s=0.4, c=0.67){Milk, Beer}
4、? {Diaper} (s=0.4, c=1.0){Diaper, Beer} ? {Milk} (s=0.4, c=0.67){Beer} ? {Milk, Diaper} (s=0.4, c=0.67),資料是0或1二元檔,若您的購物籃資料是 0,1 二元檔,則直接當作輸入檔,需轉換成矩陣beer=as.matrix(beer),資料是0或1二元檔的程式碼,#Apriori beer.xlslibrary(xlsx)li
5、brary(arules)beer=read.xlsx("d:\\stella\\R\\beer.xls",header=T,sheetIndex=1)beer=as.matrix(beer)rule=apriori(beer,parameter=list(supp=0.2,conf=0.8,maxlen=5)) #default 是0.1, 0.8, 10inspect(rule)summary(ru
6、le)inspect(head(sort(rule,by="support"),10)),apriori的執(zhí)行結果,原始的關聯(lián)規(guī)則,排序後的關聯(lián)規(guī)則,資料是各項物品名稱,若購物籃資料是各項物品名稱,則以read.transactions指令輸入後,再轉換成交易檔beer2=as(beer,"transactions"),資料是物品名稱的程式碼,library(arules)beer=read.
7、transactions("d:\\stella\\R\\beer.txt",sep=",")beer2=as(beer,"transactions")Inspect(beer2)rule=apriori(beer2,parameter=list(supp=0.2,conf=0.8,maxlen=5))inspect(head(sort(rule,by="su
8、pport"),10)),apriori的執(zhí)行結果,,可依support, confidence或lift排序,,資料關聯(lián)範例二,函數(shù)【apriori】檔案 shopping.txt786 records 15 fields,購物產(chǎn)品關聯(lián)分析,shopping.txt的欄位計有15項,產(chǎn)品分為10個類別分別是Ready made、Frozen Food、Alcohol 、 Fresh Vegetables、 Milk、 Ba
9、kery goods 、 Fresh meat、 Toiletries、 Snacks、Tinned Goods,有買資料值為1,沒買則資料值為0沒用到的基本資料包括GENDER 、 AGE、 MARITAL、 CHILDREN、WORKING ( Currently employed?),關聯(lián)模型注意事項,建模時可以設定支援度、信賴度等建模的細節(jié),當門檻值過高而無法生成模型時,使用者須適度調整門檻值 執(zhí)行後產(chǎn)生關聯(lián)規(guī)則的模型,可以
10、查看詳細的規(guī)則內(nèi)容。排序的規(guī)則有支援度(Support)、信賴度(Confidence) 、提昇(Lift) 等方式, 使用者可依需求選擇也可以產(chǎn)生自訂目標的關聯(lián)規(guī)則,Modeler 4個關聯(lián)規(guī)則的準則,,,R的support,,前項支援度,,名詞解釋 (第一個關聯(lián)規(guī)則為例),全部總共786筆資料買Milk和Frozen Food的人是85筆買Bakery goods的人是337筆買Milk和Frozen Food而且買Bake
11、ry goods的人是71筆買Milk和Frozen Food但不買Bakery goods的人是14筆後項(R的rhs) – Bakery goods 前項(R的lhs) – Milk和Frozen Food實例– 85,即符合前項的筆數(shù),名詞解釋,支援度–10.814 = 85/786,是指購買前項產(chǎn)品的客戶佔全部客戶的比例(R的support是指以下的規(guī)則支援度)信賴度 - 83.529 = 71/85,是指購買前項產(chǎn)品
12、的客戶中也買後項產(chǎn)品的比例 規(guī)則支援%(即支援度x信賴度)–9.033 = 10.814% x 83.529% 或= 71 / 786,指購買前項產(chǎn)品也買後項產(chǎn)品的客戶佔全部客戶的比例 提昇–1.948 = (71/85)/ (337/786)或 = 83.529% / 42.875%,指購買後項產(chǎn)品佔購買前項產(chǎn)品的比例除以購買後項產(chǎn)品佔全部客戶的比例,apriori的程式碼,library(arules)shopping=rea
13、d.csv("d:\\stella\\R\\shopping.txt", header=T)head(shopping)shopping=shopping[,1:10]shopping=na.exclude(shopping)shopping=as.matrix(shopping) rule=apriori(shopping,parameter=list(supp=0.09, conf=0.8,maxlen
14、=5))inspect(head(sort(rule,by="support"),10))inspect(head(sort(rule,by="confidence"),10)),apriori的程式碼,產(chǎn)生4個關聯(lián)規(guī)則,目標為Alcohol的關聯(lián)規(guī)則,,資料關聯(lián)範例三,函數(shù)【apriori】檔案Titanic2201 records 4 fields,關聯(lián)規(guī)則探勘步驟,直接用資料框架變數(shù)或
15、將購物籃資料轉成交易檔格式,或將0或1二元檔轉成矩陣以預設值進行初步探勘(supp=0.1,conf=0.8,maxlen=10)調整參數(shù)設定為我們想要看的面向(Survived與否)修剪多餘的規(guī)則關聯(lián)規(guī)則視覺化,轉檔和初步探勘的程式碼,#apriori Titanicdf=as.data.frame(Titanic) #32x5Titan=NULLfor (i in 1:4)Titan=cbind(Titan,rep
16、(as.character(df[,i]),df$Freq))Titan=as.data.frame(Titan) #2201x4names(Titan)=names(df)[1:4]summary(Titan)library(arules)rule=apriori(Titan)inspect(rule),將內(nèi)建資料轉成交易檔格式,,以預設值進行初步探勘,產(chǎn)生27個規(guī)則,調整參數(shù)與移除重複規(guī)則,#refine and pru
17、ning rulesrule=apriori(Titan,parameter=list(minlen=2,supp=0.005,conf=0.8),appearance=list(rhs=c("Survived=No","Survived=Yes"),default="lhs"))rulesort=sort(rule,by="lift")inspect
18、(rulesort)subset.matrix=is.subset(rulesort,rulesort)redundant=colSums(subset.matrix) > 1which(redundant)rulepruned=rulesort[!redundant]inspect(rulepruned),限定後項參數(shù)為Survived,,移除重複規(guī)則,,再調整前項後項參數(shù)的程式碼,rule2=apriori(Tita
19、n, control = list(verbose=F),parameter = list(minlen=3, supp=0.002, conf=0.2),appearance = list(default="none", rhs=c("Survived=Yes"), lhs=c("Class=1st", "Class=2nd", "Class=
20、3rd","Age=Child", "Age=Adult")))rule2.sorted= sort(rule2, by="confidence")inspect(rule2.sorted),再審視兒童的存活率和艙等,關聯(lián)規(guī)則視覺化,library(arulesViz)#Heat map (熱圖)plot(rulepruned)#Balloon plot (
21、氣球圖)plot(rulepruned,method="grouped") # Graph (網(wǎng)路圖)plot(rulepruned,method="graph",control =list(type="items"))# Parallel coordinates plot (平行座標圖)plot(rulepruned, method = "paracoor
22、d", control = list(reorder = TRUE)),Heat map (熱圖),Balloon plot (氣球圖),Graph (網(wǎng)路圖),平行座標圖,資料關聯(lián)範例四,函數(shù)【cspade】檔案 TelRepair.txt750 cases 5915 records 3 fields,序列分析,序列(Sequence)分析的重點在於資料中必須存在先後順序的關係(例如時間)序列分析類似於關聯(lián)規(guī)則,但還得考
23、量時間的先後順序,也就是說著重時間的順序作資料關聯(lián)的分析,序列分析可以提供我們針對客戶客製化行銷的預測,掌握良機,當某位客戶買了某項產(chǎn)品後,就已經(jīng)預告將來的某個時間點會再度買我們的附加產(chǎn)品或服務,維修案例檔案說明,檔案TelRepair.txt包括750個維修案例,共有 5915紀錄,3個欄位第1個欄位是ID,對應一份診斷修理報告,第2個欄位紀錄著每個ID修理診斷的順序,第3個欄位紀錄每次修理診斷的動作每份診斷修理報告開始以代碼9
24、0表示(但只有727個案例是),成功完成修理以代碼210表示,若問題無法成功解決,則以代碼299表示練習失敗案例檔案FailTelRepair.txt,檔案格式(不需欄名),Modeler執(zhí)行結果(成功率92%=690/750),,重複修理( 22.133% = 166/750個id),,序列分析的程式碼,# cspade TelRepairlibrary("arulesSequences")repair=re
25、ad_baskets("d:\\stella\\R\\TelRepair.txt",sep="\t",info=c("sequenceID","eventID"))arulesSeq=cspade(repair,parameter = list(supp=0.2),control = list(verbose=T),tmpdir=tempdir())su
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中外經(jīng)濟關聯(lián)性探討
- 證據(jù)關聯(lián)性規(guī)則研究.pdf
- 納達爾發(fā)球階段關聯(lián)性研究
- 兩變量關聯(lián)性分析介紹
- 中美股市關聯(lián)性分析.pdf
- 建筑更新的關聯(lián)性研究.pdf
- 刑事證據(jù)關聯(lián)性規(guī)則研究.pdf
- 審計和財務的關聯(lián)性探析
- 納達爾發(fā)球階段關聯(lián)性研究.pdf
- 字幕翻譯中的最佳關聯(lián)性
- 關聯(lián)性與引文理解.pdf
- 環(huán)保責任與企業(yè)價值關聯(lián)性研究
- 美國證據(jù)關聯(lián)性規(guī)則的研究.pdf
- 企業(yè)金融關聯(lián)性風險圖研究.pdf
- 攝影與政治之間的關聯(lián)性.pdf
- 中子蒸發(fā)與裂變碎片關聯(lián)性研究
- 法律方法的類型及其關聯(lián)性.pdf
- 鑒定結論關聯(lián)性研究.pdf
- 刑事訴訟證據(jù)關聯(lián)性研究.pdf
- 消費與幸福的關聯(lián)性研究.pdf
評論
0/150
提交評論