版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、聚類分析,聚類分析是研究(樣品或指標(biāo))分類問(wèn)題的一種多元統(tǒng)計(jì)方法。類是指相似元素的集合。分類:1、系統(tǒng)聚類法------(分層聚類)系統(tǒng)聚類法是應(yīng)用最廣泛的一種 (Hierarchical Cluster過(guò)程) 1)、 聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為 一類。 2)、 分層聚類的方法可以用于樣本聚
2、類(Q)型,也可以用于變量聚類 (R型)。2、非系統(tǒng)聚類法-----(快速聚類法----K-均值聚類法)(K-means Cluster)3、兩步聚類法-----一種探索性的聚類方法(TwoStep Cluster),K-均值聚類分析K-means Cluster,又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點(diǎn): 是占內(nèi)存少、計(jì)算量小、處理速度快,特別適合大
3、樣本的聚類分析。缺點(diǎn): 應(yīng)用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對(duì)觀測(cè)量(樣本)聚類,而不能對(duì)變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。,基本原理具體做法1、按照指定的分類數(shù)目n,按某種方法選擇某些觀測(cè)量,設(shè)為{Z1,Z2,…Zn},作為初始聚心。2、計(jì)算每個(gè)觀測(cè)量到各個(gè)聚心的歐氏距離。即 按就近原則將每個(gè)觀測(cè)量選入一個(gè)類中,然后計(jì)算
4、各個(gè)類的中心位置,即均值,作為新的聚心。3、使用計(jì)算出來(lái)的新聚心重新進(jìn)行分類,分類完畢后繼續(xù)計(jì)算各類的中心位置,作為新的聚心,如此反復(fù)操作,直到兩次迭代計(jì)算的聚心之間距離的最大改變量小于初始聚類心間最小距離的倍數(shù)時(shí),或者到達(dá)迭代次數(shù)的上限時(shí),停止迭代。,數(shù)據(jù)標(biāo)準(zhǔn)化處理:,存儲(chǔ)中間過(guò)程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理,并存儲(chǔ)。,,指定5類,,收斂標(biāo)準(zhǔn)值,,存儲(chǔ)最終結(jié)果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2),,初始聚心選項(xiàng),輸出方差分析表,
5、,初始聚類中心表,,具體城市看后表,,最終聚類中心表,,聚類結(jié)果:QCL-1說(shuō)明聚類結(jié)果,QCL-2說(shuō)明聚類的長(zhǎng)度情況,,系統(tǒng)聚類法Hierarchical Cluster,系統(tǒng)聚類法優(yōu)點(diǎn): 既可以對(duì)觀測(cè)量(樣品)也可對(duì)變量進(jìn)行聚類,既可以連續(xù)變量也可以是分類變量,提供的距離計(jì)算方法和結(jié)果顯示方法也很豐富。,應(yīng)用實(shí)例,某電冰箱廠開(kāi)發(fā)某一新產(chǎn)品,在投放市場(chǎng)前希望對(duì)以往經(jīng)銷的國(guó)內(nèi)6個(gè)地區(qū)征集對(duì)新產(chǎn)品的評(píng)價(jià),若對(duì)新產(chǎn)品的評(píng)價(jià)
6、指標(biāo)有三項(xiàng):式樣、性能、顏色,評(píng)價(jià)的調(diào)整表采用10分制,調(diào)查結(jié)果的數(shù)據(jù)如下表,,,,,1 2 3 4 5 6,性能 9 1 10 9 2 8 顏色 8 2
7、 7 9 4 6 式樣 7 2 8 3 5 7,地區(qū)(樣品),指標(biāo),用分類法對(duì)6個(gè)樣品進(jìn)行分類,以估計(jì)哪些地區(qū)最有可能經(jīng)銷這類新產(chǎn)品?,按公式計(jì)算兩兩樣品間的相似系數(shù),得相似矩陣,1 2 3
8、 4 5 6,123456,Q =,按四條原則進(jìn)行分類,,,,作聚類分析圖,X3X6X1X4X2X5,,,,,,,,,,,,,,,,,1,0.994,0.955,0.994,0.933,一、問(wèn)題提出聚類分析——對(duì)一批樣品或指標(biāo)進(jìn)行分類的一種統(tǒng) 計(jì)方法。,具體處理方法:(思路),1、具體研究的分類對(duì)象:樣品或指標(biāo)2、方法:把“性質(zhì)相似”或“相
9、互關(guān)系密切”的樣品或指標(biāo)聚在一起。3、步驟:1)首先給出度量“相似”或“關(guān)系密切”的統(tǒng)計(jì)指標(biāo),,2)形成一個(gè)由小到大的分析系統(tǒng)。3)把整個(gè)分類系統(tǒng)畫(huà)成一張分類圖,(3)相關(guān)系數(shù)(4)關(guān)聯(lián)系數(shù),指標(biāo):(1)統(tǒng)計(jì)指標(biāo)是相似系數(shù)。 根據(jù)相似性歸為一類,否則為另一類。 (2)統(tǒng)計(jì)指標(biāo)是樣品(空間的點(diǎn))之間的距離 將距離近的點(diǎn)歸成一類,否則為另一類。,二、聚類統(tǒng)計(jì)量,首先定義一些分類統(tǒng)
10、計(jì)指標(biāo) —— 刻畫(huà)樣或指標(biāo)之間的相似程度(這些統(tǒng)計(jì)指標(biāo)稱為聚類統(tǒng)計(jì)量),在市場(chǎng)研究中,樣品 —— 用作分類的事物 指標(biāo) —— 用來(lái)作為分類依據(jù)的變量。(如:年齡、收入、銷售量),(一)相似系數(shù)(夾角余弦) 一般式:假定每個(gè)樣品包含有P項(xiàng)指標(biāo),若有幾個(gè)樣品的調(diào)查數(shù)據(jù),每一個(gè)樣品都可看成P維空間中的一個(gè)向量,,對(duì)于任意兩個(gè)樣品Xi和Xj的相似程度可用這兩個(gè)向量之間的夾角余弦,來(lái)表示:,Xi和Xj相重合時(shí),夾角,
11、相似程度為,Xi和Xj相互垂直時(shí),,相似程度為,相似密切,,解析幾何知識(shí):相似系數(shù),其中:,如果把上述n個(gè)樣品的任何兩個(gè)樣品的相似系數(shù),都計(jì)算出來(lái)并排列成一,個(gè)矩陣:,根據(jù)算出的,,就可對(duì)n個(gè)樣品進(jìn)行聚類,用相似系數(shù)作為聚類統(tǒng)計(jì)量時(shí)的分類方法,1、分類原則: (1)若選出一對(duì)樣品,在已分好的類中未出現(xiàn),則形成一個(gè)獨(dú)立新類。 (2)若選出兩個(gè)樣品中,有一個(gè)是在已分好的類中出現(xiàn)過(guò),則把另一個(gè)樣品也加入到該類中去。 (3)若選出一對(duì)樣品
12、,都分別出現(xiàn)已經(jīng)分好的兩類中,則把這兩個(gè)類聯(lián)結(jié)在一起。 (4)若選出的一對(duì)樣品都出現(xiàn)在同一組中,則這對(duì)樣品就不用再分組了。按上述四條原則反復(fù)進(jìn)行,直到把所有樣品都分類完畢,最后以分類圖形式表示,2、分類方法,例:設(shè)有7個(gè)樣品,每個(gè)樣品測(cè)得P個(gè)指標(biāo),數(shù)據(jù)如表,,,,X1 X2 X3 X4 X5 X6 X7,,,樣品,指標(biāo),要求對(duì)此7個(gè)樣品進(jìn)行聚類,采用的聚類統(tǒng)計(jì)量是相似系數(shù)(夾角余弦),首先
13、計(jì)算所有的兩個(gè)樣品間的相似系數(shù),1 2 3 4 5 6 7,1234567,Q =,按矩陣中的數(shù)值對(duì)7個(gè)樣品(按四個(gè)原則)進(jìn)行聚類,,1 2 3 4 5 6 7,1234567,Q =,,,,,,順序 連結(jié)樣品
14、 相似系數(shù),123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1
15、 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,,,,,,,,按矩陣中的數(shù)值對(duì)7個(gè)樣品(按四個(gè)原則)進(jìn)行聚類,1、記下Q中最大值q15=0.97,劃去Q中的第5行第5列2、記下Q中剩余元素最大值q13=0.94,劃去Q中的第3行第3列,行,,,,,,,,(3)記下Q中剩余元素最大值q24=0.91,
16、劃去Q中的第4行第4列(4)記下Q中剩余元素最大值q26=0.67,劃去Q中的第6行第6列(5)記下Q中剩余元素最大值q12=0.51,劃去Q中的第2行第2列(6)記下Q中剩余元素最大值q17=0.24,作聚類圖:,X1X5X3X2X4X6X7,,,,,,,,,,,,,,,,,,,,0.97,0.94,0.91,0.67,0.51,0.24,2)利用相關(guān)作聚類分析,例:設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)得8個(gè)指標(biāo)X1,X2,…,
17、X8。要求對(duì)8個(gè)指標(biāo)進(jìn)行聚類,聚類統(tǒng)計(jì)量采用相關(guān)系數(shù),設(shè)相關(guān)矩陣R = ( )為:,,1 2 3 4 5 6 7 8,12345678,,,,,,順序 連結(jié)樣品 相似系數(shù),1234567,X1 X6 0.99
18、 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3
19、 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7,,,,R=,按矩陣R中數(shù)值對(duì)8個(gè)指標(biāo)(按四個(gè)原則)進(jìn)行聚類:1)記下矩陣中的最大值,,劃去第6行第6列,2)記下矩陣中的最大值,,劃去第3行第3列,以此類推。,作聚類圖:,X1X6X3X4X2X7X5X8,,,,,,,,
20、,,,,,,,,,,,,,,,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照時(shí)數(shù),,注:連續(xù)變量,SPSS提供不同類間距離的測(cè)量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,,觀測(cè)量概述表,,聚類步驟,與圖結(jié)合看!,,,,,,,,,,,,,4、5,,聚類方法有系統(tǒng)聚類和逐步聚類,輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關(guān)矩陣(CO
21、RR過(guò)程產(chǎn)生)或協(xié)方差矩陣(FACTOR等過(guò)程產(chǎn)生)。SAS提供的聚類過(guò)程有:1、CLUSTER對(duì)坐標(biāo)數(shù)據(jù)或距離數(shù)據(jù)的觀測(cè)值用11種方法進(jìn)行系統(tǒng)聚類,當(dāng)觀測(cè)值數(shù)太多時(shí),不宜直接采用。2、FASTCLUS對(duì)于坐標(biāo)數(shù)據(jù),用K-均值法對(duì)觀測(cè)值進(jìn)行逐步聚類,當(dāng)觀測(cè)值很多時(shí),則先用FACTCLUS過(guò)程對(duì)其進(jìn)行初步聚類,然后再用CLUSTER過(guò)程進(jìn)行系統(tǒng)聚類。3、VARCLUS通過(guò)斜交多組分量分析對(duì)變量進(jìn)行系統(tǒng)聚類或逐步聚類。4、TREE為
22、CLUSTER或VARCLUS過(guò)程產(chǎn)生的輸出畫(huà)樹(shù)狀圖。,CLUSTER過(guò)程開(kāi)始每個(gè)觀測(cè)值自成一類,然后求兩兩之間的距離,將距離最近的兩個(gè)觀測(cè)值合成一類。這個(gè)過(guò)程一直進(jìn)行下去,每次減少一類,直到合成一類為止。聚類方法有11種,可根據(jù)問(wèn)題的性質(zhì)選用,它們的區(qū)別在于怎樣計(jì)算兩類之間的距離。METHOD=指定方法AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距離法)、DENSITY(密度法)、MEDIAM(
23、中位數(shù)法)等,美國(guó)十個(gè)城市的分類根據(jù)兩個(gè)城市見(jiàn)航空距離將美國(guó)十個(gè)大城市作分類,,,,,,,聚類分析SAS程序:,,原始數(shù)據(jù)是兩兩之間距離的三角陣(而不是坐標(biāo)),,,輸入格式,,55列為城市,,15位,,平均法重心法最小距離法,,,輸出F及t統(tǒng)計(jì)量,,觀測(cè)值之間距離的均方根,,輸出結(jié)果:,,類數(shù),,,指出被合并的類,,新類中的觀測(cè)值數(shù),,,類間距離除以觀測(cè)值間距離均方根得來(lái),,,F、t**2峰值(起伏)越大說(shuō)明分類顯著,,研究各種飲
24、料在市場(chǎng)消費(fèi)的分配規(guī)律,試確定各種飲料消費(fèi)類型,聚類分析的第幾步,,哪兩個(gè)樣本或小類聚成一類,,相應(yīng)的樣本距離或小類距離,,指明是樣本(0)還是小類(n),,下面第幾步用到,,垂直冰柱圖顯示層次聚類分析,從冰柱圖最后一行開(kāi)始觀察,第一列表示類數(shù),,,,,,,,,,,兩步聚類法TwoStep Cluster,一種探索性的聚類方法,是隨著人工智能的發(fā)展起來(lái)的智能聚類方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類別結(jié)構(gòu)的聚類分析問(wèn)題。,兩步聚類
25、法特點(diǎn):1、同時(shí)處理離散變量和連續(xù)變量的能力2、自動(dòng)選擇聚類數(shù)3、通過(guò)預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型4、可以處理超大樣本量的數(shù)據(jù),簡(jiǎn)單介紹基本原理分兩步進(jìn)行第一步:預(yù)聚類。對(duì)記錄進(jìn)行初始的歸類,用戶自定義最大類別數(shù)。通過(guò)構(gòu)建和修改特征樹(shù)(CT Free)完成。第二步:正式聚類。對(duì)第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類的類別數(shù)目。以后,可以通過(guò)傳統(tǒng)的聚類方法進(jìn)行聚類(SPS
26、S中采用合并型分層聚類法)。,輸出各變量在聚類中比重圖,,輸出出聚類餅分圖,,每個(gè)變量做一張條圖,,每一各類別做兩張,分別為連續(xù)與離散聚類,,重要性測(cè)度,,1、質(zhì)心表和頻數(shù)表2、聚類分析表3、自動(dòng)聚類結(jié)果表,,聚類數(shù)目,,數(shù)值越小效果越好,,BIC相鄰兩項(xiàng)差值,,看數(shù)據(jù)的峰值,看聚類效果。4、8、10、14類。,,BIC準(zhǔn)則-Schwartz Bayesian Criterion,,離散變量頻數(shù)表的圖形表示,,連續(xù)變量在各個(gè)類別中的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- spss聚類分析和判別分析論文
- spss概覽--數(shù)據(jù)分析實(shí)例詳解
- 基于spss的統(tǒng)計(jì)專業(yè)學(xué)生能力傾向聚類分析
- spss概覽--數(shù)據(jù)分析實(shí)例詳解
- spss概覽--數(shù)據(jù)分析實(shí)例詳解
- spss軟件聚類分析過(guò)程的圖文解釋及結(jié)果的全面分析
- 基于spss聚類分析的公路隧道圍巖亞分級(jí)方法研究.pdf
- 01-spss軟件聚類分析過(guò)程的圖文解釋及結(jié)果的全面分析
- 聚類分析
- spss相關(guān)分析
- 聚類分析
- spss數(shù)據(jù)分析教程之spss信度分析和效度分析
- spss數(shù)據(jù)分析教程之spss信度分析和效度分析
- spss經(jīng)濟(jì)分析論文
- spss分析報(bào)告實(shí)例
- spss回歸分析作業(yè)
- 綜合聚類分析
- spss數(shù)據(jù)分析教程之spss信度分析和效度分析(doc)
- 第04課spss結(jié)果瀏覽窗口用法詳解(1)
- 關(guān)聯(lián)分析--spss例析
評(píng)論
0/150
提交評(píng)論