spss聚類分析詳解

上傳人：奔*** IP屬地：河北更新時間：2024-10-16 格式：ppt 頁數(shù)：80 大?。?.63MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩79頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、聚類分析,聚類分析是研究（樣品或指標(biāo)）分類問題的一種多元統(tǒng)計方法。類是指相似元素的集合。分類：1、系統(tǒng)聚類法------（分層聚類）系統(tǒng)聚類法是應(yīng)用最廣泛的一種（Hierarchical Cluster過程） 1）、聚類原則：都是相近的聚為一類，即距離最近或最相似的聚為一類。 2）、分層聚類的方法可以用于樣本聚

2、類（Q）型，也可以用于變量聚類（R型）。2、非系統(tǒng)聚類法-----（快速聚類法----K-均值聚類法）（K-means Cluster)3、兩步聚類法-----一種探索性的聚類方法（TwoStep Cluster）,K-均值聚類分析K-means Cluster,又稱為快速樣本聚類法，是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點(diǎn)：是占內(nèi)存少、計算量小、處理速度快，特別適合大

3、樣本的聚類分析。缺點(diǎn)：應(yīng)用范圍有限，要求用戶制定分類數(shù)目(要告知)，只能對觀測量（樣本）聚類，而不能對變量聚類，且所使用的聚類變量必須都是連續(xù)性變量。,基本原理具體做法1、按照指定的分類數(shù)目n，按某種方法選擇某些觀測量，設(shè)為{Z1，Z2，…Zn}，作為初始聚心。2、計算每個觀測量到各個聚心的歐氏距離。即按就近原則將每個觀測量選入一個類中，然后計算

4、各個類的中心位置，即均值，作為新的聚心。3、使用計算出來的新聚心重新進(jìn)行分類，分類完畢后繼續(xù)計算各類的中心位置，作為新的聚心，如此反復(fù)操作，直到兩次迭代計算的聚心之間距離的最大改變量小于初始聚類心間最小距離的倍數(shù)時，或者到達(dá)迭代次數(shù)的上限時，停止迭代。,數(shù)據(jù)標(biāo)準(zhǔn)化處理：,存儲中間過程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理，并存儲。,,指定5類,,收斂標(biāo)準(zhǔn)值,,存儲最終結(jié)果輸出情況，在數(shù)據(jù)文件中（QCL-1、QCL-2）,,初始聚心選項，輸出方差分析表,

5、,初始聚類中心表,,具體城市看后表,,最終聚類中心表,,聚類結(jié)果：QCL-1說明聚類結(jié)果，QCL-2說明聚類的長度情況,,系統(tǒng)聚類法Hierarchical Cluster,系統(tǒng)聚類法優(yōu)點(diǎn)：既可以對觀測量（樣品）也可對變量進(jìn)行聚類，既可以連續(xù)變量也可以是分類變量，提供的距離計算方法和結(jié)果顯示方法也很豐富。,應(yīng)用實例,某電冰箱廠開發(fā)某一新產(chǎn)品，在投放市場前希望對以往經(jīng)銷的國內(nèi)6個地區(qū)征集對新產(chǎn)品的評價，若對新產(chǎn)品的評價

6、指標(biāo)有三項：式樣、性能、顏色，評價的調(diào)整表采用10分制，調(diào)查結(jié)果的數(shù)據(jù)如下表,,,,,1 2 3 4 5 6,性能 9 1 10 9 2 8 顏色 8 2

7、 7 9 4 6 式樣 7 2 8 3 5 7,地區(qū)（樣品）,指標(biāo),用分類法對6個樣品進(jìn)行分類，以估計哪些地區(qū)最有可能經(jīng)銷這類新產(chǎn)品？,按公式計算兩兩樣品間的相似系數(shù)，得相似矩陣,1 2 3

8、 4 5 6,123456,Q =,按四條原則進(jìn)行分類,,,,作聚類分析圖,X3X6X1X4X2X5,,,,,,,,,,,,,,,,,1,0.994,0.955,0.994,0.933,一、問題提出聚類分析——對一批樣品或指標(biāo)進(jìn)行分類的一種統(tǒng) 計方法。,具體處理方法：（思路）,1、具體研究的分類對象：樣品或指標(biāo)2、方法：把“性質(zhì)相似”或“相

9、互關(guān)系密切”的樣品或指標(biāo)聚在一起。3、步驟：1）首先給出度量“相似”或“關(guān)系密切”的統(tǒng)計指標(biāo),,2）形成一個由小到大的分析系統(tǒng)。3）把整個分類系統(tǒng)畫成一張分類圖,（3）相關(guān)系數(shù)（4）關(guān)聯(lián)系數(shù),指標(biāo)：（1）統(tǒng)計指標(biāo)是相似系數(shù)。根據(jù)相似性歸為一類，否則為另一類。（2）統(tǒng)計指標(biāo)是樣品（空間的點(diǎn)）之間的距離將距離近的點(diǎn)歸成一類，否則為另一類。,二、聚類統(tǒng)計量,首先定義一些分類統(tǒng)

10、計指標(biāo) —— 刻畫樣或指標(biāo)之間的相似程度（這些統(tǒng)計指標(biāo)稱為聚類統(tǒng)計量）,在市場研究中，樣品 —— 用作分類的事物指標(biāo) —— 用來作為分類依據(jù)的變量。（如：年齡、收入、銷售量）,（一）相似系數(shù)（夾角余弦）一般式：假定每個樣品包含有P項指標(biāo)，若有幾個樣品的調(diào)查數(shù)據(jù),每一個樣品都可看成P維空間中的一個向量,,對于任意兩個樣品Xi和Xj的相似程度可用這兩個向量之間的夾角余弦,來表示：,Xi和Xj相重合時，夾角,

11、相似程度為,Xi和Xj相互垂直時，,相似程度為,相似密切,,解析幾何知識：相似系數(shù),其中：,如果把上述n個樣品的任何兩個樣品的相似系數(shù),都計算出來并排列成一,個矩陣：,根據(jù)算出的,，就可對n個樣品進(jìn)行聚類,用相似系數(shù)作為聚類統(tǒng)計量時的分類方法,1、分類原則：（1）若選出一對樣品，在已分好的類中未出現(xiàn)，則形成一個獨(dú)立新類。（2）若選出兩個樣品中，有一個是在已分好的類中出現(xiàn)過，則把另一個樣品也加入到該類中去。（3）若選出一對樣品

12、，都分別出現(xiàn)已經(jīng)分好的兩類中，則把這兩個類聯(lián)結(jié)在一起。（4）若選出的一對樣品都出現(xiàn)在同一組中，則這對樣品就不用再分組了。按上述四條原則反復(fù)進(jìn)行，直到把所有樣品都分類完畢，最后以分類圖形式表示,2、分類方法,例：設(shè)有7個樣品，每個樣品測得P個指標(biāo)，數(shù)據(jù)如表,,,,X1 X2 X3 X4 X5 X6 X7,,,樣品,指標(biāo),要求對此7個樣品進(jìn)行聚類，采用的聚類統(tǒng)計量是相似系數(shù)（夾角余弦）,首先

13、計算所有的兩個樣品間的相似系數(shù),1 2 3 4 5 6 7,1234567,Q =,按矩陣中的數(shù)值對7個樣品（按四個原則）進(jìn)行聚類,,1 2 3 4 5 6 7,1234567,Q =,,,,,,順序連結(jié)樣品

14、相似系數(shù),123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1

15、 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,,,,,,,,按矩陣中的數(shù)值對7個樣品（按四個原則）進(jìn)行聚類,1、記下Q中最大值q15=0.97，劃去Q中的第5行第5列2、記下Q中剩余元素最大值q13=0.94，劃去Q中的第3行第3列,行,,,,,,,,（3）記下Q中剩余元素最大值q24=0.91，

16、劃去Q中的第4行第4列（4）記下Q中剩余元素最大值q26=0.67，劃去Q中的第6行第6列（5）記下Q中剩余元素最大值q12=0.51，劃去Q中的第2行第2列（6）記下Q中剩余元素最大值q17=0.24,作聚類圖：,X1X5X3X2X4X6X7,,,,,,,,,,,,,,,,,,,,0.97,0.94,0.91,0.67,0.51,0.24,2）利用相關(guān)作聚類分析,例：設(shè)有n個樣品，每個樣品測得8個指標(biāo)X1，X2，…，

17、X8。要求對8個指標(biāo)進(jìn)行聚類，聚類統(tǒng)計量采用相關(guān)系數(shù),設(shè)相關(guān)矩陣R = （）為：,,1 2 3 4 5 6 7 8,12345678,,,,,,順序連結(jié)樣品相似系數(shù),1234567,X1 X6 0.99

18、 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3

19、 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7,,,,R=,按矩陣R中數(shù)值對8個指標(biāo)（按四個原則）進(jìn)行聚類：1）記下矩陣中的最大值,，劃去第6行第6列,2）記下矩陣中的最大值,，劃去第3行第3列,以此類推。,作聚類圖：,X1X6X3X4X2X7X5X8,,,,,,,,

20、,,,,,,,,,,,,,,,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照時數(shù),,注：連續(xù)變量,SPSS提供不同類間距離的測量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,,觀測量概述表,,聚類步驟，與圖結(jié)合看！,,,,,,,,,,,,,4、5,,聚類方法有系統(tǒng)聚類和逐步聚類，輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關(guān)矩陣（CO

21、RR過程產(chǎn)生）或協(xié)方差矩陣（FACTOR等過程產(chǎn)生）。SAS提供的聚類過程有：1、CLUSTER對坐標(biāo)數(shù)據(jù)或距離數(shù)據(jù)的觀測值用11種方法進(jìn)行系統(tǒng)聚類，當(dāng)觀測值數(shù)太多時，不宜直接采用。2、FASTCLUS對于坐標(biāo)數(shù)據(jù)，用K-均值法對觀測值進(jìn)行逐步聚類，當(dāng)觀測值很多時，則先用FACTCLUS過程對其進(jìn)行初步聚類，然后再用CLUSTER過程進(jìn)行系統(tǒng)聚類。3、VARCLUS通過斜交多組分量分析對變量進(jìn)行系統(tǒng)聚類或逐步聚類。4、TREE為

22、CLUSTER或VARCLUS過程產(chǎn)生的輸出畫樹狀圖。,CLUSTER過程開始每個觀測值自成一類，然后求兩兩之間的距離，將距離最近的兩個觀測值合成一類。這個過程一直進(jìn)行下去，每次減少一類，直到合成一類為止。聚類方法有11種，可根據(jù)問題的性質(zhì)選用，它們的區(qū)別在于怎樣計算兩類之間的距離。METHOD=指定方法AVERAGE（平均法）、CENTROID（重心法）、COMPLETE（最大距離法）、DENSITY（密度法）、MEDIAM（

23、中位數(shù)法）等,美國十個城市的分類根據(jù)兩個城市見航空距離將美國十個大城市作分類,,,,,,,聚類分析SAS程序：,,原始數(shù)據(jù)是兩兩之間距離的三角陣（而不是坐標(biāo)）,,,輸入格式,,55列為城市,,15位,,平均法重心法最小距離法,,,輸出F及t統(tǒng)計量,,觀測值之間距離的均方根,,輸出結(jié)果：,,類數(shù),,,指出被合并的類,,新類中的觀測值數(shù),,,類間距離除以觀測值間距離均方根得來,,,F、t**2峰值(起伏)越大說明分類顯著,,研究各種飲

24、料在市場消費(fèi)的分配規(guī)律，試確定各種飲料消費(fèi)類型,聚類分析的第幾步,,哪兩個樣本或小類聚成一類,,相應(yīng)的樣本距離或小類距離,,指明是樣本(0)還是小類(n),,下面第幾步用到,,垂直冰柱圖顯示層次聚類分析,從冰柱圖最后一行開始觀察，第一列表示類數(shù),,,,,,,,,,,兩步聚類法TwoStep Cluster,一種探索性的聚類方法，是隨著人工智能的發(fā)展起來的智能聚類方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類別結(jié)構(gòu)的聚類分析問題。,兩步聚類

25、法特點(diǎn)：1、同時處理離散變量和連續(xù)變量的能力2、自動選擇聚類數(shù)3、通過預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型4、可以處理超大樣本量的數(shù)據(jù),簡單介紹基本原理分兩步進(jìn)行第一步：預(yù)聚類。對記錄進(jìn)行初始的歸類，用戶自定義最大類別數(shù)。通過構(gòu)建和修改特征樹（CT Free）完成。第二步：正式聚類。對第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案，系統(tǒng)根據(jù)一定的統(tǒng)計標(biāo)準(zhǔn)確定聚類的類別數(shù)目。以后，可以通過傳統(tǒng)的聚類方法進(jìn)行聚類（SPS

26、S中采用合并型分層聚類法）。,輸出各變量在聚類中比重圖,,輸出出聚類餅分圖,,每個變量做一張條圖,,每一各類別做兩張,分別為連續(xù)與離散聚類,,重要性測度,,1、質(zhì)心表和頻數(shù)表2、聚類分析表3、自動聚類結(jié)果表,,聚類數(shù)目,,數(shù)值越小效果越好,,BIC相鄰兩項差值,,看數(shù)據(jù)的峰值，看聚類效果。4、8、10、14類。,,BIC準(zhǔn)則-Schwartz Bayesian Criterion,,離散變量頻數(shù)表的圖形表示,,連續(xù)變量在各個類別中的

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

spss聚類分析詳解

文檔簡介

溫馨提示

最新文檔

評論

spss聚類分析詳解

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載