2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、聚類分析,聚類分析是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計(jì)方法。類是指相似元素的集合。分類:1、系統(tǒng)聚類法------(分層聚類)系統(tǒng)聚類法是應(yīng)用最廣泛的一種 (Hierarchical Cluster過程) 1)、 聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為 一類。 2)、 分層聚類的方法可以用于樣本聚

2、類(Q)型,也可以用于變量聚類 (R型)。2、非系統(tǒng)聚類法-----(快速聚類法----K-均值聚類法)(K-means Cluster)3、兩步聚類法-----一種探索性的聚類方法(TwoStep Cluster),K-均值聚類分析K-means Cluster,又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點(diǎn): 是占內(nèi)存少、計(jì)算量小、處理速度快,特別適合大

3、樣本的聚類分析。缺點(diǎn): 應(yīng)用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對觀測量(樣本)聚類,而不能對變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。,基本原理具體做法1、按照指定的分類數(shù)目n,按某種方法選擇某些觀測量,設(shè)為{Z1,Z2,…Zn},作為初始聚心。2、計(jì)算每個觀測量到各個聚心的歐氏距離。即 按就近原則將每個觀測量選入一個類中,然后計(jì)算

4、各個類的中心位置,即均值,作為新的聚心。3、使用計(jì)算出來的新聚心重新進(jìn)行分類,分類完畢后繼續(xù)計(jì)算各類的中心位置,作為新的聚心,如此反復(fù)操作,直到兩次迭代計(jì)算的聚心之間距離的最大改變量小于初始聚類心間最小距離的倍數(shù)時,或者到達(dá)迭代次數(shù)的上限時,停止迭代。,數(shù)據(jù)標(biāo)準(zhǔn)化處理:,存儲中間過程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理,并存儲。,,指定5類,,收斂標(biāo)準(zhǔn)值,,存儲最終結(jié)果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2),,初始聚心選項(xiàng),輸出方差分析表,

5、,初始聚類中心表,,具體城市看后表,,最終聚類中心表,,聚類結(jié)果:QCL-1說明聚類結(jié)果,QCL-2說明聚類的長度情況,,系統(tǒng)聚類法Hierarchical Cluster,系統(tǒng)聚類法優(yōu)點(diǎn): 既可以對觀測量(樣品)也可對變量進(jìn)行聚類,既可以連續(xù)變量也可以是分類變量,提供的距離計(jì)算方法和結(jié)果顯示方法也很豐富。,應(yīng)用實(shí)例,某電冰箱廠開發(fā)某一新產(chǎn)品,在投放市場前希望對以往經(jīng)銷的國內(nèi)6個地區(qū)征集對新產(chǎn)品的評價,若對新產(chǎn)品的評價

6、指標(biāo)有三項(xiàng):式樣、性能、顏色,評價的調(diào)整表采用10分制,調(diào)查結(jié)果的數(shù)據(jù)如下表,,,,,1 2 3 4 5 6,性能 9 1 10 9 2 8 顏色 8 2

7、 7 9 4 6 式樣 7 2 8 3 5 7,地區(qū)(樣品),指標(biāo),用分類法對6個樣品進(jìn)行分類,以估計(jì)哪些地區(qū)最有可能經(jīng)銷這類新產(chǎn)品?,按公式計(jì)算兩兩樣品間的相似系數(shù),得相似矩陣,1 2 3

8、 4 5 6,123456,Q =,按四條原則進(jìn)行分類,,,,作聚類分析圖,X3X6X1X4X2X5,,,,,,,,,,,,,,,,,1,0.994,0.955,0.994,0.933,一、問題提出聚類分析——對一批樣品或指標(biāo)進(jìn)行分類的一種統(tǒng) 計(jì)方法。,具體處理方法:(思路),1、具體研究的分類對象:樣品或指標(biāo)2、方法:把“性質(zhì)相似”或“相

9、互關(guān)系密切”的樣品或指標(biāo)聚在一起。3、步驟:1)首先給出度量“相似”或“關(guān)系密切”的統(tǒng)計(jì)指標(biāo),,2)形成一個由小到大的分析系統(tǒng)。3)把整個分類系統(tǒng)畫成一張分類圖,(3)相關(guān)系數(shù)(4)關(guān)聯(lián)系數(shù),指標(biāo):(1)統(tǒng)計(jì)指標(biāo)是相似系數(shù)。 根據(jù)相似性歸為一類,否則為另一類。 (2)統(tǒng)計(jì)指標(biāo)是樣品(空間的點(diǎn))之間的距離 將距離近的點(diǎn)歸成一類,否則為另一類。,二、聚類統(tǒng)計(jì)量,首先定義一些分類統(tǒng)

10、計(jì)指標(biāo) —— 刻畫樣或指標(biāo)之間的相似程度(這些統(tǒng)計(jì)指標(biāo)稱為聚類統(tǒng)計(jì)量),在市場研究中,樣品 —— 用作分類的事物 指標(biāo) —— 用來作為分類依據(jù)的變量。(如:年齡、收入、銷售量),(一)相似系數(shù)(夾角余弦) 一般式:假定每個樣品包含有P項(xiàng)指標(biāo),若有幾個樣品的調(diào)查數(shù)據(jù),每一個樣品都可看成P維空間中的一個向量,,對于任意兩個樣品Xi和Xj的相似程度可用這兩個向量之間的夾角余弦,來表示:,Xi和Xj相重合時,夾角,

11、相似程度為,Xi和Xj相互垂直時,,相似程度為,相似密切,,解析幾何知識:相似系數(shù),其中:,如果把上述n個樣品的任何兩個樣品的相似系數(shù),都計(jì)算出來并排列成一,個矩陣:,根據(jù)算出的,,就可對n個樣品進(jìn)行聚類,用相似系數(shù)作為聚類統(tǒng)計(jì)量時的分類方法,1、分類原則: (1)若選出一對樣品,在已分好的類中未出現(xiàn),則形成一個獨(dú)立新類。 (2)若選出兩個樣品中,有一個是在已分好的類中出現(xiàn)過,則把另一個樣品也加入到該類中去。 (3)若選出一對樣品

12、,都分別出現(xiàn)已經(jīng)分好的兩類中,則把這兩個類聯(lián)結(jié)在一起。 (4)若選出的一對樣品都出現(xiàn)在同一組中,則這對樣品就不用再分組了。按上述四條原則反復(fù)進(jìn)行,直到把所有樣品都分類完畢,最后以分類圖形式表示,2、分類方法,例:設(shè)有7個樣品,每個樣品測得P個指標(biāo),數(shù)據(jù)如表,,,,X1 X2 X3 X4 X5 X6 X7,,,樣品,指標(biāo),要求對此7個樣品進(jìn)行聚類,采用的聚類統(tǒng)計(jì)量是相似系數(shù)(夾角余弦),首先

13、計(jì)算所有的兩個樣品間的相似系數(shù),1 2 3 4 5 6 7,1234567,Q =,按矩陣中的數(shù)值對7個樣品(按四個原則)進(jìn)行聚類,,1 2 3 4 5 6 7,1234567,Q =,,,,,,順序 連結(jié)樣品

14、 相似系數(shù),123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1

15、 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,,,,,,,,按矩陣中的數(shù)值對7個樣品(按四個原則)進(jìn)行聚類,1、記下Q中最大值q15=0.97,劃去Q中的第5行第5列2、記下Q中剩余元素最大值q13=0.94,劃去Q中的第3行第3列,行,,,,,,,,(3)記下Q中剩余元素最大值q24=0.91,

16、劃去Q中的第4行第4列(4)記下Q中剩余元素最大值q26=0.67,劃去Q中的第6行第6列(5)記下Q中剩余元素最大值q12=0.51,劃去Q中的第2行第2列(6)記下Q中剩余元素最大值q17=0.24,作聚類圖:,X1X5X3X2X4X6X7,,,,,,,,,,,,,,,,,,,,0.97,0.94,0.91,0.67,0.51,0.24,2)利用相關(guān)作聚類分析,例:設(shè)有n個樣品,每個樣品測得8個指標(biāo)X1,X2,…,

17、X8。要求對8個指標(biāo)進(jìn)行聚類,聚類統(tǒng)計(jì)量采用相關(guān)系數(shù),設(shè)相關(guān)矩陣R = ( )為:,,1 2 3 4 5 6 7 8,12345678,,,,,,順序 連結(jié)樣品 相似系數(shù),1234567,X1 X6 0.99

18、 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3

19、 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7,,,,R=,按矩陣R中數(shù)值對8個指標(biāo)(按四個原則)進(jìn)行聚類:1)記下矩陣中的最大值,,劃去第6行第6列,2)記下矩陣中的最大值,,劃去第3行第3列,以此類推。,作聚類圖:,X1X6X3X4X2X7X5X8,,,,,,,,

20、,,,,,,,,,,,,,,,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照時數(shù),,注:連續(xù)變量,SPSS提供不同類間距離的測量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,,觀測量概述表,,聚類步驟,與圖結(jié)合看!,,,,,,,,,,,,,4、5,,聚類方法有系統(tǒng)聚類和逐步聚類,輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關(guān)矩陣(CO

21、RR過程產(chǎn)生)或協(xié)方差矩陣(FACTOR等過程產(chǎn)生)。SAS提供的聚類過程有:1、CLUSTER對坐標(biāo)數(shù)據(jù)或距離數(shù)據(jù)的觀測值用11種方法進(jìn)行系統(tǒng)聚類,當(dāng)觀測值數(shù)太多時,不宜直接采用。2、FASTCLUS對于坐標(biāo)數(shù)據(jù),用K-均值法對觀測值進(jìn)行逐步聚類,當(dāng)觀測值很多時,則先用FACTCLUS過程對其進(jìn)行初步聚類,然后再用CLUSTER過程進(jìn)行系統(tǒng)聚類。3、VARCLUS通過斜交多組分量分析對變量進(jìn)行系統(tǒng)聚類或逐步聚類。4、TREE為

22、CLUSTER或VARCLUS過程產(chǎn)生的輸出畫樹狀圖。,CLUSTER過程開始每個觀測值自成一類,然后求兩兩之間的距離,將距離最近的兩個觀測值合成一類。這個過程一直進(jìn)行下去,每次減少一類,直到合成一類為止。聚類方法有11種,可根據(jù)問題的性質(zhì)選用,它們的區(qū)別在于怎樣計(jì)算兩類之間的距離。METHOD=指定方法AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距離法)、DENSITY(密度法)、MEDIAM(

23、中位數(shù)法)等,美國十個城市的分類根據(jù)兩個城市見航空距離將美國十個大城市作分類,,,,,,,聚類分析SAS程序:,,原始數(shù)據(jù)是兩兩之間距離的三角陣(而不是坐標(biāo)),,,輸入格式,,55列為城市,,15位,,平均法重心法最小距離法,,,輸出F及t統(tǒng)計(jì)量,,觀測值之間距離的均方根,,輸出結(jié)果:,,類數(shù),,,指出被合并的類,,新類中的觀測值數(shù),,,類間距離除以觀測值間距離均方根得來,,,F、t**2峰值(起伏)越大說明分類顯著,,研究各種飲

24、料在市場消費(fèi)的分配規(guī)律,試確定各種飲料消費(fèi)類型,聚類分析的第幾步,,哪兩個樣本或小類聚成一類,,相應(yīng)的樣本距離或小類距離,,指明是樣本(0)還是小類(n),,下面第幾步用到,,垂直冰柱圖顯示層次聚類分析,從冰柱圖最后一行開始觀察,第一列表示類數(shù),,,,,,,,,,,兩步聚類法TwoStep Cluster,一種探索性的聚類方法,是隨著人工智能的發(fā)展起來的智能聚類方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類別結(jié)構(gòu)的聚類分析問題。,兩步聚類

25、法特點(diǎn):1、同時處理離散變量和連續(xù)變量的能力2、自動選擇聚類數(shù)3、通過預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型4、可以處理超大樣本量的數(shù)據(jù),簡單介紹基本原理分兩步進(jìn)行第一步:預(yù)聚類。對記錄進(jìn)行初始的歸類,用戶自定義最大類別數(shù)。通過構(gòu)建和修改特征樹(CT Free)完成。第二步:正式聚類。對第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類的類別數(shù)目。以后,可以通過傳統(tǒng)的聚類方法進(jìn)行聚類(SPS

26、S中采用合并型分層聚類法)。,輸出各變量在聚類中比重圖,,輸出出聚類餅分圖,,每個變量做一張條圖,,每一各類別做兩張,分別為連續(xù)與離散聚類,,重要性測度,,1、質(zhì)心表和頻數(shù)表2、聚類分析表3、自動聚類結(jié)果表,,聚類數(shù)目,,數(shù)值越小效果越好,,BIC相鄰兩項(xiàng)差值,,看數(shù)據(jù)的峰值,看聚類效果。4、8、10、14類。,,BIC準(zhǔn)則-Schwartz Bayesian Criterion,,離散變量頻數(shù)表的圖形表示,,連續(xù)變量在各個類別中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論