版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1,因子分析,2,§1 引言 因子分析(factor analysis)是一種數據簡化的技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,并用少數幾個假想變量來表示其基本的數據結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。 例如,在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標構成的評價體系,評價百貨商場的
2、24個方面的優(yōu)劣。,3,,,但消費者主要關心的是三個方面,即商店的環(huán)境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:,,稱 是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分 ,稱為特殊因子。,4,注: 因子分析與回歸分析不同,因子分析中的因
3、子是一個比較抽象的概念,而回歸因子有非常明確的實際意義; 主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構造因子模型。 主成分分析:原始變量的線性組合表示新的綜合變量,即主成分; 因子分析:潛在的假想變量和隨機影響變量的線性組合表示原始變量。,5,§ 2 因子分析模型,一、數學模型,設 個變量,如果表示為,6,稱為 公
4、共因子,是不可觀測的變量,他們的系數稱為因子載荷。 是特殊因子,是不能被前m個公共因子包含的部分。并且滿足:,即不相關;,即 互不相關,方差為1。,7,即互不相關,方差不一定相等, 。,8,用矩陣的表達方式,9,二、因子分析模型的性質,1、原始變量X的協方差矩陣的分解,D的主對角線上的元素值越小,則公共因子共享的成分越多。,10,2、模型不受計量單位的影響,將原始變量X做變換X*=CX,這里
5、C=diag(c1,c2,…,cn),ci>0。,11,12,3、因子載荷不是惟一的,設T為一個p×p的正交矩陣,令A*=AT,F*=T’F,則模型可以表示為,且滿足條件因子模型的條件,13,三、 因子載荷矩陣中的幾個統計特征,1、因子載荷aij的統計意義,因子載荷 是第i個變量與第j個公共因子的相關系數,模型為,在上式的左右兩邊乘以,,再求數學期望,根據公共因子的模型性質,有,(載荷矩陣中第i行,第j列的元素)反
6、映了第i個變量與第j個公共因子的相關重要性。絕對值越大,相關的密切程度越高。,14,2、變量共同度的統計意義,定義:變量 的共同度是因子載荷矩陣的第i行的元素的平方和。記為,統計意義:,兩邊求方差,,,所有的公共因子和特殊因子對變量 的貢獻為1。如果 非??拷?, 非常小,則因子分析的效果好,從原變量空間到公共因子空間的轉化性質好。,15,3、公共因子 方差貢獻的統計意義,因子載荷矩陣中各列元素的平方和
7、稱為所有的 對 的方差貢獻和。衡量的相對重要性。,,,,16,§ 3 因子載荷矩陣的估計方法,設隨機向量 的均值為?,協方差為?, 為?的特征根, 為對應的標準化特征向量,則,(一)主成分分析法,17,上式給出的?表達式是精確的,然而,它實際上是毫無
8、價值的,因為我們的目的是尋求用少數幾個公共因子解釋,故略去后面的p-m項的貢獻,有,18,,上式有一個假定,模型中的特殊因子是不重要的,因而從?的分解中忽略了特殊因子的方差。,19,注:殘差矩陣,其中S為樣本的協方差矩陣。,20,(二)主因子法,主因子方法是對主成分方法的修正,假定我們首先對變量進行標準化變換。則 R=AA’+D R*=AA’=R-D稱R*為約相關矩陣,
9、R*對角線上的元素是 ,而不是1。,21,直接求R*的前p個特征根和對應的正交特征向量。得如下的矩陣:,22,,當特殊因子 的方差不為且已知的,問題非常好解決。,23,24,在實際的應用中,個性方差矩陣一般都是未知的,可以通過一組樣本來估計。估計的方法有如下幾種:,首先,求 的初始估計值,構造出,1)取 ,在這個情況下主因子解與主成分解等價; 2)取 , 為xi與其他所有的原始變量xj的復相關
10、系數的平方,即xi對其余的p-1個xj的回歸方程的判定系數,這是因為xi 與公共因子的關系是通過其余的p-1個xj 的線性組合聯系起來的;,,,25,2)取 ,這意味著取xi與其余的xj的簡單相關系數的絕對值最大者;,4)取 ,其中要求該值為正數。,5)取 ,其中 是 的對角元素。,26,(三)極大似然估計法(略),如果假定公共因子F和特殊因子?服從正態(tài)
11、分布,那么可以得到因子載荷和特殊因子方差的極大似然估計。設 為來自正態(tài)總體Np(?,?)的隨機樣本。,27,它通過?依賴?和??。上式并不能唯一確定?,為此可添加一個唯一性條件: 這里?式一個對角矩陣,用數值極大化的方法可以得到極大似然估計 。極大似然估計 將使 為對角陣,且似然函數達到最大。
12、 相應的共同度的似然估計為: 第J個因子對總方差的貢獻:,28,例 假定某地固定資產投資率 ,通貨膨脹率 ,失業(yè)率 ,相關系數矩陣為試用主成分分析法求因子分析模型。,29,特征根為:,30,可取前兩個因子F1和F2為公共因子,第一公因子F1物價就業(yè)因子,對X的貢獻為1.55。第一公因子F2為投資因子,對X的貢獻為0.85。共同度分別為1,0.706,0.706。,31,假定某地固
13、定資產投資率 ,通貨膨脹率 ,失業(yè)率 ,相關系數矩陣為試用主因子分析法求因子分析模型。假定用代替初始的 。 。,32,特征根為:,對應的非零特征向量為:,33,34,§ 4 因子旋轉(正交變換),建立了因子分析數學目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共
14、因子的含義不清,則不便于進行實際背景的解釋。由于因子載荷陣是不惟一的,所以應該對因子載荷陣進行旋轉。目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉法。四次方最大法、方差最大法和等量最大法。,(一)為什么要旋轉因子,35,百米跑成績 跳遠成績 鉛球成績 跳高成績 400米跑成績 百米跨欄 鐵餅成績 撐桿跳遠成績
15、 標槍成績 1500米跑成績,奧運會十項全能運動項目得分數據的因子分析,36,,37,因子載荷矩陣可以看出,除第一因子在所有的變量在公共因子上有較大的正載荷,可以稱為一般運動因子。其他的3個因子不太容易解釋。似乎是跑和投擲的能力對比,似乎是長跑耐力和短跑速度的對比。于是考慮旋轉因子,得下表,38,39,通過旋轉,因子有了較為明確的含義。 百米跑, 跳遠和 400米跑,需要爆發(fā)力的項目在 有較大的載荷,
16、 可以稱為短跑速度因子; 鉛球, 鐵餅和 標槍在 上有較大的載荷,可以稱為爆發(fā)性臂力因子; 百米跨欄, 撐桿跳遠, 跳遠和為 跳高在 上有較大的載荷, 爆發(fā)腿力因子; 長跑耐力因子。,40,變換后因子的共同度,設?正交矩陣,做正交變換,變換后因子的共同度沒有發(fā)生變化!,(二)旋轉方法,41,變換后因子貢獻,設?正交矩陣,做正交變換,變換后因子的貢獻發(fā)生了變化!
17、,42,1、方差最大法 方差最大法從簡化因子載荷矩陣的每一列出發(fā),使和每個因子有關的載荷的平方的方差最大。當只有少數幾個變量在某個因子上又較高的載荷時,對因子的解釋最簡單。方差最大的直觀意義是希望通過因子旋轉后,使每個因子上的載荷盡量拉開距離,一部分的載荷趨于?1,另一部分趨于0。,43,,,,,,44,45,46,1、四次方最大旋轉 四次方最大旋轉是從簡化載荷矩陣的行出發(fā),通過旋轉初始因子,使每個變量只在一個因子
18、上又較高的載荷,而在其它的因子上盡可能低的載荷。如果每個變量只在一個因子上又非零的載荷,這是的因子解釋是最簡單的。 四次方最大法通過使因子載荷矩陣中每一行的因子載荷平方的方差達到最大。,,47,,48,3、等量最大法 等量最大法把四次方最大法和方差最大法結合起來求Q和V的加權平均最大。,權數?等于m/2,因子數有關。,49,§ 5 因子得分,(一)因子得分的概念,前面我們主要解決了用公共因子的線性
19、組合來表示一組觀測變量的有關問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,這就需要我們對公共因子進行測度,即給出公共因子的值。,50,人均要素變量因子分析。對我國32個省市自治區(qū)的要素狀況作因子分析。指標體系中有如下指標:X1 :人口(萬人) X2 :面積(萬平方公里)X3 :GDP(億元) X4 :人均水資源(立方米/人)
20、X5:人均生物量(噸/人) X6:萬人擁有的大學生數(人)X7:萬人擁有科學家、工程師數(人),Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 -0.21522 -0.27397 0.89092 X2 0.63973 -0.28739 -0.28755 X3 -0.15791 0.06334 0.948
21、55 X4 0.95898 -0.01501 -0.07556 X5 0.97224 -0.06778 -0.17535 X6 -0.11416 0.98328 -0.08300 X7 -0.11041 0.97851 -0.07246,51,X1=-0.21522F1-0.27397F2+0.89092F3 X2=0.63973F1-0.28739F2-0.2875
22、5F3 X3=-0.15791F1+0.06334F2+0.94855F3 X4=0.95898F1-0.01501F2-0.07556F3 X5=0.97224F1-0.06778F2-0.17535F3 X6=-0.11416F1+0.98328F2-0.08300F3 X7=-0.11041F1+0.97851F2-0.07246F3,52,Standardized Scoring Coefficie
23、nts FACTOR1 FACTOR2 FACTOR3 X1 0.05764 -0.06098 0.50391 X2 0.22724 -0.09901 -0.07713 X3 0.14635 0.12957 0.59715 X4 0.47920 0.11228 0.17062 X5 0.45583 0.07419 0.10129
24、 X6 0.05416 0.48629 0.04099 X7 0.05790 0.48562 0.04822,F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7F
25、3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,53,前三個因子得分,54,因子分析的數學模型為:,原變量被表示為公共因子的線性組合,當載荷矩陣旋轉之后,公共因子可以做出解釋,通常的情況下,我們還想反過來把公共因子表示為原變量的線性組合。,因子得分函數:,可見,要求得每個因子的得分,必須求得分函數的系數,而由于p>m,所以不能得到精確的
26、得分,只能通過估計。,55,1、巴特萊特因子得分(加權最小二乘法),把 看作因變量;把因子載荷矩陣 看成自變量的觀測;把某個個案的得分 看著最小二乘法需要求的系數 。,1) 巴特萊特因子得分計算方法的思想,56,,由于特殊因子的方差相異,所以用加權最小二乘法求得分,每個各案作一次,要求出所有樣品的得分,需要作n次。,,57,用矩陣表達:,滿足上式的F是相應個案的因子得分。,58,5
27、9,2)得分估計的無偏性,如果將f和?不相關的假定加強為相互獨立,則,60,3),61,2、回歸方法,,,,,1) 思想,62,,,,,則,我們有如下的方程組:,63,,j=1,2,…,m,64,注:共需要解m次才能解出 所有的得分函數的系數。,65,矩陣表示方法,在因子模型中,假設 服從(m+p)元的正態(tài)分布,有,66,67,68,2)估計的有偏性,3)平均預報誤差,69,國民生活質量的因素分析 國家發(fā)展的最
28、終目標,是為了全面提高全體國民的生活質量,滿足廣大國民日益增長的物質和文化的合理需求。在可持續(xù)發(fā)展消費的統一理念下,增加社會財富,創(chuàng)自更多的物質文明和精神文明,保持人類的健康延續(xù)和生生不息,在人類與自然協同進化的基礎上,維系人類與自然的平衡,達到完整的代際公平和區(qū)際公平(即時間過程的最大合理性與空間分布的最大合理化)。 從1990年開始,聯合國開發(fā)計劃署(UYNP)首次采用“人文發(fā)展系數”指標對于國民生活質量進行測度。人文發(fā)展
29、系數利用三類內涵豐富的指標組合,即人的健康狀況(使用出生時的人均預期壽命表達)、人的智力程度(使用組合的教育成就表達)、人的福利水平(使用人均國民收入或人均GDP表達),并且特別強調三類指標組合的整體表達內涵,去衡量一個國家或地區(qū)的社會發(fā)展總體狀況以及國民生活質量的總水平。,70,在這個指標體系中有如下的指標:X1——預期壽命X2——成人識字率X3——綜合入學率X4——人均GDP(美圓)X5——預期壽命指數X6——教育成就指
30、數X7——人均GDP指數,71,旋轉后的因子結構 Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 0.38129 0.41765 0.81714 X2
31、 0.12166 0.84828 0.45981 X3 0.64803 0.61822 0.22398 X4 0.90410 0.20531 0.34100 X5 0.38854 0.43295 0.80848
32、X6 0.28207 0.85325 0.43289 X7 0.90091 0.20612 0.35052 FACTOR1為經濟發(fā)展因子 FACTOR2為教育成就因子 FACTOR3為健康水平因子,72,被每個因子解釋的方差和共同度 Variance e
33、xplained by each factor FACTOR1 FACTOR2 FACTOR3 2.439700 2.276317 2.009490 Final Communality Estimates: Total
34、= 6.725507 X1 X2 X3 X4 X5 0.987530 0.945796 0.852306 0.975830 0.992050 X6 X7 0.994995 0.976999,73,Standa
35、rdized Scoring Coefficients標準化得分系數 FACTOR1 FACTOR2 FACTOR3 X1 -0.18875 -0.34397 0.85077 X2 -0.24109 0.60335 -0.10234 X3 0.35462 0.50232 -0.59895 X4 0.
36、53990 -0.17336 -0.10355 X5 -0.17918 -0.31604 0.81490 X6 -0.09230 0.62258 -0.24876,74,生育率的影響因素分析,生育率受社會、經濟、文化、計劃生育政策等很多因素影響,但這些因素對生育率的影響并不是完全獨立的,而是交織在一起,如果直接用選定的變量對生育率進行多元回歸分析,最終結果往往只能保留兩三個變
37、量,其他變量的信息就損失了。因此,考慮用因子分析的方法,找出變量間的數據結構,在信息損失最少的情況下用新生成的因子對生育率進行分析。 選擇的變量有:多子率、綜合節(jié)育率、初中以上文化程度比例、城鎮(zhèn)人口比例、人均國民收入。下表是1990年中國30個省、自治區(qū)、直轄市的數據。,75,76,特征根與各因子的貢獻,77,沒有旋轉的因子結構,78,79,,在這個例子中我們得到了兩個因子,第一個因子是社會經濟發(fā)展水平因子,第
38、二個是計劃生育因子。有了因子得分值后,則可以利用因子得分為變量,進行其他的統計分析。,方差最大旋轉后的因子結構,標準化得分函數,80,§ 6 因子分析的步驟、展望和建議,計算所選原始變量的相關系數矩陣 相關系數矩陣描述了原始變量之間的相關關系??梢詭椭袛嘣甲兞恐g是否存在相關關系,這對因子分析是非常重要的,因為如果所選變量之間無關系,做因子分析是不恰當的。并且相關系數矩陣是估計因子結構的基礎。,選擇分析的變
39、量 用定性分析和定量分析的方法選擇變量,因子分析的前提條件是觀測變量間有較強的相關性,因為如果變量之間無相關性或相關性較小的話,他們不會有共享因子,所以原始變量間應該有較強的相關性。,一、 因子分析通常包括以下五個步驟,81,提取公共因子 這一步要確定因子求解的方法和因子的個數。需要根據研究者的設計方案或有關的經驗或知識事先確定。因子個數的確定可以根據因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,
40、因為方差小于1的因子其貢獻可能很??;按照因子的累計方差貢獻率來確定,一般認為要達到60%才能符合要求; 因子旋轉 通過坐標變換使每個原始變量在盡可能少的因子之間有密切的關系,這樣因子解的實際意義更容易解釋,并為每個潛在因子賦予有實際意義的名字。,82,計算因子得分 求出各樣本的因子得分,有了因子得分值,則可以在許多分析中使用這些因子,例如以因子的得分做聚類分析的變量,做回歸分析中的回歸因子。,83,因子
41、分析是十分主觀的,在許多出版的資料中,因子分析模型都用少數可闡述因子提供了合理解釋。實際上,絕大多數因子分析并沒有產生如此明確的結果。不幸的是,評價因子分析質量的法則尚未很好量化,質量問題只好依賴一個“哇!”準則,如果在仔細檢查因子分析的時候,研究人員能夠喊出“哇,我明白這些因子”的時候,就可看著是成功運用了因子分析方法。,84,補充:變量聚類分析,一、簡介 在實際工作中,變量聚類的應用也十分重要。在系統分析或評估過程
42、中,為了避免某些重要因素的遺漏,人們往往在一開始選取指標時,盡可能多地考慮所有的相關因素。而這樣做的結果,則是變量過多,變量相關度高,給系統分析與建模帶來很大的不便。因此,人們常常希望能研究變量間的相似關系,按照變量的相關關系把他們聚合為若干類,從而觀察和解釋影響系統的主要原因。,85,SAS/VARCLUS過程試圖把一組變量分為不重疊的一些類,所以VARCLUS過程可以用來壓縮變量,用信息損失很少的類分量來代替含有很多變量的變量集。例
43、如,一種教育情況的檢查可能包括有50項指標,VARCLUS分析將這些項分為幾類,比如5個類,每類做部分檢查,檢查類分量的得分。,86,二、變量聚類的步驟VARCLUS過程開始把所有變量看為一個類,然后重復下面的步驟:1、 首先挑選一個將被分裂的類VARCLUS過程首先找出該大類的第一和第二公共因子,這兩個公共因子經過正交坐標變換,即因子分析中常用的Quartimax(四次方最大方法,按行簡化因子載荷矩陣每行的結構)旋轉
44、,讓原始變量僅僅在一個公共因子上有高載荷。變量被指定歸入一個與其相關系數的平方較高的公共因子。如此原有的大類被分裂為二。,87,2、變量重新歸類 兩個(或兩個以上的)之中的一個類被選中,照第一步的方法再分裂為二。這個被選中的類通常擁有最大的第二特征根,或者是擁有最小的可被類向量解釋的變異數百分比。 3、第一步和第二步不停的交互進行,直至類內變量之間的第二特征根或可被類向量解釋的變異數百分比達到預設定的標準為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論