版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2012年3月20日,數(shù)據(jù)分析——描述統(tǒng)計(jì),前言,在做數(shù)據(jù)分析的時(shí)候,一般首先要對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,以便于描述測量樣本的各種特征及其所代表的總體的特征以及發(fā)現(xiàn)其數(shù)據(jù)的內(nèi)在規(guī)律,再選擇進(jìn)一步分析的方法。描述性統(tǒng)計(jì)分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布、以及一些基本的統(tǒng)計(jì)圖形。,目錄,集中趨勢離散趨勢探索分析,集中趨勢,定義 在統(tǒng)計(jì)學(xué)中是指
2、一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。度量方法 集中趨勢的度量包括了均值(mean),中位數(shù)(median),眾數(shù)(mode)。,均值、中位數(shù)、眾數(shù)用那一個(gè)去度量平均水平呢?以及為什么?,均值、中位數(shù)、眾數(shù)的淵源,定義均值:表示一系列數(shù)據(jù)或統(tǒng)計(jì)總體的平均特征的值中位數(shù):將總體單位的某一數(shù)量標(biāo)志的各個(gè)數(shù)值按照大小順序排列,居于中間位置的那個(gè)數(shù)值就是中位數(shù)。眾數(shù):眾數(shù)是指變量數(shù)列中出現(xiàn)次數(shù)最多或頻率最
3、大的變量值。,1.眾數(shù)、中位數(shù)、算術(shù)平均數(shù)的比較,均值比中位數(shù)、眾數(shù)對數(shù)據(jù)的概括能力要強(qiáng)。 相對于中位數(shù)和眾數(shù)而言均值對數(shù)據(jù)的靈敏度較大。 均值比中位數(shù)、眾數(shù)偏于計(jì)算和分析。 均值的抗耐性較差,極容易受個(gè)別和少數(shù)極端值的影響。 均值適用范圍比中位數(shù)、眾數(shù)窄。,2.眾數(shù)、中位數(shù)、算術(shù)平均數(shù)數(shù)值關(guān)系,(一)對稱分布情況下(二)偏態(tài)分布情況下,,,數(shù)據(jù)類型與集中趨勢測度值,※為該數(shù)據(jù)類型最適合用的測度值.,均值、中位數(shù)
4、、眾數(shù)的代表性衡量及使用,前面我們知道均值、中位數(shù)、眾數(shù)的定義不同,特點(diǎn)和適用范圍不同,在衡量這些平均指標(biāo)的代表性時(shí)要根據(jù)不同的情況加以具體分析。1.對于不同的總體在平均指標(biāo)相等的情況下,我們一般用總體的標(biāo)準(zhǔn)差這個(gè)指標(biāo)來衡量這些平均指標(biāo)的代表性大小,一般來說,標(biāo)準(zhǔn)差較大的總體其平均指標(biāo)的代表性較小。2.對于不同的總體在其平均指標(biāo)不相等的情況下,我們一般用離散系數(shù)來衡量這些平均指標(biāo)的代表性,一般來說,這時(shí)離散系數(shù)較小的總體其平均指標(biāo)的
5、代表性較大。3.對于同一總體中算術(shù)平均數(shù)、中位數(shù)、眾數(shù)的代表性高低的衡量。由于這些起代表意義的平均指標(biāo)本身所具有的特點(diǎn)不同,應(yīng)用范圍不同,在描述和反映不同現(xiàn)象時(shí)的代表性也不同,只有根據(jù)它們的不同特點(diǎn),正確恰當(dāng)?shù)馗鶕?jù)不同的情況選擇不同的平均指標(biāo),才能夠提高這些平均指標(biāo)的代表性,更客觀、準(zhǔn)確地反映和描述事物現(xiàn)象的本質(zhì)特征。,例子,找一個(gè)能夠代表二次裝修年限的代表性指標(biāo),均值、中位數(shù)、眾數(shù),哪一個(gè)更合理?作業(yè)3.sav,,,,數(shù)據(jù)的均值是
6、6.70,中位數(shù)是6.眾數(shù)是10。,,如果一只腳放在攝氏1度的水里,另一只腳放在攝氏79度的水里,平均水溫40度。你感覺舒服極了!?,這只是一個(gè)笑話。說明了只了解數(shù)據(jù)的集中趨勢是不夠的。還需要看數(shù)據(jù)的離散程度。,離散趨勢,1. 離散趨勢的各測度值是對數(shù)據(jù)離散程度所做的描述2. 反映各變量值遠(yuǎn)離其中心值的程度,因此也稱為離中趨勢3. 從另一個(gè)側(cè)面說明了集中趨勢測度值的代表程度。,離散趨勢——測度指標(biāo),1、全距2、四分位差3、平均差
7、4、標(biāo)準(zhǔn)差5、方差6、離散系數(shù),四分位差是四分位數(shù)中間兩個(gè)分位之差。,平均差是總體各單位標(biāo)志值對其算術(shù)平數(shù)的離差絕對值的算術(shù)平均數(shù)。,總體各單位標(biāo)志值對其算術(shù)平均數(shù)離差平方的算術(shù)平均數(shù)的平方根又稱均方差或均方根差,標(biāo)準(zhǔn)差的平方即為方差,一組變量值的最大值與最小值之差,變異系數(shù),定義:標(biāo)準(zhǔn)差與平均數(shù)的比值稱為變異系數(shù),是衡量資料中各觀測值變異程度的另一個(gè)統(tǒng)計(jì)量。記為C.V。作用:反映單位均值上的離散程度,常用在兩個(gè)總體均值不等的離
8、散程度的比較上。若兩個(gè)總體的均值相等,則比較標(biāo)準(zhǔn)差系數(shù)與比較標(biāo)準(zhǔn)差是等價(jià)的。變異系數(shù)又稱離散系數(shù)。,標(biāo)準(zhǔn)差解決了單位相同、平均數(shù)相同的數(shù)據(jù)離散程度,那么不滿足這兩點(diǎn)數(shù)據(jù)的離散度比較還能用標(biāo)準(zhǔn)差嗎?,標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別,標(biāo)準(zhǔn)差定義:總體各單位標(biāo)志值對其算術(shù)平均數(shù)離差平方的算術(shù)平均數(shù)的平方根,又稱均方差或均方根差。計(jì)算公式:標(biāo)準(zhǔn)差是方差的算術(shù)平方根。 標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的,標(biāo)準(zhǔn)差未必相同。,標(biāo)準(zhǔn)誤,定
9、義:標(biāo)準(zhǔn)誤差定義為各測量值誤差的平方和的平均值的平方根,故又稱為均方誤差。計(jì)算公式:為了描述由抽樣所致的樣本指標(biāo)(均數(shù)或率)的離散程度。需要計(jì)算統(tǒng)計(jì)量的變異指標(biāo),稱樣本統(tǒng)計(jì)量的標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)誤。 標(biāo)準(zhǔn)誤的意義:反映樣本統(tǒng)計(jì)量的離散程度,也反映抽樣誤差的大小。標(biāo)準(zhǔn)誤越小,抽樣誤差越小,用樣本均數(shù)估計(jì)總體均數(shù)的可靠性大。,www.themegallery.com,LOGO,標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的區(qū)別,標(biāo)準(zhǔn)差衡量的是樣本數(shù)據(jù)的離散程度.標(biāo)準(zhǔn)
10、差主要有兩點(diǎn)作用:對樣本進(jìn)行標(biāo)準(zhǔn)化處理和確定異常值,標(biāo)準(zhǔn)誤是樣本均值的標(biāo)準(zhǔn),表示的是抽樣的誤差。標(biāo)準(zhǔn)誤的作用主要是用來做區(qū)間估計(jì),常用的估計(jì)區(qū)間是均值加減n倍的標(biāo)準(zhǔn)誤。,標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)誤,95%的參考值范圍,參考值的概念參考值的計(jì)算參考值與置信區(qū)間的區(qū)別,參考值的概念,醫(yī)學(xué)參考值是指包括大多數(shù)正常人的人體形態(tài)、機(jī)能和代謝產(chǎn)物等各種生理及生化指標(biāo)常數(shù),也稱正常值。習(xí)慣上取該人群的95%的個(gè)體某項(xiàng)醫(yī)學(xué)指標(biāo)的界值。取單側(cè)還是雙側(cè)
11、根據(jù)指標(biāo)的實(shí)際情況而定。例如人體血壓,過高過低都為異常。參考值范圍需要確定上下限。若指標(biāo)僅過高和過低為異常,則取單側(cè)。過低異常,則取下限;過高異常則單側(cè)去上限。,參考值的計(jì)算,計(jì)算數(shù)據(jù)的95%參考值有兩種方法:數(shù)據(jù)服從正態(tài)分布時(shí)可以從正態(tài)分布原理求出;數(shù)據(jù)非正態(tài)分布時(shí)否則就應(yīng)當(dāng)用百分?jǐn)?shù)法求出。,可信區(qū)間與參考值范圍的區(qū)別,1.從意義來看 95%參考值范圍是指同質(zhì)總體內(nèi)包括95%個(gè)體值的估計(jì)范圍,而總體均數(shù)95%可信
12、區(qū)間是指按95%可信度估計(jì)的總體均數(shù)的所在范圍。 2.從計(jì)算公式看 若指標(biāo)服從正態(tài)分布,95%參考值范圍的公式是:±1.96s。 總體均數(shù)95%可信區(qū)間的公式是: 。 前者用標(biāo)準(zhǔn)差,后者用標(biāo)準(zhǔn)誤。前者用1.96,后者用α為0.05,自由度為v的t界值。,可信區(qū)間的解釋,從總體中做隨即抽樣,對于含量為n的每個(gè)樣
13、本而言。都可以算得一個(gè)區(qū)間。以95%的可信區(qū)間為例: 理解1 意味著同一總體中做100次重復(fù)抽樣,可得到100個(gè)可信區(qū)間,平均有95個(gè)可信區(qū)間包含總體均數(shù)。只有5個(gè)可信區(qū)間不包含總體均數(shù)。理解2 對于某一區(qū)間而言,它包含總體均數(shù)的可能性為95%,而不包含總體均數(shù)犯錯(cuò)誤的概率僅為5%。,例子作業(yè)5.sav,分別求兩組數(shù)據(jù)95%的參考值范圍和可信區(qū)間。,對于第一組數(shù)據(jù),因近似呈正態(tài)分布,所以95%的參考值為: (3.01,6.39
14、)對于第二組數(shù)據(jù),峰度和偏度不為0,即數(shù)據(jù)不服從正態(tài)分布,直接取2.5%和97.5%:即(63.40,97.02),第一組數(shù)據(jù)的置信區(qū)間為: (4.53,4.87) 第二組數(shù)據(jù)的置信區(qū)間為(87.11,88.65),異常值的檢驗(yàn)與處理,當(dāng)一組數(shù)據(jù)對稱分布時(shí),經(jīng)驗(yàn)法則表明:約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi);約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。當(dāng)一組
15、數(shù)據(jù)不再是對稱分布時(shí),切比雪夫不等式表明:至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍以內(nèi);至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍以內(nèi);至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍以內(nèi)。,什么樣的數(shù)值是異常值呢?,1.異常值的定義,定義:一組測定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。 與平均值的偏差超過三倍標(biāo)準(zhǔn)差的測定值,稱為高度異常的異常值。,2.異常值的危害,異常值的存在對分析結(jié)果(均值和標(biāo)準(zhǔn)差)產(chǎn)生
16、重要的影響,異常值的檢驗(yàn)與正確處理是保證原始數(shù)據(jù)可靠性、平均值和標(biāo)準(zhǔn)差計(jì)算的準(zhǔn)確性的前提。,異常值的檢驗(yàn)—方法一:,,異常值的檢驗(yàn)—方案二:,用SPSS繪制一組數(shù)據(jù)的箱線圖。 異常值:值與框的上下邊界的距離在1.5倍框的長度到3倍框的長度之間的個(gè)案。 極端值:值距離框的上下邊界超過3倍框的長度的個(gè)案。,,,在箱線圖里面異常值用“o”表述。極端值用“*”表示,最小值,四分之一分位數(shù),中位數(shù),四分之三分位數(shù),最大值,異常值的檢驗(yàn)—方法
17、三:,計(jì)算統(tǒng)計(jì)量 μ=(X1+X2+…+Xn)/n s=(∑(Xi-μ)/(n-1))½(i=1,2…n) Gn=(X(n)-μ)/s 注:式中μ——樣本平均值; s——樣本標(biāo)準(zhǔn)差; Gn——格拉布斯檢驗(yàn)統(tǒng)計(jì)量。 確定檢出水平α,查表得出對應(yīng)n,α的格拉布斯檢驗(yàn)臨界值G1-α(n)。 當(dāng)Gn>G1-α(n),則判斷Xn為異常值,否則無異常值 給出剔除水平α’的G1-α’(
18、n),當(dāng)當(dāng)Gn>G1-α’(n)時(shí),Xn為高度異常值,應(yīng)剔除。,SPSS中異常值檢驗(yàn)的幾種方法介紹,離群值(箱圖/探索).值與框的上下邊界的距離在1.5倍框的長度到3倍框的長度之間的個(gè)案??虻拈L度是內(nèi)距。極端值(箱圖).值距離框的上下邊界超過3倍框的長度的個(gè)案??虻拈L度是內(nèi)距在回歸模型診斷里面,一般稱預(yù)測值與實(shí)際值的偏差為"殘差",殘差有幾種表示方法:標(biāo)準(zhǔn)化殘差, 學(xué)生化殘差等等,按照需要取一種殘差,再按照
19、某種標(biāo)準(zhǔn)取一個(gè)閥值來限定異常點(diǎn),只要那個(gè)點(diǎn)的殘差大于閥值,就可以認(rèn)為它是異常點(diǎn)。,正態(tài)性檢驗(yàn)方法,1.直方圖2.莖葉圖3.箱線圖4.P-P圖5.Q-Q圖6 偏度、峰度檢驗(yàn)法:7.樣本的四分位差和標(biāo)準(zhǔn)差的比值8.Kolmogorov-Smirnov正態(tài)性檢驗(yàn)9.Shapiro-Wilk(W檢驗(yàn)),1.直方圖直方圖:用矩形的寬度和高度表示頻數(shù)分布的圖形。圖為作業(yè)3第一次評 分結(jié)果直方圖,數(shù)據(jù)分組,頻數(shù),2.莖葉圖,,
20、,頻數(shù),,,樹莖,,,樹葉,莖葉圖相當(dāng)于橫置的直方圖,但它可以保留原始數(shù)據(jù)的信息。,3.箱線圖,,,,中位數(shù)與上四分位數(shù)的距離,,下四分位數(shù)與眾位數(shù)間的距離,判斷方法:觀察矩形位置和中位數(shù),若矩形位于中間位置且中位數(shù)位于矩形的中間位置,則分布較為對稱,否則是偏態(tài)分布,如何看數(shù)據(jù)是否服從正態(tài)分布呢?,4.P-P圖,理論累積概率,實(shí)際值計(jì)算的累積概率,實(shí)際值計(jì)算的累積概率,差值,解讀:若數(shù)據(jù)服從正態(tài)分布,P-P圖樣本數(shù)據(jù)點(diǎn)呈對角線分布。P-
21、P趨勢圖應(yīng)隨機(jī)分布在Y=0的兩側(cè)。,5. Q-Q圖 以上兩種方法以Q-Q圖為佳,效率較高。,觀察值分位數(shù),觀察值分位數(shù),理論分位數(shù),觀察值分位數(shù)與理論分布分位數(shù)的差值,解讀:若數(shù)據(jù)服從正態(tài)分布,Q-Q圖樣本數(shù)據(jù)點(diǎn)呈對角線分布。Q-Q趨勢圖應(yīng)隨機(jī)分布在Y=0的兩側(cè)。,6 偏度、峰度檢驗(yàn)法: g1表示偏度,g2表示峰度,通過計(jì)算g1和g2及其標(biāo)準(zhǔn)誤σg1及σg2然后作U檢驗(yàn)。兩種檢驗(yàn)同時(shí)得出U0.05的結(jié)
22、論時(shí),才可以認(rèn)為該組資料服從正態(tài)分布,7.樣本的四分位差和標(biāo)準(zhǔn)差的比值,比值= 表示四分位差,S表示標(biāo)準(zhǔn)差。若數(shù)據(jù)服從正態(tài)分布,則比值接近于1.3。,8.Kolmogorov-Smirnov正態(tài)性檢驗(yàn),定義:K-S檢驗(yàn)是檢查單一樣本是否來自某一特定分布的方法。檢驗(yàn)方法:以樣本數(shù)據(jù)的累積頻數(shù)與特定理論分布比較,若兩者間的差距較小,則推論該樣本取自某特定分布族。,8.Kolmogorov-Smirnov正態(tài)性檢驗(yàn),定義:K-S檢
23、驗(yàn)是檢查單一樣本是否來自某一特定分布的方法。檢驗(yàn)方法:以樣本數(shù)據(jù)的累積頻數(shù)與特定理論分布比較,若兩者間的差距較小,則推論該樣本取自某特定分布族。假設(shè):,8.Kolmogorov-Smirnov正態(tài)性檢驗(yàn),表示樣本的累積概率函數(shù), 表示特定分布的分布函數(shù)構(gòu)建統(tǒng)計(jì)量當(dāng)原假設(shè)為真時(shí),D的值應(yīng)較?。粚τ诮o定的注:對于特定的樣本量及顯著性水平 可以查表得到d的值。,9.Shapiro-Wilk(W檢驗(yàn)),W檢驗(yàn)是建立再次序
24、統(tǒng)計(jì)量的基礎(chǔ)上,將 n個(gè)獨(dú)立觀測值按非降次序排列,記為 :檢驗(yàn)統(tǒng)計(jì)量為:其中系數(shù) 在樣本容量為n時(shí)有特定的值另外,系數(shù) 還具有如下性質(zhì):,9.Shapiro-Wilk(W檢驗(yàn)),總體分布為正態(tài)分布時(shí),W 的值應(yīng)該接近1,因此,再顯著性水平 下,如果統(tǒng)計(jì)量W的值小于其 分位數(shù),則拒絕原假設(shè)。即拒絕域?yàn)?{ } 其中 分位數(shù)可查表。如若在計(jì)算中有 ,則在顯著
25、水平為 上未落入拒絕域,即可認(rèn)為該批數(shù)據(jù)服從正態(tài)分布;若在計(jì)算中有 ,則在顯著水平為 上落入拒絕域,認(rèn)為該批數(shù)據(jù)不服從正態(tài)分布。,例子:,,K-S方法和S-W方法是有區(qū)別的,一般情況下,K-S方法在心理測量中經(jīng)常使用,S-W方法在樣本容量小于50時(shí)可以使用,判別:如果P值小于 0.05,則拒絕數(shù)據(jù)正態(tài)的原假設(shè),即數(shù)據(jù)不是正態(tài)分布。,方差齊性檢驗(yàn),定義:方差齊性實(shí)際上是指要比較的兩組數(shù)據(jù)的分布是否一致,通俗的來說就是兩者是否適合比較
26、方法:常用Levene方差齊性檢驗(yàn),也稱為Levene檢驗(yàn)優(yōu)點(diǎn):相較其他方法用途較廣泛??梢詫υ紨?shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換; Levene檢驗(yàn)既可以用于正態(tài)分布的資料,也可以用于非正態(tài)分布的資料或分布不明的資料用處: Levene檢驗(yàn)主要用于檢驗(yàn)兩個(gè)或兩個(gè)以上樣本間的方差是否齊性.要求樣本為隨機(jī)樣本且相互獨(dú)立。,方差齊性檢驗(yàn),基于均數(shù),基于中位數(shù),中位數(shù)并調(diào)整自由度,刪除數(shù)據(jù)極值后均數(shù),P值均小于0.05,因此數(shù)據(jù)方差不齊。說明兩次評分結(jié)果不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計(jì)學(xué)第二章描述性統(tǒng)計(jì)分析
- 描述性統(tǒng)計(jì)
- 變量描述統(tǒng)計(jì)分析
- “大學(xué)生信息素養(yǎng)與心理調(diào)適的關(guān)系”4000例調(diào)查的描述性統(tǒng)計(jì)分析
- 描述性統(tǒng)計(jì)學(xué)-universityofpittsburgh
- 統(tǒng)計(jì)分析
- 統(tǒng)計(jì)分析
- 描述性統(tǒng)計(jì)學(xué)公式
- 事故統(tǒng)計(jì)分析
- 應(yīng)用統(tǒng)計(jì)分析
- 空間統(tǒng)計(jì)分析
- sas統(tǒng)計(jì)分析
- 統(tǒng)計(jì)分析報(bào)告
- 統(tǒng)計(jì)分析專員
- 統(tǒng)計(jì)分析專員
- 統(tǒng)計(jì)分析報(bào)告
- 統(tǒng)計(jì)分析報(bào)告
- 描述性研究
- 對稱性全局統(tǒng)計(jì)分析.pdf
- 公允價(jià)值變動對上市公司盈余管理影響的描述性統(tǒng)計(jì)分
評論
0/150
提交評論