簡介:第4章數據的概括性度量,41集中趨勢的度量42離散程度的度量43偏態(tài)與峰態(tài)的度量,數據的概括性度量,41集中趨勢的度量,集中趨勢CENTRALTENDENCY是指一組數據向某一中心值靠攏的傾向和程度,集中趨勢可以反映一組數據的中心值或代表值,不同數據類型可選用不同的集中趨勢測度值低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據,411分類數據眾數,一組數據中出現次數最多的變量值稱為眾數MODE,用M0表示不受極端值的影響眾數主要用于測度分類數據的集中趨勢也可用于順序數據和數值型數據一組數據可以沒有眾數,也可以有幾個眾數,眾數的特性,1一組數據可以沒有眾數假定一組數據如下12345則這組數據沒有眾數,,,,,,,,,1,1,2,3,4,5,2一組數據可以有多個眾數假定一組數據如下1223445那么這組數據有兩個眾數,,,,,,,,1,1,2,3,4,5,,,2,圖41眾數示意圖,,,,無眾數一個眾數多于一個眾數,例41,根據第3章表34的數據,計算“飲料品牌”的眾數,表34不同品牌飲料的頻數分布,解這里的變量為“飲料品牌”,是分類變量,不同類型的飲料就是變量值在所調查的50人中,購買可口可樂的人數最多,為15人,占總被調查人數的30,因此眾數為“可口可樂”這一品牌即可口可樂,例42,表36甲城市家庭對住房狀況的評價,根據第3章表36的數據,計算甲城市對住房狀況滿意度評價的眾數,解這里的變量是回答類別,是順序變量甲城市所調查的300戶家庭中,對目前住房不滿意的戶數最多,有108戶所以這組數據的眾數為“不滿意”這一類別即不滿意,例43,在某城市中隨機抽取9戶家庭,調查得每戶家庭的人均月收入數據如下單位元要求計算人均月收入的眾數108075010801080850960200012501630解人均月收入1080的家庭最多,即元,一個由CLAREMONT學院本科學生組成的“莎士比亞診所”,用統(tǒng)計分析對58個與莎士比亞同時代的作家進行分析,以確定誰的寫作風格與莎士比亞的作品風格最相近。他們從58個作家的作品中選取片段,并將其分成500字一段的小段,對區(qū)組中的一些變量進行計數統(tǒng)計,例如,考察52個關鍵字的出現情況,并找出其眾數,由此得出各個作家的主要特征。結果,58個備選者中沒有一個能通過眾數檢驗。因此證明,是莎士比亞寫下了他本人的詩篇。,莎士比亞著作中的眾數,412順序數據中位數和分位數,1中位數MEDIAN,一組數據按從小到大排列時,處于中間位置上的變量值稱為中位數,用ME表示中位數主要用于測度順序數據的集中趨勢中位數當然也適用于數值型數據,但不適用于分類數據顯然,中位數作為位置代表值,其數值不受極大值和極小值的影響,中位數的位置,對未分組數據中位數的位置=即未分組數據的中位數是1,2,,N這N個位置的平均而對于分組數據,則中位數的位置=,41,中位數的計算,例44,根據第3章表36的數據,計算甲城市家庭對住房狀況滿意程度評價的中位數,表36甲城市家庭對住房狀況的評價,解已知N300,從而中位數的位置為,從累積頻數可知,中位數在“一般”這一類中,因此,一般,例45,在某城市中隨機抽取9個家庭,調查得各個家庭的人均月收入數據如下單位元,試計算人均月收入的中位數15007507801080850960200012501630解把數據排序得75078085096010801250150016302000而中位數的位置91/25,于是,例45續(xù),假定例45中隨機抽取10個家庭,各個家庭的人均月收入數據如下66075078085096010801250150016302000從而中位數的位置101/255,于是,例,根據第3章表312的數據,計算電腦銷售量的中位數解由于N120,則中位數的位置為,中位數為,2四分位數(QUARTILE),與中位數類似的還有四分位數。一組數據按從小到大排列時,處于位置上的變量值稱為第一個四分位數(下四分位數),處于位置上的變量值稱為第三個四分位數(上四分位數),而中位數就是第二個四分位數。,四分位數的位置,對未分組時下四分位數的位置=上四分位數的位置=而對于分組數據,則下四分位數的位置=上四分位數的位置=,43,例,例46,對例45的數據,計算人均月收入的下四分位數和上四分位數解已知N9,得下四分位數和上四分位數的位置,于是,例,解QL位置300/475QU位置3300/4225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此QL不滿意QU一般,413數值型數據平均數,平均數也稱均值MEAN,是最常用的集中趨勢測度值,易受極端值的影響主要適用于數值型數據,但不適用于分類數據和順序數據,1簡單平均數與加權平均數,1根據未分組的數據計算簡單平均數,設一組數據為則平均數的計算公式為,例如,根據例45的數據,計算9個家庭人均月收入的平均數為,元,44,2根據分組的數據計算加權平均數,設一組數據分為K組,各組的組中值和組頻數分別為則平均數的計算公式為,45,例47,根據第3章表313中的數據,計算電腦銷售量的平均數,表41某電腦公司銷售量數據平均數計算表,解根據45式,得,臺,加權平均數權數對平均數的影響,甲乙兩組各有10名學生,他們的考試成績及其分布數據如下甲組考試成績(X)020100人數分布(F)118乙組考試成績(X)020100人數分布(F)811,,,2調和平均數(HARMONICMEAN),均值的另一種表現形式,易受極端值的影響計算公式為,原來只是計算時使用了不同的數據,調和平均數例題分析,【例】某蔬菜批發(fā)市場三種蔬菜的日成交數據如表,計算三種蔬菜該日的平均批發(fā)價格。,,3一種特殊的平均數幾何平均數,幾何平均數GEOMETRICMEAN是平均數的另一種類型,主要用于比率或速度的平均1根據未分組的數據計算幾何平均數設一組數據為則幾何平均數為,46,2根據分組的數據計算幾何平均數設一組數據分為K組,各組的組中值和組頻數分別為,則幾何平均數的計算公式為,平均增長率,對逐年增長率平均增長率應滿足,48,即,或,49,幾何平均數例題分析,【例】某水泥生產企業(yè)1999年的水泥產量為100萬噸,2000年與1999年相比增長率為9,2001年與2000年相比增長率為16,2002年與2001年相比增長率為20。求各年的年平均增長率。,年平均增長率=1149111491,幾何平均數例題分析,【例】某企業(yè)生產某種產品要經過三個連續(xù)作業(yè)車間才能完成。若某月份第一車間粗加工產品的合格率為95,第二車間精加工產品的合格率為93,第三車間最后裝配的合格率為90,則該產品的車間平均合格率為多少,即該產品的車間平均合格率為9264。,例48,一位投資者持有一種股票,20012004年的收益率分別為45,21,255和19計算該投資者在這四年內的平均收益率解根據46,得,即該投資者的投資平均收益率為108078710080787,414眾數、中位數和平均數的比較,1眾數、中位數和平均數的關系,圖42不同分布的眾數、中位數和平均數,A對稱分布,B左偏分布,C右偏分布,,2眾數、中位數和平均數的特點,1眾數是一組數據出現次數最多的數值,不受極端值的影響,但可能沒有眾數,也可能有兩個或兩個以上眾數。眾數主要適用于分類數據的集中趨勢測度2中位數是一組數據處于中間位置上的數值,不受極端值的影響,主要適用于順序數據的集中趨勢測度3平均數具有優(yōu)良的統(tǒng)計性質,是實際應用最廣泛的集中趨勢測度值主要適用于數值型數據的集中趨勢測度.,3眾數、中位數和平均數的應用場合,例從一家公司中選取一個20名工人的樣本,將他們每周除去所有費用后的凈收入近似為整數并按升序排列如下(元)240,240,240,240,240,240,240,240,255,255,265,265,280,280,290,300,305,325,330,340。計算(1)、平均數,中位數,眾數;,中位數260元,眾數240元(2)、從偏斜度的角度描述這組工資數據;由于平均數大于中位數,所以這個分布是右偏分布。,3眾數、中位數和平均數的應用場合,(3)、假如你是這家公司負責勞資問題的副總經理,你會采用哪個測度值代表公司中所有員工的收入水平因為樣本平均數是這三個平均數測度值中的最大值,所以你可能傾向于采用它作為平均數。事實上,使用它非常合適,因為這里牽涉到統(tǒng)計推斷,而樣本平均數是可用的最穩(wěn)定的統(tǒng)計量。(4)、假設你是推選出的工會主席,你會采用哪個測度值代表公司中所有員工的收入水平從你在工資問題談判中所處的位置出發(fā),你可能傾向于選擇眾數,或者至少是中位數,而決不會選用平均數。為了說明你選擇的測度值是合理的,你應該指出眾數代表了樣本中大部分人的凈收入,或者可以指出從樣本中可以看出樣本平均數受到極少數高工資的影響。然而,無論是眾數還是中位數都會隨樣本不同而產生很大變化,所以比起平均數都是不穩(wěn)定的總體估計值。,數據類型與集中趨勢測度值,42離散程度的度量,離散程度或分散程度是數據分布的另一個重要特征,離散程度的測度值反映數據的分散程度數據的分散程度越大,則集中趨勢測度值的代表性就越差;分散程度越小,則集中趨勢測度值的代表性就越好不同數據類型有不同的離散程度測度值,421分類數據異眾比率,異眾比率VARIATIONRATIO是非眾數組的頻數所占的比例,即,異眾比率用于衡量眾數的代表程度1異眾比率大,說明眾數的代表性差2異眾比率小,說明眾數的代表性好,410,例49,根據第3章表3–4的數據,計算異眾比率,表34不同品牌飲料的頻數分布,解根據410式,得異眾比率,在所調查的50人當中,購買其他品牌飲料的人數占70由于異眾比率比較大,因此用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好,422順序數據四分位差,四分位差QUARTILEDEVIATION是上四分位數與下四分位數之差,即,411,四分位差反映了下四分位數至上四分位數之間即中間的50數據的離散程度或變動范圍.四分位差越大,說明中間這部分數據越分散,而四分位差越小,則說明中間這部分數據越集中四分位差在一定程度上可用于衡量中位數的代表程度,四分位差例題分析,解為了計算順序數據的四分位差,需要把各類別數量化。設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5,已知QL不滿意2QU一般3四分位差QDQUQL3–21,例410,根據例46的數據,已求得,從而四分位差為,臺,423數值型數據方差和標準差,測度數值型數據離散程度的主要方法有極差、平均差、方差和標準差,但最常用的是方差和標準差,1極差,極差RANGE是一組數據的最大值與最小值之差,即未分組數據R=最大值-最小值分組數據R≈最后一組的上限-第一組的下限412極差計算簡單,是描述數據離散程度的最簡單的測值.但極差易受極端值的影響,并且不能反映中間數據的分散程度。例如,根據例45的數據,得9個家庭人均月收入的極差為R=2000-750=1250元,2平均差,平均差MEANDEVIATION是各變量值與均值離差絕對值的平均平均差雖然能全面反映一組數據的分散程度,但由于離差取了絕對值,這給計算和統(tǒng)計性質的討論帶來不便,因而實際工作中應用較少計算公式為,未分組數據,組距分組數據,413,414,例411,含義每一天的銷售量與平均數相比,平均相差17臺,3方差和標準差,方差和標準差VARIANCEANDSTANDARDDEVIATION是最常用的離散程度測度值根據總體數據計算的稱為總體方差或總體標準差,而根據樣本數據計算的則稱為樣本方差或樣本標準差,(1)總體方差和標準差,方差的計算公式未分組數據組距分組數據,標準差的計算公式未分組數據組距分組數據,,總體標準差(例題分析),某車間50名工人日加工零件的標準差計算表,解計算過程列于表,根據計算公式得,(個),(2)樣本方差和標準差,未分組數據,組距分組數據,未分組數據,組距分組數據,方差的計算公式,標準差的計算公式,,(415),(417),(418),自由度的說明,1、一組數據中可以自由取值的數據的個數2、當樣本數據的個數為N時,若樣本均值?X確定后,只有N1個數據可以自由取值,其中必有一個數據不能自由取值3、例如,樣本有3個數值,即X12,X24,X39,則?X5。當?X5確定后,X1,X2和X3有兩個數據可以自由取值,另一個則不能自由取值,比如X16,X27,那么X3則必然取2,而不能取其他值4、樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差Σ2時,它是Σ2的無偏估計量,例412樣本標準差的計算,含義每一天的銷售量與平均數相比,平均相差2158臺,方差的展開公式,在實際計算時,也可按展開公式計算方差,,1.,2.,3.,4.,4相對位置的測量,1標準分數,標準分數性質,標準分數性質,標準分數只是將原始數據進行了線性變換,它并沒有改變一個數據在該組數據中的位置,也沒有改變該組數分布的形狀,而只是將該組數據變?yōu)榫禐?,標準差為1。,例413,根據例45的數據,計算每個家庭的人均月收入的標準分數解根據例45的數據求可得,由419式得每個家庭的人均月收入的標準分數如下表44表449個家庭人均月收入標準分數計算表,可以看出,收入最低的家庭其人均收入與平均數相比低1042個標準差;而收入最高的家庭人均收入比平均數高1853個標準差。,標準分數例題分析,前NBA巨星MICHAELJORDAN身高78英寸,而WNBA運動員RLOBO身高76英寸,很明顯JORDAN高出2英寸,但誰相對來說高一些呢(男性平均身高69英寸,標準差為28英寸;女性平均身高636英寸,標準差為25英寸),JORDAN的身高高于平均數321個標準差,而LOBO的身高高于平均數496個標準差。,2經驗法則,經驗法則表明當一組數據對稱分布時▽約有68的數據在均值加減1個標準差的范圍之內▽約有95的數據在均值加減2個標準差的范圍之內▽約有99的數據在均值加減3個標準差的范圍之內,(415),3切比雪夫不等式CHEBYSHEVINEQUALITY,對于K2,3,4,該不等式的含義是▽至少有75的數據在平均數加減2個標準差的范圍之內▽至少有89的數據在平均數加減3個標準差的范圍之內▽至少有94的數據在平均數加減4個標準差的范圍之內,1)如果一組數據不是對稱分布,經驗法則就不再使用,這時可使用切比雪夫不等式,它對任何分布形狀的數據都適用2)切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3)對于任意分布形態(tài)的數據,根據切比雪夫不等式,至少有11/的數據落在K個標準差之內。其中K是大于1的任意值,但不一定是整數,424相對離散程度離散系數,方差或標準差都反映了數據分散程度的絕對值,而影響方差或標準差數值大小有2個方面的原因1與這組數據的平均數大小有關2與這組數據的計量單位有關例設一組數據為1,2,3N3,則而另一組數據為100,200,300N3,則從而對于不同平均水平或不同計量單位的兩組數據,不能通過直接比較方差或標準差來表明數據離散程度的大小為消除平均水平與計量單位的影響,需要計算離散系數,420,例414,表45某管理局所屬8家企業(yè)的產品銷售數據,某管理局抽查了8家企業(yè),其產品銷售數據見表45試比較產品銷售額與銷售利潤的離散程度,,,例414的解,解由于銷售額與利潤額的平均數大小不同,不能直接按標準差進行比較,需計算離散系數根據表45數據,得,由于,說明銷售額的離散程度小于銷售利潤的離散程度,數據類型與離散程度測度值,43偏態(tài)與峰態(tài)的測度,偏態(tài)與峰度是對數據分布形狀的測度,431偏態(tài)及其測度,1未分組樣本數據的偏態(tài)系數,2分組樣本數據的偏態(tài)系數,設一組數據分為K組,各組的組中值和組頻數分別為則偏態(tài)系數的計算公式為,422,1,為對稱分布,2,為右偏分布,3,為左偏分布,4越大,則偏斜程度就越大,例415,根據表39的數據,計算電腦銷售量的偏態(tài)系數,表46某電腦公司銷售量偏態(tài)與峰度系數計算表,例415的解,已知,根據422式,得,偏態(tài)系數為正值,且數值較小,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數占據多數,而銷售量較多的天數則占少數,432峰態(tài)及其測度,1未分組樣本數據的峰態(tài)系數,峰態(tài)KURTOSIS是對分布尖峭或平緩程度的測度設一組數據,則峰態(tài)系數KURTOSISCOEFFICIENT的計算公式為,423,2分組樣本數據的峰態(tài)系數,峰態(tài)是與正態(tài)分布相比較而言的,由于正態(tài)分布的峰度系數等于0,所以Ⅰ,峰態(tài)適中Ⅱ,比正態(tài)分布更尖峭,為尖峰分布Ⅲ,比正態(tài)分布更平緩,為平峰分布,設一組數據分為K組,各組的組中值和組頻數分別為則峰態(tài)系數的計算公式為,424,例416,根據表46的數據,計算電腦銷售量的峰態(tài)系數解根據424式,得,由于,說明電腦銷售量的分布為平峰分布,偏態(tài)與峰態(tài)從直方圖上觀察,按銷售量分組臺,結論1為右偏分布2峰態(tài)適中,某電腦公司銷售量分布的直方圖,用EXCEL計算描述統(tǒng)計量,把第3章表39電腦公司的銷售量的數據輸入到EXCEL工作表中,然后按下列步驟操作1選擇【工具】下拉菜單,并選擇【數據分析】命令2在【數據分析】對話框中,選擇【描述統(tǒng)計】,并單擊【確定】3當對話框出現時1在【輸入區(qū)域】方框內鍵入數據區(qū)域2在【輸出選項】中選擇輸出區(qū)域3選擇【匯總統(tǒng)計】4選擇【確定】計算結果列于表47,表4–7EXCEL輸出的描述統(tǒng)計量,
下載積分: 4 賞幣
上傳時間:2024-01-06
頁數: 78
大?。?0.73(MB)
子文件數: