

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統(tǒng)計學,第2章 統(tǒng)計數據的描述,第1章 回顧,知識點統(tǒng)計學內涵統(tǒng)計學概念及含義要求掌握統(tǒng)計學的涵義了解統(tǒng)計學產生與發(fā)展掌握統(tǒng)計學幾個概念,是一門收集、整理、顯示和分析統(tǒng)計數據的科學,其目的是探索數據內在的規(guī)律性。,總體變量樣本參數統(tǒng)計量,第2章 統(tǒng)計數據的描述,2.1數據的計量尺度2.2統(tǒng)計數據的來源2.3統(tǒng)計數據的質量2.4統(tǒng)計數據的整理2.5分布集中趨勢的測度2.6分布離散程度的測度2.7分布
2、偏態(tài)與峰度的測度2.8莖葉圖與箱線圖2.9統(tǒng)計表與統(tǒng)計圖,,2.1 數據的計量尺度,一、列名尺度二、順序尺度三、間隔尺度四、比率尺度,2.1 數據的計量尺度,分類方法(4種計量尺度):列名尺度、順序尺度、間隔尺度和比例(率)尺度。,列名尺度,,順序尺度,間隔尺度,比例尺度,,精確程度,良好,,,,1980,134公斤,休斯頓火箭,俱樂部:,健康狀況:,出生年份:,體重:,1、列名尺度(Nominal Scale
3、),例如:性別、民族、職業(yè)數據表現為“類別” 各類之間無等級次序 各類別可以用數字代碼表示根據列名尺度得到的數據為分類數據。,2、順序尺度(Ordinal Scale),例如健康狀況、質量等級數據表現為“類別”可對等級、大小等排序未測量出類別之間的準確差值根據順序尺度得到的數據為順序數據。,3、間隔尺度 Interval Scale,例如年份、攝氏溫度數據表現為“數值”可以進行加減運算“0”是只是尺度上的一個點
4、,不代表“不存在”根據間隔尺度得到的數據為間隔數據。,4、比例尺度 Ratio Scale,例如體重、身高數據表現為“數值”可以進行加減、乘除運算“0”表示“沒有”或“不存在”根據比例尺度得到的數據為比例數據。,間隔尺度與比例尺度的區(qū)別,間隔尺度中“0”表示一個具體數值,不表示“沒有”或“不存在”,比例尺度中“0”表示“沒有”或“不存在” 。間隔尺度
5、 - 273.15℃ -123.15 ℃ 0 ℃ 26.85℃比例尺度 0KM 150KM 300KM,課堂練習,下列數據中哪些采用了間隔尺度?海拔8848米 960萬平方公里 100元 北緯38度,四種計量尺度的比較,1、四種尺度所包含的信息量是依次遞增的
6、。2、根據較高層次的計量尺度可以獲得較低層次的計量尺度。,四種計量尺度的比較:數學性質,“√”表示該尺度所具有的特性,數據和變量類型,數據的類型,變量類型,變量的類型,變量是用來描述現象某種令人感興趣的特征的概念。品質變量是描述現象有關屬性特征的變量,本質上不能用數字來表示。例如性別。數量變量是描述現象有關數量特征的變量,都是用數字來表示的。例如人數,年齡等。離散型變量指的是有限個數值或諸如0,1,2……之類無限可列值的變量。
7、 如果某一變量可以取某一區(qū)間或多個區(qū)間中任意數值,則該變量稱為連續(xù)型變量。,2.1 例子,請判斷下列數據分別屬于什么類型?燈炮使用壽命將產業(yè)劃分為三類廣州市8月份各天的氣溫記錄將服務質量分為五個等級:好、較好、一般、差、較差。,分類數據,順序數據,比例數據,間隔數據,,2.2 統(tǒng)計數據的來源,一、間接獲取的數據 二、直接獲取的數據,間接取得的數據,間接取得的數據,統(tǒng)計部門和政府部門公布的有關資料,如各類統(tǒng)計年鑒各類經濟信
8、息中心、信息咨詢機構、專業(yè)調查機構等提供的數據各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學術性研討會上交流的有關資料從互聯網或圖書館查閱到的相關資料,提供統(tǒng)計數據的部分政府網站,提供統(tǒng)計數據的部分政府網站,直接取得的數據,普查(census),為特定目的專門組織的非經常性全面調查2.通常是一次性或周期性的3.一般需要規(guī)定統(tǒng)一的標準調查時間4.數據的規(guī)范化程度較高5.應用范圍比
9、較狹窄,抽樣調查(sampling survey),1.從總體中隨機抽取一部分單位作為樣本進行調查,并根據樣本調查結果來推斷總體特征的數據收集方法,2. 具有經濟性、時 效性強、適應面廣、準確性高等特點,,2.3數據的質量,非抽樣誤差:由于調查過程中各有關環(huán)節(jié)工作失誤造成的。調查方案有關規(guī)定或解釋不明確導致填報錯誤、抄錄錯誤、匯總錯誤、不完整抽樣框導致的誤差,調查中不回答產生的誤差。人為干擾:隱瞞、虛報。從理論上看,這類誤
10、差可以避免。加強培訓掌握獲取完整抽樣框的方法,科學抽樣的方法與技術。抽樣誤差:利用樣本推斷總體時產生的誤差。不可避免可以計量、可以控制,抽樣框全部總體單元或范圍。,,2.3 統(tǒng)計數據的質量,,數據的誤差,抽樣誤差(sampling error),由于抽樣的隨機性所帶來的誤差 所有樣本可能的結果與總體真值之間的平均性差異 影響抽樣誤差大小的因素樣本容量的大小總體的變異性,非抽樣誤差(non-sampling err
11、or),相對于抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結果與總體真值之間的差異存在于所有的調查之中有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差,數據來源與數據質量,1936年,羅斯福和蘭登競選總統(tǒng)?!段膶W摘要》調查了240萬人,預測蘭登以57%對43%獲勝;Gallup(蓋洛普)調查了50000人,結論是羅斯福以56%獲勝。實際結果是羅斯福以62%獲勝。1952年至1988年,Gallup公司在每次調
12、查中只抽取3439至8144人,實際預測誤差在0.2至4.4 個百分點之間。,數據來源與數據質量,第二次世界大戰(zhàn)期間,美國國家民意調查中心(The National Opinion Research Center)派兩組調查人員對一個南方城市的500名黑人進行提問,一組調查人員由白人組成,另一組由黑人組成。 3個問題:問題一:“如果日本占領美國,你認為黑人的境況會得到改善還是變得更糟?”黑人調查組中,9%的被調查者回答“變好” ,2
13、5%回答“變壞”;白人調查組中, 2%回答“變好”,45%回答變壞。問題二:用“納粹分子”代替“日本”,兩組的結果大體相同。問題三: “你認為目前致力于打敗軸心國比在本國內進一步推進民主更重要嗎?”黑人調查組中,選擇“打敗軸心國”的比例是39%,而白人調查組則是62%。是什么原因造成了調查結果的差異呢?,誤差的控制,抽樣誤差可計算和控制非抽樣誤差的控制調查員的挑選調查員的培訓督導員的調查專業(yè)水平調查過程控制調查結
14、果進行檢驗、評估現場調查人員進行獎懲的制度,,2.4 統(tǒng)計數據的整理,一、統(tǒng)計數據的分組 二、次數分配三、次數分配直方圖 四、洛倫茨曲線,統(tǒng)計數據的分組,2.4數據的整理——統(tǒng)計數據的分組,按照統(tǒng)計研究目的,將數據分別列入不同的組內。按品質標志分組:列名尺度和順序尺度。按數量標志分組:間隔尺度和比例尺度。,2.4 數據的整理——次數分配,
15、次數分配是觀察值按其分組標志分配在各組內的次數。分組目的:找出數據分布的規(guī)律。步驟:分多少組?確定組數每一組的范圍?確定組距=(Max.-Min.)/組數等組距分組、不等組距分組開口組經驗:組數不少于5組,也不應多于15組原則:“不重不漏”、上組限(一個組的最大值)不在內累積次數分配向下累積:由表的上方向表的下方累加向上累積:由表的下方向表的上方累加,組距分組 (步驟),1. 確定組數:組數的確定應以能夠顯示數據的
16、分布特征和規(guī)律為目的2. 確定組距:組距(class width)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即組距=( 最大值 - 最小值)÷ 組數3.統(tǒng)計出各組的頻數并整理成頻數分布表 頻數(frequency) :每個組中的數據個數,也稱次數。 頻率(relative frequency) :頻數/總數據個數。,補充,Sturges 提出的經驗公式:分組組數K應
17、滿足,其中n 為數據的個數(總體單位數或樣本數),一般對結果取整數。,組距分組 (幾個概念),1. 下限(low limit) :一個組的最小值2. 上限(upper limit) :一個組的最大值3. 組距(class width) :上限與下限之差4. 組中值(class midpoint) :下限與上限之間的中點值,次數分配表的編制(例題分析),【例】某車間30名工人每周加工某種零件件數如右表試對數據進行分組。,
18、Max=128Min=84,頻數分布表,Max=128Min=84,(Max-Min)/5=(128-84)/5=8.8≈10,上組限(一個組的最大值)不在內。,90、100、110、120這幾個數究竟屬于哪一組?,課堂練習:某月啤酒公司60個銷售點的銷量,48 71 52 53 36 41 69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 5
19、2 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63 49 40 54 61 58 66 47 50 單位:桶,Max=81Min=16,(Max-Min)/8=(81-16)/8=8.125≈9,啤酒銷售量的頻數分布,銷售桶數 銷售點數 頻
20、率(%)10—19 1 1.720—29 3 5.030—39 5 8.340—49 16 26.750—59
21、 20 33.360—69 9 15.070—79 4 6.780—89 2 3.3 合計 60 100.0,
22、,,,頻數/次數,,次數分配直方圖,直方圖 (histogram),在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布,分組數據的圖示(直方圖的繪制),某車間工人周加工零件直方圖,,我一眼就看出來了,周加工零件在100~110之間的人數最多!,折線圖 (frequency polygon),折線圖也稱次數
23、多邊形圖折線圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸S直方圖=S折線圖,二者所表示的頻數分布是一致的,分組數據的圖示(折線圖的繪制),S直方圖=S折線圖,某車間工人周加工零件折線圖,,,,,,,,次數分布曲線,次數分布曲線:當觀察次
24、數越多,組距越小且組數越多,所給出的折線圖就會越光滑,然后直方圖抹掉,就只剩一條光滑的曲線,用于反映數據或統(tǒng)計量的分布規(guī)律。正態(tài)分布曲線偏態(tài)曲線J形曲線U形曲線,次數分配的類型,幾種常見的頻數分布,洛倫茨曲線與基尼系數,洛倫茨曲線,20世紀初美國經濟學家、統(tǒng)計學家洛倫茨(M.E. Lorentz)根據意大利經濟學家帕累托(V. Pareto)提出的收入分配公式繪制而成。描述了收入和財富分配性質的,這條曲線用于分析某國家或地區(qū)收
25、入分配的公平程度。,基尼系數,20世紀初意大利經濟學家基尼(G. Gini)根據洛倫茨曲線計算出一個數值,用這個統(tǒng)計指標可以衡量收入分配的平等程度。A表示實際收入曲線與絕對平均線之間的面積B表示實際收入曲線與絕對不平均線之間的面積如果A=0,則基尼系數=0,表示收入絕對平均如果B=0,則基尼系數=1,表示收入絕對不平均基尼系數在0 和1之間取值,0.4,分配不公,洛倫茨曲線與基尼系數計算步驟:,假設一個國家有100個人,計算這
26、個國家的基尼系數分為下面四步: 1.將這100人按收入從低往高排列,第一名是收入最低的,第一百名是收入最高的; 2.畫一個邊長為一的正方形,并將左下角與右上角的對角線相連; 3.依次計算前十名,前二十名,前三十名……一直到前九十名所擁有的收入占整個100人的收入的比值; 4.以正方形的左下角為原點,用水平邊標記累計人口,垂直邊標記累積的收入比,將在上面計算出的累計收入比值,在正方形中標出。然后,將這些點同
27、原點以及正方形的右上角連接,就可以得到一條曲線。 這條曲線被稱為洛倫茨曲線。 基尼系數就是對角線與洛倫茨曲線之間的面積,與對角線以下的三角形的面積之比。,各國基尼系數的比較,美國 40.8% 英國 36.1% 法國 32.7% 俄羅斯 31.0% 韓 國 31.6% 德 國 30% 意大利 27.3% 匈牙利 26.9% 瑞典 25% 日 本 24.9%,0.4,分配不公,1978-2005中國基尼系數
28、變化情況,亞行揭露:中國基尼系數擴大到0.473,己達到拉美平均水平,勇奪亞洲冠軍,2007年8月8日,亞洲開發(fā)銀行發(fā)表了《減少不平等,中國需要具有包容性的增長》的新聞稿并公布了《亞洲的分配不均》的研究報告。在22個納入亞行研究范圍的國家中,中國勇奪貧富差距之冠,在衡量分配不平等的兩個常見指標中,收入最高的20%人口的平均收入與收入最低的20%人口的平均收入的比率,中國是11倍,高出其它國家一大截;基尼系數,2004年中國的數值是0
29、.4725,僅比尼泊爾的0.4730低微小,遠遠高于印度、韓國、臺灣。亞行指出,從1993到2004年,中國的基尼系數從0.407擴大到0.473,己達到拉丁美洲的平均水平,不得不讓人懷念“公平的增長”的典范:韓國和臺灣(地區(qū))。,貧富差距排名國家 最高20%人口收入/最低20%人口收入 基尼系數 中國 11.37倍
30、 0.4725尼泊爾 9.47倍 0.4730菲律賓 9.11倍 0.4397土庫曼斯坦 8.33倍 0.4302泰國 7.72倍
31、 0.4196馬來西亞 7.7倍 0.4033柬埔寨 7.04倍 0.3805斯里蘭卡 6.83倍 0.4018越南
32、 6.24倍 0.3708臺灣 6.05倍 0.3385阿塞拜疆 5.95倍 0.3650哈薩克斯坦 5.61倍
33、 0.3383印度 5.52倍 0.3622印度尼西亞 5.52倍 0.3430韓國 5.47倍 0.3155蒙古 5.4
34、4倍 0.3284老撾 5.4倍 0.3463塔吉克斯坦 5.14倍 0.3263亞美尼亞 5.08倍 0.338文萊
35、 5.03倍 0.3408巴基斯坦 4.46倍 0.3118吉爾吉斯 4.43倍 0.303,,2.5 分布集中趨勢的測度,一、眾數(mode)二、中位數(median)三、四分位數四
36、、均值(mean)五、幾何平均數(geometric mean)六、切尾均值(trimmed mean)七、眾數、中位數和均值的比較,集中趨勢,常用的集中趨勢的測度指標:算術平均數調和平均數幾何平均數中位數眾數,集中趨勢:一組數據向其中心值靠攏的傾向和程度。集中趨勢測度:尋找數據水平的代表值或中心值。,眾數,眾數 Mo (mode),一組數據中出現次數最多的變量值適合于數據量較多時使用不受極端值的影響一組數據可能
37、沒有眾數或有幾個眾數主要用于分類數據,也可用于順序數據和數值型數據,眾數(不惟一性),無眾數原始數據: 10 5 9 12 6 8,一個眾數原始數據: 6 5 9 8 5 5,多于一個眾數原始數據: 25 28 28 36 42 42,眾數(mode)Mo,數據按大小順序排隊形成次數分配后,在統(tǒng)計分布中有明顯集中
38、趨勢的數值。正態(tài)分布和一般偏態(tài)分布中,分布的最高峰點所對應的數值就是眾數。是一種位置代表值。,眾數,對于分組數據來說,計算眾數的近似公式為:,其中:L:表示眾數所在組的下組限Δ1:表示眾數組次數與下一組次數之差Δ2:表示眾數組次數與上一組次數之差i:表示眾數所在組的組距,,眾數的計算:分組資料* ,例子,1、眾數所在的組:80-90。2、或者:眾數等于眾數所在組的組中值85。,【例】,【例】一家市場調查公司為研
39、究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調查。調查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次 。右邊就是記錄的原始數據,例題分析結果,Mo=可口可樂,用Excel求出 Mo插入——函數 mode,中位數,中位數 Me (median),排序后處于中間位置上的值,不受極端值的影響主要用于順序數據,也可用數值型數據,但不能用于分類數據各變量值與中位數的
40、離差絕對值之和最小,即,中位數 (位置的確定),原始數據:,分組數據:,數值型數據的中位數,【例】 9個家庭的人均月收入數據原始數據: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3
41、 4 5 6 7 8 9,中位數 ? 1080,?,數值型數據的中位數,【例】:10個家庭的人均月收入數據排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,?,中位數的
42、計算:分組資料*,對分組資料的一種計算方法:,,中位數的計算:例子,根據考試成績的數據計算考試成績的中位數。,,第21個數所在的組,分組數據:,四分位數,四分位數 (quartile),排序后處于25%和75%位置上的值,不受極端值的影響主要用于順序數據,也可用于數值型數據,但不能用于分類數據,四分位數 (位置的確定),原始數據:,分組數據:,數值型數據的四分位數,【例】:9個家庭的人均月收入數據原始數據: 1500 7
43、50 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,?,?,數值型數據的四分位數,【例】:10個家庭的人均月收入數據排 序:
44、660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,?,?,分位數,與中位數性質相似。四分位數、十分位數、百分位數十分位數(Decile): D1 D2 ………D9百分位數(percentile):P1 P2 …………P99,均值,
45、均值 (mean),集中趨勢的最常用測度值一組數據的均衡點所在體現了數據的必然性特征易受極端值的影響用于數值型數據,不能用于分類數據和順序數據,算術平均數,設一組數據為: x1 ,x2 ,… ,xn,總體均值,樣本均值,加權均值 (weighted mean),設一組數據為: x1 ,x2 ,… ,xn相應的頻數為: f1 , f2 ,… ,fk,總體均值,樣本均值,加權均值 (例題分析),,均
46、值 (數學性質),1.各變量值與均值的離差之和等于零,2. 各變量值與均值的離差平方和最小,幾何均值,幾何均值 (geometric mean),n 個變量值乘積的 n 次方根適用于對比率數據的平均主要用于計算平均增長率計算公式為,5. 可看作是均值的一種變形,幾何均值 (例題分析),【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計
47、算該投資者在這四年內的平均收益率是多少?,算術平均:,幾何平均:,切尾均值,切尾均值 (trimmed Mean),去掉大小兩端的若干數值后計算中間數據的均值在電視大獎賽、體育比賽及需要人們進行綜合評價的比賽項目中已得到廣泛應用計算公式為,n 表示觀察值的個數;α表示切尾系數,,,a=0, 切尾均值=算術平均數a?1/2,切尾均值=中位數,切尾均值 (例題分析),【例】某次比賽共有11名評委,對某位歌手的給分分別是:,經整理得
48、到順序統(tǒng)計量值為,去掉一個最高分和一個最低分,a 取1/11,眾數、中位數和均值的比較,一個故事,周先生開辦了一個小工廠。管理人員:周先生、他的弟弟和六個親戚。工作人員:5個領工和10個工人。工廠經營得很順利,現在需要招聘一個新工人。現在周先生正在面試王先生。周:我們這里報酬不錯。平均薪金是每周300元。你在學徒期間每周得75元,不過很快就可以加工資。王先生工作了幾天之后,要求見廠長。王:周廠長你欺騙我!我已經找其他工人核
49、對過了沒有一個人的工資超過每周100元。平均工資怎么可能是一周300元呢?周:啊,王先生,不要激動。平均工資真的是300元。我要向你證明這一點。,周先生每周付出的酬金如下:我得2400元我弟弟得1000元我的六個親戚每人得250元,250*6=1500五個領工每人得200元,10個工人每人100元,共2000總共是每周6900元,付給23個人,周先生拿出了工資表,平均工資:6900/23=300元,對話繼續(xù):,王:?你是對的
50、,平均工資是每周300元??珊孟衲氵€是蒙騙了我。周:我不同意!你實在是不明白。我把工資表都告訴你了,看,工資的中位數是200元,可這不是平均工資,而是中等工資。王:每周100元又是怎么回事呢?周:那是眾數,是大多數人掙的工資。老弟,你的問題是出在你不懂平均數、中位數和眾數之間的區(qū)別。王:好,現在我可懂了。我辭職,我要先去學習統(tǒng)計了……,???,眾數、中位數和均值的關系,,眾數、中位數、均值的特點和應用,眾數不受極端值影響具有
51、不惟一性數據分布偏斜程度較大時應用中位數不受極端值影響數據分布偏斜程度較大時應用均值易受極端值影響數學性質優(yōu)良數據對稱分布或接近對稱分布時應用,2.6 分布離散程度的測度,一、極差二、內距三、方差和標準差四、離散系數,極差 R (range),一組數據的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數據的分布,R = max(xi) - min(xi),計算公式為,內距 (Inter-Q
52、uartile Range,IQR),也稱四分位差上四分位數與下四分位數之差 內 距= Q3 – Q1反映了中間50%數據的離散程度不受極端值的影響可用于衡量中位數的代表性,方差和標準差,方差和標準差 (Variance and Standard deviation),1.離散程度的測度值之一2.最常用的測度值3.反映了數據的分布反映了各變量值與均值的平均差異根據總體數據計算的,稱為總體
53、方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差,總體方差和標準差 (Population variance and Standard deviation),未分組數據:,組距分組數據:,未分組數據:,組距分組數據:,方差的計算公式,標準差的計算公式,,樣本方差和標準差 (simple variance and standard deviation),未分組數據:,組距分組數據:,未分組數據:,組距分組數據:,方差的計算公式,
54、標準差的計算公式,樣本方差 自由度(degree of freedom),一組數據中可以自由取值的數據的個數當樣本數據的個數為 n 時,若樣本均值?x 確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值例如,樣本有3個數值,即x1=2,x2=4,x3=9,則 ?x = 5。當 ?x = 5 確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他
55、值樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差σ2時,它是σ2的無偏估計量,例:方差和標準差,某工會隨機調查了5名工人上月的加班時間如下表,計算數據的方差和標準差。,,離散系數,離散系數 (coefficient of variation),1. 標準差與其相應的均值之比對數據相對離散程度的測度消除了數據水平高低和計量單位的影響4.用于對不同組別數據離散程度的比較
56、5. 計算公式為,離散系數 (例題分析),【 例 】某管理局抽查了所屬的8家企業(yè),其產品銷售數據如表。試比較產品銷售額與銷售利潤的離散程度。,離散系數 (例題分析),,結論: 計算結果表明,v1<v2,說明產品銷售額的離散程度小于銷售利潤的離散程度,例:某地兩個不同類型的企業(yè)全年平均月產量資料如下表,計算離散系數。,比較結果: 鋼廠的標準差比紡紗廠大,但我們卻不能直接斷定煉鋼廠的平均月產量的差異程度比紡紗廠的大。因為
57、,首先這兩個廠的平均月產量相差懸殊,其次兩個廠屬于性質不同(計量單位不同)的兩個企業(yè)。因此只能根據離散系數的大小來判斷。 表中最后一欄的兩個企業(yè)的離散系數表明,鋼廠的平均月產量的差異程度比紡紗廠的小,生產比較穩(wěn)定。其結果與用標準差判斷的結果正好相反。,例:離散系數,對30名經理人員的調查表明年平均收入=$500,000,標準差 = $50,000。對30名工人的調查表明平均收入= $32,000,標準差 = $5,000。離散系
58、數:經理人員:工人:雖然經理人員收入的絕對離散程度遠遠大于工人,但經理人員收入的相對離散程度小于工人。,數據的特征和測度,分布的形狀,集中趨勢,,,,,,,離散程度,,眾 數,中位數,均 值,離散系數,方差和標準差,峰 度,四分位距,極差,偏 態(tài),,,,,,,,,,,Location,Dispersion,Shape,數據的特征和測度,2.7 莖葉圖與箱線圖,一、莖葉圖二、箱線圖,莖葉圖 (stem-a
59、nd-leaf display),用于顯示未分組的原始數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息,莖葉圖 (例題分析),莖葉圖(擴展的莖葉圖),例:地區(qū)1 高三男生身高數據的莖葉圖,
60、HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888
61、888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19
62、 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s),箱線圖 (box plot),用于顯示未分組的原始數據的分布箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成箱線圖的繪制方法首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連
63、接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接,箱線圖 (箱線圖的構成),箱線圖 (例題分析),分布的形狀與箱線圖,,不同分布的箱線圖,,未分組數據——多批數據箱線圖 (例題分析),【例】 從某大學經濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,未分組數據—多批數據箱線圖 (例題分析),8門課程考試成績的箱線圖,
64、11名學生8門課程考試成績的箱線圖,,,,,min-max,,25%-75%,,median value,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,45,55,65,75,85,95,105,,
65、,,,,,,,,,,,,,學生1,學生2,學生3,學生4,學生5,學生6,學生7,學生8,學生9,學生10,學生11,未分組數據——多批數據箱線圖 (例題分析),2.9 統(tǒng)計表與統(tǒng)計圖,一、統(tǒng)計表二、統(tǒng)計圖,統(tǒng)計表,統(tǒng)計表是顯示統(tǒng)計數據的基本工具。表頭行標題列標題數字資料下方:表外附加三線表,統(tǒng)計表的構成,,行標題,表頭,列標題,數字資料,附加,,,,,統(tǒng)計圖,統(tǒng)計圖是統(tǒng)計數據的直觀表現形式。,如何用圖形來表示數據?,
66、常用統(tǒng)計圖,條形圖(Bar Chart),用寬度相同的條形高度或長短來表示數據變動的圖形,條形的排列可以橫排,也可以縱排。條形圖有單式、復式等形式。,2003我國就業(yè)人員情況,圓形圖 (Pie Chart),也叫餅圖,它是用圓形及圓內扇形的面積來表示數值大小的圖形。主要用于總體內部的結構,各組成部分所占比例等。,2003年我國國內生產總值中各產業(yè)比重,線圖(Line Chart),利用線形的升降起伏來表現描述的變量在一段時期內的變動
67、情況,主要用于顯示時間數列的數據,以反映事物發(fā)展變化的規(guī)律和趨勢。,1996年-2003年城鄉(xiāng)居民人民幣儲蓄存款年底余額,雷達圖,適合多維數據即多個變量的圖示,在顯示或對比各變量的數值總和時十分有用??捎糜谘芯慷鄠€樣本之間的相似程度。,2003年我國城鎮(zhèn)和農村居民家庭平均每人全年消費性支出構成,繪制統(tǒng)計圖時的注意事項,1、通過選擇恰當的圖形類型、刻度、長寬比例等,使圖形能夠準確反映數據中包含的信息。時間一般繪在橫軸,指標數據繪在縱軸
68、。長寬比例要適當 ,其長寬比例大致為10:7。一般情況下,縱軸數據下端應從“0”開始。數據與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷。,繪制統(tǒng)計圖時的注意事項,2、圖形要盡量簡明。圖形應該突出所要傳達的信息,不必要的標簽、背景、網格線、等會分散讀者的注意力。3、圖形應該有清楚的標題和必要的說明,明確圖形的含義、計量單位、坐標軸代表的變量、資料來源等等。4、反復加工和修改是獲得優(yōu)秀統(tǒng)計圖形的重要步驟。統(tǒng)計軟件給出的統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計數據處理
- 統(tǒng)計數據質量淺析
- 艾滋病統(tǒng)計數據
- 如何提高統(tǒng)計數據質量
- 夯實統(tǒng)計數據基礎勢在必行
- 鎮(zhèn)賚縣情統(tǒng)計數據
- 《統(tǒng)計數據的整理》ppt課件
- 對我國統(tǒng)計數據的思考
- 提高統(tǒng)計數據質量的探討
- 提高統(tǒng)計數據質量途徑分析
- 淺談如何提高統(tǒng)計數據質量
- 年工作總結統(tǒng)計數據
- 基層企業(yè)統(tǒng)計數據核查表
- 提高統(tǒng)計數據質量的對策研究
- 統(tǒng)計數據發(fā)布服務指南
- 提高統(tǒng)計數據質量的對策探究
- 提高基礎統(tǒng)計數據質量的探究
- 統(tǒng)計信用與統(tǒng)計數據質量分析
- 【模板】店鋪統(tǒng)計數據趨勢報表
- 統(tǒng)計數據質量控制研究
評論
0/150
提交評論