版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、health statistic,present to clinical studentyulan21cn@yahoo.com.cn,一、衛(wèi)生統(tǒng)計學( health statistic)的定義和內容,1.定義: 統(tǒng)計學:研究數(shù)據(jù)的收集、整理、分析,對不確定的數(shù)據(jù)作出科學推理的一門科學(即概率論).衛(wèi)生統(tǒng)計學:2.內容:衛(wèi)生統(tǒng)計學的基本原理和方法健康統(tǒng)計衛(wèi)生服務統(tǒng)計,二、統(tǒng)計工作的基本步驟,全過程包括:計劃與設計、
2、收集資料、整理資料、分析資料 1、設計(design): 根據(jù)研究目的對統(tǒng)計全過程的一個全面的設想。這是最關鍵的一步。 要求:科學、周密、簡捷。設計包括:實驗設計、調查設計、臨床實驗設計 設計原則:齊同原則、對照原則、重復原則、隨機化原則,2、搜集資料(collection of data):,要求:完整、準確、及時。 醫(yī)學統(tǒng)計資料的來源主要有三個方面: (1) 統(tǒng)計報表:eg法定傳染病報表、職業(yè)病報表、醫(yī)院工作
3、報表; 報表項目較少,不具備可比性 (2) 日常醫(yī)療工作的原始記錄和報告卡片; eg:衛(wèi)生監(jiān)測記錄、健康檢查記錄(3)專題調查與實驗: A.常見專題調查的種類: 居民健康狀況調查 流行病調查(病因學調查) 臨床遠期療效觀察 衛(wèi)生學調查:職業(yè)衛(wèi)生學調查、環(huán)境衛(wèi)生學調查、營養(yǎng)與食品衛(wèi)生學調查、放射衛(wèi)生學調查、心理衛(wèi)生學調查等。,B.調查的內容:,
4、明確調查目的、內容和指標確定調查對象(總體)、觀察單位(個體)選擇調查方法: 全面調查(普查:census) 非全面調查:典型調查:有意識選擇范圍 抽樣調查確定調查范圍:時間、空間、數(shù)量范圍選擇調查方式:觀察法、采訪法、填表法、通訊法。,調查設計,特點:調查計劃:1.明確調查目的和指標2.確定觀察對象和單位3.調查方法(1)普查( 全面調查 ): 將組成總體的所有觀
5、察單位全部加一調查。 (2)抽樣調查: 從總體中隨機抽取一定數(shù)量的觀察單位組成樣本, 然后用樣本信息來推斷總體特征。(3)典型調查( 案例調查 ): 即在對事物作全面分析的基礎上, 有目的地選定典型的人、典型的單位進行調查。,確定調查項目和設計調查表:,調查項目:核查項目(檢索項目、備考項):被調查者的姓名、住址等。分析項目(業(yè)務項目):資料不能缺少的分析項目。調查者項目(審核項目):調查者的姓名和調查日期 調查表:調查項
6、目按一定順序列成的表格。 制表要求:簡便、清楚 多用:選擇、填空、符號、數(shù)字; 少用:文字敘述,調查表形式:,一覽表(list):多個觀察單位記錄在一張表中適用于調查項目少、樣本少的專題調查單一表(card、調查卡片、個案卡片): 一個觀察單位記錄在一張表中,適用于調查項目多、樣本多的專題調查編碼調查表(code sheet):適用于樣本多、分析項目多、分析內容復雜的專題調查,計算機保存。確定樣本大小制定調查的
7、組織工作:建立組織、確定起止時間、進度、分工、培訓調查員可先小范圍調查(預調查),4.調查項目和調查表(1) 分析項目: 直接用于計算調處指標, 以及分析時排除混雜因素影響所必須得到的內容。(2) 備查項目: 便于核查、補填和更正而設置的, 通常不直接用于分析。(3) 調查表的格式: 分為一覽表和單一表5.收集資料的方式6.隨機抽樣的方法: a.單純隨機抽樣 b. 系統(tǒng)抽樣 c. 整群抽樣 d. 分層抽樣;,根據(jù)抽
8、樣誤差的大小 分層抽樣 < 系統(tǒng)抽樣 < 單純隨機抽樣 < 整群抽樣,3、整理資料(sorting data),系統(tǒng)化、條理化1)核查資料; 2)分組匯總,擬整理表:按性質(分類變量)或數(shù)量(數(shù)值變量)分組,擬定整理表(過渡性的表格,按調查指標合理設計,用于原始資料的歸組,表中有合計、總計等項目)。,4.分析資料:計算有關指標,反映數(shù)據(jù)綜合特征,統(tǒng)計描述(descriptive statistic) 包括指標
9、的計算、統(tǒng)計圖表的繪制,描述數(shù)據(jù)的特征和分布規(guī)律。統(tǒng)計推斷(inferentical statistic) 用樣本統(tǒng)計量通過參數(shù)估計、假設檢驗等統(tǒng)計方法推斷總體.推斷總體 1)推斷總體分布;是正態(tài)還是偏態(tài) (常有理論或經(jīng)驗得到) 2)推斷總體分布的參數(shù)或特征量: μ和?,三.統(tǒng)計中的幾個基本概念,1、變量與變異: 變量:個體的研究特征; 變異:各觀察指標(即個體)之間的差異:包括個體變異和隨機測
10、量變異同質觀察單位之間的個體變異,是生物的重要特征,是偶然性的表現(xiàn)。變量值:變量的觀察結果: 定量變量: 數(shù)值變量資料定性變量: 分類變量資料數(shù)值變量(numerical variabal):用定量方法對每個觀察單位測定某項指標的所得的資料.一般有度量衡單位(也稱計量資料measurement data)。,分類變量(categorical variable),表現(xiàn)為互不相容的類別或屬性.分兩種:a.無序分類變量:(uno
11、rdered categories,計數(shù)資料enumeration data):將觀察單位按某種屬性或類別分組,再清點各組的觀察單位數(shù)??煞譃槎検交蚨囗検椒诸愖兞俊.有序分類變量(ordinal categories,等級資料ranked data半定量資料):將觀察單位按某種屬性(或性質、標志)的不同程度分組,然后清點各組的數(shù)據(jù)所得的資料。(各組之間有程度的差異).(這類資料與計數(shù)資料不同的是:屬性的分組有程度的差別,各
12、組按大小順序排列;與計量資料不同的是:每個觀察單位未確切定量,因而又稱為半定量資料。)三種資料間可以相互轉化。,2、總體與樣本,總體(population):根據(jù)研究目的確定的同質的研究對象的全體(性質相同的所有觀察單位的某種變量值的集合)。樣本(sample):從總體中隨機抽取一部分觀察單位進行觀察,這部分觀察單位對總體有代表性,稱為樣本。(總體中每一觀察單位均有相同的機會被抽取到樣本中去。),3.概率(probability)與
13、頻率,描述某事物發(fā)生的可能性大小的數(shù)值,用分數(shù)、小數(shù)、百分數(shù)表示。符號p。 P=1 p=0 0<p<1 隨機事件 p≤0.05或p≤0.01 小概率事件,3.誤差(statistic error),測得值與真實值之差。系統(tǒng)誤差(systematic error)因儀器不準等造成的呈傾向性偏大或偏小的誤差(可以消除)。隨機測量誤差(random measurement error
14、)儀器校正后由于偶然因素造成同一物體多次測量結果不完全一致(不可避免,無傾向性)。抽樣誤差(sampling error):消除系統(tǒng)誤差和控制隨機測量誤差后,由于觀察單位間存在個體差異, 隨機抽樣造成的樣本指標與總體參數(shù)有差異, 這種樣本統(tǒng)計量與總體參數(shù)間的差別稱為抽樣誤差。,4.參數(shù)與統(tǒng)計量:,總體指標均稱參數(shù),用希臘字母表示: μ, σ, 樣本指標均稱統(tǒng)計量,用拉丁字母表示?X,s。,頻數(shù)分布的集中趨勢和離散趨勢,數(shù)值變量資
15、料的頻數(shù)表頻數(shù)表的編制a.求全距(range)R R=最大值-最小值b.確定組距(class interval)i i=全距/組數(shù) 組數(shù)取決于資料性質、樣本量、分析目的 要求:組數(shù)一般8~15組,組距相等c.劃分組段:每組都有開始值、終止值 第一組包括最小值,最后一組包括最大值 每組段只寫組下限,省略組上限 各組界限要分明(既不包含也不留空隙),
16、d.歸納記數(shù),擬整理表,方法:劃記法(tabulation method):正 適用于樣本少、內容簡單的資料分卡法(card sorting method):卡片分組適用于樣本多的資料,Chapter 16 statistic table and statistic chart,present to clinical medical student,outline,Structure, classi
17、fy, tabulating principle and basic requirement of establishing a table and a graphSeveral plotting approach of statistic chartusability condition of statistic chart,一.統(tǒng)計表(statistic table)兩個組成:被說明的事物 統(tǒng)計指標(
18、1) 基本結構與要求: 由標題、標目、線條、數(shù)字等組成a. 標題: 要求中心內容突出, 必要時注明資料的時間、地點。b. 標目: 橫標目: 位于表的左側, 是表的主語位置。縱標目: 位于表的上方, 是表的謂語位置。,,c 線條: 分頂線、底線、縱標目下面與合計上面的橫線,斜線、豎線省略。 d 數(shù)字: 一律用阿拉伯數(shù)字。 …表示數(shù)值不詳或暫缺 -- 無數(shù)值備注: 列于表的下面, 對表中標有( ? )的數(shù)字加以
19、描述。,,標題橫標目總稱 縱標目 橫 標 目 合計,,,,,,種類:內容上:廣義: 狹義:形式上: a.簡單表: 被研究的事物只按一個特征或指標分組。 b.復合表: 被研究的事物按兩個或兩個以上相關聯(lián)的特征或指標分組。制表原則:簡單明了,重點突出主謂分明,層次清楚數(shù)據(jù)準確,便于對比分析,,種類:內容上:廣義: 狹義:形式上: a.簡單表: 被研究的事物
20、只按一個特征或指標分組。 b.復合表: 被研究的事物按兩個或兩個以上相關聯(lián)的特征或指標分組。制表原則:簡單明了,重點突出主謂分明,層次清楚數(shù)據(jù)準確,便于對比分析,二.統(tǒng)計圖(statistic graph),基本要求:a 依據(jù)資料的性質選擇適當?shù)膱D形;b 標題簡明扼要,必要時注明時間、地點;c 縱軸和橫軸應有標目,并注明單位d 尺度:橫軸尺度自左而右, 縱軸尺度自下而上, 數(shù)量一律由小到大, 并需等距標明??v橫坐標長
21、度的比例一般為5? 7。e復式圖:比較不同事物時, 用不同的線條或顏色表示, 要附圖例說明。,3、常用統(tǒng)計圖,(1) 直條圖(bar graph): 用相同寬度條形的長短.來表示資料數(shù)值大小比例關系, 適用于按性質分組,各個獨立的、無連續(xù)關系的統(tǒng)計圖。,,(2)百分條圖: 適用于表達構成比的資料。,,(3) 線圖:,用線條的上升和下降來表示某事物( 或某現(xiàn)象 )因時間或條件而變化的趨勢。適用于連續(xù)性的變量資料。,(4)直方圖:,用于
22、表示連續(xù)變量的頻數(shù)分布。常以橫軸表示被觀察現(xiàn)象, 縱軸表示頻數(shù)或頻率, 以各矩形( 寬度為組距 )的面積代表各組段的頻數(shù)。,謝謝,outline,Descriptive approach and applicable condition about central tendency & tendency of dispersioncounting method of statistical descriptive index
23、Concept and trait of normal distributionEvaluation of reference rangearea distribution principle about normal distributionGraph of normal distribution,Statistical distribution of numerical variable,頻數(shù)分布的集中趨勢和離散趨勢數(shù)值變
24、量資料的頻數(shù)表頻數(shù)表的編制a.求全距(range)R R=最大值-最小值b.確定組距(class interval)i i=全距/組數(shù) 組數(shù)取決于資料性質、樣本量、分析目的 要求:組數(shù)一般8~15組,組距相等c.劃分組段:每組都有開始值、終止值 第一組包括最小值,最后一組包括最大值 每組段只寫組下限,省略組上限 各組界限(demarcation)
25、要分明(既不包含也不留空隙),頻數(shù)分布的兩個特征,集中趨勢和離散趨勢,頻數(shù)分布的類型,對稱分布和偏態(tài)分布(正偏和負偏),集中趨勢的描述:,平均數(shù)(average)1.概念:平均數(shù)是集中趨勢(central tendency)指標(亦稱位置指標), 用以描述同質計量資料頻數(shù)分布的集中趨勢, 反映一組變量值的平均水平, 是一組變量值的代表值。,2.種類:,1) 算術均數(shù): arithmetic mean, 樣本均數(shù), 符號:?X
26、(eksba),拉丁字母,簡稱均數(shù), 總體均數(shù), 符號μ(miu), 希臘字母(1)適用范圍:對稱分布(特別是呈正態(tài)分布或近似正態(tài)分布)。(2)計算方法: A.直接法(direct method): 當觀察值個數(shù)較少時 ?X =?x/n ?:希臘字母,sigma,求和符號B.加權法(weighting method): ?X =??x/??=??x/n條件: 當觀察值個數(shù)較多時,步驟,A) 制備頻數(shù)表
27、B)求各組組中值(class-mid value) X=(本組段組下限+下組段組下限)/2C)統(tǒng)計各組段頻數(shù)fD) ?fxE) =?fx/?f 各組段f權衡了各組中值因f不同對均數(shù)的影響,起權衡作用,權數(shù)大,作用大.(3)均數(shù)的兩個重要特征: A. Σ(X-?X )=0 B.Σ(X-?X )2<Σ(X- a)2,2)幾何均數(shù)(geometric mean ,符號G表示),用于描述變量
28、值呈等比數(shù)列, 或呈對數(shù)正態(tài)分布(log-normal distribution)或近似對數(shù)正態(tài)分布資料。 資料作對數(shù)變換(log arithmetic transformation)直接法:當n較小時 G=(x1x2? x3? ?????? xn )1/n, G=lg-1( ?lgX/n )加權法: 當n較大時 G=lg-1( ??lgX/?? )應用條件:任何一個不能為0,不能同時有正有負步驟:求倒數(shù)
29、 X logX flogX ??lgX ??lgX/?? lg-1( ??lgX/?? )=G,,,,,,3)中位數(shù)(median, 位置平均數(shù),符號M),是一組變量值從小到大順序排列后位次居正中間的那個數(shù)值。應用條件:多用于描述偏態(tài)分布資料,或一端或兩端無確定數(shù)值的開資料的集中趨勢,或頻數(shù)分布不明資料,。 計算方法: 直接法:當n較小時 n為奇數(shù)時 M=X
30、(n+1/2) n為偶數(shù)時 M=[ X(n/2)+X(n/2+1)]/2 頻數(shù)表計算方法: 當n較大時用 編頻數(shù)表(frequency table)PX =L+i/fm( n?x% - ??L )L:中位數(shù)所在組段下限;i: 中位數(shù)所在組段組距fm: 中位數(shù)所在組段頻數(shù)??L:中位數(shù)所在組段之前的累積頻數(shù)x%:百分位 50%,4)百分位數(shù)(percentile,PX ),描述一組有序排列的偏態(tài)分
31、布數(shù)據(jù)某百等分界值大?。ê喎Q界值,是一種位置指標)應用條件:偏態(tài)分布(skew distribution)資料應用: 估計正常值范圍: 95%: P2.5 P97.5,離散程度的描述,描述變異程度的常用指標:例:三組同性別同年齡兒童體重(Kg),其集中趨勢與離散程度分別是: 甲組:26 28 30 32 34 ?X =30Kg 乙組:24 27 30 33 36 ?X
32、 =30Kg 丙組:26 29 30 31 34 X =30Kg三組數(shù)據(jù)集中位置用?X描述 ,?X =30Kg,三組數(shù)據(jù)離散度不同,分布特征不盡相同。,1)全距(range, R, 極差),一組變量值中最大值與最小值之差。R=X最大—X最小 優(yōu)點:簡單明了,常用于傳染病、食物中毒的最長、最短潛伏期缺點:A .不能反映組內數(shù)據(jù)的變異度 B. N R C. 抽樣誤差較大,,,
33、2)四分位間距(quartile, Q),P75 QU P25 QL Q=QU—QL(包括全部觀察值的一半)應用:偏態(tài)分布資料優(yōu)點:較穩(wěn)定,特別是N較大時,越接近分布的中間越穩(wěn)定。缺點:未考慮每個觀察的變異度。,3)方差(variance,?2 ,s2),離均差平方和的平均值 離均差: X—μ, Σ(X—μ)=0離均差平方和(Sum of squares),Σ(X—μ)2 1 .與變異
34、度有關:變異度越大 ,Σ(X—μ)2越大2.與N多少有關:N越大 , Σ(X—μ)2越大 為消除N的影響,取其均值 Σ(X—μ)2 Σ(X—?X )2?2 = S2= (樣本方差公式) N n-1 缺點:單位平方 優(yōu)點:考慮了每個變量值的變異,方差大小不受樣本量多少的影響,,,4)標準差(stan
35、dard deviation,? s),是最常用的衡量變量值間離散程度的變異指標。 Σ(X—μ)2 ?= N定義:離均差的平方和的平均值的平方根意義:1.?越大,說明個體差異越大,則平均數(shù)代表性就越差 2.μ未知,用s估計?,用Σ(X—?X )2 代替Σ(X—μ)2 用樣本例數(shù)n代替N,,,由于抽樣誤差存在,?X =μ可能性小,當?X =μ按上式算得結果常比實
36、際?低,英國W.S.Gosset提出用n-1代替n校正, Σ(X—?X )2 S= (樣本標準差公式) n-1自由度 :隨機變量能自由取值的個數(shù)。υ(niu) υ=n-1 Σ(X—?X)2 ΣX2—(ΣX)2/ n ΣfX2—(fX)2/n
37、 S= = S= n-1 n-1 n-1Lxx=SS=ΣX2—(ΣX)2/ n Lxx=SS=ΣfX2—(ΣfX)2/n 應用:(1)用來描述資料的變異程度:應用條件:正態(tài)分布?X +s (2)比較不同資料變異程度大小
38、 應用條件:單位相同、均數(shù)相近 優(yōu)點:考慮了每個觀察值的變異情況,與集中趨勢單位一致;當資料呈正態(tài)或近似正態(tài)資料時可寫成: ?X ? S,表示均數(shù)的代表性。缺點:計算復雜,5)變異系數(shù):(離散系數(shù) coefficient of dispersion ,CV),CV= (S /?X ) *100%應用:A、比較均數(shù)相差懸殊的幾組資料的變異程度; B、比較單位不同的多組資料的變異度:應用條件:正態(tài)分布; 單位不同或
39、均數(shù)不等優(yōu)點:無單位,便于比較,正態(tài)分布及其應用,正態(tài)分布(又稱Gauss分布)概念:: 是醫(yī)學和生物學中最常見的連續(xù)性總體頻數(shù)分布, 以均數(shù)為中心, 兩側逐漸下降并對稱, 兩端永遠不與橫軸相交。正態(tài)分布(normal distribution)圖形:直方圖,當n增大各直條逐漸變窄,其頂點中點將變成一條光滑曲線(頻數(shù)曲線),形狀呈鐘形,兩頭低,中間高,左右對稱。,正態(tài)分布用N(?, ?2)表示,為了應用方便, 常對變量X 作 u=(
40、 X - ? )/ ?變換,u=( X - ? )/ ? 1)原點移到 ? 的位置2)橫軸尺度以 ? 為單位使?=0, ?=1,則正態(tài)分布轉換為標準正態(tài)分布(standard normal distribution,U分布), 用N(0, 1)表示。U:稱為標準正態(tài)變量或標準正態(tài)差,特征:,A、均數(shù)處最高;B、以均數(shù)為中心, 左右對稱;C、有兩個參數(shù): ?和?, u 位置參數(shù),圖形向右移動 ?變異度參數(shù),
41、數(shù)據(jù)越分散D、正態(tài)曲線下的面積分布有一定規(guī)律:a.曲線與橫軸X所夾面積總和為1b.橫軸上某一區(qū)間和曲線所夾面積與總面積之比,相當于變量值落在該區(qū)間的概率(概率分布),反映該區(qū)間例數(shù)與總例數(shù)之比(頻率分布,百分數(shù))c.橫軸上某一區(qū)間所夾面積可用函數(shù)積分求得,正態(tài)曲線下的面積分布規(guī)律,變量值范圍 正態(tài)曲線下面積 (變量值出現(xiàn)的概率) ? ? 1.0? 68.
42、27% ? ? 1.96? 95.00% ? ? 2.58? 99.00%,,,,3) 正態(tài)分布的應用,常用于估計頻數(shù)分布情況; 制定正常值范圍。正常值:指正常人的各種生理常數(shù)。當資料呈正態(tài)分布時,最常用?X ? 1.96S估計95%正常值范圍, 其含義是指絕大多數(shù)正常的變量值都在這個范圍內, 絕大多數(shù)是包括正常的90%、95%和99%, 最常用95%。應用:1.估計醫(yī)學參考值范圍 ?X ? uS
43、 2.質量控制 ?X +2S 上下警戒線 ?X +3S 上下控制線,常用的U值表,參考值范圍% 單側 雙側 90 1.282 1.645 95 1.645 1.96 99 2.326 2.58,,,,95%參考值范圍雙側 ?X ? 1.96S單側 上限 (u
44、pper limit) ?X +1.645S 下限(low limit) ?X -1.645S99%參考值范圍 雙側 ?X + 2.58S應用條件:1.正態(tài)分布或近似正態(tài)分布資料2.可轉化為正態(tài)分布資料: 對數(shù)變換(抗體滴度、血清效價、住院天數(shù)、潛伏期、檢驗結果、殘留量、有害物質的濃度等)3.t分布、二項分布、POISSON分布等極限為正態(tài)分布正態(tài)分布是X2分布、t分布、F分布的基礎,Sta
45、tistic inference of numerical variable,,outline,Concept of sampling error and that of standard errorEvaluation of confidence intervalgeneral step and announcement of hypothesis testApplication condition of T test and
46、U testTape 1 error and tape 2 error,總體均數(shù)的估計和假設檢驗,一、均數(shù)的抽樣誤差和標準誤(standard error) 1)均數(shù)的抽樣誤差 隨機抽10個變量值組成樣本第一次:x11 x12 x13 x14 x15 x16 x17 x18 x19 x110 ?X1 第二次:x21 x22 x23 x24 x25 x26 x27 x28 x29
47、x220 ?X2類推:第n次:xn1 xn2 xn3 xn4 xn5 xn6 xn7 xn8 xn9 xn10 ?X nN(?, ?2 ),,,(1)特征,a.樣本均數(shù) ?X 1 ?X 2 ?X 3…….. ?X n不一定相等.b.?為定值,s越大, 抽樣誤差越大.c.樣本均數(shù)?X 的頻數(shù)分布呈近似正態(tài)分布: ?X=Σ?X /n≈u,,(2)中心極限定律(central limit
48、theorem),a.正態(tài)總體中隨機抽取許多含量相等的樣本,這些樣本均數(shù)的頻數(shù)分布呈正態(tài)分布N(?,?2?X )b.偏態(tài)總體中隨機抽取許多含量相等的樣本,當n>30時,樣本均數(shù)的頻數(shù)分布近似正態(tài)分布N(u, ?2?X ) 若變量x的總體(正態(tài)或偏態(tài))均數(shù)為?,標準差為?,則含量為n的樣本均數(shù)?X的總體均數(shù)也為?, 樣本均數(shù)的標準差為??X (放回抽樣).,(3)均數(shù)的抽樣誤差,A、定義:因隨機抽樣造成的樣本統(tǒng)計量之間以及樣
49、本統(tǒng)計量與總體參數(shù)之間的差異.記作??X , S?X . B、抽樣誤差影響因素:n大小?抽樣方法不同, ??X 不同。抽樣誤差不可避免.,2)標準誤的概念,(1)定義:樣本均數(shù)的標準差,是說明均數(shù)抽樣誤差大小的指標。標準誤愈小,表示抽樣誤差愈小,樣本統(tǒng)計量對總體參數(shù)的估計愈可靠。(2)標準誤的計算 ??X =?/??n(總體標準誤) s?X =s/??n(樣本標準誤) (當?未知,用s代替?),(3
50、)標準誤的應用,表示樣本均數(shù)的離散度;估計總體均數(shù)的可信區(qū)間;進行假設檢驗,(4)標準差與標準誤的區(qū)別和聯(lián)系,標準差 標準誤區(qū)別: 表示個體之間的變異度 表示樣本均數(shù)之間的變異度表示觀察值與樣本均值之間的離散度 表示樣本均數(shù)與總體均數(shù)之間的離散度 可以衡量樣本均數(shù)
51、抽樣誤差的大小 聯(lián)系: ??X =?/??n,二.t分布(t distribution),(1)t分布的概念: 從正態(tài)總體中隨機抽取許多含量為n的樣本,由樣本算出樣本均值?X和s?X ,按t公式算出t值,將n個t值作直方圖,構成t變量的頻數(shù)分布圖(連續(xù)性分布) ?X1 s1 t1值 ?X2 s2 t2值 ?X3
52、s3 t3值 …… ?Xn sn tn,u=( ?X - ? )/ ??X,U變換, Xn 由N(?, ??X 2)變換為標準正態(tài)分布(U分布)??X 往往用s?X 來估計t = (?X - ? )/ s?X t變換(t分布)。U值稱樣本檢驗統(tǒng)計量, t值也稱樣本檢驗統(tǒng)計量 當n逐漸增大,就成了t曲線,與標準正態(tài)分布相比有以下特征: a.二者都是單峰分布,
53、 以0為中心, 左右對稱; b. t分布有一個參數(shù),?不同,t曲線不同, ?越大,峰度越大。?逐漸增大時, t分布逐漸逼近標準正態(tài)分布; 當?=?時,t=u, t分布就完全成為標準正態(tài)分布了。c.t分布曲線下的面積有一定規(guī)律:t曲線與橫軸所夾面積總和為1橫軸上某一區(qū)間和曲線所夾面積與總面積之比,相當于t值落在該區(qū)間的概率(概率分布)從總體中隨機抽樣獲得t值落在整個橫軸概率為1,獲得t值? t?,?的概率p<?,,單側:
54、P( t ? - t?,?)= ?, 或P(t ? t?,?)= ?雙側: P( t ? - t?,?)+P(t ? t?,?)= ?; P( - t?,? < t < t?,?)= 1 - ?隨機抽樣算t值,95%滿足: - t?,? < t < t?,? - t?,? < (?X - ?) / s?X < t?,? ?X - t?,? s?X < ? <?X + t?
55、,? s?X ;,(3)t界值,t界值表, 橫標目為自由度?, 縱標目為概率P, 表中數(shù)字表示自由度為?, P為?(檢驗水準)時, t的界值, 常記為t?,?。注意: ?不同, t?,?不同?相同, p越大, t?,?越小,且單側P與雙側2P的t值相等,p相同, ?越大, t?,?越小,三.總體均數(shù)的估計,包括點值估計和區(qū)間估計:a.區(qū)間估計的涵義: 意思是從總體中作隨機抽樣, 每個樣本可以算得一個可信區(qū)間, 如95%可信區(qū)間,
56、 意味著做100個可信區(qū)間, 平均有95個可信區(qū)間包括總體均數(shù)(估計正確), 只有5個可信區(qū)間不包括總體均數(shù)(估計錯誤)。,,b.區(qū)間估計的方法: ?X - t?,? S?X < ? <?X + t?,? S?X ;?已知 ?X - U? ??X < ? <?X + U? ??X ;?未知但n足夠大?X - U?S?X < ? <?X + U?S?X ;,c.可信區(qū)間兩要素:,準確度:反
57、映區(qū)間包含總體均數(shù)的概率大小,即1-?大小,越趨近1越好精度: 反映區(qū)間的長度, 長度越小越好 1-? 一定,n越大,精度越高,四.假設檢驗(hypothesis test)一般步驟:,?X 與?不等的原因1.由于抽樣誤差引起,若無抽樣誤差,它們之間相等2.總體存在質的差異,并非抽樣誤差引起,若無抽樣誤差,它們之間仍不相等(1)概念所謂假設檢驗, 就是根據(jù)研究目的, 對樣本所屬總體特征提出一個假設, 然后用適當方法根據(jù)樣本提
58、供的信息, 推斷此假設應當拒絕或不拒絕, 以使研究者了解在假設的條件下, 差異由抽樣誤差引起的可能性大小。,,即推斷樣本統(tǒng)計量與總體參數(shù)之間或樣本統(tǒng)計量之間的差異是由抽樣誤差引起還是總體存在質的差異。假設檢驗(對總體而言);顯著性檢驗(對樣本而言),(2) 一般步驟,a.建立假設:無效假設(null hypothesis)H0: ?= ?0即假設樣本指標與總體參數(shù)(樣本與樣本指標)是相等的,若不等,它們的差別是由抽樣誤差引起。
59、備擇假設H1: ?≠?0,是與H0相對立的假設;差別不是由抽樣誤差引起,而是有本質差異b.確定檢驗水準?(亦稱顯著性水準,第一類錯誤Ⅰ),假陽性概率,即本來差異無顯著性而判斷其有顯著性的概率,是一個接受或拒絕H0的概率標準。 常取? =0.05或?=0.01 1-?:可信度,,c.選定檢驗方法和計算統(tǒng)計量: t檢驗、U檢驗、?2檢驗、F檢驗等。d.確定P值:P值是指在由H0所規(guī)定的總體中作隨機抽樣,由于抽樣誤差引起的獲得≥現(xiàn)
60、有樣本統(tǒng)計量的概率。 ?X - ? t= S?X根據(jù)t值判斷:,,,若H0成立,理論上從總體中抽得樣本均數(shù)與總體均數(shù)差別 X -? 不會很大,則t值不會很大,t值很大的可能性(概率)是很小的,用尾部面積表示,即 t ≥t?,? 的概率P≤?,即由抽樣誤差引起兩均數(shù)有差別的概率很小,根據(jù)“小概率事件在依次一次試驗中基本上不發(fā)生”,故拒絕H0 ,本身有質的差異的概率很大。t ≥t?,
61、? P≤?,拒絕H0,接受H1t≤ t?,? P≥?,不拒絕H0 e.作出統(tǒng)計推斷: 當P? ?時, 統(tǒng)計推斷結論為按所取檢驗水準拒絕H0, 接受H1, 差別有顯著性意義。P≥0.05,差異無顯著性(nonsignificance)P≤0.05,差異有顯著性P≤0.01,差異有高度顯著性,五.t檢驗與u檢驗,1.樣本均數(shù)與總體均數(shù)的比較: 應用條件:正態(tài)分布 H0: ? = ?0 H1: ?≠?0
62、 ?=0.05 t = ( ?X - ? )/ s?X , ? = n –1 t ≥t?,? ,P≤?,拒絕H0,接受H1 t≤ t?,?, P≥?,不拒絕H0,2.配對設計資料的t檢驗: 即差值均數(shù)與總體均數(shù)0比較的t檢驗配對方法: 對同對的兩個受試對象分別給予兩種處理;對同一受試對象分別給予兩種處理;同一受試對象給予某種處理,比較處理前后有無差別。,,H0: ? d = 0,差值的總體均數(shù)等于0
63、H1: ? d ≠ 0 ?=0.05 t = ?d / S?d ?d = ?d / n S?d =Sd / n Sd = ? [ ?d2- (?d)2/n]/(n-1),,3.成組設計兩樣本均數(shù)的t檢驗:,應用條件: 正態(tài)分布 總體方差齊:σ12=σ22H0: ?1 = ?2 H1: ?1 ≠ ?2 ?=0.05t =(?X1 - ?X2)/ sx1-x2
64、? = n1 + n2 –2sx1-x2=?{[ ?x12- (?x1)2/n1+ ?x22- (?x2)2/n2 ] /( n1+ n2 - 2)}(1/n1+1/n2),,5..兩大樣本均數(shù)的U檢驗:(Z檢驗),應用條件:樣本例數(shù)較大,如兩樣本均樣本n≥50,樣本均數(shù)的分布呈近似正態(tài)分布或總體標準差已知 H0: ?1 = ?2 H1: ?1 ≠ ?2 ?=0.05 U = ( ?X1 - ?X2)/ ?SX1 2+
65、 SX2 2 SX1 2 =Sx12 / n,,方差不齊時兩小樣本均數(shù)的比較,1.兩樣本方差的齊性檢驗2.t`檢驗,6.第一類錯誤與第二類錯誤,第一類錯誤(type Ⅰ error): 拒絕實際上是成立的H0, 概率為?。第二類錯誤(type Ⅱ error): 不拒絕實際上是不成立H0,概率為?1-α:叫可信度:兩總體無差別按α水準判斷其無差別的能力1-?:把握度,即兩總體確有差別,按α水準能發(fā)現(xiàn)它們有差別
66、的能力,客觀實際 拒絕H0 不拒絕H0H0成立 第一類錯誤(α) 判斷正確(1-α)H0 不成立 判斷正確(1-β) 第一類錯誤(β)α:根據(jù)研究者要求確定β:只有與H1結合才有意義,β值很難確切估計n一定,α↑,β↓ 反之亦然α、β根據(jù)研究要求適當控制: 當n↑,α一定 ,β也相應減少n一定, 選定α來控制β 若重點減少α,可取α=0.01
67、 若重點減少β,可取α=0.05α也可取其他水準,7.假設檢驗時應注意的問題,a.要有嚴密的抽樣研究設計;b.選用假設檢驗方法應符合其應用條件;c.正確理解差別有無顯著性的意義;d. 結論不能絕對化;e.報告結論時注意應列出檢驗統(tǒng)計量值, 注明采用的是單側或雙側檢驗,寫出報告,P值的確切范圍,8.可信區(qū)間和假設檢驗的關系,,Analysis of variance,,yulan21cn@yahoo.com.cn,outline
68、,,application:testing differences between two means and more than two meansHypothesis test of regression equation,方差分析的基本思想1. 總變異=組內變異+組間變異總變異:隨機測量誤差+個體變異+處理因素作用 組內變異:隨機測量誤差+個體之間變異組間變異:隨機測量誤差+個體之間變異+處理因素作用 F=組間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生統(tǒng)計學課件
- 衛(wèi)生統(tǒng)計學衛(wèi)生統(tǒng)計學 (35)
- 衛(wèi)生統(tǒng)計學衛(wèi)生統(tǒng)計學 (10)
- 衛(wèi)生統(tǒng)計學衛(wèi)生統(tǒng)計學 (37)
- 衛(wèi)生統(tǒng)計學
- 衛(wèi)生統(tǒng)計學
- 衛(wèi)生統(tǒng)計學
- 衛(wèi)生統(tǒng)計學 醫(yī)學統(tǒng)計學 習題
- 衛(wèi)生統(tǒng)計學題庫
- 衛(wèi)生統(tǒng)計學題庫
- 衛(wèi)生統(tǒng)計學題庫
- 衛(wèi)生統(tǒng)計學復習20161225
- 實用衛(wèi)生統(tǒng)計學作業(yè)
- 衛(wèi)生統(tǒng)計學課程簡介
- 衛(wèi)生統(tǒng)計學潘海燕衛(wèi)生統(tǒng)計學第章卡方檢驗
- 衛(wèi)生統(tǒng)計學答案三
- 衛(wèi)生統(tǒng)計學作業(yè)答案
- 衛(wèi)生統(tǒng)計學重點筆記
- 《衛(wèi)生統(tǒng)計學》練習題
- 衛(wèi)生統(tǒng)計學復習資料
評論
0/150
提交評論