版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二章 抽樣技術(shù)的基本概念,2,本章要點(diǎn) 本章對抽樣技術(shù)的基本概念進(jìn)行闡述和介紹,為以后各章的學(xué)習(xí)奠定理論與方法基礎(chǔ)。具體要求: ①掌握總體、單位、抽樣框、樣本等概念,理解它們之間的內(nèi)在關(guān)系,熟知常用的總體指標(biāo)和樣本指標(biāo); ②系統(tǒng)了解估計(jì)量、抽樣分布、抽樣誤差、估計(jì)精度、置信區(qū)間等概念的內(nèi)涵和作用,能夠運(yùn)用它們進(jìn)行實(shí)際的抽樣估計(jì); ③基本掌握和理解
2、樣本設(shè)計(jì)的內(nèi)容和效果衡量指標(biāo)。,,3,第一節(jié) 總體與樣本,4,一、總體,根據(jù)一定目的所確定的研究對象的全體, 稱為總體。在抽樣中,,5,目標(biāo)總體: 是由符合研究目的的所有具有相同性質(zhì)或特征的個(gè)體所組成的集合。 目標(biāo)總體是抽樣推斷的目標(biāo),即我們想通過抽樣來認(rèn)識它的數(shù)量特征。,(一)目標(biāo)總體(target population),6,例:研究浙江工商大學(xué)教師的科研能力情況,目標(biāo)總體——全校所有從事教學(xué)研究工作
3、的教師,個(gè) 體 ——每一位教師。,例:研究杭州市個(gè)體商業(yè)的經(jīng)營狀況,目標(biāo)總體——杭州市所有從事商業(yè)活動(dòng)的個(gè)體經(jīng)營單位,個(gè) 體 ——每個(gè)個(gè)體經(jīng)營單位(或攤位)。,思考:研究浙江工商大學(xué)新生的生源情況,目標(biāo)總體是什么,個(gè)體是什么?若研究浙江工商大學(xué)各部門收支情況,目標(biāo)總體是什么,個(gè)體是什么?,7,在調(diào)查中,必須對目標(biāo)總體的范圍做出具體規(guī)定,例如:研究浙江工商大學(xué)教師的科研能力情況,目標(biāo)總體是該校所有從事教學(xué)研究
4、工作的教師。,是否包括兼職?退休?返聘?,統(tǒng)計(jì)口徑,8,案例:全國電視觀眾抽樣調(diào)查,目標(biāo)總體:定為全國31個(gè)省、自治區(qū)、直轄市(港澳臺除外)電視信號覆蓋區(qū)域內(nèi)所有城鄉(xiāng)家庭戶中的13歲以上可視居民以及4~12歲的兒童。包括有戶籍的正式住戶也包括所有臨時(shí)的或其他的住戶,只要已在本居(村)委會內(nèi)居住滿6個(gè)月或預(yù)計(jì)居住6個(gè)月以上,都包括在內(nèi),但不包括住在軍營內(nèi)的現(xiàn)役軍人、集體戶及無固定住所的人口。,全國電視觀眾抽樣調(diào)查是由中央電視臺組織的對全
5、國電視觀眾的大規(guī)模的抽樣調(diào)查。從1987年開始,每5年進(jìn)行一次。調(diào)查的目的是:準(zhǔn)確獲取全國電視觀眾群體規(guī)模、構(gòu)成以及分布情況,獲取這些觀眾的收視習(xí)慣,對電視頻道和欄目的選擇傾向、收視人數(shù)、收視率與喜愛程度,為改進(jìn)電視頻道和欄目、開展電視觀眾行為研究提供新的依據(jù)。,9,(二)抽樣總體( sampled population),是實(shí)踐中可以構(gòu)造并據(jù)以從中抽取樣本的總體, 它通常能對所包含的單位進(jìn)行編號或按一定的標(biāo)志進(jìn)行排序。,例:研究杭
6、州市個(gè)體商業(yè)的情況,從杭州市工商局個(gè)體商業(yè)的營業(yè)執(zhí)照記錄中抽取樣本。,抽樣總體,思考:此調(diào)查的目標(biāo)總體與抽樣總體有無差異?,10,但我們研究的目的是認(rèn)識目標(biāo)總體的數(shù)量特征, 因此在抽樣之前要盡量使抽樣查總體與目標(biāo)總體保持一致。,基本原則是,抽樣總體由目標(biāo)總體所決定,但在實(shí)踐中,還要根據(jù)抽樣總體來調(diào)整目標(biāo)總體。,由于實(shí)踐中抽樣總體與目標(biāo)總體往往存有差異,因此,抽樣推斷的結(jié)論只適合于說明抽樣總體!,11,實(shí)際調(diào)查時(shí),從除金門縣以外的
7、全國所有2865個(gè)區(qū)、縣 (792個(gè)區(qū)及2073個(gè)縣)的村委會、居委會的住戶登記表中,抽選13歲以上可視居民以及4~12歲的兒童。,案例:全國電視觀眾抽樣調(diào)查,目標(biāo)總體:定為全國31個(gè)省、自治區(qū)、直轄市(港澳臺除外)電視信號覆蓋區(qū)域內(nèi)所有城鄉(xiāng)家庭戶中的13歲以上可視居民以及4~12歲的兒童。包括有戶籍的正式住戶也包括所有臨時(shí)的或其他的住戶,只要已在本居(村)委會內(nèi)居住滿6個(gè)月或預(yù)計(jì)居住6個(gè)月以上,都包括在內(nèi),但不包括住在軍營內(nèi)的現(xiàn)役軍
8、人、集體戶及無固定住所的人口。,抽樣總體,12,抽樣總體中所包含的調(diào)查單位個(gè)數(shù)稱為總體容量,常用N 表示,13,二、抽樣單位與抽樣框,總體是由單位構(gòu)成的,單位可以分為調(diào)查單位與抽樣單位。,調(diào)查單位survey unit,調(diào)查項(xiàng)目的承擔(dān)者,即我們想通過調(diào)查取得其觀測值的單位。,例如:調(diào)查浙江工商大學(xué)在校生的生活消費(fèi)情況, 調(diào)查單位是每一個(gè)在校生。,例如:杭州市居民家計(jì)調(diào)查, 調(diào)查單位是杭州市每一戶家庭。,14,抽樣單
9、位samping unit,用以抽選調(diào)查單位進(jìn)入樣本的中介單位,是抽樣總體與調(diào)查單位之間的聯(lián)結(jié)單位。,抽樣單位可以包含一個(gè)調(diào)查單位,也可以包含多個(gè)調(diào)查單位,還可以分級。,,15,人口普查中的事后質(zhì)量抽樣調(diào)查,人口普查登記和復(fù)查工作結(jié)束后,在全國范圍內(nèi)再抽取一定數(shù)量的樣本(或調(diào)查小區(qū)),將樣本區(qū)域內(nèi)的普查表暫時(shí)封存,并重新進(jìn)行一次獨(dú)立的調(diào)查登記。 然后打開正式普查登記的普查表,與抽查的普查表進(jìn)行逐項(xiàng)比較,以此估算出人口普查的總?cè)丝?/p>
10、完整率、 總?cè)丝诙鄨?bào)或少報(bào)了多少、各項(xiàng)目的登記差錯(cuò)率是多少, 這就是事后質(zhì)量抽樣調(diào)查。,,2010年普查登記結(jié)束后,在全國31個(gè)省共抽取了402個(gè)調(diào)查小區(qū)進(jìn)行事后質(zhì)量抽查,涉及約12萬人 。抽樣單位為調(diào)查小區(qū),調(diào)查單位為居民個(gè)人抽查結(jié)果,本次普查的人口漏登率為1.2‰ 。,16,第一階抽樣:區(qū)(地級市以上城市的市轄區(qū))、縣(包括縣級市等)第二階抽樣:街道、鄉(xiāng)、鎮(zhèn)第三階抽樣:居委會、村委會第四階抽樣:家庭戶第五階抽樣:
11、個(gè)人,初級抽樣單位:每一個(gè)區(qū)或縣次級抽樣單位:每一個(gè)街道、鄉(xiāng)或鎮(zhèn)三級抽樣單位:每一個(gè)居委會、村委會四級抽樣單位:每一個(gè)家庭戶五級抽樣單位:每一個(gè)個(gè)人,在多階段抽樣調(diào)查中,抽樣單位還可以分級,即初級抽樣單位、次級抽樣單位、第三級抽樣單位等等,最后抽取調(diào)查單位。,分層五階抽樣,17,抽樣框 根據(jù)抽樣單位所編制的名錄, 是抽樣總體的具體表現(xiàn)。,,18,其基本做法是,根據(jù)衛(wèi)星成像、照片和地圖資料將土
12、地劃分為1平方英里的小地塊,每個(gè)小地塊都有自成一體的可識別標(biāo)志,如山川、河流、道路等,然后利用隨機(jī)方法抽選地塊。 抽選地塊一旦確定,便由調(diào)查員直接深入到每一地塊,對每一地塊的農(nóng)業(yè)生產(chǎn)活動(dòng)做全方位的調(diào)查登記。,區(qū)域抽樣框,美國農(nóng)業(yè)統(tǒng)計(jì),19,(1)與目標(biāo)總體保持一致,(2)能夠提供與調(diào)查目的有關(guān)的盡量多的 準(zhǔn)確、完整的輔助信息,確保樣本對目標(biāo)總體的代表性,抽樣框中的單位,目標(biāo)總體中的單位,一一對應(yīng),好的抽樣框
13、有兩個(gè)基本標(biāo)準(zhǔn):,,便于在抽樣中找到調(diào)查單位便于進(jìn)行分層或構(gòu)造復(fù)雜估計(jì)量提高抽樣效率,,20,思考:,請指出以下一些內(nèi)容的調(diào)查中,目標(biāo)總體是什么,抽樣框可以如何構(gòu)造?對北京市居民癌癥患病情況的調(diào)查;對杭州市小學(xué)生零花錢情況的調(diào)查;對杭州市家庭桶裝水消費(fèi)情況的調(diào)查對浙江省工業(yè)企業(yè)能源消費(fèi)情況的調(diào)查,21,樣本是總體的一部分,是從抽樣總體中 按一定方法和程序抽取的部分調(diào)查單位的集合。,三、樣本 sample,總體是我們所要研究的
14、對象,樣本是我們所要觀察的對象 。樣本是總體的代表和縮影。,樣本中所包含的調(diào)查單位數(shù)稱為樣本容量,常用 n 表示。,樣本容量與總體容量之比稱為抽樣比,常用 f 來表示。,22,樣本的非唯一性: 對于特定的總體,用特定的抽樣方法從中抽取容量為n的樣本,有很多種可能。,樣本個(gè)數(shù)的大小與樣本容量、抽樣方式和抽樣方法有關(guān),從一個(gè)總體中最多可以抽取的容量為n的不同樣本的數(shù)目,稱為樣本個(gè)數(shù)。常用 m來表示。,23,重復(fù)抽樣,又稱放回抽樣,抽出
15、個(gè)體,登記特征,放回總體,繼續(xù)抽取,,,,樣本抽取的方法—— 重復(fù)抽樣和不重復(fù)抽樣,允許總體(抽樣框)中的單位被重復(fù)抽中的抽樣。,24,例:從1、2、3中隨機(jī)重復(fù)抽取2個(gè)數(shù)字組成新的數(shù),可以組成多少個(gè)數(shù)。,11,12,13; 21,22,23; 31,32,33,25,不重復(fù)抽樣,又稱不
16、放回抽樣,抽出個(gè)體,登記特征,繼續(xù)抽取,,,只允許總體(抽樣框)中的單位最多被抽取一次的抽樣。,26,例:從1、2、3中隨機(jī)不重復(fù)抽取2個(gè)數(shù)字組成新的數(shù),可以組成多少個(gè)數(shù)。,12,13; 21,23; 31,32,,不重復(fù)抽樣下的樣本個(gè)數(shù)小于重復(fù)抽樣。,27,抽樣框,小結(jié):總體、樣本、抽樣框之間的關(guān)系,,抽樣總體,,,,28,五、總體指標(biāo)與樣本指標(biāo),總體指標(biāo):反映總體數(shù)量特征的
17、指標(biāo),也稱為總體參數(shù);,,樣本指標(biāo): 反映樣本數(shù)量特征的指標(biāo),也稱為樣本統(tǒng)計(jì)量;,,29,案例:企業(yè)保險(xiǎn)需求調(diào)查,2015年浙江省各類企業(yè)約210萬家,若按簡單隨機(jī)抽樣方式抽取容量為1200的樣本,30,總體指標(biāo)的值是惟一的、確定的,但未知,1、具有風(fēng)險(xiǎn)意識企業(yè)的比例,2、企業(yè)保險(xiǎn)消費(fèi)總額,總體指標(biāo)(總體參數(shù)),…,,3、企業(yè)保險(xiǎn)消費(fèi)平均額,31,從浙江省210萬家企業(yè)中抽取1200個(gè)企業(yè)有很多種可能,樣本1:1200,樣本2:12
18、00,樣本3:1200,……,,,,值1,值2,值3,p1,p2,p3,,2、樣本企業(yè)中有保險(xiǎn)意識的比例,1、樣本企業(yè)平均保險(xiǎn)消費(fèi)額,樣本指標(biāo)(樣本統(tǒng)計(jì)量),……,……,……,樣本指標(biāo)的取值是隨機(jī)的、不確定的,但是可知的,,3、樣本企業(yè)保險(xiǎn)消費(fèi)總額,32,設(shè)調(diào)查變量為Y 。在簡單隨機(jī)抽樣下,若以Yi 表示總體中第i 個(gè)單位的觀測值,則常用的總體指標(biāo)表示為:,(2)總體均值:,(1)總體總值:,(3)總體方差:,常用的總體指標(biāo),如:所有
19、企業(yè)保險(xiǎn)消費(fèi)總額,如:所有企業(yè)平均保險(xiǎn)消費(fèi)額,如:各個(gè)企業(yè)保險(xiǎn)消費(fèi)額的方差,33,當(dāng)調(diào)查變量Yi的值只有兩種取值:符合規(guī)定特征的單位取1,不符合規(guī)定特征的單位其值取為0例如:企業(yè)有無風(fēng)險(xiǎn)意識:1(有)和 0(無) 產(chǎn)品質(zhì)量: 1(合格)和 0(不合格) 性別: 1(男)和 0(女),是非變量的總體指標(biāo),34,假設(shè)取1的單位有 個(gè),取0的單位有 個(gè),相應(yīng)的總體指標(biāo)有:,(4)總體比例:,(6)
20、總體方差:,(5)總體均值:,如:具有風(fēng)險(xiǎn)意識企業(yè)的比例,產(chǎn)品合格率, 男性所占比重,35,常用的樣本指標(biāo),樣本均值:,樣本總值:,樣本比例:,樣本方差:,36,思考:判斷下面要估計(jì)的目標(biāo)量分別屬于什么類型1、調(diào)查杭州市居民一年的交通費(fèi)支出;2、調(diào)查城市家庭一年的平均用電量;3、估計(jì)全市小學(xué)生近視患病率;4、調(diào)查浙江省居民人均奶制品消費(fèi)額;5、估計(jì)某地區(qū)65歲以上老年人的比例;,37,第二節(jié) 估計(jì)量與抽樣分布,38,就是
21、以樣本指標(biāo)為基礎(chǔ)構(gòu)造的、用以估計(jì)總體指標(biāo)的規(guī)則或形式。,一、估計(jì)量,估計(jì)量也是隨機(jī)變量。估計(jì)量根據(jù)某一樣本得到的具體結(jié)果稱為估計(jì)值。,樣本均值,總體均值,樣本比例,總體比例,(樣本企業(yè)的平均保險(xiǎn)消費(fèi)額),(所有企業(yè)的平均保險(xiǎn)消費(fèi)額),( 整批產(chǎn)品合格率),( 樣品合格率),39,根據(jù)不同樣本得到的估計(jì)值是不同的,不同估計(jì)值出現(xiàn)的概率也會不同,,估計(jì)量的所有可能取值和與之對應(yīng)的概率組成了估計(jì)量的概率分布,稱為抽樣分布。,40,抽樣分布,
22、估計(jì)量:1200家樣本企業(yè)的平均保險(xiǎn)額,,它有 多少? 個(gè)取值,210萬家企業(yè)的平均保險(xiǎn)消費(fèi)額?,,假設(shè)其中完全不相等的值有k個(gè),41,例:某部門5個(gè)員工的年齡分別為34,38,42,46,50歲,則總體平均年齡總體年齡方差,不同抽樣方法下樣本均值的抽樣分布,42,(1)用重復(fù)抽樣方法(考慮順序) 從5個(gè)人(年齡為34,38,42,46,50歲)中隨機(jī)抽取2人構(gòu)成樣本 ,共
23、 個(gè)樣本所有可能樣本及其均值:樣本: (34,34)(34,38) (34,42) (34,46) (34,50) : 34 36 38 40 42樣本: (38,34)(38,38) (38,42) (38,46) (38,50) : 36 38 40 42
24、 44 樣本: (42,34)(42,38) (42,42) (42,46) (42,50) : 38 40 42 44 46樣本: (46,34)(46,38) (46,42) (46,46) (46,50) : 40 42 44 46 48樣
25、本: (50,34)(50,38) (50,42) (50,46) (50,50) : 42 44 46 48 50,52=25,,43,整理出樣本均值的概率分布如下:,,樣本均值的分布圖,,整理出樣本均值的概率分布如下:,,樣本均值的分布圖,,44,(2)用不重復(fù)抽樣方法(不考慮順序) 從5個(gè)人(年齡為34,38,42,46,50歲)中隨機(jī)抽取
26、2人構(gòu)成樣本 ,樣本個(gè)數(shù)為所有可能樣本及其均值:樣本: (34,34) (34,38) (34,42) (34,46) (34,50) : 34 36 38 40 42樣本: (38,34)(38,38) (38,42) (38,46) (38,50) : 36 38
27、 40 42 44 樣本: (42,34)(42,38) (42,42) (42,46) (42,50) : 38 40 42 44 46樣本: (46,34)(46,38) (46,42) (46,46) (46,50) : 40 42
28、 44 46 48樣本: (50,34)(50,38) (50,42) (50,46) (50,50) : 42 44 46 48 50,,,45,整理出樣本均值數(shù)的概率分布如下:,,樣本均值的分布圖,,顯然,不重復(fù)抽樣下的抽樣分布更為集中,重復(fù)抽樣下的抽樣分布更為分散。,46,二、抽樣
29、分布的特征:期望與方差,抽樣分布的期望,即估計(jì)量的期望,是估計(jì)量 所有可能取值的平均數(shù)。,,說明估計(jì)量分布的中心位置所在。,47,若 ,則為無偏估計(jì)量。樣本指標(biāo) 、p和s2 滿足:,所以,樣本均值、樣本比例和樣本方差分別是總體均值、總體比例和總體方差的無偏估計(jì)量。,48,抽樣分布的方差,即估計(jì)量的方差,是以估計(jì)量的期望為中心、用以反映估計(jì)量分布離散程度的核心指標(biāo)。,若 ,則,,,49,前例中,
30、重復(fù)抽樣下的樣本均值的分布如下:,,樣本均值的分布圖,,樣本均值的期望與方差:,50,不重復(fù)抽樣下樣本均值數(shù)的概率分布如下:,,樣本均值的分布圖,可見,不論重復(fù)抽樣還是不重復(fù)抽樣,樣本均值的期望都等于總體均值;重復(fù)抽樣下樣本均值的分布更為分散,方差大于不重復(fù)抽樣。,,,51,思考與練習(xí):,設(shè)總體由1、3、5、7、9五個(gè)數(shù)字組成,現(xiàn)從中簡單隨機(jī)不重復(fù)抽取三個(gè)構(gòu)成樣本,(1)列出樣本均值的抽樣分布;(2)計(jì)算樣本均值分布的期望與方差,5
31、2,三、抽樣分布定理,(一)樣本均值的抽樣分布定理,,任一總體,當(dāng)n足夠大(當(dāng)n>=30,大樣本), 樣本均值就趨于正態(tài)分布,中心極限定理,三、抽樣分布定理,,53,,54,從一個(gè)數(shù)學(xué)期望為P、方差為 的是非變量總體中隨機(jī)抽取容量為n的樣本,當(dāng)n足夠大 ( nP>5, n (1-P)>5 ),樣本比例p趨于正態(tài)分布,,E(p)=P,中心極限定理,,(二)樣本比例的抽樣分布定理,55,第三節(jié)
32、 抽樣誤差與置信區(qū)間,56,抽樣中的總誤差可以簡單地分為兩類,,抽樣誤差 非抽樣誤差,,一、抽樣中的誤差構(gòu)成,57,由于抽樣的非全面性和隨機(jī)性所引起的偶然性誤差,即因抽樣估計(jì)值隨樣本而異所造成的誤差。,抽樣誤差,58,,體重(公斤),人數(shù),比重%,有效比重,累計(jì)比重,121名中學(xué)生的體重分布表,從中隨機(jī)抽取20人組成樣本并計(jì)算平均體重:樣本一:52.35樣本二:50.26樣本三:53.19…總體: 51.18
33、,抽樣誤差,抽樣誤差的特點(diǎn)是隨著樣本容量的增大而趨向于0,稱為一致性誤差。,35,59,是由隨機(jī)抽樣的偶然性因素以外的原因所引起的誤差,系統(tǒng)性誤差:是由于抽樣框不完善、抽樣時(shí)違反隨機(jī)原則、被調(diào)查者無回答等因素引起的誤差。,調(diào)查性誤差:是在調(diào)查觀測的各個(gè)環(huán)節(jié)因工作粗心或被觀測者不愿很好配合而造成的誤差。,,非抽樣誤差,60,例如,許多大型的調(diào)查以十年一度的人口普查或五年一度的經(jīng)濟(jì)普查結(jié)果來構(gòu)造抽樣框;再如,一項(xiàng)中學(xué)生健康調(diào)查從某地區(qū)所
34、有初中高中學(xué)生中隨機(jī)抽取樣本發(fā)放問卷,在對1500名學(xué)生的調(diào)查中,有1341人接受調(diào)查并返回了問卷?;卮鹋c不回答學(xué)生的健康狀況有可能是不同的。,,61,三者之間的關(guān)系可以圖示如下:,,抽樣誤差,非抽樣誤差,總誤差,62,二、抽樣誤差的表現(xiàn)形式 抽樣誤差的表現(xiàn)形式一般有三種:抽樣實(shí)際誤差抽樣標(biāo)準(zhǔn)誤差抽樣極限誤差,63,(一)抽樣實(shí)際誤差,是抽樣估計(jì)值與總體參數(shù)真值之間的離差,表示為,是隨機(jī)變量,不同的樣本有不同的抽樣實(shí)
35、際誤差,若估計(jì)量無偏,則所有可能的實(shí)際誤差之和為0,64,(二)抽樣標(biāo)準(zhǔn)誤差,也稱抽樣平均誤差,是反映抽樣誤差一般水平的指標(biāo),狹義上所指的抽樣誤差就是抽樣標(biāo)準(zhǔn)誤。,65,若以樣本均值估計(jì)總體均值,則不同樣本的抽樣實(shí)際誤差不同,,前例中,重復(fù)抽樣下樣本均值的抽樣分布如下,,思考:平均誤差應(yīng)如何計(jì)算?,抽樣平均誤差即為 的標(biāo)準(zhǔn)差,也稱抽樣標(biāo)準(zhǔn)誤差!,66,前例中,不重復(fù)抽樣下樣本均值的抽樣分布如下,可見,不重復(fù)抽樣的抽樣平均誤差小于重復(fù)
36、抽樣。這是由于不重復(fù)抽樣的樣本均值分布比重復(fù)抽樣更為集中,其樣本均值更接近于總體均值。所以實(shí)踐中常用不重復(fù)抽樣方法!,,,,67,影響抽樣標(biāo)準(zhǔn)誤差的因素:,總體內(nèi)在差異(越大,各樣本之間的差異越大,各樣本估計(jì)值之間的差異越大,抽樣標(biāo)準(zhǔn)誤越大)樣本容量(最直接、最有效因素,越大,樣本與總體越接近,抽樣誤差越?。┏闃臃椒ǎú捎弥貜?fù)或不重復(fù)方法,等概率與不等概率抽樣,估計(jì)量取值及分布都不同,誤差不同)抽樣方式(不同形式下的樣本個(gè)數(shù)及結(jié)
37、構(gòu)不同,估計(jì)量取值及分布都不同,誤差不同)估計(jì)量構(gòu)造(采用的估計(jì)量不同,估計(jì)量取值及分布都不同,誤差不同),68,實(shí)際中只能根據(jù)一套樣本來計(jì)算抽樣標(biāo)準(zhǔn)誤的估計(jì)值 ,它是一個(gè)隨機(jī)變量,69,(三)抽樣極限誤差,是指以樣本估計(jì)量估計(jì)總體參數(shù)時(shí)所允許的最大誤差范圍 通常用 表示,抽樣極限誤差的實(shí)際意義: 實(shí)際上就是對總體參數(shù)可允許取的最高值或最低值進(jìn)行了限制。 即總體參數(shù)落在樣本估
38、計(jì)量的 范圍內(nèi),思考:抽樣極限誤差越大,抽樣估計(jì)的精確程度 越低 還是 越高?,,70,抽樣極限誤差取決于兩個(gè)因素:,1、抽樣標(biāo)準(zhǔn)誤抽樣標(biāo)準(zhǔn)誤差反映抽樣誤差的一般水平,是反映抽樣誤差的核心指標(biāo)。抽樣標(biāo)準(zhǔn)誤差越大(?。?,抽樣極限誤差就越大(?。?71,2、抽樣估計(jì)的概率保證程度(置信水平) 是指抽樣估計(jì)結(jié)果的可靠程度,即抽樣估計(jì)結(jié)果是準(zhǔn)確的概率(可靠程度)有多大。,通常表示為,72,抽
39、樣極限誤差、抽樣標(biāo)準(zhǔn)誤差與抽樣概率保證程度三者的關(guān)系可以這樣表示:,,可見,抽樣極限誤差分別與概率度和抽樣標(biāo)準(zhǔn)誤差成正比。 越高,抽樣估計(jì)的可靠程度就越高,但 也越大 ,估計(jì)的精確程度降低。,其中, t 稱為抽樣概率度。t 與概率保證程度 是一一對應(yīng)的,其實(shí)質(zhì)是標(biāo)準(zhǔn)正態(tài)分布下的臨界值,常用的:1-α = 95% 95.45% 99.73%
40、 t = 1.96, 2, 3,73,思考與練習(xí):,設(shè)總體由1、3、5、7、9五個(gè)數(shù)字組成,現(xiàn)從中簡單隨機(jī)不重復(fù)抽取三個(gè)構(gòu)成樣本,(1)列出樣本均值的抽樣分布;(2)計(jì)算樣本均值分布的期望與方差;(3)計(jì)算抽樣標(biāo)準(zhǔn)誤差;(4)計(jì)算概率保證程度為95%時(shí)的抽樣極限誤差;,74,三、參數(shù)估計(jì)的形式抽樣估計(jì)從形式上看有兩種:點(diǎn)估計(jì)和區(qū)間估
41、計(jì)。,就是以所抽樣本資料為依據(jù),直接根據(jù)所選擇的估計(jì)量對總體指標(biāo)作出一個(gè)確定值的估計(jì);,假設(shè)你正在研究平均一個(gè)司機(jī)一年當(dāng)中要得到多少張交通罰單,點(diǎn)估計(jì)(定值估計(jì)),,n=100,75,76,以點(diǎn)估計(jì)為依據(jù),用一個(gè)具有一定可靠程度的 區(qū)間范圍來估計(jì)總體指標(biāo)θ 。在一定的概率保證下,想辦法找出兩個(gè)數(shù)值θ1和θ2, 使θ處于這兩個(gè)數(shù)值之間,即: Pr (θ1 ≤ θ
42、 ≤ θ2 )=1-α,區(qū)間(θ1,θ2)就被稱為置信區(qū)間或估計(jì)區(qū)間,θ1被稱為置信區(qū)間的下限,θ2被稱為置信區(qū)間的上限 。,例如:在95%的置信度下估計(jì)出平均每個(gè)司機(jī)一年當(dāng)中得到的罰單數(shù)為2.2—3.4,區(qū)間估計(jì),77,美國蓋洛普公司就消費(fèi)者對美國產(chǎn)品質(zhì)量的看法,對美國、德國和日本三國共計(jì)3500名消費(fèi)者(每個(gè)國家約1200名)分別進(jìn)行了調(diào)查,調(diào)查結(jié)果:55%的美國人認(rèn)為美國產(chǎn)品質(zhì)量好,而只有26%的德國人和17%的日本人持同樣看法
43、,若允許的最大誤差都為3%,則:,國別 樣本比例 誤差范圍 置信 區(qū) 間美國 55% &
44、#160; ±3% 德國 26% ±3%
45、160;日本 17% ±3%,若已知抽樣極限誤差 ,則總體參數(shù)處在樣本估計(jì)量的 范圍內(nèi),那么總體參數(shù)的區(qū)間范圍為:,52%-58%,23%-29%,14%-20%,78,第四節(jié) 樣本設(shè)計(jì),79,所謂樣本設(shè)計(jì)就是對抽樣方式、方法和估計(jì)量
46、選擇所作的系統(tǒng)考慮。,一、樣本設(shè)計(jì)的內(nèi)容,80,樣本設(shè)計(jì)的內(nèi)容包括兩個(gè)方面:,選樣,如何獲取樣本和獲取什么樣的樣本;,估計(jì),如何估計(jì)總體和對總體能作出什么樣的估計(jì),總體,抽取樣本,推斷總體,樣本,樣本設(shè)計(jì)就是要在這種循環(huán)中尋找到最佳的抽樣方式、方法和估計(jì)量。,81,1、保證實(shí)現(xiàn)抽樣的目的性。 2、保證實(shí)現(xiàn)抽樣的隨機(jī)性。 3、保證實(shí)現(xiàn)抽樣的最大效果。 4、保證實(shí)現(xiàn)抽樣的可計(jì)量性。,二、樣本設(shè)計(jì)的原則,,,
47、82,抽樣的最大效果可以從兩個(gè)角度來表述:,在費(fèi)用既定的情況下,使估計(jì)精度達(dá)到最高(誤差達(dá)到最?。?;在估計(jì)精度既定(即誤差既定)的情況下,使抽樣費(fèi)用達(dá)到最小。,,,尋求最佳樣本容量的問題,83,樣本容量該為多大?讓我們看看調(diào)查公司的通常做法,據(jù)路透/益普索(Reuters/Ipsos)披露的調(diào)查結(jié)果顯示,由于美國人對經(jīng)濟(jì)和未來更為樂觀,美國總統(tǒng)奧巴馬的支持率略有上升,由50%升至51%。此次調(diào)查是在2月4日至2月7日進(jìn)行的,共有10
48、12名成人參加,其中包括844名已注冊的選民,誤差率為3.1%。但為什么抽樣調(diào)查人數(shù)不是500人,也不是1500人,偏偏是1000人左右呢?,84,首先,選1000人既省錢又準(zhǔn)確,主要的調(diào)查公司,在進(jìn)行國內(nèi)調(diào)查的時(shí)候,都喜歡訪問起碼1000人,這個(gè)數(shù)字的采樣足夠讓調(diào)查的誤差幅度保持在3%左右。而如果只訪問500人的話,誤差幅度會達(dá)到5%,結(jié)果的精確度也就沒有那么高了。,理論上:誤差幅度是與訪問人數(shù)成反比的,訪問人數(shù)越多,誤差幅度就越?。?/p>
49、但在實(shí)際操作中,很多時(shí)候并不值得這樣做。,因?yàn)?,?000人的基礎(chǔ)上再訪問500人,誤差幅度的減少不及1個(gè)百分點(diǎn),但花費(fèi)卻會高出很多,所以,調(diào)查公司都認(rèn)為1000人的樣本量是精確度與費(fèi)用之間的合理折中方案,85,其次,數(shù)據(jù)寧多勿少,但為什么他們最后以訪問1012人告終呢?調(diào)查工作人員并不是同一時(shí)間對1000人進(jìn)行訪問調(diào)查的。以蓋洛普調(diào)查公司為例,他們通常都會利用隸屬于5個(gè)不同呼叫中心的50名接受過訓(xùn)練的調(diào)查員進(jìn)行調(diào)查。中央電腦系統(tǒng)會告訴
50、這些調(diào)查員,打電話給誰,什么時(shí)候打過去。一名主管會跟蹤他們的工作,清楚了解他們完成了多少訪問,甚至知道被訪者的男女比例是否正確,是否來自全國不同的地方。,當(dāng)主管知道1000人的訪問任務(wù)即將完成時(shí),他就會向調(diào)查員發(fā)出“停止”的訊號。正在進(jìn)行的訪問會繼續(xù)下去,數(shù)據(jù)也會歸入到整個(gè)調(diào)查中去。如果主管判斷正確的話,那么他們最終得到的采訪人數(shù)應(yīng)該起碼有1000人。,其實(shí)無論是988人還是1012人,對結(jié)果的影響不會太大,但寧多勿少已是調(diào)查中的一條不
51、成文的規(guī)條,因?yàn)樵诤髞淼挠?jì)算中他們還會篩選掉一些數(shù)據(jù)。,,86,抽樣的可計(jì)量性具有兩層含義:,(1)樣本資料能夠量化,能夠用于得到估計(jì)值;(2)估計(jì)效果能夠加以衡量,即估計(jì)量方差或抽樣標(biāo) 準(zhǔn)誤能夠從樣本資料中得到估計(jì)。,87,樣本設(shè)計(jì)的效果,稱為抽樣效果。 如果A樣本設(shè)計(jì)的估計(jì)量方差比B樣本設(shè)計(jì)的小,則稱:A樣本設(shè)計(jì)的抽樣效果比B好,或者說 A樣本設(shè)計(jì)比B更有效。,三、樣本設(shè)計(jì)效果的測定(De
52、sign Effect),把各種樣本設(shè)計(jì)的估計(jì)量方差與簡單隨機(jī)抽樣的簡單估計(jì)量方差對比來測定樣本設(shè)計(jì)效果,稱之為設(shè)計(jì)效果系數(shù),用Deff 來表示。,88,在樣本容量相同的前提下: 若Deff>1,表明某樣本設(shè)計(jì)比簡單隨機(jī)抽樣的效果更差; 若Deff <1,表明某樣本設(shè)計(jì)比簡單隨機(jī)抽樣更有效; 若Deff =1,則表明某樣本設(shè)計(jì)與簡單隨機(jī)抽樣的效果相同。,89,例:在一次對某寄宿中學(xué)在校生零花錢的調(diào)查中,在全部
53、315間宿舍中隨機(jī)抽取8間宿舍(每個(gè)宿舍6人)進(jìn)行調(diào)查,各學(xué)生每周零花錢如下表。計(jì)算得樣本平均數(shù)98.17元/人,其方差 為18.86。若這48人是以簡單隨機(jī)抽樣抽出的,則樣本平均數(shù)的方差 為6.62。兩種抽樣方式哪一種更有效?,Deff =18.86/6.62=2.85,在這次調(diào)查中,整群抽樣的效果不如簡單隨機(jī)抽樣,,這是因?yàn)楦鱾€(gè)宿舍間的差異比較大,因而8間宿舍構(gòu)成的樣本代表性不夠好。,90,案例:全國
54、電視觀眾抽樣調(diào)查的樣本設(shè)計(jì),91,你能說出這些概念之間的區(qū)別嗎?,目標(biāo)總體與抽樣總體調(diào)查單位與抽樣單位重復(fù)抽樣與不重復(fù)抽樣總體指標(biāo)與樣本指標(biāo)樣本容量與樣本個(gè)數(shù)點(diǎn)估計(jì)與區(qū)間估計(jì)抽樣誤差與非抽樣誤差,,小結(jié),擬對杭州市居民的家庭教育消費(fèi)情況進(jìn)行研究,利用戶籍資料從全市所有家庭中隨機(jī)抽取500個(gè)家庭進(jìn)行調(diào)查。,92,你能說出這些概念之間的聯(lián)系嗎?,抽樣框、抽樣總體與目標(biāo)總體估計(jì)量的方差、標(biāo)準(zhǔn)差與抽樣標(biāo)準(zhǔn)誤抽樣極限誤差、置信區(qū)間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第二章-簡單隨機(jī)抽樣(ppt)
- 多媒體技術(shù)應(yīng)用第二章
- 機(jī)械工程測試技術(shù)課后答案第二章
- 倉儲技術(shù)第二章
- 商務(wù)管理綜合第應(yīng)用第二章課件
- 隨機(jī)過程_課件---第二章
- 第二章聲現(xiàn)象復(fù)習(xí)課件
- 電子測量技術(shù)第二章
- 高電壓技術(shù)第二章
- 第二章
- 第二章
- 第二章-安全防護(hù)技術(shù)及應(yīng)用(1)
- 第二章
- 數(shù)字電路與數(shù)字電子技術(shù)課后答案第二章
- 第二章-樣品前處理技術(shù)
- 植物保護(hù)技術(shù)第二章
- 第二章 技術(shù)規(guī)范總則
- 第二章實(shí)數(shù)(二)
- 第二章[0001]
- 擼(第二章)
評論
0/150
提交評論