版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、§5.1 不等概抽樣,一、概念與特點,前面所學的簡單隨機抽樣,總體中的每個單元具有同樣的入樣概率,它是等概率抽樣。與等概率抽樣對應的另一類方法是不等概抽樣,也就是在抽樣前賦予總體每個單元一個入樣概率.一般而言,每個單元的入樣概率是由該單元在整體中的地位來確定的.因此每個單元的入樣概率可能是不相同的.,什么時候使用不等概抽樣?實際工作中,如果遇到下面幾種情況,則可以考慮使用不等概抽樣:1、抽樣單元在總體中所占的地位不一致
2、2、調查的總體單元與抽樣總體的單元不一致3、改善估計量,不等概抽樣的優(yōu)點:提高估計精度,減少抽樣誤差。,二、不等概抽樣的種類,1、放回不等概抽樣首先給整體的每一個單元賦予一個確定的入樣概率(通常是不相等的),然后在總體中對每個單元按入樣概率進行抽樣,抽取出來的樣本單元記錄后又放回總體,再進行下一次的抽樣,很顯然每次抽樣都是獨立的。,放回不等概抽樣中,最常用的是按照整體單元的規(guī)模大小來確定單元在每次抽樣時的入樣概率,假設總體中第i
3、個單元的規(guī)模度量為 ,總體的總規(guī)模為 每次抽樣中,第i個單元被抽中的概率用 表示,其中,這種不等概抽樣稱作放回的與規(guī)模大小成比例的概率抽樣(probability proportional to size),簡稱PPS抽樣。實際問題中,總體單元大小的度量往往不止一個,比如企業(yè)員工數量、產值、銷售量、利潤等都可以度量企業(yè)規(guī)模的大小。 PPS抽樣的
4、實施主要有兩種方法:代碼法和拉希里(Lahiri)法,下面我們用一個實例分別介紹這兩種方法。,則代碼m所對應的單元被抽中。,(1)代碼法,,【例5.1】設某個總體有N=10個單元,相應的單元大小 及其代碼數如下表,我們要在其中產生一個n=3的樣本.,先在[1,738]中產生一個隨機數為354,再在[1,738]中產生第二個隨機數為553,最后產生第三個隨機493。則它們所對應的第5,7,6號單元被抽中。,(2)拉希里法,令
5、 每次抽樣都分別產生,因此,第4,7, 9號單元被抽中。,2、不放回不等概抽樣每次在總體中對每個單元按入樣概率進行抽樣,抽取出來的樣本單元不放回總體,對總體中剩下的單元進行下一次抽樣。不放回不等概抽樣的效率比放回時的效率高,但是樣本不獨立會加大抽樣實施、參數估計及精度計算的難度。,對于不放回不等概抽樣,樣本的抽取可以有以下幾種方法:(1)逐個抽取法。每次從總體未被抽中的單元中
6、以一定的概率取一個樣本單元。(2)重抽法。以一定的概率逐個進行放回抽樣,如果抽到重復單元,則放棄所有抽到的單元,重新抽取。(3)全樣本抽取法。對總體每個單元分別按一定概率決定其是否入樣。這種方法的樣本量是隨機的,事先不能確定。(4)系統抽樣法。將總體單元按某種順序排列,根據樣本量確定抽樣間距k,在[1,k]中產生一個隨機數。,§5.2 放回不等概抽樣,一、只抽取一個樣本單元(n=1)的不等概抽樣 為了便
7、于了解不等概抽樣的基本思想,我們先看一個總體已知,只抽取一個樣本單元的例子。 【例】一個城市有四個超市營業(yè)面積從100平方米到1000平方米不等(見下表),我們的目標是通過抽取一家超市來估計這四個超市上個月的總營銷量。通常超市面積越大則銷售量越大,因此,我們選擇的入樣概率與超市的營業(yè)面積成正比。,四個超市的背景數據,:第i個超市的包含概率, :第i個超市的銷售量,如果超市的營業(yè)面積近似正比于超市的銷售額,那么超市A
8、的銷售額就占所有超市銷售額的1/16,因此超市A的銷售額乘以權重16(包含概率的倒數)可以近似地估計所有超市的銷售額。因此,樣本量為1的不等概抽樣的總體總值估計量為:,式中,四個n=1可能的不等概樣本及其估計量,從上表可以算出:,可見不等概抽樣的總體總值估計量是無偏的,我們用同一個例題將不等概抽樣與簡單隨機抽樣作一比較,以此認識不等概抽樣的意義。 與n=1的簡單隨機抽樣相比,簡單隨機抽樣的樣本,所有可能的樣本見下表,四個可能
9、的簡單隨機樣本的數據及其估計量,我們來計算簡單隨機抽樣的估計量方差,前面按不等概抽樣的估計量方差為 14248, 是無偏估計,期望為300萬元,但是其方差大于不等概抽樣,這是因為不等概抽樣利用了輔助信息,即與銷售額相關的超市面積。,二、一般有放回不等概抽樣,對于放回不等概抽取樣本容量為n的樣本,總體總值的估計量為樣本中所有 的平均,我們得到漢森—赫維慈(Hansen-Hurwitz)估計 :,上式是總體總值的無
10、偏估計,如果采用的是PPS抽樣,即 ,則,上面估計量是n個獨立觀測的平均,因此每個單元的總值估計量方差是:,【例5.2】某部門要了解所屬8500家生產企業(yè)當月完成的利潤,該部門手頭已有一份上年各企業(yè)完成產量的報告,將其匯總得到所屬企業(yè)上年完成產量為3676萬噸.考慮到時間緊,準備采用抽樣調查來推算當月完成的利潤.根據經驗,企業(yè)的產量和利潤相關性比較強,且企業(yè)的特點是規(guī)模和管理水平差異比較大,通常大企業(yè)的管理水平
11、較高,因此采用與上年產量成比例的PPS抽樣,從所屬企業(yè)中抽出一個樣本量為30的樣本,調查結果如下表.,不等概抽樣例題,樣本單元的有關數據,紅色數字表示被兩次抽到,mi為企業(yè)上年完成的產量,yi為企業(yè)當月完成的產量。,要根據以上調查結果估計該部門所屬企業(yè)當月完成的利潤,并給出95%置信度下的相對誤差.如果要求在相同條件下相對誤差達到20%,所需的樣本量應該是多少?,解:由上述條件知,估計當月完成的利潤為:,方差及標準差的估計,,
12、在置信度為95%時,對應的t=1.96, 的相對誤差,因此,在置信度仍為95%、相對誤差時 ,所需樣本量為:,三、有放回不等概整群抽樣 在群規(guī)模不等的整群抽樣中,如果群的規(guī)模差異較大,各個群對總體的影響會產生很大差別。這時可以采用不等概方式抽取群。其好處是把群的規(guī)模作為抽取樣本的輔助信息,提高了估計的精度,而且方差估計有比較簡單的形式。下面主要討論以PPS抽樣抽取群的情況。,每次按
13、 的概率抽取第i個群,由于群內的單元全部參與調查,第i個群的總值為:,,根據上節(jié)講到的漢森—赫維茨估計量,PPS整群抽樣的總體總值估計量為:,我們知道,這是一個無偏估計。,估計量的方差是:,估計量方差的估計為:,【例5.3】 某企業(yè)欲估計上季度每位職工的平均病假天數。該企業(yè)共有8個分廠(工人數資料見下表),現用不等概整群抽樣擬抽取三個分廠為樣本,并以95%的置信度計算其置信區(qū)間。有關數
14、據及抽樣過程如下:,8個分廠的職工人數資料,,【解】 采用PPS抽樣,利用隨機數表在數字 1~12950之間隨機抽取3個數,分別是02011, 07972和10281,于是3分廠、6分廠和8分廠入選樣本。用 分別表示三個分廠職工的病假天數,調查結果為:,同樣可求得估計量方差的估計值為:,其95%的置信區(qū)間為:,【評價】 對于群規(guī)模不等的整群抽樣,采用不等概PPS抽樣,可以得到總體目標量的無偏估
15、計,估計量和估計量方差都有比較簡明的形式,估計的效率也比較高,確實是值得優(yōu)先采用的方法。但是此方法使用的條件是:在抽取樣本前,要了解有關群規(guī)模大小的信息。此外,抽樣過程比等概整群抽樣更為復雜。,§5.3 多階段有放回不等概抽樣,一、兩階段有放回不等概抽樣 抽樣方法:對初級單元進行抽樣時,先確定每個初級單元的入樣概率。對被抽中的初級單元,再抽取 個二級單元。如果某個初級單元被抽中多次,則將這
16、 個二級單元放回,重新抽取 個二級單元。當然,這兩個樣本中的二級單元可能會有重復。在實際調查時,對重復的二級單元只調查一次,但計算的時候,應該按照被抽中的次數進行重復計算。,總體總值的估計:先構造初級單元總值 的無偏估計 然后利用漢森-赫魏茨估計量對總體總值Y進行估計:,特別地 記總體中所有二級單元數為 ,如果抽樣時每個初級單元被抽中的概率與其擁有的二級單元數成比例,即初級單元
17、被抽中的概率為 第二階段對二級單元進行簡單隨機抽樣,則 ,樣本是自加權的,對總體總值的估計為:,在實際調查中,如果初級單元大小不相等,人們通常喜歡在第一階段時按放回的與二級單元成比例的PPS抽樣,第二階段抽樣則進行簡單隨機抽樣,且每個初級單元的二級單元樣本都相同,這樣得到的樣本是自加權的,估計量的形式非常簡單。,,【例5.4 】某小區(qū)擁有10座高層建
18、筑,每座高層建筑擁有的樓層數如下表,10座高層建筑的層數,,,我們用兩階段抽樣方法抽出10個樓層進行調查,第一階段抽樣為放回的按與每層建筑擁有的樓層成比例的不等概抽取5座建筑,第二階段按簡單隨機抽樣對每座建筑抽取兩個樓層。對10個樓層居民人數的調查結果如下,試對小區(qū)總居民數進行估計,并給出估計的誤差。,,被選中的高層建筑序號及10個樓層的居民數,,【解】已知,,,二、多階段有放回不等概抽樣 (略) 參
19、看教材P174,,§5.3 不放回不等概抽樣,一、πPS 抽樣,不放回不等概抽樣:,我們知道,若采用放回抽樣,對總體參數的估計及其方差估計比較簡單,但樣本單元中可能有單元被抽中多次.因此,放回抽樣得到的樣本其代表性比不放回抽樣差.在相同樣本量的條件下,放回抽樣的估計精度較低. 不放回不等概抽樣是指不放回的與單元大小成比例的概率抽樣.,包含概率: 在不放回不等概抽樣中,每個單元入樣的概率 及任意兩個單
20、元同時入樣的概率 統稱為包含概率.,對固定的 n ,包含概率滿足下面等式:,二、赫魏慈—湯普森估計量,對于不放回不等概抽樣,其總體總量Y的估計是:,赫魏慈—湯普森估計:,如果 n 固定,則,【例5.3】假設有5個居委會,每個居委會的住戶數X已知,但常住居民人數未知,我們從這5個居委會抽出兩個來估計常住居民的總人數,調查數據如下表.,上面表中的包含概率為:,從5個居委會中不放回地抽出2個居委會,無論是不放回不等概抽樣還是簡單
21、隨機抽樣,共有10種不同的樣本,我們用這些樣本分別利用霍維茨—湯普森估計計算及簡單隨機抽樣簡單估計計算對總量的估計,計算結果列于下表.,不同估計量的估計結果,從理論上來說, 和 都是無偏的,它們的均值是2520. 本例題的結果表明:不放回不等概赫魏慈—湯普森估計量比簡單隨機抽樣簡單估計更精確,其原因是X 和Y 之間有較強的相關關系。,情形的嚴格的 抽樣。,1、 的情形在總體中只抽兩個單元
22、,通常用逐個抽取法來保證抽樣是不放回的。我們可以采用幾種不同的抽樣方法。對總體所有的單元,如果有 就可以采用布魯爾方法。,概率抽取第一個單元,記為j ,按與,布魯爾方法的包含概率為:,對于總體總量估計可采用赫魏慈—湯普森估計量:,【例5.7】對于例5.6,如果抽樣是按布魯爾方法的,則其所有可能樣本的包含概率如下表:,我們可以按下述公式總體均值的估計及其方差:,2. n > 2的情形
23、,一般采用水野法,也是一種逐個抽取方法,它以概率,i=1,2,…,N,抽取第一個樣本單元,在剩下的N-1個單元中,不放回等概地抽出n-1個樣本單元。為了保證每個要求每個單元的大小滿足:,,耶茨—格隆迪方法的 不易計算,因而不能用赫魏慈—湯普森估計量,我們采用拉奇估計量。,設 為按抽中順序排列的樣本單元的指標值,相應的Z值為 ,令,則拉奇估計量為:,解 (1)首先利
24、用代碼來進行抽樣。如下表(下頁),(2)接下來由樣本推算總體 按被抽出的順序排列,樣本單元為4,8,3號單元,相應的 值為 調查完畢后,如果相應的指標值為先計算,2. 泊松(Poisson) 抽樣,本章小結(1)不等概抽樣方法是與簡單隨機抽樣方法平行的一類方法.它主要用于總體單元差異非常大的情形.(2)不等概抽樣的效率比較高,它能大大提高估計精度.(3)不等概抽樣分為PPS抽樣和 抽樣.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論