[學(xué)習(xí)]概率統(tǒng)計模型講座ppt_第1頁
已閱讀1頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、概率統(tǒng)計模型講座,主講:呂 佳數(shù)學(xué)與計算機科學(xué)學(xué)院,確定性因素和隨機性因素,隨機因素可以忽略,隨機因素影響可以簡單地以平均值的作用出現(xiàn),隨機因素影響必須考慮,隨機模型,一、電梯問題,有r個人在某棟大樓的一樓進(jìn)入電梯,大樓共有n層。如果每個乘客在任何一層樓出電梯的可能性相同,那么直到電梯中的人下完為止,電梯平均需要停多少次?如果在一樓共進(jìn)入電梯14人,而這棟大樓共有28層高,請用計算機模擬驗證你的理論。,Matlab 模擬程序 dian

2、ti.m:N=5000; %模擬次數(shù)n=28; %電梯層數(shù)r=14; %電梯開始進(jìn)的人數(shù)s=0;x=zeros(n,1);for k=1:N %模擬N次 s1=0; for i=1:n x(i)=0; end for j=1:r %對每個人是否下電梯進(jìn)行模擬 i=1+floor(rand(1,1)*n); x(i)=1;

3、 %第i層有人下 end s1=sum(x); %該次模擬中總共要下的人數(shù) s=s+s1; %累加各次模擬中要下的人數(shù)endeq=s/N %模擬平均值輸出ei=n*(1-(1-1/n)^r) %理論值輸出,計算機模擬程序,二、聰明的保險公司,人壽保險問題,3、對這2500個參保對象每人每年至少收取多少保險費才能使公司以不小于0.99的概率每年獲利不少于10萬元?,假設(shè)有2500個同一年齡段

4、同一社會階層的人參加某保險公司的人壽保險。根據(jù)以前的統(tǒng)計資料,在一年里每個人死亡的概率為0.0001.每個參加保險的人一年付給保險公司120元保險費,而在死亡時其家屬從保險公司領(lǐng)取20000元,那么,,1、保險公司有多大可能性虧本?,2、有多大可能性保險公司一年獲利不少于10萬元?,4、由于保險公司之間競爭激烈,為了吸引參保者、擠垮對手,保險費還可以降低,比如20元,只要不虧本就行。因此,保險公司將考慮這樣的問題:在死亡率和賠償金

5、不變的情況下,每人每年交給保險公司20元保險費,保險公司至少要吸引多少個參保者才能以不小于0.99的概率不虧本?,人壽保險問題,人壽保險問題的數(shù)學(xué)模型,問題的關(guān)鍵在于,保險公司會面臨多少理賠,即會有多少參保者死亡?而這是具有隨機性的??梢砸腚S機變量X來表示參保者中的死亡人數(shù)。,問題分析,容易理解: X是服從二項分布B(n,p)的,其中n為參???cè)藬?shù),p為死亡概率。根據(jù)中心極限定理還可以知道,X近似服從正態(tài)分布N(np,npq),可

6、據(jù)此解決上述問題。,模型構(gòu)成,用隨機變量X表示一年之中死亡的人數(shù),則 X~B(2500,0.0001),一年之中有k個人死亡的概率為:,根據(jù) E(X)=2500×0.0001=0.25, D(X)=2500×0.0001×0.9999 ≈0.25,由中心極限定理知;X~N(0.25,0.52)。,1、保險公司虧本的概率為:,實際上這個值很難計算

7、,改用正態(tài)分布計算會方便很多:,模型求解,2、“一年獲利不少于10萬元”等價于“X≦10”,3、設(shè)x為每人每年所交保險費,“獲利不少于10萬元”即 2500x-20000X≧100000,等價于X≦x/8-5.,即每人應(yīng)交給保險公司51.32元保險費。,模型求解,4、設(shè)y為參保人數(shù),X仍為參保死亡人數(shù),那么此時X ~N(0.0001y,0.0001×0.9999y),則不虧本的條件變?yōu)椋?0y-20000X≥0,即X≤y/

8、1000.,即保險公司至少要吸引671人參加保險。,模型求解,對于二項分布,當(dāng)n很大時,可以應(yīng)用中心極限定理用正態(tài)分布近似計算。,理論依據(jù),德莫佛-拉普拉斯中心極限定理(De Moivre-Laplace),設(shè)隨機變量ξn(n=1, 2, ...)服從參數(shù)為n, p(0<p<1)的二項分布,則,關(guān)于中心極限定理,在客觀實際中有這樣一種隨機變量,它們是由大量的相互獨立的隨機因素的綜合影響所形成的。而其中每一個別因素在總的影響中

9、所起的作用都是微小的。這種隨機變量往往近似地服從正態(tài)分布,這種現(xiàn)象就是中心極限定理的客觀背景。,正態(tài)分布在隨機變量的各種分布中,占有特別重要的地位.在某些條件下,即使原來并不服從正態(tài)分布的一些獨立的隨機變量,它們的和的分布,當(dāng)隨機變量的個數(shù)無限增加時,也是趨于正態(tài)分布的. 在概率論里,把研究在什么條件下,大量獨立隨機變量和的分布以正態(tài)分布為極限這一類定理稱為中心極限定理.,關(guān)于中心極限定理,關(guān)于中心極限定理,一般說來,如果某

10、些偶然因素對總和的影響是均勻的,微小的,即沒有一項起特別突出的作用,那么就可以斷定描述這些大量獨立的隨機因素的總和的隨機變量是近似的服從正態(tài)分布. 這是數(shù)理統(tǒng)計中大樣本的理論基礎(chǔ),用數(shù)學(xué)形式來表達(dá)就是李雅普諾夫定理.,關(guān)于中心極限定理,李雅普諾夫Liapunov定理: 設(shè)ξ1,ξ2…是相互獨立的隨機變量,有期望及方差,關(guān)于中心極限定理,這個定理的實際意義是:如果一個隨機現(xiàn)象由眾多的隨機因素所引起,每一因素在總的變化里起著不

11、顯著的作用,就可以推斷,描述這個隨機現(xiàn)象的隨機變量近似的服從正態(tài)分布.由于這些情況很普遍,所以有相當(dāng)多一類隨機變量遵從正態(tài)分布,從而正態(tài)分布成為概率統(tǒng)計中最重要的分布.,三、社會收入分配公平嗎?,收入分配問題,收入的差異是反應(yīng)社會收入分配是否公平的重要指標(biāo)。一般來說,鼓勵自由競爭會擴大收入差異,但是政府可以通過稅收政策和對低收入者的補貼來縮小收入的差異。,現(xiàn)有30個工人家庭的月收入(元)的數(shù)據(jù),從低到高列表如下:,工人家庭月收入表,根據(jù)

12、以上數(shù)據(jù),你能設(shè)法描述收入分配的不公平程度嗎?,來看看洛倫茲(Lorenz)是怎么做的:,洛倫茲曲線,把這30個家庭按收入順序分成相等的5組,然后統(tǒng)計出每組家庭的收入總數(shù)以及戶數(shù)和收入的累積值及百分比累積值,如下表所示:,洛倫茲曲線,用橫坐標(biāo)表示戶數(shù)累積百分比,縱坐標(biāo)表示收入累積百分比,描點、連線便得到洛倫茲曲線,它是一條向下凸的曲線。,如果所有家庭的收入全部相等,則洛倫茲曲線為y=x,這條線稱為絕對平等線,所以洛倫茲曲線描述了收入的不

13、平等狀況。由于收入是按從小到大的順序排列的,所以洛倫茲曲線位于直線y=x的下方,它越接近直線y=x,收入就越平均;越向下凸出,則收入分配越不平均。,基尼(Gini)系數(shù),在洛倫茲曲線的基礎(chǔ)上,意大利統(tǒng)計學(xué)家基尼于1992年在他發(fā)表的有關(guān)收入集中指數(shù)的研究中提出了基尼系數(shù)。,評價,縱觀以上洛倫茲曲線得到的過程,只用到數(shù)理統(tǒng)計中極其平常而簡單的數(shù)據(jù)處理的基礎(chǔ)知識,但卻解決了“收入分配公平程度分析”這樣的大問題。由此可見,往往不是我們所學(xué)的知

14、識沒用,而是我們沒有運用知識的意識,沒有深入理解知識的本質(zhì),也沒有抓住問題的本質(zhì)。而數(shù)學(xué)建模正是在用數(shù)學(xué)知識解決問題的過程中把對知識的運用和對問題的挖掘同時發(fā)揮到極致!,四、生命線越長壽命越長?,有人認(rèn)為人的壽命與手掌上的“生命線”的長度有關(guān), “生命線” 長的人,壽命就長些; “生命線” 越短的人,壽命就越短。下表列出了50位自然死亡的人的生存年齡x(單位:年)及“生命線”的長度(單位:厘米)的數(shù)據(jù),試檢驗以上說法是否正確。,生命線越

15、長壽命越長?,生命線越長壽命越長?,問題分析,人的壽命和生命線的長度都是不確定的量,可分別用變量X和Y來描述。數(shù)據(jù)表實際上提供了X和Y的觀測值。,要對“生命線”越長壽命越長?這個問題給出是與否的回答,相當(dāng)與假定:兩隨機變量Y 和隨機變量X有線性依賴的關(guān)系。,生命線越長壽命越長?,利用相關(guān)系數(shù)可以判斷兩隨機變量之間是否存在線性關(guān)系。然而,隨機變量X和Y的分布都是未知的,無法直接計算其相關(guān)系數(shù)這一數(shù)字特征。但是我們可以從數(shù)據(jù)即樣本觀測值來計

16、算相關(guān)系數(shù)的估計量r.,模型建立,生命線越長壽命越長?,利用所給數(shù)據(jù)可以計算出:,從而X與Y之間的相關(guān)系數(shù)的估計值為:,生命線越長壽命越長?,由于,所以X與Y之間的線性相關(guān)關(guān)系是不顯著的。,相關(guān)分析和回歸分析,,在客觀世界中,普遍存在著變量之間的相互關(guān)系。數(shù)學(xué)的重要作用就是從數(shù)量上來揭示、表達(dá)和分析這些關(guān)系。而變量之間的關(guān)系分為兩類:,確定性關(guān)系-------即我們所熟悉的變量之間的函數(shù)關(guān)系,如圓的半徑R與圓的面積S之間就存在確定的函數(shù)

17、關(guān)系。,非確定性關(guān)系-------即變量之間雖然有密切的關(guān)系,但這種關(guān)系卻無法用確定的函數(shù)關(guān)系表達(dá),變量之間的這種非確定性關(guān)系,稱為相關(guān)關(guān)系。例如:人的身高和體重的關(guān)系;人的血壓和年齡的關(guān)系,某產(chǎn)品的廣告投入與銷售額的關(guān)系等。,具有相關(guān)關(guān)系的變量雖然不具有確定的函數(shù)關(guān)系,但是可以借助函數(shù)關(guān)系來表示它們之間的統(tǒng)計規(guī)律。這種近似地表示它們之間的相關(guān)關(guān)系的函數(shù)被稱為回歸函數(shù)。 最簡單的情形是由兩個變量形成的關(guān)系??紤]用

18、下列模型表示: 但是由于兩個變量之間不存在確定的函數(shù)關(guān)系,因此,必須把隨即波動考慮進(jìn)去,故引入模型如下:,相關(guān)分析和回歸分析,回歸分析就是根據(jù)已得的試驗結(jié)果以及以往的經(jīng)驗來建立統(tǒng)計模型,并研究變量間的相關(guān)關(guān)系,建立起變量之間的近似表達(dá)式,并由此對相應(yīng)的變量進(jìn)行預(yù)測和控制。,相關(guān)分析和回歸分析,相關(guān)分析法和回歸分析是研究兩個或兩個以上變量的相關(guān)關(guān)系的重要的統(tǒng)計方法。但兩者之間又有明顯的區(qū)別:,相關(guān)分析和回歸分析,

19、,試求出 與 的關(guān)系,并判斷是否有效。,例 為了研究大豆脂肪含量 和蛋白質(zhì)含量 的關(guān)系,測定了九種大豆品種籽粒內(nèi)的脂肪含量和蛋白質(zhì)含量,得到如下數(shù)據(jù),解 (1)描散點圖,(2)建立模型,由散點圖,設(shè)變量 與 為線性相關(guān)關(guān)系:,確定回歸系數(shù) 和 :,所以,所求的回歸方程為,(3)檢驗回歸方程的有效性,查相關(guān)系數(shù)臨界值表,因為,所以回歸方程在 的檢驗水平下有統(tǒng)計意義。,即可以認(rèn)為大豆的蛋白質(zhì)含量與脂肪含量

20、有線性相關(guān)性。,五、你身體的血液總量有多少?,如何估計一個人體內(nèi)的血液總量?,注射一定量的葡萄糖,采集一定容積的血樣,測量注射前后葡萄糖含量的變化,即可估計人體的血液總量。主意采集和測量的時間要選擇恰當(dāng),使血液中的葡萄糖含量充分均勻,又基本上未被人體吸收。,湖中有多少條魚?,設(shè)湖中有魚群,現(xiàn)捕出r條魚,做上記號后放回.一段時間后,再從湖中捕起n條魚,其中有標(biāo)記的有k條,試據(jù)此信息估計湖中魚的總數(shù)N.,憑感覺你也能給出回答:,,上述兩個問

21、題本質(zhì)上是一樣的,為什么可以這樣做呢?,,數(shù)學(xué)解釋,我們以捕魚問題為例給出其數(shù)學(xué)解釋:,解釋一:概率可以用頻率來近似估計。,數(shù)學(xué)解釋,解釋二:極大似然估計理論,數(shù)學(xué)解釋,抽樣調(diào)查現(xiàn)在已被廣泛應(yīng)用。它省時省力,能獲得較為準(zhǔn)確的結(jié)果,這一方面是由于方法本身的科學(xué)性;但另一方面很重要的一個前提是被調(diào)查者的回答必須都是真實的。,六、敏感性問題的調(diào)查,敏感問題(sensitive problem)是指涉及個人(或單位)的隱私或利益的問題,以及大多

22、數(shù)人認(rèn)為不便在公開場合表態(tài)或陳述的問題,在某些情況下,還包括一些違法或犯罪的行為。,敏感問題的概念,例如:在統(tǒng)計學(xué)研究中,經(jīng)常會遇到一些不受被調(diào)查者歡迎、或感到尷尬的所謂敏感問題:如一群人中參加賭博的比率?吸毒人的比率?經(jīng)營中偷稅漏稅人的比率?學(xué)生中考試作弊的人的比率?婚前有無性行為?推銷藥品是否給回扣?各種類型的額外消費、公款吃喝、同性戀及類似的為社會所不贊成的各種事件等問題。,敏感問題的分類,敏感問題的分類 按答案特征可分兩大

23、類 屬性特征敏感問題 也稱分類特征敏感問題,它被用于了解被調(diào)查者是否具有敏感問題的特征,并估計具有敏感問題特征的人在總體中所占比重,例如是否有吸毒行為?是否有婚外情? 數(shù)量特征敏感問題 數(shù)量敏感問題是指被調(diào)查者具有敏感問題數(shù)額大小的特征,一般是估計敏感問題數(shù)值的均數(shù),也可稱為敏感性均值問題,例如“你有幾個婚外性伴侶?”“你每月的工資外收入有多少?”,這類問題,如果直接調(diào)查,被調(diào)查者

24、可能拒絕回答,應(yīng)答率很低,即使問卷上有答案,但答案是否真實,值得懷疑。所以,對于敏感性問題,若采用直接調(diào)查的方法,調(diào)查者將難以控制樣本信息,得不到可靠的樣本數(shù)據(jù)。,為了得到敏感性問題的可靠的樣本數(shù)據(jù),必須采取特殊的科學(xué)可行的方法來提高應(yīng)答率、降低不真實回答率,以使調(diào)查結(jié)果真實可靠。首先是將保密措施坦誠告訴調(diào)查對象,取得理解和信任,調(diào)查場所要保證沒有他人在場,一般由調(diào)查對象自己在調(diào)查表上填寫;其次需要采取一定的技術(shù)。,敏感問題的調(diào)

25、查,對敏感性問題的調(diào)查方案,關(guān)鍵要使被調(diào)查者愿意做出真實回答,又能保守個人秘密。一旦調(diào)查方案設(shè)計有誤,被調(diào)查者就會拒絕配合,所得調(diào)查數(shù)據(jù)將會失去真實性。心理學(xué)家與統(tǒng)計學(xué)家為此設(shè)計了一種調(diào)查方法,一些統(tǒng)計分析方法——隨機化回答技術(shù),也應(yīng)運而生。,隨機化回答技術(shù)(Randomized Response Technique,RRT),是指在調(diào)查中使用特定的隨機化裝置,使得被調(diào)查者以預(yù)定的概率P來回答敏感性問題。 這一技術(shù)的

26、宗旨就是最大限度地為被調(diào)查者保守秘密,從而取得被調(diào)查者的信任。,隨機化回答技術(shù),比如在調(diào)查學(xué)生考試作弊的問題中,設(shè)計外形完全一樣的卡片n張,其中n1張卡片上寫上“你考試是否作過弊?”,n-n1張卡片上寫上另外的問題。然后放在一盒子里。調(diào)查時,由被調(diào)查者從盒子里任抽一卡片,根據(jù)卡片上的問題做出回答,至于卡片上具體是什么問題,調(diào)查者無權(quán)過問。這樣就起到了為被調(diào)查者保密的作用。因而相對于直接問答調(diào)查,易于得到被調(diào)查者的合作。,隨機化回答技術(shù)

27、是由美國社會學(xué)家Warner于1965年首先提出并用于敏感問題調(diào)查。,隨機應(yīng)答技術(shù)的類型沃納隨機化回答模型,西蒙斯模型(Simmons model),沃納隨機化回答模型調(diào)查模型的基本思想是: 為了調(diào)查某個敏感問題,同時列出兩個存在相關(guān)關(guān)系的問題制成卡片,被調(diào)查者隨機抽取卡片進(jìn)行回答。,具體的做法是:要調(diào)查的敏感性問題,列出正反兩個問題。如調(diào)查考試作弊問題,就作成兩種卡片: A、你在考試中作了弊嗎

28、? B、你在考試中沒有作弊嗎?,然后由被調(diào)查者隨機抽取一張來回答“是”或“否”,至于卡片上具體是什么問題,調(diào)查者無權(quán)過問。因此,調(diào)查人員并不知道被調(diào)查者在回答那一個問題,而達(dá)到對被調(diào)查者個人秘密的保密作用。,沃納隨機化回答模型,要求被調(diào)查者從中隨機抽取一個回答而調(diào)查人員不知道其具體抽中的是哪一個問題,但問題A的比例P是確定的。如果他所抽到的問題與自己情況一致則回答“是”,否則回答“不是”。,,,沃納隨機化回答模型

29、,沃納隨機化回答模型,設(shè) 是具有敏感性特征的人所占的比例,p是寫有問題“你屬于A嗎?”的卡片所占的比例。如果對n人進(jìn)行調(diào)查,調(diào)查結(jié)果中有n1個人回答“是”,有n-n1個人回答“否” ,統(tǒng)計結(jié)果中回答“是”的人的比例 =n1/n,對問題A回答“是”的人數(shù)比例為 。于是:,,的極大似然估計為:,,,其方差為:,公式:,印度教育當(dāng)局研究大學(xué)生中酗酒的流行程度。如果一個學(xué)生在調(diào)查前的一個月內(nèi)飲酒至少1250毫升,則稱他(

30、她)是一個酗酒者。 在這個定義下,從加爾各答市大學(xué)生中簡單隨機有放回地抽取了若干名大學(xué)生,目標(biāo)是估計加爾各答大學(xué)中酗酒者所占的比例 。,實例:,隨機抽取了100名大學(xué)生,所用隨機化裝置為一裝有60個卡片的盒子。盒子中有45張卡片上寫有問題 “在上一個月你是否至少飲酒1250毫升?”(問題 A),剩余的15張卡片上寫有問題“在上一個月內(nèi)你是否飲酒少于1250毫升?” 調(diào)查時,在沒有調(diào)查員觀察

31、的情況下,被調(diào)查者把盒子中的卡片搖勻后從中隨機抽取一張,而后根據(jù)所抽到的卡片上的問題如實地回答“是”或“不是”。調(diào)查結(jié)果為:有28個人回答了“是”,72個人回答“不是”。,寫有敏感問題A的卡片占全部卡片的比例為 p=0.75,回答“是”的人數(shù)占總?cè)藬?shù)的比例 =n1/n=0.28,,有:n=100,n1=28,p=0.75,因此有:,=0.008145,,,=[0.28-0.25]/0.5=0.06,也即有6%的人是酗酒者。根

32、據(jù),沃納的方法雖然比直接提出敏感性問題要好,但所提的兩個問題都還具有敏感性。而且,該方法中回答A的人數(shù)比例不能為1/2。1967年西蒙斯對沃納模型進(jìn)行了改進(jìn)。,西蒙斯模型(Simmons model),他所建立的模型與沃納模型最大的不同點:在于調(diào)查人員提出的隨機化問題是兩個不相關(guān)的問題,其中一個為敏感性問題,另一個為非敏感性問題B,這樣的處理使被調(diào)查者的合作態(tài)度進(jìn)一步提高。,設(shè)樣本中對問題B(無關(guān)問題)回答“是”的人數(shù)比例為,西蒙斯模型

33、(Simmons model),對問題A回答“是”的人數(shù)比例,統(tǒng)計結(jié)果中回答“是”的人的比例,也就是對問題A或B回答“是”的人數(shù)比例,1. 已知的情況 設(shè)抽樣方式是簡單隨機有放回的,,是具有敏感性特征A的人所占的比例。,設(shè)總體為n的簡單隨機樣本中,有n1人回答“是”,則,,,其方差為:,西蒙斯模型(Simmons model),實踐中, 并不總是已知的,例如對于無關(guān)問題“你是四月份出生的嗎?”我們可以通過查有關(guān)資

34、料來獲得 的值,而對于無關(guān)問題“你喜歡藍(lán)色嗎?”我們就無法預(yù)知 的值,此時 就是未知的。因此有必要對 未知的情況進(jìn)行討論。,2. 未知的情況,敏感性問題占的比例分別為 和,假設(shè)總體1中回答敏感性問題的人占的比例為 時,對問題A或B作出“是”的答復(fù)者所占的比例為,假設(shè)總體2中回答敏感性問題的人占的比例為,對這兩個問題作出“是”的答復(fù)者的比例為,,這時需要抽取

35、兩個隨機樣本進(jìn)行調(diào)查。設(shè)這兩個樣本的容量分別為 和,從而得到該敏感問題的估計回答:,,其方差為:,,敏感性問題調(diào)查方法的應(yīng)用,某高校在開展關(guān)于普及性知識的活動中,要求對學(xué)校的學(xué)生是否有過性行為這一問題進(jìn)行抽樣調(diào)查。該調(diào)查問題具有敏感性,運用通常采取的調(diào)查方式,調(diào)查根本無法進(jìn)行,因此運用了敏感性問題抽樣調(diào)查方法,該高校在校生人數(shù)為6000人,隨機抽取1500名學(xué)生進(jìn)行抽樣調(diào)查,且分別運用了以上的兩種方法,比較統(tǒng)計結(jié)果。,采用隨機

36、化的回答技術(shù)設(shè)計了兩種用信封封裝比例一定的問卷,一種問題為:“你有過性行為嗎?”;另一種問題為:“你沒有過性行為嗎?”。在調(diào)查時,讓同學(xué)任意選取一個信封并回答上面的問題,當(dāng)然調(diào)查人員是不知道該同學(xué)回答的是哪一個問題。,,,,第一種方法:提出兩個都具有敏感性相關(guān)問題,這樣同學(xué)們根據(jù)他們的實際情況回答抽到的問題,與自己的情況一致的則回答“是”;否則回答“不是”。研究者在設(shè)計問卷時,設(shè)計第一種問題占60%,這樣兩個問題所占的比例比較接近,有

37、助于讓被調(diào)查者消除顧慮,我們對收回的問卷進(jìn)行統(tǒng)計,結(jié)果對兩種問題回答“是”的有638人,占樣本的比例為:,=638/1500=0.4253,已知 =638/1500=0.4253,P=60%,將它代入,,,其方差為:,得到回答第一種問題為“是”的人數(shù)估計比例:,這樣應(yīng)用第一種方法估計統(tǒng)計對問題一回答“是”的比例為:12.65%。標(biāo)準(zhǔn)差的估計值為:,即 0.064。,我們同樣采用隨機化的回答技術(shù)設(shè)計了兩種用信封封裝比例一定的問卷

38、,然而一種問題為:“你有過性行為嗎?”;為了統(tǒng)計的方便我們選擇了 已知的情況,即另一種問題設(shè)計為:“你是四月份出生的嗎?”。,顯然,第二個問題與我們所要調(diào)查的問題無關(guān),而且被調(diào)查同學(xué)當(dāng)中是四月份出生的比例我們可以很容易從學(xué)校教務(wù)處學(xué)生信息中心收集到,經(jīng)統(tǒng)計該校學(xué)生中四月份出生者所占的比例為15.38%。其中設(shè)計的問卷中第一種問題同樣占60%,統(tǒng)計結(jié)果為對兩種問題回答“是”的有206人,占樣本的比例為:,,p,,第二種方法:提出

39、的兩個問題,一個為敏感性問題,另一個為與調(diào)查內(nèi)容無關(guān)的非敏感性問題。,,得到回答第一種問題為“是”的人數(shù)估計比例:,,=206/1500=0.1373,將它代入,,,其方差為:,可以看出采用兩種調(diào)查技術(shù),最終得出的結(jié)果是接近的,七、概率論與數(shù)理統(tǒng)計的應(yīng)用綜述,1、參數(shù)估計方法2、假設(shè)檢驗方法3、相關(guān)分析方法4、回歸分析方法5、方差分析方法6、隨機過程應(yīng)用,假設(shè)檢驗,假設(shè)檢驗是對總體的分布函數(shù)的形式或分布中某些參數(shù)做出某種假設(shè),

40、然后通過抽取樣本,構(gòu)造適當(dāng)?shù)慕y(tǒng)計量,對假設(shè)的正確性進(jìn)行判斷的過程.,,假設(shè)檢驗,參數(shù)假設(shè)檢驗,非參數(shù)假設(shè)檢驗,總體分布已知,檢驗關(guān)于未知參數(shù)的某個假設(shè),總體分布未知時的假設(shè)檢驗問題,讓我們看一個例子.,本科概率統(tǒng)計課程主要研究參數(shù)假設(shè)檢驗問題 .較少涉及非參數(shù)假設(shè)檢驗。,例:某工廠生產(chǎn)10歐姆的電阻.根據(jù)以往生產(chǎn)的電阻實際情況,可以認(rèn)為其電阻值 X~N(? , ?2),標(biāo)準(zhǔn)差σ=0.1.現(xiàn)在隨機抽取10個電阻,測

41、得它們的電阻值為: 9.9, 10.1, 10.2, 9.7, 9.9, 9.9, 10, 10.5, 10.1, 10.2. 試問:從這些樣本,我們能否認(rèn)為該廠生產(chǎn)的電阻的平均值?為10歐姆?,方差分析,在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中,經(jīng)常遇到這樣的問題:影響產(chǎn)品產(chǎn)量、質(zhì)量的因素很多,我們需要了解在這眾多的因素中,哪些因素對影響產(chǎn)品產(chǎn)量、質(zhì)量有顯著影響.為此,要先做試驗,然后對測試的結(jié)果進(jìn)行分析.方差分析就是分析測試結(jié)果的

42、一種方法.,在方差分析中,把在試驗中變化的因素稱為因子,用A、B、C、...表示;因子在試驗中所取的不同狀態(tài)稱為水平,因子A的r個不同水平用A1、A2、...、Ar表示.,設(shè)在某試驗中,因子A有r個不同水平A1,A2,...,Ar,在Ai水平下的試驗結(jié)果Xi服從正態(tài)分布N(μi,σ2),i=1,2,...,r,且X1,X2,...,Xr間相互獨立.現(xiàn)在水平Ai下做了ni次試驗,獲得了ni個試驗結(jié)果Xij,j=1,2,...,ni這可以看

43、成是取自Xi的一個容量為ni的樣本,i=1,2,...,r.,單因子方差分析,基本概念,例:為尋求適應(yīng)本地區(qū)的高產(chǎn)油菜品種,今選了五種不同品種進(jìn)行試驗,每一品種在四塊試驗田上得到在每一塊田上的畝產(chǎn)量如下:,我們要研究的問題是諸不同品種的平均畝產(chǎn)量是否有顯著差異.,在本例中只考慮品種這一因子對畝產(chǎn)量的影響,五個不同品種就是該因子的五個不同水平.由于同一品種在不同田塊上的畝產(chǎn)量不同,我們可以認(rèn)為一個品種的畝產(chǎn)量就是一個總體,在方差分析中總假

44、定各總體獨立地服從同方差正態(tài)分布,即第i個品種的畝產(chǎn)量是一個隨機變量,它服從分布N(μi,σ2), i=1,2,3,4,5.,試驗的目的就是要檢驗假設(shè) H0:μ1=μ2=μ3=μ4=μ5是否成立.若是拒絕 ,那么我們就認(rèn)為這五種品種的平均畝產(chǎn)量之間有顯著差異;反之,就認(rèn)為各品種間產(chǎn)量的不同是由隨機因素引起的.方差分析就是檢驗假設(shè)的一種方法.,本質(zhì)上,方差分析是檢驗同方差的若干正態(tài)總體均值是否相等的一種統(tǒng)計方法.,

45、在實際問題中影響總體均值的因素可能不止一個.我們按試驗中因子的個數(shù),可以有單因子方差分析,雙因子分析,多因子分析等.例中是一個單因子方差分析問題.,相關(guān)軟件,MATLABEXCEL,《MATLAB數(shù)理統(tǒng)計》科學(xué)出版社EXCEL《概率論與數(shù)理統(tǒng)計教程》魏宗舒 高教出版社 第九章《MATLAB概率論與數(shù)理統(tǒng)計分析》,參考書推薦,《數(shù)學(xué)模型》姜啟源《數(shù)學(xué)建模方法及其應(yīng)用》韓中庚《概率論與數(shù)理統(tǒng)計教程》茆詩松《概率論與數(shù)理統(tǒng)計教程》

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論