統(tǒng)計自然語言處理基本概念_第1頁
已閱讀1頁,還剩71頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計自然語言處理基本概念,模型,,,,,真實世界中的系統(tǒng),模型1,Input,,,Output,,模型2,,Output1,Output2,如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好,,,,,,,真實系統(tǒng),,,,模型1,,模型2,Input,Output,,模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例:住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù):戶型:三室一廳,兩室一廳,

2、……舉架高度:供熱方式:地?zé)??暖氣片?目錄,樣本空間(Sample Space)估計器(Estimator)和隨機過程(Stochastic Process)信息論(Information Theory)數(shù)據(jù)集分類(Data Set Classification)性能評價(Performance Measure),樣本空間(Sample Space),,試驗(Experiment),試驗一個可觀察結(jié)果的人工或自然的過程

3、,其產(chǎn)生的結(jié)果可能不止一個,且不能事先確定會產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個試驗的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣?={HH, HT, TH, TT}, H:面朝上; T:面朝下,事件(Event),事件一個試驗的一些可能結(jié)果的集合,是樣本空間的一個子集舉例:連擲兩次硬幣A: 至少一次面朝上B: 第二次面朝下A={HT, TH, HH}, B={HT, TT},事件的概率,事件的概率重復(fù)m試驗

4、,如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計解釋頻率的穩(wěn)定性又稱為經(jīng)驗大數(shù)定理舉例:連擲兩次硬幣A: 至少一次面朝上B: 第二次面朝下P(A)=3/4, P(B)=1/2當(dāng)試驗不能重復(fù)時,概率失去其頻率解釋的含義,此時概率還有其他解釋:貝葉斯學(xué)派和信念學(xué)派一個人出生時的體重,一個人只能出生一次,舉例,舉例:連續(xù)三次擲硬幣樣本空間?={HHH,HHT,HTH,HTT,THH

5、,THT,TTH,TTT}事件A:恰好兩次面朝下A={HTT,THT,TTH}做1000次試驗,計數(shù)得386次為兩次面朝下估計:P(A)=386/1000=0.386繼續(xù)做7組試驗,得:373,399,382,355,372,406,359,共8組試驗計算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累計:P(A)=(386+373+…)/8000=3032/8000=0.379統(tǒng)一的分布假設(shè)為:3/

6、8=0.375,概率空間,概率空間的三個公理P(A)?0P(?)=1P(A?B)=P(A)+P(B) if A?B=?這三條公理也是概率的原始定義推論:P(?)=0; A ? B?P(A)<P(B); P(ā)=1-P(A)不是所有0和1之間的值都是概率例如:|cos(x)|就不是概率,概率空間圖示,,,,?,A,B,A?B,聯(lián)合事件,A和B兩個事件的聯(lián)合概率就是A和B兩個事件同時出現(xiàn)的概率A和B的聯(lián)合

7、概率表示為:P(A, B)或P(A ?B)舉例:連擲兩次硬幣事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}聯(lián)合事件A ?B={HT},條件概率,在事件B發(fā)生的條件下事件A發(fā)生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出現(xiàn)的次數(shù),c(B)同理T是試驗總次數(shù)舉例:兩次擲硬幣問題事件A:第一次面朝

8、上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}A ?B={HT}P(A|B)=1/2條件概率可以被視為從另外一個樣本空間產(chǎn)生,概率的乘法原理,P(A,B)=P(A|B)?P(B)=P(B|A)?P(A)Chain RuleP(A1,A2,…,An)=P(A1)?P(A2|A1)?P(A3|A1,A2) ? …?P(An|A1,A2,…,An)舉例1:詞性標(biāo)注P(det,adj,n)=P(det)?P(ad

9、j|det)?P(n|det,adj)舉例2:計算一個句子的概率p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1),獨立和條件獨立,獨立定義:P(A,B)=P(A)?P(B)?P(A|B)=P(A), P(B|A)=P(B)條件獨立定義:P(A,B|C)=P(A|B,C)?P(B|C)=P(A|C)?P(B|C) ?P(A|B,C)=P(A|C), P(B|A,C)=P(B|C)Na

10、9;ve Baiysian:假定各特征之間條件獨立P(A1,A2,…,An|B)=?i=1,…,nP(Ai|B)避免一個錯誤:P(A|B,C)=P(A|B)? P(A|C),獨立和條件獨立,獨立不意味著條件獨立舉例:色盲和血緣關(guān)系A(chǔ):甲是色盲B:乙是色盲C:甲和乙有血緣關(guān)系P(A,B)=P(A)?P(B)P(A,B|C) ? P(A|C)?P(B|C)條件獨立不意味著獨立P(肺癌,買雪茄|吸煙)=P(肺癌|吸煙)?P

11、(買雪茄|吸煙)P(肺癌,買雪茄)?P(肺癌)?P(買雪茄),Bayes’ Rule,根據(jù)乘法原理:P(A,B)=P(A)?P(B|A)=P(B)?P(A|B)得到貝葉斯原理:P(A|B)=P(A)?P(B|A)/P(B)應(yīng)用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B) =argmaxAP(A)P(B|A)應(yīng)用2A1,A2,…,An是

12、特征,B是結(jié)論P(B|A1,A2,…,An)=P(A1,A2,…,An|B)P(B)/P(A1,A2,…,An)其中:P(A1,A2,…,An|B)=?i=1,nP(Ai|B),Bayes舉例,應(yīng)用3英漢統(tǒng)計機器翻譯P(CW1,…,CWm|EW1,…,EWn)= P(EW1,…,EWn|CW1,…,CWm)?P(CW1,…,CWm)/P(EW1,…,EWn)漢語句子CW1,…,CWm英語句子EW1,…,EWm翻譯模型: P

13、(EW1,…,EWn|CW1,…,CWm)目標(biāo)語語言模型: P(CW1,…,CWm),隨機變量(Random Variable),隨機變量是一個函數(shù)X:??R。?是樣本空間,R是實數(shù)集合人們常常關(guān)心和樣本點有關(guān)的數(shù)量指標(biāo)數(shù)值也比事件更易于處理,舉例打靶的環(huán)數(shù)舉例:[X=0]={TT};[X=1]={TH,HT} ;[X=2]={HH}X是兩次擲硬幣面朝上的次數(shù)數(shù)值可以是連續(xù)值,也可以是離散值PX(x)=P(X=x)=df

14、P(Ax), Ax={a??:X(a)=x},通常簡寫作P(x),期望Expectation,期望是隨機變量的均值E(X)=?x ?X(?)x?PX(x)(對于離散值)E(X)=?RxP(x)dx(對于連續(xù)值)舉例:六面擲骰子問題:E(X)=3.51?1/6+ 2?1/6+3?1/6+4?1/6+5?1/6+6?1/6=3.5兩次六面擲骰子得到的點數(shù)和:E(X)=72?1/36+3?2/36+4?3/36+……=7方差(

15、Variance)E((X-E(X))2)= ?x ?X(?)(x-E(X))2?PX(x) (對于離散值)E((X-E(X))2) =?R(x-E(X))2P(x)dx(對于連續(xù)值)王勵勤和王皓的期望接近,王勵勤的方差大,概率分布,多項式分布(Multinomial Distribution)P(n1, ? ? ?,nm)=n!/(n1! ? ? ? nm!)?p1n1? ? ?pmnm?ini=n,做n次試驗輸出第i種結(jié)

16、果的次數(shù)是ni,第i種結(jié)果出現(xiàn)的概率是pi二項式分布(Binomial Distribution)輸出:0或1做n次試驗關(guān)心的是試驗成功的次數(shù)的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是從n個元素中任意取出r個元素的組合數(shù)p是成功的概率如果是等概率分布,則p=1/2,Pb(r|n)=Cnr/2n,協(xié)方差和相關(guān)系數(shù),協(xié)方差(Covariance)Cxy=E[(X-E(X))(Y-E(Y))]相關(guān)系數(shù)(Cor

17、relation Coefficient)?xy=Cxy/(?x?y)?x是隨機變量X的方差?y是隨機變量Y的方差-1?? ?1,?>0正相關(guān),?<0負(fù)相關(guān),?=0不相關(guān),參數(shù)估計Parameter Estimation,,參數(shù)估計,研究對象的全體所構(gòu)成的集合成為總體(population)數(shù)理統(tǒng)計的任務(wù):已經(jīng)知道總體的一部分個體的指標(biāo)變量值,以此為出發(fā)點來推斷總體分布的性質(zhì)簡單樣本(simple sample

18、)是指這樣的樣本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是獨立同分布的隨機變量(向量),估計器,設(shè)(X1,X2,…,Xn)為一個樣本,它的一個與總體分布無關(guān)的函數(shù)(或向量函數(shù))f(X1,X2,…,Xn)稱為一個統(tǒng)計量(statistics)舉例:擲硬幣問題X:面朝上/面朝下T(X1,X2,…,Xn):面朝上的次數(shù)估計器(Estimator)根據(jù)樣本計算參數(shù)一個估計器是隨機變量的函數(shù),同時其自身也可以視為一個隨機

19、變量估計器的準(zhǔn)確率依賴于采樣數(shù)據(jù)的大小,參數(shù)估計,所有參數(shù)都是從一個有限的樣本集合中估計出來的一個好的估計器的標(biāo)準(zhǔn):無偏(unbias):期望等于真實值有效(efficient) :方差小一致(consistent):估計的準(zhǔn)確性隨樣板數(shù)量的增加而提高一些常用的估計方法極大似然估計最小二成估計貝葉斯估計,極大似然估計,極大似然估計Maximum Likelihood Estimation(MLE)選擇一組參數(shù)?,使

20、似然函數(shù)L(?)達(dá)到最大L(?)=f(x1,x2,…,xn|?)=?i=1,nf(xi|?)舉例:罐里有黑球和白球,比例3:1,今連續(xù)抽取兩球全為黑球,問罐里黑球多還是白球多?設(shè)黑球概率為p,抽取n次拿到x次黑球的概率符合二項分布:fn(x,p)=Cnxpx(1-p)n-x今抽取兩次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,則f2(2,p)=1/16;若p=3/4,則f2(2,p)=9/16選擇概率

21、大的:p=3/4,黑球多,隨機過程,隨機過程(Stochastic Process)X(t), t?TX是一組隨機變量T是過程的索引集合,例如時間或位置如果T是可數(shù)集,則X(t)是離散時間過程舉例:詞性標(biāo)注C(t),C是詞性,t是位置C(1)=noun, C(2)=verb,…,C(n)=pron,馬爾可夫過程,馬爾可夫過程,也稱馬爾可夫鏈Marcov Chain離散時間,離散狀態(tài)無后效性:已知現(xiàn)在狀態(tài),則未來和過去

22、無關(guān)P(Xn=xn|X1=x1,X2=x2,…,Xn-1=xn-1) =P(Xn=xn|Xn-1=xn-1)舉例:拼音輸入法一本[書](輸,淑,叔,舒,……)P(書|一,本)=P(書|本),信息論,,信息,控制論創(chuàng)始人(維納 Norbert Wiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時以及在感知外部世界時而作出協(xié)調(diào)時與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng) Clause Shannon)信息就是能夠用

23、來消除不確定性的東西,是一個事件發(fā)生概率的對數(shù)的負(fù)值Robert M. Losee信息可以被定義為一個處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息信息存在于客體間的差別,而非客體本身題帕三絕新消息的信息量大布什是美國總統(tǒng)(熟知,信息量小)馬其頓總統(tǒng)遇難(新知,信息量大),信息論,1948年美國Shannan香農(nóng)“通信的數(shù)學(xué)理論”,用概率測度和數(shù)理統(tǒng)計的方法,系統(tǒng)地討論了通信的基本問題,奠定了信息論的基礎(chǔ)信息的度

24、量有三個基本方向:結(jié)構(gòu)的、統(tǒng)計的和語義的香農(nóng)所說的信息是狹義的信息,是統(tǒng)計信息,依據(jù)是概率的不確定性度量,自信息量,自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小,互信息Mutual Information,I(x,y)=log2p(x,y)/(p(x)p(y))比如計算兩個詞的搭配I(偉大,祖國)=log2p(偉大,祖國)/(p(偉大)p(祖國))

25、此值較高,說明“偉大”和“祖國”是一個比較強的搭配I(的,祖國)=log2p(的,祖國)/(p(的)p(祖國))此值較低,因為p(的)太高,“的”和“祖國”不是一個穩(wěn)定的搭配I(x,y)>>0:x和y關(guān)聯(lián)強度大I(x,y)=0:x和y無關(guān)I(x,y)<<0:x和y具有互補的分布,熵(Entropy),熵(Entropy)Chaos(混沌),無序物理學(xué):除非施加能量,否則熵不會降低舉例:把房間弄亂很

26、容易,整理干凈不容易是不確定性(Uncertainty)的衡量不確定性越高,熵越高,我們從一次實驗中得到的信息量越大,熵的公式,熵H(X)=-?x??p(x)logxp(x)假設(shè)PX(x)是隨機變量X的分布基本輸出字母表是?單位:bits熵是X的平均信息量,是自信息量的期望E(X)=?x?? p(x) xI(X)=-logp(x),取2為底,I(X)=-log2p(x)E(I(X)=E(-log2p(x))= ?x??

27、 p(x)(-log2p(x)) = H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX),熵的例子,擲均勻硬幣,?={H,T}p(H)=.5, p(T)=.5H(p)=-0.5log20.5+(-0.5log20.5)=132面的均勻骰子,擲骰子H(p)=-32((1/32)log2(1/32))=5事實上,21=2, 25=32(perplexity)擲不均勻硬幣p(H)=0.2, p(T)=0.8, H(

28、p)=0.722p(H)=0.01, p(T)=0.99, H(p)=0.081,好書店,差書店,,什么時候H(p)=0?試驗結(jié)果事先已經(jīng)知道即:?x??, p(x)=1; ?y??, p(y)=0 if y?x熵有沒有上限?沒有一般的上限對于|?|=n,H(p)?log2n均衡分布的熵是最大的,,等概率分布2個輸出的等概率分布,H(p)=1bit32個輸出的等概率分布,H(p)=5bits43億輸出的等概率分布,H

29、(p)=32bits非等概率分布32個輸出,2個0.5,其余為0,H(p)=1bit怎樣比較具有不同數(shù)量輸出的“熵”,混亂度Perplexity,混亂度G(p)=2H(p)平均每次試驗有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測,熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小,聯(lián)合熵和條件熵,兩個隨機變量:X(空間是?),Y(?)聯(lián)合熵(Joint Entropy)(X,Y)被視

30、為一個事件H(X,Y)=-?x?? ? y??p(x,y)log2p(x,y)條件熵(Conditional Entropy)H(Y|X)=-?x?? ? y??p(x,y)log2p(y|x)p(x,y)是加權(quán),權(quán)值是沒有條件的,條件熵,H(Y|X)=?x??p(x)H(Y|X=x) = ?x??p(x)(-? y??p(y|x)log2p(y|x))=-?x?? ? y??p(y|x)p(x)log2p(y|x)= -

31、?x?? ? y??p(x,y)log2p(y|x),熵的性質(zhì),熵的非負(fù)的H(X)?0Chain RuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)?H(X)+H(Y),X和Y獨立時相等H(Y|X)?H(Y),條件熵比熵小,熵的編碼意義,如果一個符號序列是滿足概率分布p的隨機過程產(chǎn)生的,那么對這個序列進(jìn)行編碼至少需要的bit數(shù)是H(p)壓縮問題如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓

32、縮,因為熵小否則,熵大,不容易壓縮,編碼實例,怎樣給ISO Latin 1編碼?通常用8位經(jīng)驗表明:有的字符經(jīng)常出現(xiàn),有的字符很少出現(xiàn)我們可以給經(jīng)常出現(xiàn)的字用較少的bit來表示,給很少出現(xiàn)的字符用較多的bit來表示假設(shè):p(‘a(chǎn)’)=0.3, p(‘b’)=0.3, p(‘c’)=0.3, 其余p(x)=0.0004編碼:a:00, b:01, c:10, 其余:11b1b2…b8對于符號串:acbbécbaac

33、,編碼為: a c b b é c b a a c0010010111000011111001000010如果每個符號用8位編碼,需要80位,現(xiàn)在需要28位,語言的熵,p(cn+1|c1…cn)ci是語言中的一個字符c1…cn是歷史h舉例:漢語,n=3p(趙|圍魏救):高p(去|我曾經(jīng)):低計算語言的條件熵-?h?H ?c??p(c,h)log2p(c|h

34、),各種語言的熵,按字母計算的零階熵法文:3.98 bits意大利文:4.00 bits西班牙文:4.01 bits英文:4.03 bits德文:4.10 bits俄問:4.35 bits中文(按漢字計算):9.65 bits中文(按筆畫計算):3.43 bits按詞匯計算的零階熵英語:10.0 bits漢語:11.46 bits說明漢語的詞匯豐富語言的冗余度英語:73%; 俄語:70%;漢語:63%;

35、古文更低,Kullback-Leibler距離,假設(shè)通過一組試驗估計得到的概率分布為p,樣本空間?,隨機變量X真實的分布為q,相同的?和X現(xiàn)在的問題是:p和q相比,誤差多大?Kullback-Leibler距離給出的答案是:D(q||p)=?x??q(x)log2q(x)/p(x) =Eplog(q(x)/p(x)),KL距離(相對熵),習(xí)慣上0log0=0plog(p/0)=?Distance or

36、 Divergence(分歧)不對稱D(q||p)?D(p||q)也不滿足三角不等式事實上,D(q||p)不是距離,而是分歧H(q)+D(q||p):根據(jù)q分布,對p進(jìn)行編碼需要的bit數(shù)(交叉熵),平均互信息,隨機變量:X;Y;pX?Y(X,Y);pX(x);pY(y)兩個離散集之間的平均互信息I(X,Y)=D(p(x,y)||p(x)p(y)) = ? x? ??y?? p(x,y)log2(

37、p(x,y)/p(x)p(y))這里說的是兩個離散集的平均互信息互信息衡量已知Y的分布時,對X的預(yù)測有多大的幫助,或者說Y的知識降低了H(X)或者說p(x,y)和p(x)p(y)之間的距離,,互信息的性質(zhì),I(X,Y)=H(X)-H(X|Y) =H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因為:H(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因為H(X,X)=0)I

38、(X,Y)=I(Y,X)I(X,Y)?0,交叉熵Cross-Entropy,典型情況:我們得到一個觀察序列T={t1,t2,…tn}, ti??估計:?y? ?: p(y)=c(y)/|T|, 定義:c(y)=|{t?T, t=y}|但是,真實的q不知道,再大的數(shù)據(jù)也不夠問題:用p對q進(jìn)行估計是否準(zhǔn)確?方法:用一個不同的觀察序列T’估計實際的q,交叉熵,Hp’(p)=H(p’)+D(p’||p)Hp’(p)=-?x

39、??p’(x)log2p(x)p’當(dāng)然也不是真實的分布,但是我們視為真實世界的分布,以便測試p交叉混亂度:Gp’(p)=2Hp’(p),條件交叉熵,實踐中計算的往往是條件交叉熵兩個樣本空間樣本空間:?,隨機變量Y,y?Y上下文樣本空間:?,隨機變量X,x?X實驗得到的分布p(y|x), “真實”分布p’(y|x)Hp’(p)=-?y??, x? ?p’(y,x)log2p(y|x)條件交叉熵中的權(quán)值是p’(y,x),不是

40、p’(y|x),,在實際應(yīng)用中,在全部兩個樣本空間上做累加通常不是很方便,因此常常簡化使用如下公式:Hp’(p)=-?y??, x? ?p’(y,x)log2p(y|x) =-1/|T’|?i=1…|T’|log2p(yi|xi)事實上,就是在T’上進(jìn)行累加,然后歸一化 = -1/|T’|log2 ? i=1…|T’|p(yi|xi),舉例,?={a,b,…,z},概率分布(估計

41、值)p(a)=0.25, p(b)=0.5, p(?)=1/64, ??{c,…,r}, p(?)=0, ??{s,…,z}測試數(shù)據(jù)為:barb,p’(a)=p’(r)=0.25, p’(b)=0.5在?上做累加? a b c d … q r s … z -p’(?)log2p(?) 0.5 0.5 0 0 0 1.5

42、 0 0=2.5也可以在測試數(shù)據(jù)上進(jìn)行累加,然后歸一化si b a r b-log2p(si) 1 2 6 1 = 10 (1/4)?10=2.5,,H(p)和Hp’(p)之間可能有各種關(guān)系包括‘?’, ‘?’, ‘?’舉例(參照上例)H(P)=2.5測試數(shù)據(jù):barbHp’(p) =1/4(1+2+6+1)=2.5測試數(shù)據(jù)

43、:probableHp’(p) = 1/8(6+6+6+1+2+1+6+6)=4.25測試數(shù)據(jù):abbaHp’(p) = 1/4(2+1+1+2)=1.5,交叉熵的使用,不是比較數(shù)據(jù),而是比較分布如果我們有兩個分布p和q,哪一個更好呢?面對“真實數(shù)據(jù)”S,p和q誰的交叉熵低,誰就更好HT(p)= -1/|S|log2 ? i=1…|S’|p(yi|xi)HT(q)= -1/|S|log2 ? i=1…|S’|q(yi|xi

44、),,數(shù)據(jù)集分類,,,訓(xùn)練集Training Set用來獲得模型參數(shù)測試集Testing Set從訓(xùn)練集以外獨立采樣反映系統(tǒng)面對真實世界的處理能力測試集經(jīng)常被無意識地“做了手腳”交叉確認(rèn)集Cross-Validation Set從訓(xùn)練集和測試集以外獨立采樣主要用來幫助做設(shè)計決策,測試集,測試集從訓(xùn)練集去評價系統(tǒng)的性能,結(jié)果往往過于樂觀如果模型的參數(shù)比需要的多很多時,獲得100%的準(zhǔn)確率也是可能的過擬和(Over-f

45、itting)常常出現(xiàn)在訓(xùn)練數(shù)據(jù)的數(shù)量不足以支持模型的復(fù)雜程度之時為此,我們需要另一個數(shù)據(jù)集來模擬用戶的真實需要,,在設(shè)計階段,不允許偷看測試數(shù)據(jù)的細(xì)節(jié),以保證測試數(shù)據(jù)不被污染你不能參照測試數(shù)據(jù)來決定模型的復(fù)雜度,特征空間的維數(shù),以及什么時候決定停止訓(xùn)練過程等設(shè)計決策可以參照交叉確認(rèn)數(shù)據(jù)進(jìn)行每一個階段采用一個不同測試集當(dāng)你試圖選擇一個最好的方法使測試效果達(dá)到最佳時,實際上已經(jīng)在無意識地使你的系統(tǒng)偏向測試集問題的關(guān)鍵在于測試集

46、并不是真實數(shù)據(jù)本身,如果面向測試集調(diào)整參數(shù),可能造成系統(tǒng)對于從未見過的真實數(shù)據(jù)效果下降,,交叉確認(rèn)集如果在訓(xùn)練集合上獲得了比較差的結(jié)果,我們必須重新設(shè)計如果在訓(xùn)練集合上獲得了比較好的結(jié)果,那可能是因為:模型確實好(在測試數(shù)據(jù)上性能一樣會好)模型過擬和(在測試數(shù)據(jù)上性能會下降)由于不允許使用測試集來改進(jìn)系統(tǒng)設(shè)計,因此需要另一個數(shù)據(jù)集,性能評價,,,使用有限的樣本進(jìn)行性能測試有估計誤差性能評價的結(jié)果和測試數(shù)據(jù)的大小有關(guān)不同數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論