高維模型的約束變量選擇和條件特征篩選.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-06 格式：pdf 頁數(shù)：113 大小：4.49MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩112頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、本文旨在充分利用這些約束條件和已知活躍協(xié)變量信息，繼而提高參數(shù)估計和變量選擇的效果，降低協(xié)變量之間相關(guān)性對特征篩選的影響。
　　在本文第二章中，我們研究了高維模型中參數(shù)約束下的變量選擇問題。參數(shù)約束是實際研究過程中常見的假設(shè)條件，研究者們根據(jù)問題背景和經(jīng)驗常識可以確定參數(shù)滿足一定的限制條件。例如Fan et al.(2012)考慮證券投資組合問題，研究如何分配資金投資p個不同的證券以達(dá)到最大的回報。這個問題中就暗含有一個線性等式參

2、數(shù)約束∑pj=1βj=1。合理利用參數(shù)的約束條件，可以提高參數(shù)估計和變量選擇的效果，比如經(jīng)典統(tǒng)計中的約束最小二乘方法。首先，我們考慮X為列滿秩矩陣情形，忽略不影響優(yōu)化求解的常數(shù)，根據(jù)拉格朗日對偶理論得到lcg-lasso的對偶問題為minu,ξ,η Q(u，ξ，η),s.t.||u||∞≤λ，ξκ≥0,其中Q(u，ξ，η)=1/2(r-DTu+CTξ+ETη)TS-1(r-DTu+CTξ+ ETη)-dTξ-fTη，S=XTX，r=XT

3、y，||u||∞表示u的∞-范數(shù)。而且，我們還得到原始解(β)和對偶解(u)，(ξ)，(η)之間的關(guān)系，(β)=S-1（r-DT(u)+CT(ξ)+ET(η)).很顯然，lcg-lasso的對偶問題是標(biāo)準(zhǔn)二次規(guī)劃。而且與原問題相比，其對偶問題所含的未知參數(shù)個數(shù)少，所有的約束條件也都是簡單的箱約束，所以我們能夠很方便地用2.4節(jié)中簡單有效的坐標(biāo)下降法進(jìn)行求解。另一方面，我們還研究了約束廣義Lasso的自由度問題，并通過最小化風(fēng)險估計選擇最

4、優(yōu)調(diào)和參數(shù)。首先，我們根據(jù)對偶問題的KKT條件，定義了對偶解邊界集u={i:|(u)i|=λ}和C={k:(ξ)k=0}，并按照對偶解和原始解的關(guān)系，得到原始解的邊界集A和B，其中A是D(β)不等于0的下標(biāo)集合，B是不等式約束等號成立的下標(biāo)集合。通過對偶解的邊界集及其性質(zhì)，我們得到了對偶解的精確表達(dá)式，繼而得到原始解(β)和擬合(μ)=X(β)的表達(dá)式。我們在2.3節(jié)中證明了對偶解的邊界集和(β)分別是關(guān)于y的局部常數(shù)函數(shù)和連續(xù)函數(shù)，以

5、及(μ)的一致Lipschtiz性，最終得到(μ)做為y的函數(shù)是連續(xù)且?guī)缀跆幪幙晌⒌?。因此，根?jù)Stein引理(Stein，1981)，我們證明得到，當(dāng)y服從正態(tài)分布時，對于任意的D，C，E和λ≥0，(μ)=X(β)的自由度表達(dá)式，df((μ))=E{nullity(G)｝,其中矩陣G表示（DT-u（y），-CTc（y），-ET)T或者（DT-A（y），-CTB(y），-ET)T。nullity(G)表示G的零空間的維數(shù)。但是，在實際應(yīng)

6、用中，設(shè)計矩陣X不一定滿足列滿秩的條件。在這種情形下，上述方法不再適用。因此，在第二章中，我們提出用簡單的類Elastic Net方法來處理非列滿秩設(shè)計矩陣問題。我們在原問題leg-lasso上額外增加一個l2懲罰項，即minβ1/2||y-Xβ||22+λ||Dβ||1+γ||β||22， s.t Cβ≥d,Eβ=f，其中γ＞0為一較小的正數(shù)。假設(shè)(β)*是上述優(yōu)化問題的解，我們得到(μ)=Xβ*的自由度df(μ)=E{nullity

7、(G)-γtr[(Ip-PG)S-1γ]}，其中Sγ=XTX+γIp, PG=S-1/2γGT(GS-1γGT)+GS-1/2γ。得到lcg-lasso的自由度后，我們就可以通過最小化風(fēng)險估計來選擇最優(yōu)的調(diào)和參數(shù)。鑒于Mallows'Cp準(zhǔn)則和AIC/BIC準(zhǔn)則之間的關(guān)系，我們定義如下BIC類型的準(zhǔn)則，BIC（(μ);wn）=||y-(μ)||22/nσ2+wn/ndf（(μ)），其中Wn是一個可選常數(shù)。當(dāng)wn=2，上述準(zhǔn)則為Mallo

8、ws'Cp準(zhǔn)則或者AIC準(zhǔn)則，當(dāng)Wn=log(n)，BIC-類型準(zhǔn)則即為通常的BIC準(zhǔn)則。于是，我們可以選擇使得上述BIC類型準(zhǔn)則達(dá)到最小值的λ為約束廣義Lasso(lcg-lasso)的最優(yōu)調(diào)和參數(shù)。
　　在第三章，我們研究了已知部分活躍協(xié)變量或者強相關(guān)的預(yù)測變量條件下的超高維參數(shù)模型的特征篩選問題。Fan and Lv(2008)首次強調(diào)了特征篩選在超高維數(shù)據(jù)分析中的重要性，建議兩階段變量選擇來提高變量選擇和參數(shù)估計的效率，即

9、先對超高維數(shù)據(jù)進(jìn)行粗略的大幅度降維(特征篩選，feature screening)，再進(jìn)行精細(xì)的變量選擇。自Fanand Lv(2008)提出SIS(Sure Independence Screening)特征篩選方法這一開創(chuàng)性工作以來，大量文獻(xiàn)就開始致力于超高維數(shù)據(jù)中特征篩選問題的研究。大多數(shù)的特征篩選方法都是通過排序邊際效應(yīng)進(jìn)行篩選，例如預(yù)測變量與響應(yīng)變量的邊際相關(guān)性。但是，簡單的邊際效應(yīng)特征篩選方法深受預(yù)測變量之間相關(guān)性的影響，例

10、如舍棄了隱藏型重要變量，錯誤選入了與活躍預(yù)測變量強相關(guān)的非活躍預(yù)測變量。在現(xiàn)實應(yīng)用中，基于一些預(yù)先研究和經(jīng)驗常識，研究者們能夠事先確定一些與所研究的響應(yīng)變量相關(guān)的預(yù)測變量。
　　在第四章，我們主要考慮超高維多指標(biāo)異方差模型中均值函數(shù)和方差函數(shù)的特征篩選問題?，F(xiàn)有的特征篩選方法主要是針對回歸模型中均值函數(shù)的活躍預(yù)測變量。但是，方差函數(shù)在統(tǒng)計理論和應(yīng)用中有著至關(guān)重要的地位。雖然Zhu et al.(2011)和Lin etal.(20

11、13)在沒有模型結(jié)構(gòu)的條件下，篩選得到活躍預(yù)測變量集合的估計，但是不能具體區(qū)分哪些活躍預(yù)測變量是屬于均值函數(shù)，哪些活躍預(yù)測變量是屬于方差函數(shù)。在本文第四章，我們主要研究如下超高維多指標(biāo)異方差模型，Y=gμ(XTβ1，…，XTβK)+gv(XTθ1，…，XTθL)ε,其中g(shù)μ(·)和gv(·)表示未知的光滑函數(shù)，X為p維的預(yù)測變量向量，ε與預(yù)測變量獨立，其均值為E(ε)=0，方差為E(ε2)=1。顯然，很多流行的半?yún)?shù)回歸模型都是上述多指

12、標(biāo)模型的特例，例如部分線性模型，單指標(biāo)模型和部分線性單指標(biāo)模型等等。首先，我們證明了文中第三章中的CMELR-CSIS可以自然拓展到多指標(biāo)同方差模型或者多指標(biāo)異方差模型中均值函數(shù)的特征篩選。這是因為，在一定正則條件下，我們證明下列等價條件成立，j∈D∩ Aμ當(dāng)且僅當(dāng)E{[Xj-E(Xj|XTCβC)]Y}≠0，其中Aμ表示均值函數(shù)的活躍指標(biāo)集。于是，我們根據(jù)條件邊際經(jīng)驗似然比得到了目標(biāo)集合D∩Aμ的估計(D∩A)μγn={j∈D:(lj

13、)≥γn｝，其中γn為預(yù)先給定的閾值參數(shù)，(lj)是條件邊際經(jīng)驗似然比lj=2∑ni=1log{1+λgij｝的估計值，gij=[xij-E(Xj|XTiCβC)]Yi，λ表示滿足等式0=∑ni=1 gij(1+λgij)-1的拉格朗日乘子。為了不產(chǎn)生混淆，我們稱針對多指標(biāo)模型中均值函數(shù)的這種條件特征篩選方法為EL-CFS。另一方面，關(guān)于異方差模型中方差函數(shù)的特征篩選，由于E{[Xj-E(Xj|XTCβC)]Y2｝=E{Xj-E(Xj|

14、XTCβC)][g2μ(Z1，…，ZK)+g2v（W1，…，WL）]}其中Zk=XTAμkβAμk，Wl=XTAvlθavl。則知中心化變量xj-E（Xj|XTCβC）與響應(yīng)變量的平方Y(jié)2之間相關(guān)性同時包含均值函數(shù)和方差函數(shù)的指標(biāo)信息。而且，在正則條件下，我們證明了j∈D∩A當(dāng)且僅當(dāng)E{[Xj-E（Xj|XTCβC）]Y2}≠0，其中A=Aμ∪Av是上述異方差模型的活躍指標(biāo)集，集合Av表示模型中方差函數(shù)的活躍指標(biāo)集。因此，我們可用(D∩

15、A)(γ)n={j∈D:(lμv,j)≥(γ)n｝作為目標(biāo)集合D∩A的估計，其中(γ)n是預(yù)先確定的閾值參數(shù)，(lμv,j)=2∑ni=1 log{1+(λgij)}。需要注意的是，此時(gij)是gij=[Xij-E(Xj|XTiCβC)]Y2i的估計。由于此條件特征篩選方法是EL-CFS的修正版，所以我們簡稱之為mEL-CFS。顯然，(D∩Av)=(D∩Aγ)n\(D∩A)γn可以做為異方差模型中方差函數(shù)的活躍指標(biāo)集D∩Av的估計。

16、而且，我們證明了集合(D∪A)v是方差函數(shù)活躍指標(biāo)集D∩Av的一個相合估計。
　　因此，通過EL-CFS和mEL-CFS兩步條件特征篩選，我們能夠分別得到多指標(biāo)異方差模型中均值函數(shù)和方差函數(shù)活躍指標(biāo)集的相合估計。EL-CFS和mEL-CFS避免了多指標(biāo)異方差模型中未知的link函數(shù)gμ和gv的非參數(shù)估計，而且在強相關(guān)的協(xié)變量情況下，依然能很好的工作。理論結(jié)果表明當(dāng)模型維數(shù)以樣本容量的指數(shù)級增長時，條件特征篩選方法EL-CFS和mE

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

高維模型的約束變量選擇和條件特征篩選.pdf

文檔簡介

溫馨提示

最新文檔

評論

高維模型的約束變量選擇和條件特征篩選.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載