2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩166頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)進(jìn)步與革新往往以一種明顯而有效的方式促進(jìn)科學(xué)的發(fā)展。在最近20年里,現(xiàn)代分析儀器與計(jì)算機(jī)技術(shù)得到了迅猛的發(fā)展,使得分析化學(xué)領(lǐng)域樣本量測(cè),數(shù)據(jù)采集與數(shù)據(jù)分析的手段發(fā)生了革命性的變化,極大的促進(jìn)了分析化學(xué)與系統(tǒng)生物學(xué)研究與發(fā)展。當(dāng)今化學(xué)與生命科學(xué)研究中的樣本往往具有極高的復(fù)雜性,其物質(zhì)組成、物質(zhì)含量、物質(zhì)間的相互作用及物質(zhì)與其含量在時(shí)間方向上的動(dòng)態(tài)變化,在很大程度上都是未知的。此類樣本首先為分析化學(xué)家提出了極大挑戰(zhàn)。幸運(yùn)的是,高通量分析

2、儀器的產(chǎn)生和發(fā)展使得分析化學(xué)家能夠同時(shí)從成千上萬個(gè)分析通道(光譜的波長,質(zhì)譜的質(zhì)荷比或者基因芯片中的基因)獲取實(shí)驗(yàn)樣本的數(shù)據(jù),進(jìn)而可采用數(shù)學(xué)或者統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行分析,以期獲得有價(jià)值的化學(xué)或生物信息。此類分析體系的建模尚無可靠的物理或者化學(xué)規(guī)律可依,而且模型線性或者非線性未知,其解析具有很高的挑戰(zhàn)性,梁逸曾教授將其稱為廣義灰色分析體系(Generalized Gray Analytical Systems)。而且,注意到此類體系的量測(cè)

3、變量個(gè)數(shù)p往往非常大,少則上百,多則百萬,同時(shí)由于樣本采集或者實(shí)驗(yàn)成本等原因,樣本的數(shù)量n往往相對(duì)非常少。這就產(chǎn)生了著名的“l(fā)arge p,small n”難題,它又為廣義灰色分析體系的解析提出了新的問題。我們認(rèn)為,廣義灰色分析體系的解析目前仍存在三個(gè)基本問題:模型評(píng)價(jià)、變量選擇與模型應(yīng)用域的定義。這三個(gè)基本問題仍屬于統(tǒng)計(jì)學(xué)領(lǐng)域和化學(xué)計(jì)量學(xué)領(lǐng)域尚未很好解決的問題。對(duì)于這三個(gè)問題的解答,目前的方法大都是建立在單個(gè)數(shù)據(jù)及單個(gè)模型的基礎(chǔ)上的,

4、并沒有考慮到樣本的變化和變量的變化對(duì)分析結(jié)果的影響。因此,采用此類方法得到的分析結(jié)果(如模型評(píng)價(jià)結(jié)果,篩選出的變量或模型應(yīng)用域)仍值得商榷。針對(duì)此問題,我們自主提出了復(fù)雜數(shù)據(jù)分析的全新的一般性思路,即模型集群分析(Model Population Analysis,MPA)?;贛PA的數(shù)據(jù)分析方法可望解決現(xiàn)有的模型評(píng)價(jià)、變量選擇以及模型應(yīng)用域分析方法的缺陷。借助于MPA這個(gè)思路平臺(tái),我們主要研究并建立了新型的基于統(tǒng)計(jì)分布的模型評(píng)價(jià)與變

5、量選擇算法并在模擬和實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行了全面的驗(yàn)證,獲得了令人滿意的結(jié)果。另外,我們亦對(duì)模型應(yīng)用域進(jìn)行了初步的探索。本論文研究內(nèi)容主要包括四個(gè)部分:模型集群分析(第二章),模型評(píng)價(jià)(第三章),變量選擇(第四到九章)與模型應(yīng)用域(第十章),簡述如下:
  一、首先提出了模型集群分析的產(chǎn)生背景及其基本要素。任何基于數(shù)據(jù)的模型都勢(shì)必受到樣本和變量的影響,因此變量選擇也會(huì)受到相應(yīng)的影響。然而,文獻(xiàn)報(bào)道的變量選擇方法往往都是基于單個(gè)數(shù)據(jù)和單個(gè)模

6、型的,而未考慮到樣本變化和變量的變化所帶來的影響。通過不斷的改變樣本和變量而建立多個(gè)模型,我們發(fā)現(xiàn),變量的重要性呈現(xiàn)出一穩(wěn)定的統(tǒng)計(jì)分布,此分布證實(shí)了變量重要性的不確定性,反映了數(shù)據(jù)的變化對(duì)分析目標(biāo)產(chǎn)生的影響,為理解數(shù)據(jù)和建立模型提供了全面的信息。據(jù)此,我們認(rèn)為基于對(duì)一大群模型的統(tǒng)計(jì)分析,可望能夠?yàn)榻⒑桶l(fā)展新型的化學(xué)計(jì)量學(xué)算法提供新的思路?;谶@些認(rèn)識(shí)和理解,我們提出了模型集群分析,其主要思路就是通過蒙特卡洛采樣,利用一大群子模型來考察

7、數(shù)據(jù)的內(nèi)在性質(zhì),最終獲取我們感興趣的參數(shù)(樣本空間,變量空間,參數(shù)空間與模型空間)的統(tǒng)計(jì)分布,從而實(shí)現(xiàn)對(duì)有限樣本的最大信息獲取。從這一角度看來,模型集群分析與貝葉斯分析有類似功效,通過強(qiáng)調(diào)參數(shù)分布,與單模型分析形成了強(qiáng)烈對(duì)比。簡言之,模型集群分析用時(shí)間換取空間,從不同的側(cè)面對(duì)數(shù)據(jù)進(jìn)行分析,對(duì)信息進(jìn)行提取,與蘇軾的詩句“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同”不期而合。(第二章)
  二、基于模型集群分析,我們提出了模型預(yù)測(cè)能力的統(tǒng)計(jì)比較方

8、法。模型比較是化學(xué)計(jì)量學(xué)中的重要研究內(nèi)容。然而,在當(dāng)前已發(fā)表的大多數(shù)科研論文中,對(duì)模型預(yù)測(cè)能力的比較僅僅建立在一個(gè)單獨(dú)的測(cè)試集或者固定樣本分組后的單次交互檢驗(yàn)上。顯而易見,這樣的比較具有得出錯(cuò)誤結(jié)論的風(fēng)險(xiǎn)。利用MPA的思想,通過不斷改變測(cè)試集或者改變訓(xùn)練集的樣本劃分,獲取了不同變量集的測(cè)試預(yù)測(cè)誤差或者交互檢驗(yàn)誤差的分布。對(duì)它們的分布進(jìn)行統(tǒng)計(jì)檢驗(yàn),最終得到可靠的結(jié)論。將此方法應(yīng)用于近紅外數(shù)據(jù)和代謝數(shù)據(jù)的分析,結(jié)果顯示此方法能夠避免得出錯(cuò)誤

9、結(jié)論的風(fēng)險(xiǎn),顯著提高了變量預(yù)測(cè)能力比較的可靠性。(第三章)
  三、基于模型集群分析,我們建立了子窗口重排分析(SubwindowPermutation Analysis,SPA)的變量選擇方法。此方法的基本假設(shè)是有信息變量在重排后會(huì)引起模型預(yù)測(cè)精度的顯著降低,而無信息變量由于不能提供分類信息,因此是否重排對(duì)模型預(yù)測(cè)精度無明顯影響。首先通過蒙特卡洛技術(shù)同時(shí)從樣本和變量空間采樣,獲取N個(gè)子訓(xùn)練集和N個(gè)子測(cè)試集,利用偏最小二乘線性判別

10、分析建立N個(gè)分類模型。繼計(jì)算每個(gè)變量重排前后在測(cè)試集上的模型預(yù)測(cè)誤差,最終獲取重排前后的兩組預(yù)測(cè)誤差。通過對(duì)這兩組預(yù)測(cè)誤差的差異進(jìn)行統(tǒng)計(jì)檢驗(yàn),實(shí)現(xiàn)對(duì)變量重要性的可靠的評(píng)價(jià)。將此方法應(yīng)用于Ⅱ型糖尿病和兒童超重的代謝數(shù)據(jù)分析,結(jié)果顯示篩選出的少數(shù)幾個(gè)重要代謝物不但能夠顯著提高模型預(yù)測(cè)精度,而且亦從文獻(xiàn)報(bào)道中得到了生物學(xué)的驗(yàn)證。(第四章)
  四、基于模型集群分析,我們?cè)O(shè)計(jì)了專門適用于支持向量機(jī)(SupportVector Machin

11、es, SVM)的變量選擇方法。基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的SVM模型在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,但適于SVM的變量選擇的方法鮮有報(bào)道。表征 SVM預(yù)測(cè)性能的核心參數(shù)為其模型的間隔(margin),間隔大的SVM模型具有更低的結(jié)構(gòu)風(fēng)險(xiǎn)與較優(yōu)的泛化性能?;诖诵再|(zhì),我們提出了間隔影響分析(Margin Influence Analysis,MIA)方法。我們通過變量空間的蒙特卡洛采樣建立N個(gè)SVM模型并計(jì)算相應(yīng)的N個(gè)間隔。然后,根據(jù)模型是否含有某

12、個(gè)給定變量,將所有模型分為兩組,相應(yīng)的間隔也分為兩組。通過對(duì)這兩組分布進(jìn)行統(tǒng)計(jì)檢驗(yàn),篩選出能夠顯著增加SVM的間隔的變量。將此方法應(yīng)用于兩組基因表達(dá)數(shù)據(jù)的分析,得到了具有競爭力的結(jié)果。(第五章)
  五、利用模型集群分析的思想,我們發(fā)展了競爭自適應(yīng)重加權(quán)采樣(Competitive Adaptive Reweighted Sampling,CARS),提出采用預(yù)測(cè)誤差分布對(duì)CARS選出的變量集進(jìn)行更加全面的評(píng)價(jià),可望得到可靠的結(jié)果

13、。實(shí)驗(yàn)表明,CARS方法具有篩選出較優(yōu)的變量組合的能力,能夠顯著改善模型的預(yù)測(cè)性能。(第六章)
  六、利用模型集群分析的思路,提出了研究變量的條件重要性的一種方法。首先在變量空間進(jìn)行采樣,得到N個(gè)子數(shù)據(jù)集,建立N個(gè)子模型,并計(jì)算每個(gè)模型的預(yù)測(cè)誤差。對(duì)于每個(gè)變量,抽取含有此變量的最好的一部分(如5%)模型。采用這組最優(yōu)模型的預(yù)測(cè)誤差的中位數(shù)的倒數(shù)作為變量的條件重要性的評(píng)價(jià)指標(biāo),該指標(biāo)能夠反映出某個(gè)變量在別的變量存在時(shí)的重要性。利用

14、此方法,分析了來源于芬蘭青少年心血管疾病研究項(xiàng)目中的代謝綜合征數(shù)據(jù)和動(dòng)脈粥樣硬化數(shù)據(jù),發(fā)現(xiàn)此方法能夠有效篩選出僅與別的變量共存時(shí)才能表現(xiàn)出預(yù)測(cè)能力的變量。生物學(xué)檢驗(yàn)表明該方法適合于生物標(biāo)記物的篩選。(第七章)
  七、利用模型集群分析的思路,并結(jié)合逆跳馬爾科夫蒙特卡洛(RJMCMC)的想法,提出了一種非常適合于在高維空間中搜索變量組合的方法,稱之為隨機(jī)青蛙(Random Frog)。采用了按概率對(duì)備選模型進(jìn)行接受的準(zhǔn)則,并提出了一

15、種自適應(yīng)的基于正態(tài)分布的模型維數(shù)轉(zhuǎn)換機(jī)制,從而得到N個(gè)具有不同維數(shù)的模型。統(tǒng)計(jì)分析每個(gè)變量在這N個(gè)模型中選擇概率,將其作為重要性的評(píng)價(jià)指標(biāo)。在兩組基因表達(dá)分類數(shù)據(jù)上的測(cè)試結(jié)果顯示此方法選出的基因具有很強(qiáng)的分類能力,利用這些基因建立的主成分分析模型亦能將正常樣本和疾病樣本完全分開,充分說明了此方法在揭示判別模式方面極具潛力。(第八章)
  八、利用模型集群分析的思路,提出了變量互補(bǔ)信息網(wǎng)(VariableComplementary

16、Network,VCN),對(duì)我們首次提出的變量互補(bǔ)信息這個(gè)概念進(jìn)行了定量研究。生命體是一個(gè)系統(tǒng),生物變量之間相互依存并共同作用。因此,對(duì)變量互補(bǔ)信息的研究具有重要意義。基于多變量模型的回歸系數(shù),我們提出了變量互補(bǔ)信息的計(jì)算公式,并采用圖方法將變量互補(bǔ)信息進(jìn)行了可視化,得到了變量互補(bǔ)網(wǎng)。此網(wǎng)非常直觀的揭示了變量之間的互補(bǔ)關(guān)系,同時(shí)也為篩選生物標(biāo)記物提供了一種全新的思路。將此方法應(yīng)用于Ⅱ型糖尿病和老鼠術(shù)后認(rèn)知障礙數(shù)據(jù)的分析,得到了非常漂亮的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論