2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩142頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、模式分類問題廣泛存在于故障診斷、語音識別、機器視覺、文本檢索、圖像處理和生物信息學(xué)等應(yīng)用領(lǐng)域。在獲取分類任務(wù)的相關(guān)數(shù)據(jù)信息以后,模式分類的主要目標(biāo)是利用模式分類算法把待識別的對象盡可能地分配到正確的類別中。然而,實際應(yīng)用中的高維和噪聲數(shù)據(jù)始終制約著現(xiàn)有模式分類算法的廣泛應(yīng)用。此外,生物信息學(xué)領(lǐng)域中的蛋白質(zhì)結(jié)構(gòu)預(yù)測也要求設(shè)計新的算法以便有效地利用已知的蛋白質(zhì)結(jié)構(gòu)信息。
  近鄰模型是機器學(xué)習(xí)領(lǐng)域中常用的分類模型之一,由于其具有非線性

2、和可擴展性的優(yōu)點,已經(jīng)在圖像檢索、目標(biāo)識別和機器視覺等領(lǐng)域獲得了成功的應(yīng)用。基于近鄰模型,本文對判別特征選擇、判別距離度量學(xué)習(xí)和判別原型學(xué)習(xí)以及生物信息學(xué)應(yīng)用領(lǐng)域的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測四個方面開展了研究,主要內(nèi)容如下:
  在判別特征選擇方面,提出了兩個特征選擇算法:近鄰成分特征選擇和局部Fisher特征選擇。近鄰成分特征選擇是基于最近鄰的特征加權(quán)算法,它通過梯度上升技術(shù),最大化具有正則化項的近似留一法分類精度學(xué)習(xí)特征權(quán)值。該算法對

3、訓(xùn)練數(shù)據(jù)的分布沒有作任何參數(shù)假定并且可以自然地擴展到多類問題。實驗結(jié)果表明,近鄰成分特征選擇算法可以有效地處理高維數(shù)據(jù)的特征選擇,并且對不相關(guān)特征數(shù)目的增長不敏感。局部Fisher特征選擇通過梯度優(yōu)化技術(shù),最大化訓(xùn)練數(shù)據(jù)的局部類間散布同時最小化訓(xùn)練數(shù)據(jù)的局部類內(nèi)散布,并在優(yōu)化過程中利用L1L∞正則化項在塊層次上稀疏化不相關(guān)或冗余特征對應(yīng)的參數(shù)向量。UCI數(shù)據(jù)集上的實驗結(jié)果表明該方法能有效地捕獲特征間的相關(guān)性。
  在判別距離度量學(xué)

4、習(xí)方面,提出了兩個基于近鄰模型的距離度量學(xué)習(xí)算法:命中丟失成分分析和快速近鄰成分分析。命中丟失成分分析首先根據(jù)訓(xùn)練樣本的最近命中(來自同樣類別的最近鄰)和最近丟失(來自不同類的最近鄰)定義間隔,然后通過同時最大化間隔和最小化每個訓(xùn)練樣本和它的最近命中的距離學(xué)習(xí)距離度量。實驗結(jié)果表明,該方法可以有效地處理數(shù)據(jù)可視化、全秩距離度量學(xué)習(xí)和低秩距離度量學(xué)習(xí)??焖俳彸煞址治霾捎镁植扛怕史植寄P痛_定訓(xùn)練樣本的參考點,避免了基于全部訓(xùn)練數(shù)據(jù)隨機選擇

5、參考點,有效地減少了學(xué)習(xí)距離度量的計算代價。通過引入核機制,其被進一步擴展到非線性度量學(xué)習(xí)。實驗結(jié)果表明,快速近鄰成分分析在分類精度和訓(xùn)練速度方面均優(yōu)于近鄰成分分析。
  在判別原型學(xué)習(xí)方面,針對最近鄰規(guī)則較高的存儲和計算要求,提出了一個基于訓(xùn)練數(shù)據(jù)集自動構(gòu)造原型并學(xué)習(xí)距離度量的大間隔最近原型分類算法。該方法首先利用歐氏距離的K均值聚類算法確定每類樣本的原型,然后通過最小化目標(biāo)損失函數(shù)學(xué)習(xí)輸入空間的線性變換。參數(shù)矩陣可以通過求解一

6、個凸半定規(guī)劃問題獲得,因此不存在局部極小值問題。實驗結(jié)果表明,該方法能有效地改進最近鄰的分類性能。
  在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方面,研究了二級結(jié)構(gòu)的單序列預(yù)測、多序列預(yù)測和組合預(yù)測。針對單序列預(yù)測,提出了一種新的基于高斯先驗最大熵模型的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法。針對多序列預(yù)測,基于大間隔最近鄰模型和大間隔最近原型分類模型提出了兩個二級結(jié)構(gòu)預(yù)測算法。第一個算法首先基于PSSM譜構(gòu)造特征向量,然后調(diào)用大間隔最近鄰模型學(xué)習(xí)一個用于K近鄰分類

7、的Mahalanobis距離,最后利用基于能量的規(guī)則進行蛋白質(zhì)二級結(jié)構(gòu)預(yù)測。第二個算法是大間隔最近原型分類算法在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測上的直接應(yīng)用。實驗結(jié)果表明兩種算法均獲得了較好的預(yù)測精度,明顯優(yōu)于以前的近鄰算法。針對組合預(yù)測,提出了一個組合同源和非同源信息進行蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的快速近鄰算法。該方法首先利用良定義的鏈表結(jié)構(gòu)構(gòu)造包含二級結(jié)構(gòu)頻率信息的統(tǒng)計詞典集,然后組合統(tǒng)計詞典和PSSM矩陣快速地生成鄰居列表,最后利用新的基于知識的規(guī)則指

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論