2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、在面對高維度數(shù)據(jù)的實際問題中,為了解決”維度詛咒”問題,提高數(shù)據(jù)分析精度,我們需要找到數(shù)據(jù)有效的低維表達。通過對數(shù)據(jù)幾何分布的分析,基于流行學習的降維在實際應用中取得了成功,有效的避免了高維數(shù)據(jù)所帶來的問題,并使得流形學習在機器學習和相關領域迅速發(fā)展。然而,流形算法領域仍然存在不少問題等待解決。例如,大多數(shù)流形學習算法的映射和后續(xù)的學習模型沒有直接聯(lián)系,在降維中,并不知道映射會如何影響后續(xù)模型的學習效果。其次,許多線性流形降維算法在處理

2、非線性的數(shù)據(jù)時會失去效果。除了以上提到的兩點,在利用流形學習進行降維的過程中,計算復雜度往往成為實際應用的瓶頸。
  論文圍繞基于流形學習的降維展開,并嘗試解決以上提出的流形算法中存在的問題。主要工作包括以下幾個方面:
  1.提出直接提高模型學習效果的基于流形的特征選擇算法。通過結合流形學習以及最優(yōu)實驗設計理論,我們提出的特征選擇方法能選擇出有利于提高模型學習效果的特征點。該算法假設數(shù)據(jù)點分布在潛在流形之上,考慮原始數(shù)據(jù)包

3、含的幾何分布和區(qū)分性信息,通過求解使模型預測值最大方差最小化的優(yōu)化問題,選擇數(shù)據(jù)點。由于該問題最后的求解屬于NP問題,我們還介紹了有效的貪婪算法求解該優(yōu)化問題。在此之前也有其他基于最優(yōu)實驗設計和半正則化流形算法的特征選擇算法,一般是通過最小化預測模型中參數(shù)的協(xié)方差來選取特征的。和他們相比,我們的算法直接對目標函數(shù)的預測值最大方差的上界進行最小化,對學習效果的影響更為直接。在數(shù)據(jù)集上用該算法選擇特征之后的聚類實驗證明了算法的有效性。

4、>  2.為了解決基于流形的非負矩陣分解計算復雜度過高的問題,本文提出了新的加速算法。和原始的非負矩陣分解算法相比,保局非負矩陣分解算法(LocalityPreservingNon-negativeMatrixFactorization,LPNMF)由于利用了數(shù)據(jù)的流形幾何信息能夠更好的揭示數(shù)據(jù)主題,具有更強的數(shù)據(jù)表達能力。然而,LPNMF的計算復雜度為O(n3),n為數(shù)據(jù)點個數(shù),當數(shù)據(jù)規(guī)模增加,計算時間將成倍增加。受半監(jiān)督式學習規(guī)?;?/p>

5、以及大規(guī)模譜聚的啟發(fā),我們提出了LPNMF的加速算法。給定大小為n的數(shù)據(jù)點,我們選擇p(p<<n)個錨點數(shù)據(jù),并用選擇的錨點數(shù)據(jù)的稀疏表達來表示原始大數(shù)據(jù)。同時,通過新的表達,在計算迭代過程中,使用Woodbury轉化公式減少矩陣計算的時間。從而有效的減少了LPNMF的整體計算時間。實驗證明,在大型的文本數(shù)據(jù)上新的加速算法降維后和原來的聚類效果一樣,所用計算時間比原算法快2-3倍。
  3.對原有的線性流形映射算法進行核方法化。我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論