基于膚色模型和主元分析的視覺特征研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于隱馬爾可夫模型的語音識別技術(shù)已進入識別性能平臺,但魯棒性能低,不適合于復雜環(huán)境下的應(yīng)用。人類語音的產(chǎn)生和感覺本質(zhì)上均是雙模態(tài)的(音頻和視頻),語音信號是由發(fā)音器官產(chǎn)生的,不同的發(fā)音可能具有不同的嘴型。在語音識別過程中,音頻信息和視頻信息具有很好的互補性,因此近來年音頻-視頻混合語音識別(AVSR)得到了重視。AVSR技術(shù)的關(guān)鍵問題是臉部視頻特征的提取和音、視頻特征的結(jié)合方式。而如何準確地將人臉和嘴唇實時檢測和定位,是視頻特征提取的關(guān)

2、鍵。該文通過分析和學習諸多前人在人臉特征點定位方面的算法,提出了一套簡單有效的人臉嘴部區(qū)域的自動定位和分割方法,并在此基礎(chǔ)上進行視頻特征的提取。 1、彩色頭肩像中人臉的檢測和定位。該文分析了人臉的特點和對算法的要求,介紹了一些常用的人臉檢測算法,同時指出他們存在的局限性,提出了一種設(shè)定參數(shù)門限的基于高斯膚色模型的人臉檢測及定位算法。在算法測試中,從實驗數(shù)據(jù)可以看出,與傳統(tǒng)的算法相比,改進的門限設(shè)定算法能夠大幅地減少運算量,使算法

3、的實時性得到較大提高,并且仍保持較好的性能。 2、基于人臉初定位的嘴部區(qū)域(ROI)定位。該文在兩種主流研究方法中,選擇了基于象素的利用統(tǒng)計理論的方法——主元分析法(PCA),提出在Cr和Gray兩種空間基于PCA的最小剩余誤差能量的ROI定位算法,并在算法中引入了受限窗掃描策略,通過實驗可以看出,這種改進后的算法,不僅盡可能地滿足了實時性的需要,而且大大改善了主元分析法對光照敏感的不足,使算法的魯棒性得到了較大的提高。

4、 3、視覺特征的提取和評價。該文在ROI準確定位的基礎(chǔ)上,通過ROI在特征子空間的投影,實現(xiàn)了視覺特征的提取,并對所提取的特征進行正確性和有效性兩方面的評價。在此,引入了相似度P作為特征準確性評價的度量值,并通過特定人孤立數(shù)字的DTW識別實驗驗證了基于以上算法提取的特征的有效性。 4、以MATLAB6.5為開發(fā)語言,對各種算法進行了實現(xiàn)與測試。實驗結(jié)果表明,該文提出的算法具有受亮度影響小,定位精度高,魯棒性好的優(yōu)點,而且對單模態(tài)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論