提高唇讀理解的關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、唇讀為人機(jī)自然交互和生物特征識(shí)別提供了一種新的途徑,本文主要針對單獨(dú)視覺通道唇讀,重點(diǎn)研究為提高唇讀理解的關(guān)鍵技術(shù)中的特征提取和語言模型問題。
  在唇區(qū)檢測與定位方面簡要介紹了自適應(yīng)色度濾波模型,該模型通過對人臉區(qū)域的實(shí)時(shí)分析,自適應(yīng)的找到唇色與膚色的聚類范圍,從而修正唇色模型,提高了系統(tǒng)的魯棒性和實(shí)用性。同時(shí)介紹了基于色度空間的Mean-Shift聚類算法,取得了滿意的結(jié)果。
  特征提取在唇讀中具有核心地位,目標(biāo)就是得

2、到低維、低冗余度且具代表意義的特征向量。本文主要研究基于像素的特征提取方法,提出一個(gè)級(jí)聯(lián)的特征提取流程,首先對圖像采用相應(yīng)的變換,然后對變換結(jié)果降維,最后進(jìn)行特征歸一化?;趯追N變換方法的比較與分析,提出利用KL對DCT和Gabor小波變換結(jié)果降維的DCT-KL和Gabor-KL方法,最優(yōu)識(shí)別率分別能達(dá)到77.4%和77.9%,與直接選擇變換系數(shù)的方法相比識(shí)別率提高了約10%。
  在唇讀訓(xùn)練和識(shí)別方面,利用半連續(xù)HMM模型對數(shù)

3、據(jù)庫中200個(gè)句子包括96個(gè)音進(jìn)行訓(xùn)練和識(shí)別。對模型在唇讀識(shí)別應(yīng)用中的一些具體問題進(jìn)行了探討,建立了適合唇讀的HMM模型。
  語言模型作為唇讀的后處理模塊,將直接影響唇讀的識(shí)別率,本文提出統(tǒng)計(jì)語言模型在唇讀中的兩個(gè)應(yīng)用,并給出相應(yīng)的數(shù)學(xué)模型和算法。一是輔助唇讀識(shí)別,利用HMM識(shí)別概率結(jié)合語言模型的統(tǒng)計(jì)概率進(jìn)行識(shí)別,拼音識(shí)別率提高5%達(dá)到82.4%,句子識(shí)別率提高約20%達(dá)到51%;二是進(jìn)行音字轉(zhuǎn)換,解決同音字的問題,在拼音識(shí)別率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論