說話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩104頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語音是人類獲取信息的主要來源之一,也是最方便、最有效、最自然的交流工具。語音識(shí)別是研究使機(jī)器能準(zhǔn)確地聽出人的語音內(nèi)容的問題,其目的是方便人與機(jī)器的交流。說話人識(shí)別技術(shù)是語音識(shí)別的一種特殊形式,其目的不是識(shí)別說話人講的內(nèi)容,而是識(shí)別說話人是誰。說話人識(shí)別技術(shù)在近三十多年的時(shí)間里取得了很大的進(jìn)步,這種技術(shù)的應(yīng)用為人類的日常生活帶來很大的便利。但是,隨著說話人識(shí)別技術(shù)實(shí)用化的不斷深入,不同應(yīng)用領(lǐng)域?qū)υ摷夹g(shù)的要求越來越高。一方面,說話人發(fā)音的多

2、變性,要求提取適合說話人識(shí)別的特征以保證系統(tǒng)的性能;另一方面,噪聲環(huán)境、訓(xùn)練與測(cè)試數(shù)據(jù)的時(shí)長(zhǎng)以及通信信道的失真等問題都嚴(yán)重影響到說話人識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的性能。本論文針對(duì)文本無關(guān)的說話人辨認(rèn)任務(wù),在說話人個(gè)性特征提取和噪聲魯棒性技術(shù)兩個(gè)方面進(jìn)行了研究,主要內(nèi)容包括:
   1.提出基于特征變換和模糊最小二乘支持向量機(jī)的辨認(rèn)算法。針對(duì)最小二乘支持向量機(jī)模型在語音數(shù)據(jù)大樣本輸入下的局限性,一方面對(duì)傳統(tǒng)的梅爾倒譜特征MFCC進(jìn)行基于

3、高斯混合模型的特征變換,解決訓(xùn)練最小二乘支持向量機(jī)的過程中需要求解的線性方程組的變量數(shù)目與特征數(shù)量緊密相關(guān)的問題;另一方面,通過引入模糊隸屬度函數(shù),處理了最小二乘支持向量機(jī)從二分類擴(kuò)展到說話人辨認(rèn)的多分類時(shí)存在的不可分?jǐn)?shù)據(jù)問題。高斯混合模型作為一種經(jīng)典的生成式模型,不但能有效減少數(shù)據(jù)量,起到壓縮數(shù)據(jù)的作用,而且由于聚類變換后的結(jié)果是高斯混合模型的均值矢量集,能夠很好地代表說話人的特征,起到突出說話人信息的作用?;谔卣髯儞Q和模糊最小二乘

4、支持向量機(jī)的辨認(rèn)算法結(jié)合了高斯混合模型在擬合數(shù)據(jù)方面的優(yōu)勢(shì)和最小二乘支持向量機(jī)在分類辨別方面的優(yōu)勢(shì),從而改善系統(tǒng)系統(tǒng)的性能。
   2.提出基于高斯混合模型的感知特征補(bǔ)償變換的抗噪聲算法。從人類聽覺感知特性出發(fā),基于感知線性預(yù)測(cè)模型從不同層次模擬了人耳的聽覺特性,從語音的頻譜細(xì)節(jié)考慮,去除了會(huì)引起說話人信息平滑的臨界帶頻譜分析,提取改進(jìn)的感知對(duì)數(shù)面積比系數(shù)MPLAR作為說話人特征,具有良好的可分性;并在此基礎(chǔ)上,根據(jù)說話人識(shí)別的

5、聲學(xué)特性,從匹配得分的整體考慮,對(duì)模型輸出的似然得分引入非線性變換,拉大目標(biāo)模型與非目標(biāo)模型的得分比,拉近同一模型各幀得分值,使得各模型的得分值不僅與當(dāng)前時(shí)刻的似然概率有關(guān),還與之前的K個(gè)時(shí)刻的似然概率有關(guān),解決了MPLAR在不同類型噪聲條件下的抗噪性能問題?;诟兄卣骱湍P脱a(bǔ)償?shù)恼f話人辨認(rèn)算法不僅提供了可分性更好的特征,并且在模型匹配階段從整體得分的統(tǒng)計(jì)特性出發(fā),得到穩(wěn)定的模型得分,增強(qiáng)了系統(tǒng)在噪聲環(huán)境下的識(shí)別能力。
  

6、3.提出基于自適應(yīng)頻率規(guī)整的魯棒性辨認(rèn)算法。經(jīng)典的梅爾倒譜特征和感知線性預(yù)測(cè)特征從人類的聽覺感知機(jī)理出發(fā),模擬了人類聽覺系統(tǒng)對(duì)聲音頻率的感知特性,改進(jìn)了說話人的識(shí)別性能,但是這種處理方式并沒有對(duì)語義特征和說話人個(gè)性特征區(qū)別對(duì)待,而是在特征提取階段籠統(tǒng)地降低了高頻信息的比重。自適應(yīng)頻率規(guī)整算法是基于說話人信息在不同頻帶呈不均勻分布的原理,從語音生成的生理學(xué)角度分析人類在發(fā)音過程中的結(jié)構(gòu)變化,從中獲取攜帶說話人信息的生理特征,進(jìn)而從頻譜分析

7、的層次對(duì)不同頻帶對(duì)說話人信息的貢獻(xiàn)進(jìn)行量化,指導(dǎo)設(shè)計(jì)了與Mel頻率尺度不同的自適應(yīng)頻率尺度變換,在說話人信息貢獻(xiàn)大的區(qū)域分配的濾波器個(gè)數(shù)增多,帶寬變小,頻率分辨率提高,而貢獻(xiàn)小的區(qū)域分配的濾波器個(gè)數(shù)減少,帶寬變大,頻率分辨率降低,從而進(jìn)行自適應(yīng)的頻譜濾波,提取區(qū)分性特征DFCC。并且針對(duì)應(yīng)用到實(shí)際使用環(huán)境時(shí)存在的訓(xùn)練語音與測(cè)試語音失配的問題,對(duì)語音頻譜進(jìn)行逐幀逐頻率點(diǎn)的預(yù)增強(qiáng)處理,去除噪聲的干擾,進(jìn)一步提高系統(tǒng)的魯棒性。
  

8、4.提出基于漢語元音映射的說話人辨認(rèn)方法。該方法從漢語語音的特點(diǎn)出發(fā),對(duì)基于漢語的說話人識(shí)別進(jìn)行研究。由于漢語具有相對(duì)穩(wěn)定的音節(jié)結(jié)構(gòu),并且其中的元音部分占據(jù)了主要的能量和時(shí)長(zhǎng),基于此,從漢語語音的特點(diǎn)出發(fā),對(duì)漢語拼音的結(jié)構(gòu)、發(fā)音特點(diǎn)進(jìn)行分析,并且通過元音頻譜對(duì)比、音素滑動(dòng)分析、韻母分解實(shí)驗(yàn)和共振峰分析等,從短時(shí)幀角度將韻母中的元音部分分解為單元音音素的組合,結(jié)合大量語音學(xué)知識(shí)構(gòu)建了漢語元音映射表,通過漢語元音映射,能夠有效地分離語音信號(hào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論