基于聯(lián)合因子分析的耳語音說話人識別研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、說話人識別,作為生物特征識別的重要組成部分,可廣泛應(yīng)用于公安司法、生物醫(yī)學(xué)工程、軍隊(duì)安全系統(tǒng)等領(lǐng)域。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,說話人識別技術(shù)已取得了長足的進(jìn)步。耳語發(fā)音方式是一種特殊的語音交流形式,在很多場合應(yīng)用。由于耳語音與正常音之間存在較大差異,耳語方式下說話人識別無法照搬正常音說話人識別的方法,尚有很多問題亟待解決。
  本文以與文本無關(guān)的耳語說話人識別為研究對象,進(jìn)行了較為深入的探索。耳語音說話人識別所面臨的問題主要

2、包括:耳語數(shù)據(jù)庫的不完善,對于正常語音,美國國家標(biāo)準(zhǔn)技術(shù)局給出了統(tǒng)一的數(shù)據(jù)庫資源用于開展說話人識別研究,而耳語音在這方面的資源較為匱乏;耳語音特征表達(dá)問題,耳語音由于其發(fā)音的特殊性,有些常用的特征參數(shù)無法提取,其頻譜參數(shù)的獲取較正常音也更加困難;耳語音是氣聲發(fā)音,聲級較低,較易受噪聲干擾,且耳語音往往在手機(jī)通話時(shí)使用,易受信道環(huán)境影響;同時(shí),耳語發(fā)音時(shí),受發(fā)音場所制約,情感表達(dá)受限,且發(fā)音狀態(tài)、心理因素都會產(chǎn)生一定的變化,更易受到說話人

3、心理因素、情緒及發(fā)音狀態(tài)的影響。因此,較之正常發(fā)音,耳語發(fā)音方式下說話人識別面臨的主要難點(diǎn)是:特征參數(shù)更難提取,易受說話人自身狀態(tài)影響,以及對信道變化更加敏感等。
  針對這些問題,本文開展了以下幾個(gè)方面的工作:
  1.提出了反映耳語音說話人特征的參數(shù)提取算法。耳語音無基頻、聲源特征難以體現(xiàn),作為表征聲道特性的共振峰參數(shù),其提取算法的可靠性顯得尤為重要。本文提出了基于頻譜分段的耳語音共振峰提取算法,該方法可動(dòng)態(tài)地進(jìn)行頻譜分

4、段,通過選擇性線性預(yù)測獲得濾波器參數(shù),采用并聯(lián)的逆濾波控制得到共振峰。該方法為解決因耳語發(fā)音導(dǎo)致的共振峰偏移、合并、平坦等問題提供了有效途徑。另一方面,本文依據(jù)變量統(tǒng)計(jì)里中心與平坦度可衡量信號穩(wěn)定性的特點(diǎn),結(jié)合人耳聽覺模型,提出了Bark子帶譜中心與Bark子帶譜平坦度的概念,與其他頻譜變量組成特征參數(shù)集,可有效表征耳語發(fā)音方式下說話人特征。
  2.提出了基于特征映射及說話人模型合成的非典型情緒下耳語說話人識別方法。較好地解決訓(xùn)

5、練語音與測試語音說話人情緒狀態(tài)失配的問題。由于耳語音在情緒表達(dá)方面不如正常音有效,無法明晰地進(jìn)行情感分類,本文通過耳語音說話人狀態(tài)的A、V因子分類方法,模糊其情感表達(dá)的一一對應(yīng)性,并在測試階段,作為語音信號的前端處理手段,對每一段語音進(jìn)行說話人狀態(tài)分辨,而后實(shí)現(xiàn)特征域或模型域的補(bǔ)償。實(shí)驗(yàn)表明,基于特征映射及說話人模型合成的說話人狀態(tài)補(bǔ)償方法不僅體現(xiàn)了耳語音的獨(dú)特性,更能有效提高非典型情緒下耳語音說話人識別的正確率。
  3.提出了

6、基于潛因子分析的非典型情緒下耳語說話人識別方法。為耳語說話人狀態(tài)補(bǔ)償提供了有效的途徑。因子分析不關(guān)注公共因子所代表的具體物理含義,僅是在眾多變量中找出具有代表性的因子,且可通過因子數(shù)目的增減,調(diào)節(jié)算法的復(fù)雜度。根據(jù)潛因子理論,可將耳語音特征超矢量分解為說話人超矢量與說話人狀態(tài)超矢量,通過均衡的訓(xùn)練語音分別估計(jì)說話人與說話人狀態(tài)空間,并在測試階段,對每一段語音估計(jì)其說話人因子,進(jìn)而做出判決。潛因子分析方法規(guī)避了測試環(huán)節(jié)中的說話人狀態(tài)分類,

7、相較于對分類方法有依賴性的補(bǔ)償算法,可進(jìn)一步提升耳語說話人識別率。
  4.提出了基于聯(lián)合因子分析的多信道下非典型情緒耳語音說話人識別方法。實(shí)現(xiàn)了耳語音說話人識別中的信道與說話人狀態(tài)雙重補(bǔ)償。根據(jù)聯(lián)合因子分析的基本概念,可將語音特征超矢量分解為說話人超矢量、說話人狀態(tài)超矢量以及信道超矢量。針對因耳語音訓(xùn)練數(shù)據(jù)不充分,無法同時(shí)估計(jì)出說話人、說話人狀態(tài)及信道空間的問題,用聯(lián)合因子分析方法,在獲得UBM模型后,計(jì)算語音的Baum-Wel

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論