版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著語(yǔ)音信號(hào)處理技術(shù)的日趨成熟,說(shuō)話人的個(gè)性語(yǔ)音信息受到人們?cè)絹?lái)越多的重視。個(gè)性化語(yǔ)音生成指的是生成具有特定目標(biāo)說(shuō)話人個(gè)性特征的語(yǔ)音,它有著廣泛的應(yīng)用前景:如在語(yǔ)音合成領(lǐng)域用于合成個(gè)性化語(yǔ)音;在保密通信領(lǐng)域用作說(shuō)話人身份的偽裝;在醫(yī)療衛(wèi)生領(lǐng)域用于受損語(yǔ)音的恢復(fù)等。說(shuō)話人自適應(yīng)和語(yǔ)音轉(zhuǎn)換可以看作個(gè)性化語(yǔ)音生成最常用的兩種技術(shù),在很多情況下,說(shuō)話人自適應(yīng)可以認(rèn)為是語(yǔ)音轉(zhuǎn)換的一種特殊情況。語(yǔ)音轉(zhuǎn)換指的是改變一個(gè)說(shuō)話人的語(yǔ)音個(gè)性特征,使之具有目
2、標(biāo)說(shuō)話人的語(yǔ)音個(gè)性特征,而語(yǔ)義信息保持不變的一種技術(shù)。本文主要圍繞著語(yǔ)音轉(zhuǎn)換的相關(guān)方法和技術(shù)展開(kāi)探討,重點(diǎn)研究了語(yǔ)音頻譜特征的轉(zhuǎn)換方法,對(duì)于F0的映射方法也進(jìn)行了討論,同時(shí),針對(duì)非對(duì)稱(chēng)語(yǔ)音庫(kù)情況下的語(yǔ)音轉(zhuǎn)換也提出了切實(shí)有效的解決方案。論文的主要工作和創(chuàng)新點(diǎn)包括以下幾個(gè)方面:
首先,本論文在對(duì)基于經(jīng)典高斯混合模型方法(Gaussian Mixture Model, GMM)的語(yǔ)音轉(zhuǎn)換方法的研究基礎(chǔ)上,針對(duì)其存在的過(guò)擬合、不連續(xù)、
3、過(guò)平滑等問(wèn)題分別提出了相應(yīng)的改進(jìn)方法。在GMM模型訓(xùn)練階段,加入了不同高斯分量之問(wèn)的相似度的約束條件,提高了建模的精度,從而在一定程度上能夠提高轉(zhuǎn)換函數(shù)的準(zhǔn)確性。當(dāng)訓(xùn)練數(shù)據(jù)過(guò)少而模型復(fù)雜度較高時(shí),會(huì)產(chǎn)生較為嚴(yán)重的過(guò)擬合問(wèn)題。為了解決過(guò)擬合問(wèn)題,我們提出了兩種方法:主成分回歸方法(Principal ComponentsRegression,PCR)和核主成分回歸方法(Kernel Principal Components Regress
4、ion,KPCR)。相關(guān)實(shí)驗(yàn)結(jié)果分析表明:由于特征轉(zhuǎn)換是基于幀進(jìn)行的,忽略了相鄰幀之間的相關(guān)性,在很大程度上會(huì)造成轉(zhuǎn)換后語(yǔ)音的不連續(xù);同時(shí),由于高斯模型的加權(quán)平均效應(yīng)會(huì)造成轉(zhuǎn)換語(yǔ)音頻譜的過(guò)平滑。針對(duì)這兩個(gè)問(wèn)題,本文從研究后驗(yàn)概率信息的角度出發(fā),發(fā)現(xiàn)對(duì)于一幀語(yǔ)音頻譜特征,GMM模型的某一高斯分量總是占據(jù)主導(dǎo)地位,并且相鄰幀的最大后驗(yàn)概率在不同高斯分量之間的變換是非??焖俚?,這在很大程度上造成了轉(zhuǎn)換語(yǔ)音的不連續(xù)性。針對(duì)不連續(xù)問(wèn)題,本文采用自
5、適應(yīng)中值濾波對(duì)后驗(yàn)概率進(jìn)行平滑;同時(shí),針對(duì)過(guò)平滑問(wèn)題,我們選擇后驗(yàn)概率最高的兩個(gè)高斯分量對(duì)應(yīng)的映射函數(shù)作為轉(zhuǎn)換函數(shù)。這些算法在一定程度上解決了GMM語(yǔ)音轉(zhuǎn)換方法存在的過(guò)擬合、不連續(xù)和過(guò)平滑等問(wèn)題,從而實(shí)現(xiàn)了提升轉(zhuǎn)換性能的目標(biāo)。
其次,針對(duì)頻譜特征的轉(zhuǎn)換,本文利用支持向量回歸方法(Support Vector Regression,SVR)做了深入的研究,通過(guò)SVR方法構(gòu)建了源說(shuō)話人和目標(biāo)說(shuō)話人之間的非線性映射關(guān)系。由于傳統(tǒng)的S
6、VR方法是針對(duì)多維輸入單維輸出的情況提出的,而本文研究的頻譜特征轉(zhuǎn)換是一種多輸入多輸出的情況,針對(duì)這一問(wèn)題,我們采用了多輸出SVR方法;同時(shí),由于單一映射很難準(zhǔn)確描述不同說(shuō)話人的頻譜特征之間的關(guān)系,進(jìn)而我們提出了GMM和SVR相結(jié)合的方法;最后,針對(duì)說(shuō)話人語(yǔ)義和個(gè)性特征分離的情況,我們做了初步的分析討論,提取低階的頻譜特征來(lái)表達(dá)語(yǔ)義信息,同時(shí)提取高階的頻譜特征來(lái)表示說(shuō)話人個(gè)性特征,通過(guò)SVR方法建立語(yǔ)義和說(shuō)話人個(gè)性特征之間的映射關(guān)系。實(shí)
7、驗(yàn)結(jié)果表明,SVR方法能夠取得比傳統(tǒng)GMM方法更好的轉(zhuǎn)換效果,同時(shí)基于說(shuō)話人語(yǔ)義信息和個(gè)性特征分離的語(yǔ)音轉(zhuǎn)換方法是可行的。
第三,目前的語(yǔ)音轉(zhuǎn)換主要是集中在頻譜特征轉(zhuǎn)換方法的研究上,但是韻律特征特別是基音頻率(F0)對(duì)語(yǔ)音轉(zhuǎn)換也至關(guān)重要。本文圍繞著F0轉(zhuǎn)換這一話題進(jìn)行了討論與研究,詳細(xì)分析了目前幾種主要的FO轉(zhuǎn)換方法。我們從頻譜特征和F0相關(guān)性的角度出發(fā),提出通過(guò)轉(zhuǎn)換后的頻譜特征對(duì)F0進(jìn)行預(yù)測(cè);同時(shí),為了進(jìn)一步提升F0轉(zhuǎn)換的準(zhǔn)
8、確度,進(jìn)一步提出了F0預(yù)測(cè)和高斯歸一化方法相融合的轉(zhuǎn)換方法。本算法在主客觀實(shí)驗(yàn)中都取得了比傳統(tǒng)高斯歸一化和GMM等方法更好的效果。
最后,現(xiàn)實(shí)條件下對(duì)稱(chēng)語(yǔ)音數(shù)據(jù)很難錄制和直接獲取,在這種情況下,傳統(tǒng)的語(yǔ)音轉(zhuǎn)換方法很難直接運(yùn)用。針對(duì)這一問(wèn)題,我們首先提出了一種基于說(shuō)話人模型對(duì)齊的語(yǔ)音轉(zhuǎn)換方法,在這種方法里,通過(guò)對(duì)說(shuō)話人模型分量進(jìn)行迭代對(duì)齊來(lái)訓(xùn)練得到頻譜特征轉(zhuǎn)換函數(shù),取得了明顯優(yōu)于傳統(tǒng)INCA語(yǔ)音轉(zhuǎn)換方法的效果。同時(shí),目前的語(yǔ)音轉(zhuǎn)
9、換方法需要大量的源說(shuō)話人和目標(biāo)說(shuō)話人的語(yǔ)音數(shù)據(jù),在實(shí)際情況中大量的對(duì)稱(chēng)語(yǔ)音數(shù)據(jù)很難獲取,針對(duì)這一情況,受到說(shuō)話人識(shí)別中自適應(yīng)思想的啟發(fā),本文提出了基于模型自適應(yīng)技術(shù)的語(yǔ)音轉(zhuǎn)換方法。在這種方法里,首先訓(xùn)練得到背景說(shuō)話人模型,然后通過(guò)MAP自適應(yīng)方法分別自適應(yīng)訓(xùn)練得到源說(shuō)話人和目標(biāo)說(shuō)話人的模型,接著利用自適應(yīng)說(shuō)話人模型的均值和協(xié)方差等模型參數(shù),分別提出了基于高斯歸一化和模型均值映射的頻譜特征轉(zhuǎn)換方法。為了進(jìn)一步提高轉(zhuǎn)換函數(shù)的準(zhǔn)確度,進(jìn)而提出
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)性化語(yǔ)音生成研究.pdf
- 個(gè)性化語(yǔ)音合成的研究與實(shí)現(xiàn).pdf
- 智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究.pdf
- 個(gè)性化動(dòng)態(tài)數(shù)字服裝人體生成技術(shù)的研究.pdf
- 基于HTK的個(gè)性化語(yǔ)音合成研究與實(shí)現(xiàn).pdf
- “非個(gè)性化理論”問(wèn)題研究.pdf
- 個(gè)性化閱讀及其教學(xué).pdf
- 格律詩(shī)與個(gè)性化對(duì)聯(lián)輔助生成研究.pdf
- 個(gè)性化頭相關(guān)傳遞函數(shù)研究.pdf
- Q值引導(dǎo)個(gè)性化LASIK的相關(guān)研究.pdf
- 基于標(biāo)簽譜聚類(lèi)的個(gè)性化推薦策略相關(guān)問(wèn)題研究.pdf
- 基于微博的個(gè)性化推薦問(wèn)題研究.pdf
- 個(gè)性化定制下的生產(chǎn)調(diào)度問(wèn)題研究.pdf
- 關(guān)于環(huán)境藝術(shù)設(shè)計(jì)及其個(gè)性化的相關(guān)探討
- 個(gè)性化搜索中隱私保護(hù)的問(wèn)題研究.pdf
- 基于標(biāo)簽的個(gè)性化信息推薦問(wèn)題研究.pdf
- 個(gè)性化閱讀及其教學(xué)建構(gòu).pdf
- 論汽車(chē)外形的個(gè)性化--產(chǎn)品外形的個(gè)性化設(shè)計(jì)研究.pdf
- 個(gè)性化選擇與個(gè)性化學(xué)習(xí)
- 個(gè)性化教學(xué)設(shè)計(jì)自動(dòng)生成工具的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論