個性化語音生成及其相關(guān)問題的研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-09 格式：pdf 頁數(shù)：111 大小：5.49MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩110頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著語音信號處理技術(shù)的日趨成熟，說話人的個性語音信息受到人們越來越多的重視。個性化語音生成指的是生成具有特定目標(biāo)說話人個性特征的語音，它有著廣泛的應(yīng)用前景:如在語音合成領(lǐng)域用于合成個性化語音;在保密通信領(lǐng)域用作說話人身份的偽裝;在醫(yī)療衛(wèi)生領(lǐng)域用于受損語音的恢復(fù)等。說話人自適應(yīng)和語音轉(zhuǎn)換可以看作個性化語音生成最常用的兩種技術(shù)，在很多情況下，說話人自適應(yīng)可以認(rèn)為是語音轉(zhuǎn)換的一種特殊情況。語音轉(zhuǎn)換指的是改變一個說話人的語音個性特征，使之具有目

2、標(biāo)說話人的語音個性特征，而語義信息保持不變的一種技術(shù)。本文主要圍繞著語音轉(zhuǎn)換的相關(guān)方法和技術(shù)展開探討，重點研究了語音頻譜特征的轉(zhuǎn)換方法，對于F0的映射方法也進(jìn)行了討論，同時，針對非對稱語音庫情況下的語音轉(zhuǎn)換也提出了切實有效的解決方案。論文的主要工作和創(chuàng)新點包括以下幾個方面:
　　首先，本論文在對基于經(jīng)典高斯混合模型方法(Gaussian Mixture Model, GMM)的語音轉(zhuǎn)換方法的研究基礎(chǔ)上，針對其存在的過擬合、不連續(xù)、

3、過平滑等問題分別提出了相應(yīng)的改進(jìn)方法。在GMM模型訓(xùn)練階段，加入了不同高斯分量之問的相似度的約束條件，提高了建模的精度，從而在一定程度上能夠提高轉(zhuǎn)換函數(shù)的準(zhǔn)確性。當(dāng)訓(xùn)練數(shù)據(jù)過少而模型復(fù)雜度較高時，會產(chǎn)生較為嚴(yán)重的過擬合問題。為了解決過擬合問題，我們提出了兩種方法:主成分回歸方法(Principal ComponentsRegression，PCR)和核主成分回歸方法(Kernel Principal Components Regress

4、ion，KPCR)。相關(guān)實驗結(jié)果分析表明:由于特征轉(zhuǎn)換是基于幀進(jìn)行的，忽略了相鄰幀之間的相關(guān)性，在很大程度上會造成轉(zhuǎn)換后語音的不連續(xù);同時，由于高斯模型的加權(quán)平均效應(yīng)會造成轉(zhuǎn)換語音頻譜的過平滑。針對這兩個問題，本文從研究后驗概率信息的角度出發(fā)，發(fā)現(xiàn)對于一幀語音頻譜特征，GMM模型的某一高斯分量總是占據(jù)主導(dǎo)地位，并且相鄰幀的最大后驗概率在不同高斯分量之間的變換是非常快速的，這在很大程度上造成了轉(zhuǎn)換語音的不連續(xù)性。針對不連續(xù)問題，本文采用自

5、適應(yīng)中值濾波對后驗概率進(jìn)行平滑;同時，針對過平滑問題，我們選擇后驗概率最高的兩個高斯分量對應(yīng)的映射函數(shù)作為轉(zhuǎn)換函數(shù)。這些算法在一定程度上解決了GMM語音轉(zhuǎn)換方法存在的過擬合、不連續(xù)和過平滑等問題，從而實現(xiàn)了提升轉(zhuǎn)換性能的目標(biāo)。
　　其次，針對頻譜特征的轉(zhuǎn)換，本文利用支持向量回歸方法(Support Vector Regression，SVR)做了深入的研究，通過SVR方法構(gòu)建了源說話人和目標(biāo)說話人之間的非線性映射關(guān)系。由于傳統(tǒng)的S

6、VR方法是針對多維輸入單維輸出的情況提出的，而本文研究的頻譜特征轉(zhuǎn)換是一種多輸入多輸出的情況，針對這一問題，我們采用了多輸出SVR方法;同時，由于單一映射很難準(zhǔn)確描述不同說話人的頻譜特征之間的關(guān)系，進(jìn)而我們提出了GMM和SVR相結(jié)合的方法;最后，針對說話人語義和個性特征分離的情況，我們做了初步的分析討論，提取低階的頻譜特征來表達(dá)語義信息，同時提取高階的頻譜特征來表示說話人個性特征，通過SVR方法建立語義和說話人個性特征之間的映射關(guān)系。實

7、驗結(jié)果表明，SVR方法能夠取得比傳統(tǒng)GMM方法更好的轉(zhuǎn)換效果，同時基于說話人語義信息和個性特征分離的語音轉(zhuǎn)換方法是可行的。
　　第三，目前的語音轉(zhuǎn)換主要是集中在頻譜特征轉(zhuǎn)換方法的研究上，但是韻律特征特別是基音頻率(F0)對語音轉(zhuǎn)換也至關(guān)重要。本文圍繞著F0轉(zhuǎn)換這一話題進(jìn)行了討論與研究，詳細(xì)分析了目前幾種主要的FO轉(zhuǎn)換方法。我們從頻譜特征和F0相關(guān)性的角度出發(fā)，提出通過轉(zhuǎn)換后的頻譜特征對F0進(jìn)行預(yù)測;同時，為了進(jìn)一步提升F0轉(zhuǎn)換的準(zhǔn)

8、確度，進(jìn)一步提出了F0預(yù)測和高斯歸一化方法相融合的轉(zhuǎn)換方法。本算法在主客觀實驗中都取得了比傳統(tǒng)高斯歸一化和GMM等方法更好的效果。
　　最后，現(xiàn)實條件下對稱語音數(shù)據(jù)很難錄制和直接獲取，在這種情況下，傳統(tǒng)的語音轉(zhuǎn)換方法很難直接運用。針對這一問題，我們首先提出了一種基于說話人模型對齊的語音轉(zhuǎn)換方法，在這種方法里，通過對說話人模型分量進(jìn)行迭代對齊來訓(xùn)練得到頻譜特征轉(zhuǎn)換函數(shù)，取得了明顯優(yōu)于傳統(tǒng)INCA語音轉(zhuǎn)換方法的效果。同時，目前的語音轉(zhuǎn)

9、換方法需要大量的源說話人和目標(biāo)說話人的語音數(shù)據(jù)，在實際情況中大量的對稱語音數(shù)據(jù)很難獲取，針對這一情況，受到說話人識別中自適應(yīng)思想的啟發(fā)，本文提出了基于模型自適應(yīng)技術(shù)的語音轉(zhuǎn)換方法。在這種方法里，首先訓(xùn)練得到背景說話人模型，然后通過MAP自適應(yīng)方法分別自適應(yīng)訓(xùn)練得到源說話人和目標(biāo)說話人的模型，接著利用自適應(yīng)說話人模型的均值和協(xié)方差等模型參數(shù)，分別提出了基于高斯歸一化和模型均值映射的頻譜特征轉(zhuǎn)換方法。為了進(jìn)一步提高轉(zhuǎn)換函數(shù)的準(zhǔn)確度，進(jìn)而提出

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

個性化語音生成及其相關(guān)問題的研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

個性化語音生成及其相關(guān)問題的研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載