2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩130頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、自然人機交互技術是當前計算機應用技術研究的重要方向。語音識別是實現(xiàn)人機交互的重要途徑,而語音的情感識別對于實現(xiàn)人機的自然交互更是至關重要。近年來隨著心理學、生理學、神經(jīng)科學和計算機技術及與之相關的模式識別技術的發(fā)展,情感計算,特別是語音的情感識別研究,作為計算機科學的一個重要領域在理論和應用上都取得了長足進步。在情感的定義與分類、情感關聯(lián)的聲學特征及相關的分類模型研究上提出了不同的技術和方法,發(fā)展了多個語種的情感識別研究,初步建立起語音

2、情感識別的框架體系。但隨著人們對語音情感識別的要求越來越高,各種情感識別方面的應用需求提上日程,目前現(xiàn)有的技術與方法已經(jīng)不能滿足需求,特別是漢語普通話語音情感識別的研究相對較少,這就需要我們加快工作步伐,填補這方面的空白。 普通話語音的情感識別技術目前主要面臨四大關鍵技術問題:普通話語音情感語料庫問題,亟待建立一個在數(shù)量、質量、管理和多樣性等方面滿足研究要求的普通話情感語音庫;情感的聲學關聯(lián)特征問題,尋求一組抗干擾能力強,與情感

3、狀態(tài)緊密相關的聲學特征向量;小樣本問題,減少由于說話人和文本差異帶來的對情感聲學特征的干擾,減小情感特征的類內(nèi)距離,提高情感識別率;特征向量的高維問題,經(jīng)過特征選擇或降維,選出最具有情感區(qū)別力的聲學特征,提高分類器泛化能力。 本文以下一代自然人機交互為應用背景,系統(tǒng)分析研究了語音情感識別,特別是普通話語音情感識別的特點及存在的問題;在建立一個擴展性與應用能力良好的普通話情感語音數(shù)據(jù)庫基礎上,提出以特征選擇、相對特征和情感焦點為核

4、心的新的語音情感識別技術。本文的主要研究內(nèi)容概括如下: (1)普通話情感語音數(shù)據(jù)庫。由于普通話情感語音研究剛剛起步,有關建立普通話情感語音數(shù)據(jù)庫的技術、經(jīng)驗和方法都較少。為了研究的需要,本文建立了一個普通話情感語音數(shù)據(jù)庫,用錄音法和剪輯法共采集1376句情感語音,分憤怒、害怕、高興、中性和悲傷5個情感類別。數(shù)據(jù)庫還存儲了各情感語音的基頻、能量、時長和共振峰等韻律學及音質相關的聲學特征。 (2)聲學特征分析與選擇。情感的聲

5、學關聯(lián)特征是語音情感識別的關鍵之一。本文在普通話情感語音數(shù)據(jù)庫的基礎上,分析韻律學特征和共振峰特征在不同情感狀態(tài)下的靜態(tài)規(guī)律,以及在情感狀態(tài)轉變時的動態(tài)規(guī)律。同時,進行特征選擇和大規(guī)模的統(tǒng)計實驗,確定了特征向量在情感識別領域各種情況下的最優(yōu)配置。 (3)模式分類器研究。在對現(xiàn)有語音情感識別領域常用分類器進行分析的基礎上,本文選擇神經(jīng)網(wǎng)絡為主要分類器,詳細探討了它的原理、結構,及其在普通話語音情感識別中的運用。根據(jù)說話人和文本的異

6、同,設計了4種訓練和測試樣本組織方式,在神經(jīng)網(wǎng)絡分類器下進行情感識別實驗,分析說話人與文本差異對情感識別的影響,并對兩種結構的神經(jīng)網(wǎng)絡模型進行性能優(yōu)化分析。最后比較了神經(jīng)網(wǎng)絡與SVM和KNN等分類器的識別性能。 (4)相對特征研究。針對說話人差異對語音情感識別的影響,本文提出了相對識別方法,用相對特征對說話人準相關和說話人無關兩組語音進行情感識別的實驗,并將結果與絕對特征作了比較。結果表明在說話人無關情況下,相對特征比絕對特征的

7、平均識別率提高了約40個百分點。本文還對相對特征和絕對特征的性能差異、適用范圍和易用性進行了分析比較。 (5)情感焦點研究。針對文本差異對情感識別的影響,本文分析了情感語音全局特征的缺點,提出以神經(jīng)網(wǎng)絡為分類器,以分段訓練和分段測試為樣本重組方式,以投票制為最終決策機制的嶄新識別方法。在此基礎上,本文提出情感焦點理論,用情感焦點的方法篩選參與投票的語段,最終使得平均識別率比使用全局特征時提高了13個百分點。 此外,本文還

8、介紹了采用神經(jīng)網(wǎng)絡和特征選擇等技術開發(fā)的一個普通話語音情感識別的原型系統(tǒng):EmEars。經(jīng)過實驗測試,并與人類識別性能進行比較,可以得出結論:在說話人無關,且文本無關情況下,EmEars的情感識別能力遠低于人類;但在說話人相關,且文本相關情況下,EmEars的情感識別能力有大幅提高,甚至超過人類。 本文的貢獻和創(chuàng)新點歸納起來主要有以下三大方面: (1)普通話情感語音數(shù)據(jù)庫的建立為普通話情感語音的錄制、情感狀態(tài)的引導、文本

9、選擇和語音情感質量的評測等方面提供了一系列有效的方法,為國內(nèi)同行的普通話語音情感識別研究,提供一個具有可比性的實驗樣本數(shù)據(jù)平臺。 (2)由于語種的差別,西方語系的情感語音聲學特征分析與選擇的研究成果不能完全適用于普通話情感語音。本文對普通話情感語音的此項研究填補了這方面的空白,同時它也為普通話的情感語音合成提供了參考。本文提出的特征選擇研究方案首次對情感類別、聲學特征種類、聲學特征個數(shù)以及訓練樣本數(shù)量之間的關系進行了定量分析,為

10、尋求特征在種類、數(shù)量和識別類型上的最優(yōu)配置,提供了有效方法。 (3)本文用實驗方法證實了說話人和文本差異對語音情感識別的嚴重干擾。為解決此技術難點,本文從分析人類的語音情感識別機制入手,提出基于相對特征和情感焦點的新方法。它們能有效減少由于發(fā)聲系統(tǒng)和文本差異造成的類內(nèi)距離增大的不良影響,顯著提高語音情感識別率。為進一步探明人類的語音情感識別機制,實現(xiàn)實時的語音情感識別提供了良好的思路。 本文的研究成果不但豐富了語音情感識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論