一種基于matlab的特定聲音識別算法的研究【畢業(yè)設計+開題報告+文獻綜述】

上傳人：奔*** IP屬地：河北更新時間：2024-11-03 格式：doc 頁數(shù)：58 大?。?.08MB 人氣指數(shù)：12 舉報 版權申訴

一種基于matlab的特定聲音識別算法的研究【畢業(yè)設計+開題報告+文獻綜述】_第1頁

已閱讀1頁，還剩57頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、　　本科畢業(yè)設計(論文)　?。ǘ?屆）　　一種基于MATLAB的特定聲音識別算法的研究　　所在學院 　　專業(yè)班級電氣工程及其自動化 &l

2、t;/p>　　學生姓名學號 　　指導教師職稱 　　完成日期年月 　　摘要<p&

3、gt;　　語音信號處理研究分為語音識別、語音合成、語音編碼和聲紋識別四大分支。聲紋識別備受人們關注, 聲紋識別簡單來說就是通過一句話來判斷是誰說的。其中的說話人辨識領域廣泛應用于刑偵破案、罪犯跟蹤、國防監(jiān)聽、個性化領域等；特定聲音識別指特征特別的聲音，槍聲，玻璃聲，呼救聲就屬于這一類。通過研究上述三種典型的特定聲音，提取相關語音參數(shù)，通過三種特定聲音參數(shù)之間的對比，辨識出特定聲音，達到本論文的要求。主要內容有：語音識別概述語音相關原理

4、概述提取語音，語譜分析，特征提取，訓練數(shù)據(jù)，短時能量等。編制MATLAB編程環(huán)境，以提高語音識別效率。經(jīng)過設計是在MATLAB的編譯環(huán)境下，試驗結果表明：該方案旨在滿足特定聲音識別的基本要求。　　關鍵詞語音識別聲紋識別 MATLAB 特征值特定聲音　　MATLAB-based voice recognition algorithm for a p

5、articular　　Abstract　　Speech signal processing research into speech recognition, speech synthesis, speech coding and acoustic pattern recognition four branches.

6、 Voiceprint identification much attention, voiceprint identification is simply through the sentence to determine who said it. Speaker identification which is widely used in the field of forensic detection, tracking crimi

7、nals, monitoring of national defense, individual fields, etc.; specific features of voice recognition that particular sound, guns, glass sound　　目錄　　摘

8、要I　　AbstractIV　　1 緒論1　　1.1 本課題來源及研究任務1　　1.2 國內外相關技術發(fā)展及動態(tài)1　　1.2.1國外研究歷史及現(xiàn)狀1<

9、/p>　　1.2.2 國內研究歷史及現(xiàn)狀3　　1.3 特定聲音識別技術的發(fā)展4　　1.4語音識別系統(tǒng)的分類4　　1.5特定聲音識別的研究方法5　　1.6 本論文內容安排5　　2 特定語音信號

10、的原理7　　2.1 基于MATLAB的特定語音信號時域特征分析7　　2.2基于MATLAB的語音信號頻域特征分析12　　2.3基于MATLAB的語音信號線性預測分析15　　3 特定聲音MATLAB的實現(xiàn)和仿真23　　3.

11、1基于MATLAB的語音信號采集23　　3.2基于MATLAB的語音信號時域分析23　　3.3基于MATLAB的語音信號頻域分析28　　4特定聲音辨識31　　4.1原始波形圖31　　4.2語譜圖32&

12、lt;/b>　　4.3 倒譜系數(shù)33　　4.4 短時譜34　　5結論36　　致謝錯誤!未定義書簽。　　參考文獻37<b&

13、gt;　　附錄38　　1 緒論　　1.1 本課題來源及研究任務　　語音識別方法大致可分為基于說話人的語音識別方法、基于說話內容的語音識別方法、基于統(tǒng)計的語音識別方法和基于網(wǎng)絡的語音識別方法。數(shù)字語音信號處理是將數(shù)字信號處理與語音學相結合，解決現(xiàn)代通

14、信領域中人與人、人與機器之間的信息交流的學科。　　近幾年來語音信號處理學科在世界范圍內已取得了飛速的發(fā)展。與其他生物識別技術，諸如指紋識別、虹膜識別等相比較，特定聲音識別技術具有不會遺忘，無需記憶、使用方便等優(yōu)點，還具有以下的特性：　　用戶接受的程度高，由于不涉及個人的隱私問題，用戶沒任何心理障礙。更為簡便、準確經(jīng)濟及可擴展性良好等眾多優(yōu)勢，特別是電信網(wǎng)

15、絡的身份識別。　　特定聲音識別技術在SR技術上，可以利用人本身的生物特性進行身份鑒別，例如為公安部門進行語音驗證、為一般用戶提供防盜門開啟功能等等。在互聯(lián)網(wǎng)和通信領域中，SR技術可以應用于諸如聲音撥號、電話銀行、電話購物、數(shù)據(jù)庫訪問等等眾多領域。在呼叫中心應用上，SR技術同樣可以提供更加個性化式對呼叫的人機交互界面。當顧客通過電話的方式對呼叫中心發(fā)出請求，系統(tǒng)能夠根據(jù)話音判斷出身份，從而提供個性

16、化的服務。　　本課題的主要任務是利用MATLAB軟件進行特定聲音識別的辨識。給出三種特定聲音槍聲、玻璃破碎聲音和呼救聲，利用MATLAB仿真，辨識出這三種特定的聲音。　　1.2 國內外相關技術發(fā)展及動態(tài)　　1.2.1國外研究歷史及現(xiàn)狀　　隨著計算機的發(fā)明問世，語音識別的研

17、究得到了迅速的發(fā)展。自1959年第一個用軟件實現(xiàn)的英語十音素識別系統(tǒng)的完成，至今已有三十多年歷史。共歷程頗多艱辛和曲折[1]。　　語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統(tǒng)，它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。 　　但真正取得實質性進展，并將其作為一個重要的課題開展研究則是在60年代末70年代初。這首

18、先是因為計算機技術的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能，更重要的是語音信號線性預測編碼（LPC）技術和動態(tài)時間規(guī)整（DTW）技術的提出，有效的解決了語音信號的特征提取和不等長匹配問題。這一時期的語音識別主要基于模板匹配原理，研究的領域局限在特定人，小詞匯表的孤立詞識別，實現(xiàn)了基于線性預測倒譜和DTW技術的特定人孤立詞語音識別系統(tǒng)；同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

19、;　　隨著應用領域的擴大，小詞匯表、特定人、孤立詞等這些對語音識別的約束條件需要放寬，與此同時也帶來了許多新的問題：第一，詞匯表的擴大使得模板的選取和建立發(fā)生困難；第二，連續(xù)語音中，各個音素、音節(jié)以及詞之間沒有明顯的邊界，各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音（Co-articulation）現(xiàn)象；第三，非特定人識別時，不同的人說相同的話相應的聲學特征有很大的差異，即使相同的人在不同的時間、生理、心理狀態(tài)下，說同樣內容的話也會有很大

20、的差異；第四，識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。 　　實驗室語音識別研究的巨大突破產(chǎn)生于20世紀80年代末：人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙，第一次把這三個特性都集成在一個系統(tǒng)中，比較典型的是卡耐基梅隆大學(CarnegieMellonUniversity)的Sphinx系統(tǒng)，它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。 &

21、lt;/p>　　這一時期，語音識別研究進一步走向深入，其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)在語音識別中的成功應用。HMM模型的廣泛應用應歸功于AT&TBell實驗室Rabiner等科學家的努力，他們把原本艱澀的HMM純數(shù)學模型工程化，從而為更多研究者了解和認識，從而使統(tǒng)計方法成為了語音識別技術的主流。 　　統(tǒng)計方法將研究者的視線從微觀轉向宏觀，不再

22、刻意追求語音特征的細化，而是更多地從整體平均（統(tǒng)計）的角度來建立最佳的語音識別系統(tǒng)。在聲學模型方面，以Markov鏈為基礎的語音序列建模方法HMM（隱式Markov鏈）比較有效地解決了語音信號短時穩(wěn)定、長時時變的特性，并且能根據(jù)一些基本建模單元構造成連續(xù)語音的句子模型，達到了比較高的建模精度和建模靈活性。在語言層面上，通過統(tǒng)計真實大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計模型來區(qū)分識別帶來的模糊音和同音詞。另外，人工神經(jīng)網(wǎng)絡方法、基于文法規(guī)則

23、的語言處理機制等也在語音識別中得到了應用。 　　20世紀90年代前期，許多著名的大公司如IBM、蘋果、AT＆T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術有一個很好的評估機制，那就是識別的準確率，而這項指標在20世紀90年代中后期實驗室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,N

24、uance公司的NuanceVoicePlatform語音平臺，Microsoft的Whisper,Sun的VoiceTone等。 　　其中IBM公司于1997年開發(fā)出漢語ViaVoice語音識別系統(tǒng)，次年又開發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice'98。它帶有一個32,000詞的基本詞匯表，可以擴展到65,000詞,還包括辦公常用詞條，具有“糾錯機制

25、”，其平均識別率可以達到95%。該系統(tǒng)對新聞語音識別具有較高的精度，是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。　　1.2.2 國內研究歷史及現(xiàn)狀　　我國語音識別研究工作起步于五十年代，但近年來發(fā)展很快。研究水平也從實驗室逐步走向實用。從1987年開始執(zhí)行國家863計劃后，國家863智能計算機專家組為語音識別技術研究專門立項，每兩年滾動一次。我國語音識別技

26、術的研究水平已經(jīng)基本上與國外同步，在漢語語音識別技術上還有自己的特點與優(yōu)勢，并達到國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業(yè)大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究，其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。 　　清華大學電子工程系語音技術與專用芯片設計課題組，

27、研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度，達到94.8%（不定長數(shù)字串）和96.8%（定長數(shù)字串）。在有5%的拒識率情況下，系統(tǒng)識別率可以達到96.9%（不定長數(shù)字串）和98.7%（定長數(shù)字串），這是目前國際最好的識別結果之一，其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%，前三選識別率達99.96%；并且可以識別普通話與四川話兩種語言，達到實用要求。&

28、lt;p>　　中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產(chǎn)品——PattekASR，結束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。　　如果從識別系統(tǒng)的詞匯量大小考慮，也可以將識別系統(tǒng)分為3類：(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括

29、幾百個詞到上千個詞的識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高，識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。　　1.3 特定聲音識別技術的發(fā)展 　　1、神經(jīng)

30、網(wǎng)絡用于訓練韻律模型　　由于人工神經(jīng)網(wǎng)絡具備良好的自學習和自適應能力，將其應用于語音合成系統(tǒng)中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡模型與已有的文語轉換系統(tǒng)有機結合，可以改變傳統(tǒng)的文語轉換系統(tǒng)的韻律模型，具有更強的適應性和可訓練性，使合成語音的自然度得到顯著提高，增加了系統(tǒng)的靈活性和風格的多樣性。　　2、數(shù)據(jù)挖掘用于發(fā)現(xiàn)語音知識

31、　　數(shù)據(jù)挖掘作為一種在大量數(shù)據(jù)庫中發(fā)現(xiàn)隱藏新知識的計算技術方法，通過語音定性模型的建立，將數(shù)據(jù)分析和挖掘結果轉化為邏輯規(guī)則或用可視化的形式進行表達。因此，將數(shù)據(jù)挖掘和人機交互接口緊密地聯(lián)系在一起，將對計算機語音信號處理的研究工作產(chǎn)生巨大的推動力，為語音信號處理提供了一條嶄新的研究途徑。　　3、文本-可視語音轉換系統(tǒng)研制成功　　文本-可

32、視語音轉換技術的出現(xiàn)是多媒體技術迅速發(fā)展的產(chǎn)物也迎合了社會發(fā)展的需求。它給人們的生活增添了新的色彩，使計算機更加人性化，人們與計算機的交流變得更為簡單。相信在不久的將來，它會在眾多的技術、商業(yè)和娛樂領域得到廣泛的應用，并逐步進入我們每個人的生活。　　1.4語音識別系統(tǒng)的分類　　語音識別系統(tǒng)可以根據(jù)對輸入語音的限制加以分類。如果從說話者與識別系統(tǒng)的相關性

33、考慮，可以將識別系統(tǒng)分為3類：(1)特定人語音識別系統(tǒng)：僅考慮對于專人的話音進行識別；(2)非特定人語音系統(tǒng)：識別的語音與人無關，通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學習；(3)多人的識別系統(tǒng)：通常能識別一組人的語音，或者成為特定組語音識別系統(tǒng)，該系統(tǒng)僅要求對要識別的那組人的語音進行訓練。　　如果從說話的方式考慮，也可以將識別系統(tǒng)分為3類：(1)孤立詞語音識別系統(tǒng)：孤立詞識別系統(tǒng)要求輸入

34、每個詞后要停頓；(2)連接詞語音識別系統(tǒng)：連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音，一些連音現(xiàn)象開始出現(xiàn)；(3)連續(xù)語音識別系統(tǒng)：連續(xù)語音輸入是自然流利的連續(xù)語音輸入，大量連音和變音會出現(xiàn)。　　如果從識別系統(tǒng)的詞匯量大小考慮，也可以將識別系統(tǒng)分為3類：(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個詞到上千個詞的識別系統(tǒng)。(3)大詞匯量語音識

35、別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高，識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。　　1.5特定聲音識別的研究方法　　MATLAB是一種功能強大，效率高、交互性好的數(shù)值計算和可視化

36、計算機高級語言，它將數(shù)值分析、信號處理和圖形顯示有機地融合為一體，形成了一個極其方便、用戶界面友好的操作環(huán)境。隨著MATLAB的不斷發(fā)展，其功能越來越強大，廣泛應用于數(shù)字語音信號處理、數(shù)值圖像處理、仿真、自動控制、小波分析和神經(jīng)網(wǎng)絡等領域。同時又由于MATLAB具有大量的信號處理工具箱并能利用非線性動態(tài)系統(tǒng)分析工具Simulink等優(yōu)點，所以近年來MATLAB已成為數(shù)字信號處理的有利工具，因此也成為學習語音信號處理和進行研究工作的仿真軟

37、件工具。　　本次對特定的語音識別正是在MATLAB這個平臺上實現(xiàn)的，下面簡單介紹MATLAB在語音識別中的幾個方面的應用。　　通過MATLAB可以對數(shù)字化的語音信號進行時域分析和頻域分析。通過MATLAB可以方便地展現(xiàn)語音信號的時域和頻域曲線，并且根據(jù)語音的特性對語音進行分析。例如，清濁音的幅度差別、語音信號的端點、信號在頻域中的共振峰頻率、加不同窗和不

38、同窗長對信號的影響、LPC分析、頻譜分析等。　　通過MATLAB可以對數(shù)字化的語音信號進行估計和判別。例如，根據(jù)語音信號的短時參數(shù)，以及不同語音信號的短時參數(shù)的性質對一段給定的信號進行有無聲和清濁音的判斷、對語音信號的基音周期進行估計等。　　通過對MATLAB的編程對語音信號進行處理。由于MATLAB是一種面向科學和工程計算的高級語言，允許用數(shù)學形式的語

39、言編程，又有大量的庫函數(shù)，所以編程簡單、編程效果高，易學易懂。我們可以對信號進行加噪和去噪、濾波、截取語音等，也可以進行語音編碼、語音識別、語音合成的編程。　　1.6 本論文內容安排　　本論文首先介紹了本課題設計的背景知識，然后描述了特定聲音識別的研究主要內容和方法，最后詳細介紹本人是如何通過幾個關鍵的參數(shù)來研究特定聲音的識別的。以下是各章節(jié)的具體安排。

40、　　第一章：緒論部分，通過國外國內語音識別方面的對比，說明我國語音識別發(fā)展現(xiàn)狀，特定聲音識別技術的應用以及本論文的研究任務。　　第二章：簡要地概括了特定聲音識別的相關參數(shù)的基本原理。包括自相關函數(shù)、短時過零率、倒譜分析、線性預測等。　　第三章：對特定聲音“呼救聲”進行相關分析，并進行仿真。

41、　　第四章：著重對槍聲，玻璃聲，呼救聲這三種特定聲音從幾個方面進行辨識。　　第五章：總結。　　2 特定語音信號的原理　　2.1 基于MATLAB的特定語音信號時域特征分析　　2.1.1 實驗目的

42、　　語音信號是一種非平穩(wěn)的時變信號，它攜帶著各種信息。在語音編碼、語音合成、語音識別和語音增強等語音處理中無一例外需要提取語音中包含的各種信息。語音信號分析的目的就在與方便有效的提取并表示語音信號所攜帶的信息。語音信號分析可以分為時域和變換域等處理方法，其中時域分析是最簡單的方法，直接對語音信號的時域波形進行分析，提取的特征參數(shù)主要有語音的短時能量，短時平均過零率，短時自相關函數(shù)等。<p

43、>　　本實驗要求掌握時域特征分析原理，并利用已學知識，編寫程序求解語音信號的短時過零率、短時能量、短時自相關特征，分析實驗結果，并能掌握借助時域分析方法所求得的參數(shù)分析語音信號的基音周期及共振峰。　　2.1.2實驗內容及原理　　1.窗口的選擇　　通過對發(fā)聲機理的認識，語

44、音信號可以認為是短時平穩(wěn)的。在5~50ms的范圍內，語音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個短時的語音稱為一個分析幀。一般幀長取10~30ms。我們采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀。通常會采用矩形窗和漢明窗。圖1.1給出了這兩種窗函數(shù)在幀長N=50時的時域波形。　　圖1.1 矩形窗和Hamming窗的時域波形　　矩形窗的

45、定義：一個N點的矩形窗函數(shù)定義為如下　　hamming窗的定義：一個N點的hamming窗函數(shù)定義為如下　　這兩種窗函數(shù)都有低通特性，通過分析這兩種窗的頻率響應幅度特性可以發(fā)現(xiàn)（如圖1.2）：矩形窗的主瓣寬度?。?*pi/N），具有較高的頻率分辨率，旁瓣峰值大（-13.3dB），會導致泄漏現(xiàn)象；漢明窗的主瓣寬8*pi/N，旁瓣峰值低（-42.7dB），可

46、以有效的克服泄漏現(xiàn)象，具有更平滑的低通特性。因此在語音頻譜分析時常使用漢明窗，在計算短時能量和平均幅度時通常用矩形窗。表1.1對比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。　　圖1.2 矩形窗和Hamming窗的頻率響應　　表1.1 矩形窗和hamming窗的主瓣寬度和旁瓣峰值　　2.短時能量<

47、;/b>　　由于語音信號的能量隨時間變化，清音和濁音之間的能量差別相當顯著。因此對語音的短時能量進行分析，可以描述語音的這種特征變化情況。定義短時能量為：　　，其中N為窗長 　　特殊地，當采用矩形窗時，可簡化為：<p&

48、gt;　　短時能量函數(shù)的應用:1）可用于區(qū)分清音段與濁音段。En值大對應于濁音段，En值小對應于清音段。2）可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r間（根據(jù)En值的變化趨勢）。3）對高信噪比的語音信號，也可以用來區(qū)分有無語音（語音信號的開始點或終止點）。無信號（或僅有噪聲能量）時，En值很小，有語音信號時，能量顯著增強。 　　3．短時平均過

49、零率　　過零率可以反映信號的頻譜特性。當離散時間信號相鄰兩個樣點的正負號相異時，我們稱之為“過零”，即此時信號的時間波形穿過了零電平的橫軸。統(tǒng)計單位時間內樣點值改變符號的次數(shù)具可以得到平均過零率。定義短時平均過零率：　　其中為符號函數(shù)，，在矩形窗條件下，可以簡化為　　短時過零率可以粗略估計語音

50、的頻譜特性。由語音的產(chǎn)生模型可知，發(fā)濁音時，聲帶振動，盡管聲道有多個共振峰，但由于聲門波引起了頻譜的高頻衰落，因此濁音能量集中于3KZ以下。而清音由于聲帶不振動，聲道的某些部位阻塞氣流產(chǎn)生類白噪聲，多數(shù)能量集中在較高頻率上。高頻率對應著高過零率，低頻率對應著低過零率，那么過零率與語音的清濁音就存在著對應關系。.　　圖1.3為某一語音在矩形窗條件下求得的短時能量和短時平均過零率。分析可知：清音的短

51、時能量較低，過零率高，濁音的短時能量較高，過零率低。清音的過零率為0.5左右，濁音的過零率為0.1左右，兩但者分布之間有相互交疊的區(qū)域，所以單純依賴于平均過零率來準確判斷清濁音是不可能的，在實際應用中往往是采用語音的多個特征參數(shù)進行綜合判決。　　短時平均過零率的應用：1）區(qū)別清音和濁音。例如，清音的過零率高，濁音的過零率低。此外，清音和濁音的兩種過零分布都與高斯分布曲線比較吻合。2）從背景噪聲中

52、找出語音信號。語音處理領域中的一個基本問題是，如何將一串連續(xù)的語音信號進行適當?shù)姆指?，以確定每個單詞語音的信號，亦即找出每個單詞的開始和終止位置。3）在孤立詞的語音識別中，可利用能量和過零作為有話無話的鑒別。　　圖1.3矩形窗條件下的短時平均過零率　　4、短時自相關函數(shù)　　自

53、相關函數(shù)用于衡量信號自身時間波形的相似性。清音和濁音的發(fā)聲機理不同，因而在波形上也存在著較大的差異。濁音的時間波形呈現(xiàn)出一定的周期性，波形之間相似性較好；清音的時間波形呈現(xiàn)出隨機噪聲的特性，樣點間的相似性較差。因此，我們用短時自相關函數(shù)來測定語音的相似特性。短時自相關函數(shù)定義為：　　令，并且，可以得到：　　圖6給出了清音的短時自相關函數(shù)波形，圖7給出了不

54、同矩形窗長條件下（窗長分別為N=70，N=140，N=210，N=280）濁音的短時自相關函數(shù)波形。由圖1.6、圖1.7短時自相關函數(shù)波形分析可知：清音接近于隨機噪聲，清音的短時自相關函數(shù)不具有周期性，也沒有明顯突起的峰值，且隨著延時k的增大迅速減小；濁音是周期信號，濁音的短時自相關函數(shù)呈現(xiàn)明顯的周期性，自相關函數(shù)的周期就是濁音信號的周期，根據(jù)這個性質可以判斷一個語音信號是清音還是濁音，還可以判斷濁音的基音周期。濁音語音的周期可用自相關

55、函數(shù)中第一個峰值的位置來估算。所以在語音信號處理中，自相關函數(shù)常用來作以下兩種語音信號特征的估計：　　1）區(qū)分語音是清音還是濁音；　　2）估計濁音語音信號的基音周期。　　圖1.4 清音的短時自相關函數(shù)　　圖1.5 不同矩形窗長條件下的濁音的短時自相關函數(shù)

56、;　　5、時域分析方法的應用　　1）基音頻率的估計　　首先可利用時域分析（短時能量、短時過零率、短時自相關）方法的某一個特征或某幾個特征的結合，判定某一語音有效的清音和濁音段；其次，針對濁音段，可直接利用短時自相關函數(shù)估計基音頻率，其方法是：估算濁音段第一最大峰的位置，再利用抽樣率計算基音頻率，

57、舉例來說，若某一語音濁音段的第一最大峰值約為35個抽樣點，設抽樣頻率為11.025KHZ，則基音頻率為11025/35=315 HZ。　　但是，實際上第一最大峰值位置有時并不一定與基音周期吻合。一方面與窗長有關，另一方面還與聲道特性有關。鑒于此，可采用三電平削波法先進行預處理。　　2）語音端點的檢測與估計　　可利

58、用時域分析（短時能量、短時過零率、短時自相關）方法的某一個特征或某幾個特征的結合，判定某一語音信號的端點，尤其在有噪聲干擾時，如何準確檢測語音信號的端點，這在語音處理中是富有挑戰(zhàn)性的一個課題。　　2.2基于MATLAB的語音信號頻域特征分析　　3.2.1 實驗目的　　傅里葉分析是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性的強

59、有力工具，它在許多工程領域得到了廣泛的應用。它理論完善，且具有快速算法，在語音信號中處理領域也是一個重要的工具。語音信號的本質上是非平穩(wěn)信號，所以可以假設語音信號在10~30ms這樣短的時間內是平穩(wěn)的，這是短時分幀處理的基礎，也是短時傅里葉分析的基礎。短時傅里葉分析就是在基于短時平穩(wěn)的假設下，用穩(wěn)態(tài)分析方法處理非平穩(wěn)的一種方法。因為語音信號可以被看做短時平穩(wěn)信號，所以可以采用短時傅里葉分析。&l

60、t;b>　　2.2.2實驗原理　　1、短時傅立葉變換　　由于語音信號是短時平穩(wěn)的隨機信號，某一語音信號幀的短時傅立葉變換的定義為：　?。?.1）　　其中w(n-m)是實窗

61、口函數(shù)序列，n表示某一語音信號幀。令n-m=k'，則得到　?。?.2）　　于是可以得到　?。?.3）　　假定&l

62、t;/p>　　（4）　　則可以得到　?。?）　　同樣，不同的窗口函數(shù)，將得到不同的傅立葉變換式的結果。由上式可見，短時傅立葉變換有兩個變量：n和ω，所以它既是時序n的離散函

63、數(shù)，又是角頻率ω的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣，如令ω=2πk/N，則得離散的短時傅立葉吧如下：　　(6)　　2、語譜圖　　水平方向是時間軸，垂直方向是頻率軸，圖上的灰度條紋代表各個時刻的語音短時譜。語譜圖反映了語音信號的

64、動態(tài)頻率特性，在語音分析中具有重要的實用價值。被成為可視語言。　　語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時間分辨率高，可以看出時間波形的每個周期及共振峰隨時間的變化，但頻率分辨率低，不足以分辨由于激勵所形成的細微結構，稱為寬帶語譜圖；而窄帶語譜圖正好與之相反。　　寬帶語譜圖可以獲得較高的時間分辨率，反映頻譜的快速時變過程；窄帶語譜圖可以獲

65、得較高的頻率分辨率，反映頻譜的精細結構。兩者相結合，可以提供帶兩與語音特性相關的信息。語譜圖上因其不同的灰度，形成不同的紋路，稱之為“聲紋”。聲紋因人而異，因此可以在司法、安全等場合得到應用。　　3、復倒譜和倒譜　　復倒譜是x(n)的Z變換取對數(shù)后的逆Z變換，其表達式如下:&

66、lt;b>　?。?）　　倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換，即　　（8）　　在時域上，語音產(chǎn)生模型實際上是一個激勵信號與聲道沖激響應的卷積。對于濁音，激勵信號可以由周期脈沖序列表示；對于清音，激勵信號可以由隨機噪聲序列表示。聲道

67、系統(tǒng)相當于參數(shù)緩慢變化的零極點線性濾波器。這樣經(jīng)過同態(tài)處理后，語音信號的復倒譜，激勵信號的復倒譜，聲道系統(tǒng)的復倒譜之間滿足下面的關系：　　（9）　　由于倒譜對應于復倒譜的偶部，因此倒譜與復倒譜具有同樣的特點，很容易知道語音信號的倒譜，激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關系：<p

68、>　?。?0）　　濁音信號的倒譜中存在著峰值，它的出現(xiàn)位置等于該語音段的基音周期，而清音的倒譜中則不存在峰值。利用這個特點我們可以進行清濁音的判斷，并且可以估計濁音的基音周期。　　4、基因周期估計　　濁音信號的倒譜中存在峰值，它的出

69、現(xiàn)位置等于該語音段的基音周期，而清音的倒譜中則不存在峰值。利用倒譜的這個特點，我們可以進行語音的清濁音判決，并且可以估計濁音的基音周期。首先計算語音的倒譜，然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預先設置的門限，則輸入語音判斷為濁音，其峰值位置就是基因周期的估計值；反之，如果沒有超出門限的峰值的話，則輸入語音為清音。　　5、共振峰估計<

70、/p>　　對倒譜進行濾波，取出低時間部分進行進行逆特征系統(tǒng)處理，可以得到一個平滑的對數(shù)譜函數(shù)，這個對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結構，同時譜的峰值對應于共振峰頻率。通過此對數(shù)譜進行峰值檢測，就可以估計出前幾個共振峰的頻率和強度。對于濁音的聲道特性，可以采用前三個共振峰來描述；清音不具備共振峰特點。　　2.3基于MATLAB的語音信號線性預測分析

71、　　2.3.1 實驗目的　　1947年美國科學家維納在研究火炮的自動控制時提出了線性預測的思想。1967年日本學者板倉等人首先將線性預測技術應用于語音分析和語音合成領域中，使語音處理技術獲得了巨大的發(fā)展。在各種語音處理技術中，線性預測是第一個真正使用的技術。　　作為最有效地語音分析技術之一，線性預測分析的基本思想是：一個語音取樣的現(xiàn)

72、在值可以用若干個語音取樣過去值的加權組合來逼近。在線性組合中的加權系數(shù)稱為預測器系數(shù)。通過使實際語音抽樣和線性預測抽樣之間的差值的平方和達到最小值，能夠決定唯一的一組預測器系數(shù)。線性預測的基本原理是建立在語音的數(shù)字模型基礎上，為估計數(shù)字模型的參數(shù)，線性預測方法提供了一種可靠精確而有效地方法。　　2.3.2實驗原理

73、1 LP分析基本原理　　在語音編碼算法中，由于實際語音信號的動態(tài)變化范圍較大，如果直接對其進行量化，則編碼所需的比特數(shù)較大，編碼率較高。為了保證在較好的語音編碼質量前提下，盡量減少編碼速率，可設法減小編碼器輸入信號的動態(tài)范圍。線性預測編碼就是利用過去的樣值對新樣值進行預測，然后將樣值的實際值與其預測值相減得到一個誤差信號，顯然誤差信號的動態(tài)范圍遠小于原始語音信號的動態(tài)范圍，對誤差信號進行量化編碼

74、，可大大減少量化所需的比特數(shù)，使編碼速率降低。　　LP分析為線性時不變因果穩(wěn)定系統(tǒng)V（z）建立一個全極點模型，并利用均方誤差準則，對已知的語音信號s(n)進行模型參數(shù)估計。　　如果利用P個取樣值來進行預測，則稱為P階線性預測。假設用過去P個取樣值的加權之和來預測信號當前取樣值，則預測信號為：

75、(1)　　其中加權系數(shù)用表示，稱為預測系數(shù)，則預測誤差為:　　(2)　　要使預測最佳，則要使短時平均預測誤差最小有：　　(3)<

76、b>　　(4)　　令 　　(5) 　　最小的可表示成：<

77、;/b>　　(6)　　顯然，誤差越接近于零，線性預測的準確度在均方誤差最小的意義上為最佳，由此可以計算出預測系數(shù)。　　通過LPC分析，由若干幀語音可以得到若干組LPC參數(shù)，每組參數(shù)形成一個描繪該幀語音特征的矢量，即LPC特征矢量。由LPC特征矢量可以進一步得到很多種派生

78、特征矢量，例如線性預測倒譜系數(shù)、線譜對特征、部分相關系數(shù)、對數(shù)面積比等等。不同的特征矢量具有不同的特點，它們在語音編碼和識別領域有著不同的應用價值。　　2 自相關法　　在最佳線性預測中，若用下式定義的時間平均最小均方準則代替(3)式的集合平均最小均方準則，即令　　(7)

79、 　　事實上就是短時自相關函數(shù)，因而　　(8)　?。?）　　根據(jù)平穩(wěn)隨機信號的自相關性質，可得</p&

80、gt;　　(10) 　　由(6)式，可得：　　(11) 　　綜上所述，可以得到如下矩陣形式：　　(12)

81、　　值得注意的是，自相關法在計算預測誤差時，數(shù)據(jù)段的兩端都需要加P個零取樣值，因而可造成譜估計失真。特別是在短數(shù)據(jù)段的情況下，這一現(xiàn)實更為嚴重。另外，當預測系數(shù)量化時，有可能造成實際系統(tǒng)的不穩(wěn)定。　　自相關解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞推算法。　　3 協(xié)方差法

82、;　　如果在最佳線性預測中，用下式定義的時間平均最小均方準則代替(3)式的集合平均最小均方準則，則可得到類似的方程：　　（13） 　　可以看出，這里的數(shù)據(jù)段兩端不需要添加零取樣值。在理論上，協(xié)方差法計算出來的預測系數(shù)有可能造成預測誤差濾波器的不穩(wěn)定，但在實際上當每幀信號取樣足夠多時，其計算結果將

83、與自相關法的結果很接近，因而穩(wěn)定性一般是能夠保證的 (當然這種方法也有量化效應可能引起不穩(wěn)定的缺點)。　　協(xié)方差解法的最大優(yōu)點在于不存在自相關法中兩端出現(xiàn)很大預測誤差的情況，在N和P相差不大時，其參數(shù)估值比自相關法要精確的多。但是在語音信號處理時，往往取N在200左右。此時，自相關法具有較大誤差的段落在整個語音段中所占的比例很小，參數(shù)估值也是比較準確的。在這種情況下，協(xié)方差法誤差較小的優(yōu)點就不再

84、突出，其缺乏高效遞推算法的缺點成為了制約因素。所以，在語音信號處理中往往使用高效的自相關法。　　4 全極點聲道模型　　將線性預測分析應用于語音信號處理，不僅是為了利用其預測功能，更因為它提供了一個非常好的聲道模型。　　將式(2)所示的方程看成是濾波器在語音信號激勵下的輸入輸出

85、方程，則該濾波器稱為預測誤差濾波器，其e(n)是輸出誤差。變換到z域，P階預測誤差濾波器的系統(tǒng)函數(shù)為　?。?4） 　　可以看出，如果將預測誤差e(n)作為激勵信號，使其通過預測誤差濾波器的逆濾波器H(Z)，即　?。?5） </p&g

86、t;　　則H(Z)的輸出為語音信號s(n)，也就是說，H(Z)在預測誤差e(n)的激勵下可以合成語音。因此，H(Z)被稱為語音信號的全極點模型，也稱為語音合成器。該模型的參數(shù)就是P階線性預測的預測系數(shù)。　　因為預測誤差含有語音信號的基音信息，所以對于濁音，模型的激勵信號源是以基音周期重復的單位脈沖；對于清音，激勵信號源e(n)是自噪聲。語音信號的全極點模型是一種很重要的聲道

87、模型，是許多應用和研究的基礎。　　5 LPCC　　如果聲道特性H(Z)用式(14)所示的全極點模型表示，有　?。?6）　　式中，S(z)和I(z)分別為語音信號和激勵源的Z變換。對人的聽覺來說，濁

88、音是最重要的語音信號。對于濁音，模型的激勵信號源e(n)是以基音周期重復的單位脈沖，此時有　　。可得的Z變換S(z)為　?。?7）　　式中，為P階線性預測系數(shù)。根據(jù)倒譜的定義，對具有最小相位特征的語音信號，有　?。?

89、8）　　式中，為語音信號的倒譜。將式(16)代入式(17)，并對兩邊求導，得　　（19）　　根據(jù)上式即可由線性預測系數(shù)通過遞推得到倒譜系數(shù)，將這樣得到的倒譜稱為線性預測倒譜系數(shù)。　　6 結合語音幀能量構成LPC組合

90、參數(shù)　　由于人能從聲音的音色、頻高等各種信息中感知說話人的個性，因此可以想象，利用特征的有效組合可以得到比較穩(wěn)定的識別性能。一般來說，如果組合的各參量之間相關性不大，則會更有效一些，因為它們分別反映了語音信號中的不同特征。多年來，人們對組合參數(shù)在說話人識別中的應用進行了大量研究。實驗證明，組合參數(shù)可以提高系統(tǒng)的識別性能。　　組合參數(shù)雖然可以提高系統(tǒng)的性

91、能，但很顯然，無論是在特征參數(shù)提取環(huán)節(jié)，還是在模型訓練和模型匹配環(huán)節(jié)都使運算量有所增加。在特征參數(shù)提取環(huán)節(jié)，要計算一種以上的特征參數(shù)。在模型訓練和模型匹配環(huán)節(jié)，由于組合參數(shù)特征矢量的維數(shù)較多，使運算復雜度有所增加。運算量的增加會使系統(tǒng)的識別速度受到影響。　　為使運算量問題得到較好的解決，所以可以由LPC參數(shù)與語音幀能量構成組合參數(shù)，能夠在運算量增加不明顯的情況下改進系統(tǒng)的性能。

92、;　　語音幀能量是指一幀語音信號的能量，它等于該幀語音樣值的平方和。選取與語音幀能量構成組合參數(shù)主要有以下考慮：1）語音幀能量是語音信號最基本的短時參數(shù)之一，它表征一幀語音信號能量的大小，是語音信號一個重要的時域特征；2）由一幀語音求出的語音幀能量是一個標量值，與其它參量構成組合參數(shù)不會使原特征矢量的維數(shù)明顯增加，特征矢量的維數(shù)越少，則需要的運算復雜度越小，另外，獲取語音幀能量的運算并不復雜；3）語音幀能量與LPC

93、參數(shù)之間的相關性不大，它們反映的是語音信號的不同特征，應該有較好的效果。　　7 模型增益G　　模型的激勵信號表示為：　?。?0） 　　預測誤差e(n)如式（2），這樣當實際的預測系數(shù)與模型系數(shù)相等時，有

94、　?。?1） 　　這說明激勵信號正比于誤差信號，其比例常數(shù)等于模型增益G。通常假設誤差信號的能量等于輸入激勵信號的能量，因此可以得到：　?。?2） 　　對于式中的激勵信號，主要分為濁音和清音兩種情況。其中為濁音時，考慮到此時實際的激勵信

95、號為聲門脈沖，因此可以將激勵信號表示為時的單位抽樣。為了保證這個假設成立，要求分析的區(qū)間應該大致和語音基因周期的長度相等。當語音為清音時，我們假定激勵信號為一個零均值、單位方差的平穩(wěn)白噪聲過程。　　采用自相關解法時，濁音的模型增益為　　(23)　　清音計算模型增益的公式和濁音

96、相同。　　我們使用的原始語音為“北風”，采樣頻率為11000。　　在這里我們取第30幀進行觀察，線性預測階數(shù)為12，看到圖3.1所示的原始語音幀的波形，預測語音幀波形和它們之間預測誤差的波形。圖3.2為原始語音幀和預測語音幀的短時譜和LPC譜的波形　　圖1.7 原始語音幀、預測語音幀和預測誤差的波形</p&

97、gt;　　圖1.8 原始語音幀和預測語音幀的短時譜和LPC譜的波形　　這里我們可以改變線性誤差的階數(shù)來觀察語音幀的短時譜和LP譜的變化情況，如圖1.9。　　圖1.9 預測階數(shù)對語音幀短時譜和LPC譜的影響　　從圖中可以看出，P越大，LPC譜越能反映出語音短時譜的細節(jié)部分，但LPC譜的光滑度隨

98、之下降。由于我們的目的只是用LPC譜反映聲道綜合效應的譜的表示式，而具體的諧波形狀是通過激勵譜來控制的，因此LPC譜只要能夠體現(xiàn)出語音的共振峰的結構和譜包絡就可以，因此從計算復雜性的角度分析，預測階數(shù)P應該適中。　　圖3.4是原始語音和預測誤差的倒譜波形，我們可以從中計算出原始語音的基音周期。從圖中看出兩峰值之間的間隔為40點左右，基音周期為40/11000=3.6ms，頻率為278Hz左右。&

99、lt;/p>　　圖1.10原始語音和預測誤差的倒譜波形　　圖1.11給出了原始語音的語譜圖和預測語音的語譜圖，通過比較發(fā)現(xiàn)，預測語音的預測效果還可以，基音頻率相差無幾。　　圖1.11 原始語音的語譜圖和預測語音的語譜圖　　3 特定聲音MATLAB的實現(xiàn)和仿真&l

100、t;p>　　所謂特定聲音，指的是比較獨特的聲音，比如像槍聲、玻璃破碎的聲音、呼救聲等等，這些聲音在現(xiàn)代技術中有著廣泛的應用。比如說刑偵破案、罪犯跟蹤、國防監(jiān)聽等。基于上述情況，下面就呼救聲而言，對呼救聲這種特定聲音進行分析。　　3.1基于MATLAB的語音信號采集　　利用matlab工具，可以對相關聲音進行采集。<p&

101、gt;　　程序如下:　　Fs=11025;　　x=wavrecord(5*Fs,Fs,'int16');%采集5秒的聲音%　　sound(x,11025);%讀出剛采集的聲音%

102、還有一種方法是利用pc機自帶的錄音機進行錄音。利用matlab的相關函數(shù)錄入即可。　　3.2基于MATLAB的語音信號時域分析　　1)語音的波形原始程序：　　fs=22050;　　x=wavread('g:\s1.wav

103、9;);%讀取語音信號的數(shù)據(jù)，賦給變量x　　wavplay(x,22050);%播放語音信號　　y=fft(x,1024);%對信號做1024點FFT變換　　f=fs*(0:511)/1024;　　figure(1)

104、;　　plot(x)　　title('原始語音信號');%做原始語音信號的時域圖形　　xlabel('time n');　　ylabel('幅值 n');<b

105、>　　figure(2)　　freqz(x) %繪制原始語音信號的頻率響應圖　　title('頻率響應圖')　　figure(3)　　subplot(2,1,

106、1);　　plot(abs(y(1:512))) %做原始語音信號的FFT頻譜圖　　title('原始語音信號FFT頻譜')　　subplot(2,1,2);　　plot(f,abs(y(1:512)));<p&g

107、t;　　title('原始語音信號頻譜')　　xlabel('Hz');　　ylabel('幅值');　　仿真結果：　　圖4—1

108、　　圖4—2　　圖4—3　　2）語音的自相關　　fs=22050;　　x=wavread('

109、;g:\s1');　　s1=x(1:320);　　N=320;　　A=[];　　for k=1:320;　　sum=0;<

110、/b>　　for m=1:N-k+1;　　sum=sum+s1(m)*s1(m+k-1);　　end 　　A(k)=sum;　　e

111、nd　　for k=1:320　　A1(k)=A(k)/A(1);　　end　　f=zeros(1,320);　　n=1;j=1;&l

112、t;/p>　　while j<=320　　f(1,j)=x(n)*[0.54-0.46*cos(2*pi*n/319)];　　j=j+1;n=n+1;　　end　　B=[];<

113、/b>　　for k=1:320;　　sum=0;　　for m=1:N-k+1;　　sum=sum+f(m)*f(m+k-1);　　end<

114、/p>　　B(k)=sum;　　end　　for k=1:320 　　B1(k)=B(k)/B(1);　　end

115、;　　s2=s1/max(s1);　　figure (1)　　subplot(3,1,1)　　plot(s2)　　title('一幀語音信號')　　xla

116、bel('樣點數(shù)')　　ylabel('幅值')　　axis([0,320,-1,1]);　　subplot(3,1,2)　　plot(A1);　　title(

117、'加矩形窗的自相關函數(shù)')　　xlabel('延時k')　　ylabel('R(k)')　　axis([0,320,-1,1]);　　subplot(3,1,3)

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種基于matlab的特定聲音識別算法的研究【畢業(yè)設計+開題報告+文獻綜述】

文檔簡介

溫馨提示

最新文檔

評論

一種基于matlab的特定聲音識別算法的研究【畢業(yè)設計+開題報告+文獻綜述】

文檔簡介

溫馨提示

最新文檔

評論

免費下載