面向廣播新聞的語音自動檢索技術研究.pdf_第1頁
已閱讀1頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音檢索是指對于用戶輸入的查詢請求,從語音庫中檢索并返回滿足該請求的語音片段。隨著科技的日益進步和互聯(lián)網的飛速發(fā)展,人們接觸到的多媒體信息也呈指數增長,這其中廣播新聞語音占據了很大的比重,且易獲取,具有重要的科研價值。而利用語音檢索技術可以幫助人們在海量的多媒體數據中迅速找到自己感興趣的內容,因此本課題有著重要的研究意義和實用價值。
  語音檢索技術其實是語音識別技術與信息檢索技術的有機結合,然而簡單的技術結合會導致檢索性能嚴重依

2、賴于識別系統(tǒng)的識別精度。因此在識別系統(tǒng)性能一定的情況下,研究者將精力集中在多候選的識別結果形式上,常見的多候選識別形式有N-best、網格 Lattice和混淆網絡,其中N-best未包含所有的候選結果,而 Lattice結構含較多冗余且不利于建立索引,因而往往使用結構更緊湊的混淆網絡形式。另外,在識別基元的選擇上,以詞為基元無法避免集外詞問題,因此在漢語語音檢索技術的研究中常采用基于音節(jié)的網格結構。
  本課題首先利用上下文相關

3、技術對識別系統(tǒng)中的聲學模型進行訓練,重點分析了模型訓練過程中參數共享策略及高斯混合數的影響,并結合語言模型建立了大詞匯連續(xù)語音識別系統(tǒng),接著利用向量空間模型在 One Best識別形式上完成了語音檢索基線系統(tǒng)。而對于包含多候選結果的網格形式,利用前向后向算法計算出每個候選項的后驗概率,在此基礎上進行聚類、剪枝等操作,生成了結構更加節(jié)湊的混淆網絡,并通過改進的向量空間模型建立索引,搭建語音檢索系統(tǒng)。此外,本文對檢索系統(tǒng)的基元進行對比研究,

4、如果以詞為基元,則無法解決集外詞查詢問題,且系統(tǒng)的召回率較低;而以音節(jié)為基元,又會降低檢索系統(tǒng)的準確率,因此本文提出一種基于后向融合的多基元混合檢索系統(tǒng)。
  實驗表明,采用上下文相關的聲學建模技術可以很好的適應發(fā)音環(huán)境的變化,提高了識別系統(tǒng)的準確率和魯棒性;改進的向量空間模型能更好的體現(xiàn)特征向量在文檔中所占的比重,可以提高檢索系統(tǒng)的檢索精度;而多基元混合檢索系統(tǒng)的使用不僅可以從根本解決集外詞問題,而且能使系統(tǒng)在準確率和召回率上達

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論