版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第 10 章 自然語言處理及其應(yīng)用,教材: 王萬良《人工智能導(dǎo)論》(第3版) 高等教育出版社,第10章 自然語言處理及其應(yīng)用,如果計(jì)算機(jī)能夠理解、處理自然語言,這將是計(jì)算機(jī)技術(shù)的一項(xiàng)重大突破。自然語言理解的研究在應(yīng)用和理論兩個(gè)方面都具有重大的意義。本章首先自然語言理解的概念以及發(fā)展歷史,然后從應(yīng)用角度介紹機(jī)器翻譯和語音識(shí)別技術(shù)。,2,第10章 自然語言處理及其應(yīng)用,10.1 自然語言理解的概念
2、與發(fā)展歷史 10.2 語言處理過程的層次10.3 機(jī)器翻譯10.4 語音識(shí)別,3,第10章 自然語言處理及其應(yīng)用,10.1 自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.3 機(jī)器翻譯10.4 語音識(shí)別,4,10.1.1 自然語言理解的概念,微觀角度:從自然語言到機(jī)器內(nèi)部的一個(gè)映射。宏觀角度:使機(jī)器能夠執(zhí)行人類所期望的某種語言功能。,(1)回答問題:計(jì)算機(jī)正確地回答用自然語言輸入的有關(guān)問題。(2)文摘
3、生成:機(jī)器能產(chǎn)生輸入文本的摘要。 (3)釋義:機(jī)器能用不同的詞語和句型來復(fù)述輸入的自然語言信息。(4)翻譯:機(jī)器能把一種語言翻譯成另外一種語言。,5,10.1.2 自然語言理解研究的產(chǎn)生與發(fā)展,1. 萌芽時(shí)期(20世紀(jì)40年代末50年代初),2. 以關(guān)鍵詞匹配技術(shù)為主的時(shí)期 (20世紀(jì)60年代始),A. Donald Booth & W. Weaver M. Chomsky 形式語言和文法,3. 以句法語義分析技術(shù)為主的
4、時(shí)期 ( 20世紀(jì)70年代后),4. 基于知識(shí)的自然語言理解發(fā)展時(shí)期,5. 基于大規(guī)模語料庫的自然語言理解發(fā)展時(shí)期,68年B. Raphael:語義檢索系統(tǒng)SIRJ. Weizenbaum:心理醫(yī)療ELIZA,72年W. Woods:語音接口LUNART. Winograd :英語對(duì)話SHEDLU,6,第10章 自然語言處理及其應(yīng)用,10.1自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.3 機(jī)器翻譯10.4
5、 語音識(shí)別,7,文字表達(dá)句子的層次:詞素→詞或詞形→詞組或句子。聲音表達(dá)句子的層次:音素→音節(jié)→音詞→音句。 語言處理過程分為五個(gè)層次:語音分析、詞法分析、句法分析、語義分析和語用分析。 語用分析:研究語言所存在的外界環(huán)境對(duì)語言使用產(chǎn)生的影響。構(gòu)成單詞發(fā)音的獨(dú)立單元是音素。上下文不同而發(fā)音不同。 語音分析就是根據(jù)音位規(guī)則,從語言流中區(qū)分出一個(gè)個(gè)獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個(gè)個(gè)音節(jié)及其對(duì)應(yīng)的詞素或詞。,10.2 語言處理
6、過程的層次,8,1. 詞法分析,定義:從句子中切分出單詞,找出詞匯的各個(gè)詞素 ,并確定其詞義。,例:unchangeable: un-change-able,英語詞法分析 特點(diǎn):切分單詞容易,找出詞素復(fù)雜。,例:importable分為 import-able或 im-port-able,詞法分析算法舉例:repeatlook for word in dictionary
7、 if not found then modify the wordUntil word is found or no further modification possible,9,1. 詞法分析,例如:對(duì)于單詞catches、ladies可以做如下的分析。 catches ladies, 詞典中查不到 catche ladie 修改1:
8、去掉s catch ladi 修改2:去掉e lady 修改3:把i變成y這樣,在修改2的時(shí)候,就可以找到catch,在修改3的時(shí)候就可以找到lady。,例如:優(yōu)秀人才學(xué)人才學(xué)1. 優(yōu)秀人-才學(xué)人才學(xué)2. 優(yōu)秀人才-學(xué)人才學(xué),漢語詞法分析 特點(diǎn):找出詞素簡單,切分出詞困難。,ly副詞后輟;ed動(dòng)詞過去分詞,10,,,1
9、型文法: 上下文有關(guān)文法,2型文法:上下文無關(guān)文法,3型文法:正則文法,左線性文法:A→Bt 或 A→t(A→Bt→Ct*t)右線性文法 : A→tB或A→t,產(chǎn)生式規(guī)則: x→y,產(chǎn)生式規(guī)則: x→y例:AB→CDE √ ABC→DE × XaY→XbY,產(chǎn)生式規(guī)則:A→x,0型文法:無約束短語結(jié)構(gòu)文法,2. 句法分析: 喬姆斯基的形式文法,11,3. 語義分析,語義分析是將句法成分與應(yīng)用領(lǐng)域中的
10、目標(biāo)表示相關(guān)聯(lián)。,簡單做法:依次使用獨(dú)立的句法分析程序和語義解釋程序。缺點(diǎn):使句法分析、語義分析分離,語義文法格文法,12,語義文法是將文法知識(shí)和語義知識(shí)組合起來,以統(tǒng)一的方式定義為文法規(guī)則集。,艦船信息:S→PRESENT the ATTRIBUTE OF SHIPPRESENT→What is|Can you tell meATTRIBUTE→length|classSHIP→the SHIPNAME|CLASSNAME
11、SHIPNAME→HUANGHE|CHANGJIANGCLASSNAME→carrier|submarine,3. 語義分析,13,目的:為了找出動(dòng)詞和跟動(dòng)詞處在結(jié)構(gòu)關(guān)系中的名詞的語義關(guān)系,同時(shí)也涉及動(dòng)詞或動(dòng)詞短語與其他的各種名詞短語之間的關(guān)系。,特點(diǎn):允許以動(dòng)詞為中心構(gòu)造分析結(jié)果,盡管文法規(guī)則只描述句法,但分析結(jié)果產(chǎn)生的結(jié)構(gòu)卻對(duì)應(yīng)于語義關(guān)系,而非嚴(yán)格的句法關(guān)系。,例:Mary hit Bill Bill was
12、hit by Mary (Hit(Agent Mary) (Dative Bill)),3. 語義分析,14,S,S,NP,NP,VP,VP,V,NP,V,PP,Bill,Mary,hit,was hit,by,Bill,Mary,,,,,,,,,,,,,,,,主動(dòng)句和被動(dòng)句的句法分析樹,3. 語義分析,15,第10章 自然語言理解及其應(yīng)用,10.1 自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.
13、7 機(jī)器翻譯10.8 語音識(shí)別,16,10.3 機(jī)器翻譯,10.3.1 機(jī)器翻譯方法概述 10.3.2 翻譯記憶,17,10.3.1 機(jī)器翻譯方法概述,發(fā)展歷程:,,,,,,,18,1. 直譯式翻譯系統(tǒng)(direct translation MT systems) 通過快速的分析和雙語詞典,將原文譯出。,2. 規(guī)則式翻譯系統(tǒng)(rule-based MT systems) 先分析原文內(nèi)容,產(chǎn)生
14、原文的句法結(jié)構(gòu),再轉(zhuǎn)換成譯 文的句法結(jié)構(gòu),最后再生成譯文。,10.3.1 機(jī)器翻譯方法概述,19,,3. 中介語式翻譯系統(tǒng)(inter-lingual MT systems) 先生成一種中介的表達(dá)方式,而非特定語言的結(jié)構(gòu); 再由中介的表達(dá)式,轉(zhuǎn)換成譯文。,基于規(guī)則的翻譯,中介語式的翻譯,10.3.1 機(jī)器翻譯方法概述,20,,4. 知識(shí)庫式翻譯系統(tǒng)(knowledge-based MT
15、systems) 翻譯經(jīng)常需要除了詞匯之外的各種知識(shí),使用知識(shí)獲取工具(knowledge acquisition),以充實(shí)知識(shí)庫的內(nèi)容。,6. 范例式翻譯系統(tǒng)(example-based MT systems ) 將過去的翻譯結(jié)果,當(dāng)成范例,產(chǎn)生一個(gè)范例庫。,5. 統(tǒng)計(jì)式翻譯系統(tǒng)(Statistics-based MT systems ) 源語言中任一句子都可能是目標(biāo)語言中某些句子相似。,7. 混合式翻譯系統(tǒng)(S
16、tatistics-based MT systems ) 同時(shí)采用多種策略,以達(dá)成翻譯的目標(biāo)。,10.3.1 機(jī)器翻譯方法概述,21,基本原理:用戶利用已有的原文和譯文,建立起一個(gè)或多個(gè)翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動(dòng)搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無謂的重復(fù)勞動(dòng),只需專注于新內(nèi)容的翻譯。翻譯記憶庫同時(shí)在后臺(tái)不斷學(xué)習(xí)和自動(dòng)儲(chǔ)存新的譯文,變得越來越“聰明”。,德國塔多思(TRAD
17、OS)公司的翻譯記憶軟件基于UNICODE(統(tǒng)一字符編碼),支持55種語言,覆蓋了幾乎所有語言版本的 Windows95/98/NT 。,10.3.2 翻譯記憶,22,第10章 自然語言理解及其應(yīng)用,10.1 自然語言理解的概念與發(fā)展歷史 10.2 語言處理過程的層次10.3 機(jī)器翻譯10.4 語音識(shí)別,23,10.4.1 語言識(shí)別的概念,語音識(shí)別用語音作為輸入,口語對(duì)話與語音信號(hào)中語言提取的不同: (1)上下文猜測(cè)
18、 (2)肢體語言傳達(dá)信息,機(jī)器翻譯用印刷文本作為輸入,能清楚地區(qū)分單個(gè)單詞和單詞串 。,fare | fairmale | mail,24,10.4.2 語音識(shí)別的主要過程,,,,1.語音信號(hào)采集 基于單片機(jī),DSP芯片 基于PC機(jī),2.語音信號(hào)預(yù)處理預(yù)濾波(1)抑制輸入信號(hào)各頻域分量中頻率超出采樣頻率的一半的所有分量,以防止混疊干擾。(2)抑制50Hz的電源工頻干擾。,25,,,,,,,,語音信號(hào)預(yù)處理 采樣
19、:對(duì)信號(hào)進(jìn)行量化,量化不可避免地會(huì)產(chǎn)生誤差。量化后的信號(hào)值與原信號(hào)值之間的差值為量化誤差,又稱為量化噪聲。 預(yù)加重:是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。 端點(diǎn)檢測(cè):包含語音的一段信號(hào)中確定出語音的起點(diǎn)以及終點(diǎn)。,10.4.2 語音識(shí)別的主要過程,26,,,,,,,,過零率:信號(hào)中波形穿越零電平的次數(shù)來描述幅度變化的劇烈程度。,ZCR(i) =
20、∑|sgn(xi(n))-sgn(xi(n+1))|,10.4.2 語音識(shí)別的主要過程,27,,,,聲波有兩個(gè)主要特征:振幅和頻率。 線性預(yù)測(cè)編碼(LPC): 基本思想:由于語音樣點(diǎn)之間存在相關(guān)性,所以可以用過去p個(gè)樣點(diǎn)值來預(yù)測(cè)現(xiàn)在或未來的樣點(diǎn)值。,,10.4.2 語音識(shí)別的主要過程,28,,,矢量量化(vector quantization,VQ)技術(shù)是七十年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術(shù)。在標(biāo)量
21、量化中整個(gè)動(dòng)態(tài)范圍被分成若干個(gè)小區(qū)間,每個(gè)小區(qū)間有一個(gè)代表值,對(duì)于一個(gè)輸入的標(biāo)題信號(hào),量化時(shí)落入小區(qū)間的值就用這個(gè)代表值代替。,矢量量化的基本原理:將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。,10.4.2 語音識(shí)別的主要過程,4.向量量化,29,5.識(shí)別。識(shí)別系統(tǒng)的輸入是從語音信號(hào)中提出的特征參數(shù)語音識(shí)別所采用的方法一般有:(1)模板匹配法。在訓(xùn)練階段,用戶將詞匯表中的每一個(gè)詞
22、依次說一遍,將其特征矢量作為模板存入模板庫。在識(shí)別階段,將輸入語音的特征矢量序列依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。 (2)隨機(jī)模型法。如隱馬爾可夫模型(HMM)。用HMM的概率參數(shù)來對(duì)似然函數(shù)進(jìn)行估計(jì)與判決,從而得到識(shí)別結(jié)果。 (3)概率語法分析法。不同的人說同一些語音時(shí),相應(yīng)的語譜總有一些共同的特點(diǎn)以區(qū)分于其他語音。將區(qū)別性特征與來自構(gòu)詞、句法、語義等語用約束相互結(jié)合,構(gòu)成由底向上或自頂向下
23、的交互作用知識(shí)系統(tǒng)。,10.4.2 語音識(shí)別的主要過程,30,10.4.3 隱馬爾可夫模型,隱馬爾可夫模型: 表示序列可能出現(xiàn)的一種方法。,y跟在ph后面出現(xiàn)的概率>跟在t后面出現(xiàn)的概率,例 序列:1 2 3 3 4。則概率0.9×0.5×0.4×0.6=0.108,31,,狀態(tài)隱含,觀察可測(cè),10.4.4 基于隱馬爾可夫模型的語音識(shí)別方法,(1)觀察符號(hào)是一幀幀的語音參數(shù)(2)狀態(tài)序列是具
24、體的語音內(nèi)容,LPC或MFCC,前進(jìn),后退,例:,32,解決三個(gè)基本問題:,(1)輸出概率計(jì)算問題:給定觀察序列 和HMM模型,計(jì)算輸出概率 。(2)狀態(tài)序列解碼問題:給定觀察序列 和HMM模型,確定最優(yōu)的轉(zhuǎn)移序列。(3)模型參數(shù)估計(jì)問題:調(diào)整模型 的參數(shù),以使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【人工智能_人工智能導(dǎo)論課件】第8章人工神經(jīng)網(wǎng)絡(luò)及其應(yīng)用導(dǎo)論
- 【人工智能_人工智能導(dǎo)論課件】第7章專家系統(tǒng)與機(jī)器學(xué)習(xí)導(dǎo)論
- 人工智能導(dǎo)論全套課件
- 人工智能導(dǎo)論論文
- 人工智能原理人工智能概述
- 人工智能導(dǎo)論期末復(fù)習(xí)
- 人工智能+醫(yī)藥課件
- 人工智能
- 《人工智能導(dǎo)論》教學(xué)大綱
- 人工智能,語言與倫理
- 人工智能導(dǎo)論2005年秋季學(xué)期
- 人工智能導(dǎo)論課程指導(dǎo)書
- 人工智能電視培訓(xùn)課件
- 淺談人工智能
- 人工智能初步
- 人工智能論文
- 人工智能復(fù)習(xí)
- 淺談人工智能
- 人工智能答案
- 人工智能報(bào)告
評(píng)論
0/150
提交評(píng)論