基于統(tǒng)計機(jī)器學(xué)習(xí)的中文詞法分析研究.pdf_第1頁
已閱讀1頁,還剩102頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、詞法分析是自然語言處理技術(shù)的基礎(chǔ),其性能將直接影響句法分析及其后續(xù)應(yīng)用系統(tǒng)的性能。詞法分析作為基礎(chǔ)性處理步驟,其前期的錯誤會沿處理鏈條擴(kuò)散,并最終影響面向終端用戶的應(yīng)用系統(tǒng)的質(zhì)量。文語轉(zhuǎn)換就是對詞法分析要求比較嚴(yán)格的應(yīng)用之一。這項應(yīng)用是當(dāng)今計算機(jī)智能應(yīng)用領(lǐng)域的研究熱點(diǎn),它可以提高人機(jī)交互性能。但現(xiàn)階段漢語文語轉(zhuǎn)換中存在的普遍問題是:合成語音的自然度不夠高。詞法分析作為文語轉(zhuǎn)換的前期處理階段,該領(lǐng)域一些難點(diǎn)問題的處理結(jié)果對于后期語音合成的

2、效果十分重要。
   本文首先對中文詞法分析的研究內(nèi)容、國內(nèi)外研究成果、主要方法進(jìn)行了詳細(xì)的調(diào)研。通過比較大量的研究成果發(fā)現(xiàn),目前在中文詞法分析研究中,無論足針對哪個具體問題,主要有基于規(guī)則和基于統(tǒng)計兩種方法。但是,利用基于統(tǒng)計方法的缺陷在于,它是以舍棄概率低事件為前提的,而且統(tǒng)計信息不能很好地表現(xiàn)詞語內(nèi)部結(jié)構(gòu)特征,也難于將語言學(xué)信息融合到統(tǒng)計模型中去。利用基于規(guī)則方法的缺陷則在于,受規(guī)則獲取方式所限,無法使用有限的規(guī)則全面解決

3、豐富多樣的語法現(xiàn)象。作者認(rèn)為,基于統(tǒng)計的方法在目前條件下優(yōu)于人工總結(jié)規(guī)則的方法,需要時將兩者結(jié)合在一起也是一種不錯的選擇。
   在此基礎(chǔ)上,本文對交集型歧義字段消解、未登錄詞詞性標(biāo)注、以及人名譯名識別等問題進(jìn)行了深入地研究,這些問題對文語轉(zhuǎn)換中韻律分析的效果都將產(chǎn)生較大的影響。
   第一,基于條件隨機(jī)場的交集型切分歧義消解模型。交集型歧義字段是中文文本中經(jīng)常出現(xiàn)的一種切分歧義現(xiàn)象。針對這類歧義的消解工作,一直以來受到

4、很多學(xué)者的關(guān)注。目前對于交集型歧義字段的研究主要是以三字長交集型歧義字段為研究對象展開的,對于其它形態(tài)的交集型歧義字段的研究不是很多。本文提出了一種基于條件隨機(jī)場的交集型切分歧義消解方法,該方法針對多種形態(tài)的交集型歧義字段完成一體化消解。首先通過正向最大匹配和逆向最大匹配相結(jié)合的分詞方法,發(fā)現(xiàn)語料中的交集型歧義字段并進(jìn)行標(biāo)記,將其用于模型的訓(xùn)練。文中提出將統(tǒng)計特征、字段內(nèi)部特征以及上下文特征三類特征應(yīng)用于構(gòu)建歧義消解模型,并通過實驗比較

5、各類特征在歧義消解中的作用。在開放測試中,本文提出模型的正確率最高達(dá)到93.81%。
   第二,在未登錄詞詞性標(biāo)注中錯誤驅(qū)動學(xué)習(xí)的應(yīng)用:當(dāng)前,采用較多的詞性標(biāo)注方法是基于隱馬爾可夫模型的詞性標(biāo)注方法,這類模型雖然具有較好的標(biāo)注效果,但是它不易融入豐富的上下文特征,并且在對未登錄詞進(jìn)行標(biāo)注時,未登錄詞發(fā)射概率的取值無法直接從統(tǒng)計信息中獲得。針對這些問題,本文將基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)方法與基于隱馬爾可夫模型相結(jié)合,共同完成詞性標(biāo)注

6、任務(wù)。基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)方法可以通過規(guī)則模板的控制,利用更多的上下文信息,從而提高對未登錄詞詞性標(biāo)注的正確率。實驗結(jié)果證明,本文提出的詞性標(biāo)注方法能夠使未登錄詞的標(biāo)注正確率得到有效地提高。與此同時,實驗數(shù)據(jù)表明兼類詞的標(biāo)注正確率也得到了提升。
   第三,基于條件隨機(jī)場與支持向量機(jī)混合模型的人名譯名識別研究。人名譯名是一種常見的未登錄詞,它是指根據(jù)發(fā)音翻譯成中文字串的人名。由于英、美、法、德等國人名結(jié)構(gòu)復(fù)雜,而譯名又是根據(jù)發(fā)

7、音翻譯得到的,所以這類未登錄詞的詞長跨度很大,短則只需要一個漢字,多則需要十多個漢字。這類詞的韻律處理,特別是詞長較長的人名譯名的韻律處理影響著語音合成的自然度。本文首先對實驗中使用的語料進(jìn)行了加工,將人名譯名與其它類型的人名區(qū)分開,并將以全名形式出現(xiàn)的人名譯名進(jìn)行截取。在此基礎(chǔ)上,本文提出條件隨機(jī)場模型與支持向量機(jī)模型相結(jié)合的人名譯名識別模型。實驗比較了條件隨機(jī)場模型和支持向量機(jī)模型的預(yù)測效果,實驗結(jié)果顯示在使用相同特征的情況下,條件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論