基于統(tǒng)計(jì)的復(fù)述獲取與生成技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩120頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、復(fù)述,即對(duì)相同語義的不同表達(dá)方式,是自然語言中非常普遍的現(xiàn)象,它反映了人類在使用語言時(shí)的靈活多樣性,同時(shí)也為自然語言處理的研究提出了挑戰(zhàn)。近年來,有許多學(xué)者針對(duì)復(fù)述問題展開研究,并嘗試將其應(yīng)用到機(jī)器翻譯、自動(dòng)問答、信息檢索、信息抽取、文本生成等相關(guān)研究中去。
  復(fù)述研究主要包含兩大類內(nèi)容:其一是復(fù)述資源的獲取,即從各式語料中基于各種方法抽取復(fù)述句對(duì)、復(fù)述短語、復(fù)述模板等不同粒度和形式的復(fù)述資源;其二是復(fù)述生成,通常指的是句子級(jí)的

2、復(fù)述生成,即由計(jì)算機(jī)自動(dòng)生成給定句子的復(fù)述句。本文的研究工作涵蓋了上面兩類問題。首先,本文嘗試使用了多種語料庫,并針對(duì)每種語料庫提出了有效的方法以抽取復(fù)述短語、復(fù)述模板以及復(fù)述搭配等細(xì)粒度的復(fù)述資源。在此基礎(chǔ)上,本文將抽取到的復(fù)述資源用于統(tǒng)計(jì)復(fù)述生成。本研究的主要內(nèi)容包括以下幾個(gè)方面:
  1.基于多種方法抽取復(fù)述短語資源。復(fù)述短語抽取一直是復(fù)述研究中的熱點(diǎn)問題,有很多方法被相繼提出。本文充分借鑒了前人的研究成果并加以改進(jìn),分別使

3、用包括單語平行語料庫、單語可比較語料庫、雙語平行語料庫、類義詞典同義詞、詞典注釋以及搜索引擎用戶查詢等各類資源抽取復(fù)述短語。該工作的意義不僅在于獲取了大規(guī)模的復(fù)述短語,更在于對(duì)各種語料資源以及各種復(fù)述抽取方法的綜合、比較和分析。我們由此清楚地掌握了每種方法和語料資源的優(yōu)缺點(diǎn)以及抽取得到復(fù)述短語的類型和特點(diǎn)等。
  2.基于“樞軸法”抽取復(fù)述模板資源。與復(fù)述短語相比,復(fù)述模板中含有表示變量的“槽”,可以通過在槽中填入不同的內(nèi)容而得到

4、不同的復(fù)述實(shí)例。因而,復(fù)述模板在復(fù)述的識(shí)別和生成中覆蓋度更高、效力更強(qiáng)。本文提出了基于樞軸法從大規(guī)模雙語平行語料庫中抽取復(fù)述模板。該方法在句法分析和雙語詞對(duì)齊的基礎(chǔ)之上分別抽取英文模板和中文模板,并進(jìn)而利用中文模板作為樞軸來抽取英文復(fù)述模板。該方法使用對(duì)數(shù)線性模型計(jì)算兩個(gè)英文模板的復(fù)述概率,其中使用了基于極大似然估計(jì)和“詞加權(quán)”的特征函數(shù)。實(shí)驗(yàn)結(jié)果表明,利用該方法抽取出的復(fù)述模板數(shù)量大、準(zhǔn)確率高,對(duì)后續(xù)的復(fù)述生成作用顯著。
  3

5、.基于二元分類的方法抽取復(fù)述搭配資源。復(fù)述搭配是指語義相同但字面表達(dá)不同的搭配。復(fù)述搭配在自然語言處理的眾多領(lǐng)域中皆有應(yīng)用,但前人的研究卻鮮有涉獵。本文以動(dòng)賓搭配為例研究復(fù)述搭配的抽取。具體地,本方法將復(fù)述搭配抽取視作二元分類問題,并綜合使用了基于翻譯、詞典、極性詞以及網(wǎng)絡(luò)挖掘的多種特征。實(shí)驗(yàn)結(jié)果表明,本文所采用的二元分類的方法對(duì)于抽取復(fù)述搭配是行之有效的,其中使用的各種特征對(duì)于提高復(fù)述搭配抽取的效果皆有幫助。
  4.提出面向多

6、任務(wù)的一體化統(tǒng)計(jì)復(fù)述生成方法。復(fù)述生成在自然語言處理的諸多方向均有重要應(yīng)用,但在這方面的研究卻很不夠。本文通過對(duì)復(fù)述生成問題本質(zhì)的分析以及與其它相關(guān)研究問題(尤其是機(jī)器翻譯)的比較,提出了一種統(tǒng)計(jì)復(fù)述生成方法。據(jù)我們了解,該方法是第一個(gè)專門針對(duì)復(fù)述生成問題設(shè)計(jì)的統(tǒng)計(jì)方法。該方法的主要特色體現(xiàn)在以下兩方面:首先,該方法基于一個(gè)統(tǒng)一的統(tǒng)計(jì)模型面向不同的應(yīng)用任務(wù)生成復(fù)述句,以滿足各種任務(wù)的不同應(yīng)用需求;另外,該方法可以非常方便地融合使用以上抽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論