計算語言學視角下的語料庫標注探析.pdf_第1頁
已閱讀1頁,還剩73頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、語料庫的出現(xiàn)以及語料庫語言學的誕生,在語言學研究中具有劃時代的意義。語料庫出現(xiàn)后發(fā)展迅猛,容量不斷擴大,功能不斷增強,研究和應用的范圍也不斷擴展。在這個過程中,語料庫標注發(fā)揮了巨大作用。語料庫標注是語料庫的重要組成部分,已成為語料庫研究的熱點。語料庫標注能夠揭示語言深層信息,拓展語料庫的功能,是語料庫資源用于計算語言研究的前提條件。目前尚未有文獻全面論述語料庫標注,以往對語料庫標注的研究側(cè)重于構(gòu)建實用的標注系統(tǒng),孤立地研究某一種標注類型

2、,散見于大型語料庫的技術(shù)規(guī)范中缺乏對相關(guān)理論的思考和探討。
  文章從計算語言學的角度,論述語料庫標注的概念、意義﹑原則﹑類型等一系列問題,側(cè)重介紹結(jié)構(gòu)標注和語義標注這兩種標注類型,重點提出了一種結(jié)構(gòu)標注模型和語義標注模型。引言部分總結(jié)了目前國內(nèi)對語料庫標注的研究現(xiàn)狀,對研究內(nèi)容﹑研究方法做出說明,指明文章的重點。第二章聯(lián)系語料庫的特征歸納出語料庫標注的概念,從兩方面闡述語料庫標注的意義。在闡釋語料庫語言學家Leech提出的語料庫

3、標注原則基礎上,針對新型語料庫的標注需求補充了四條標注原則:①以語料庫的主要用途為導向設計實用的標注系統(tǒng);②注意不同層次語料庫標注之間的的兼容性;③重視語料庫標注對相關(guān)軟件的支持;④設計便于共享的語料庫標注。第三章介紹新舊兩種語料庫的標注模式,闡明一系列圍繞TEI標注模式的概念。引入與TEI模式聯(lián)系緊密的標準通用置標語言。對幾種標注類型做出總結(jié)。第四章分析語料庫的語法標注,重點論述語法標注中的結(jié)構(gòu)標注,介紹兩種主要的結(jié)構(gòu)標注語料庫:短語

4、結(jié)構(gòu)樹庫以及依存結(jié)構(gòu)樹庫,并針對漢語語法結(jié)構(gòu)特點提出句法結(jié)構(gòu)最簡標注模型。該模型以直接成分分析法作為標注理論,通過簡單的符號系統(tǒng)描寫句子的語法結(jié)構(gòu),用類似詞性標注的形式實現(xiàn)了結(jié)構(gòu)標注,對漢語結(jié)構(gòu)標注有一定的參考價值。第五章以語義標注為主要內(nèi)容,在前人研究基礎之上,提出了一種句義標注模型,該模型句義標注部分參考格語法制訂標注集,標注種類包括詞性標注,結(jié)構(gòu)標注,句義標注,信息容量大且易于在機器中實現(xiàn),為漢語句義標注提供全新的可供參考的模型。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論