版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著信息時代的到來,中文信息的自動化處理越來越顯示出其重要價值。然而缺少細致的致力于規(guī)則的句法描寫已成為嚴重制約中文信息自動化處理的瓶頸。句法分析作為自然語言處理中的重點和難點,雖然經(jīng)過幾十年的研究與發(fā)展,但是當面對大量真實文本的分析時,由于漢語句子的復雜性和靈活性等特點,對漢語句子的完全分析無論在空間上還是在時間上都受到了極大的挑戰(zhàn)。部分句法分析(Partial Parsing)作為近年來出現(xiàn)的一個新的語言處理策略,主要著眼于組塊(c
2、hunk)的識別與分析。盡管部分句法分析的結(jié)果并不是一棵完整的句法樹,但各個組塊是完整句法樹的一個子圖(subgraph),只要加上組塊之間的依附關(guān)系(attachment),就可以構(gòu)成完整的句法樹。這樣就使句法分析的任務(wù)在某種程度上得到簡化,同時也有利于句法分析技術(shù)在大規(guī)模真實文本處理系統(tǒng)中迅速得到利用。
本文以“面向計算機的現(xiàn)代漢語‘得’字研究”為題正基于此,我們希望通過對“得”字結(jié)構(gòu)的識別研究,使之成為完整句法樹的一
3、個子圖,從而最終實現(xiàn)計算機的自動識別。由于純粹從為計算機識別服務(wù)的目的出發(fā),立足于面向計算機的自然語言信息處理,我們將研究范圍限定在無論來源、無論讀音、無論詞性,凡字形相同的“得”字均在我們的討論之列。研究重點主要集中在三個方面。
第一,“得”字結(jié)構(gòu)的分布特征研究。在對各類“得”字的句法功能及語義特征進行明確界定的基礎(chǔ)上,對“得”字結(jié)構(gòu)的語體分布特征進行了詳細的描述,并對表現(xiàn)出來的明顯傾向性進行了適當?shù)姆治?。著重觀察“得”
4、字述補結(jié)構(gòu)中“得”前成分與不同語體的對應(yīng)關(guān)系,以及“得”后不同補語類型在各類語體中的分布情況,并分析其分布狀況及產(chǎn)生對應(yīng)關(guān)系的原因。
第二,“得”字結(jié)構(gòu)的組合特征研究。在對各類“得”字左右鄰接特征分布進行統(tǒng)計的基礎(chǔ)上,結(jié)合對“得”字左右鄰接限制特征的調(diào)查,對“得1”、“得2”、“得3”、“得4”的左鄰接和右鄰接特征及其限制性特征進行了包括隱性鄰接在內(nèi)的詳細描述,發(fā)現(xiàn)其鄰接規(guī)律,并就“得”字的左右顯性鄰接共現(xiàn)情況進行觀察和描
5、述;引入“熵”的計算,通過數(shù)據(jù)的演算進一步說明各類“得”字對左右鄰接詞語所具有的選擇性。
第三,“得”字述補結(jié)構(gòu)的語法及語義分析研究。在借鑒前人研究成果的基礎(chǔ)上,從利于計算機識別與處理的觀點出發(fā),對“得”字述補結(jié)構(gòu)的結(jié)構(gòu)類型,即可能式述補結(jié)構(gòu)和非可能式述補結(jié)構(gòu),從句法模式到句法成分間的語義選擇進行了明確的界定;并就非可能式述補結(jié)構(gòu)中補語的結(jié)構(gòu)類型進行分類,確立了非可能式述補結(jié)構(gòu)的結(jié)構(gòu)形式與語法意義的對應(yīng)關(guān)系。
6、 本文研究的創(chuàng)新之處在于:
(1)首次以為計算機識別服務(wù)為目的,立足于面向計算機的自然語言信息處理,對現(xiàn)代漢語的“得”字進行包括語體分布特征、左右鄰接特征、語法結(jié)構(gòu)及語義關(guān)系等在內(nèi)的全方位的觀察與研究,借助形式標記的發(fā)掘,實現(xiàn)對不同類型“得”字結(jié)構(gòu)的鑒別,以適應(yīng)計算機對不同“得”字“理解”的要求。
(2)運用詞匯語法理論,定量統(tǒng)計與定性分析相結(jié)合,研究“得”字結(jié)構(gòu)內(nèi)部成分之間的鄰接關(guān)系和共現(xiàn)關(guān)系。對顯性的鄰接
7、特征和左右成分共現(xiàn)情況進行了詳細的描述,并對隱性的鄰接特征進行了預(yù)測。
(3)在“得”字的鄰接研究中引入“熵”的概念,通過數(shù)據(jù)的演算進一步說明各類“得”字對左右鄰接詞語所具有的選擇性。同時,也為今后搭配概率的統(tǒng)計分析提供有利的數(shù)據(jù)支持。
(4)從為計算機的自動識別提供盡可能形式化、可操作的語言學標準的觀點出發(fā),對“得”字述補結(jié)構(gòu)的結(jié)構(gòu)類型,從句法模式到句法成分間的語義選擇進行了明確的界定;并就非可能式述補結(jié)構(gòu)
8、中補語的結(jié)構(gòu)類型進行分類,確立了非可能式述補結(jié)構(gòu)的結(jié)構(gòu)形式與語法意義的對應(yīng)關(guān)系。
(5)建立大規(guī)模的真實文本語料庫,自行標注,為本課題研究奠定了堅實的基礎(chǔ),保證了研究結(jié)果的信度和效度。首次實現(xiàn)了在大規(guī)模的語料庫范圍內(nèi)采用基于統(tǒng)計的方法對現(xiàn)代漢語“得”字在真實文本中的使用情況進行窮盡性的研究。
(6)自行研制WordParse軟件和 DataWord軟件,完成數(shù)據(jù)庫建設(shè)及數(shù)據(jù)統(tǒng)計分析,建構(gòu)前后接續(xù)觀察和統(tǒng)計系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代漢語介詞習得研究.pdf
- 面向計算的現(xiàn)代漢語明喻句的考察.pdf
- 現(xiàn)代漢語并列四字格及其習得研究.pdf
- 面向二語習得的現(xiàn)代漢語雙音節(jié)輕聲詞研究.pdf
- 現(xiàn)代漢語主題句的習得研究.pdf
- 現(xiàn)代漢語“的”與“得”分合問題研究.pdf
- 現(xiàn)代漢語帶“得”字的程度補語和狀態(tài)補語的糾葛研究.pdf
- 現(xiàn)代漢語“V得”式動詞探究.pdf
- 現(xiàn)代漢語對舉嵌置式四字格習得研究.pdf
- 現(xiàn)代漢語連動句及其習得研究.pdf
- 現(xiàn)代漢語瞬時副詞及其習得狀況研究.pdf
- 現(xiàn)代漢語中動句及其習得研究.pdf
- 現(xiàn)代漢語雙及物構(gòu)式習得研究.pdf
- 現(xiàn)代漢語副詞“又”的語義及習得研究.pdf
- 面向?qū)ν鉂h語教學的現(xiàn)代漢語“被”字句研究.pdf
- 現(xiàn)代漢語祈使功能問句習得研究.pdf
- 面向?qū)ν鉂h語教學的現(xiàn)代漢語時間副詞研究.pdf
- 面向?qū)ν鉂h語教學的現(xiàn)代漢語介詞“從”研究.pdf
- 面向泰國漢語教學的現(xiàn)代漢語“了”的考察.pdf
- 現(xiàn)代漢語“對”字結(jié)構(gòu)的考察.pdf
評論
0/150
提交評論