漢語詞長的計量研究.pdf_第1頁
已閱讀1頁,還剩240頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、“詞”是構成人類語言系統(tǒng)的基本單位,在詞的諸多特征中,“長度”又是最基本且易于量化的詞匯結構屬性特征之一。本文從共時和歷時兩個層面,運用計量語言學的方法系統(tǒng)考察了漢語詞長問題。
  本文第1、2章介紹了如何運用計量語言學的理論和方法系統(tǒng)考察漢語詞長問題。在計量語言學中,對于任一種語言結構屬性特征,我們一般都假設其應該滿足如下一些文本特性:“頻率分布”、“序列分布”、“協(xié)同關系”、“層級關系”、“歷時演化”。本文中,我們以詞長本身所

2、具有的“頻率分布”和“序列分布”特性為基本考察面,兼具考察其系統(tǒng)特性“協(xié)同關系”和“層級關系”,并且結合漢語有大量歷時文本記載的優(yōu)勢,考察了詞長特性的“歷時演化”。
  對于漢語詞長的“頻率分布”,我們在本文第3、4章進行了考察。第3章從共時層面(現(xiàn)代漢語)考察了漢語口語和書面語的詞長分布問題。在這一部分中,我們主要考察了三個問題:漢語口語和書面語中的最佳詞長測量單位、口語和書面語詞長分布對比、詞長與詞在語言單位層級中的位置的關系

3、??疾旖Y果顯示,“音節(jié)”是口語中最佳的詞長測量單位。部件是書面語中最佳的詞長測量單位;漢語口語和書面語在詞長分布上存在一定差異,尤其是在短詞使用頻率上;在漢語書面語中,“詞-部件-筆畫”是符合“門策拉-阿爾特曼”定律的漢語語言單位層級;漢語口語和書面語存在交互效應,現(xiàn)代漢語口語受到了書面語的較大影響。
  本文第4章從歷時層面考察了漢語詞長分布問題。在這一部分中,我們運用不同計量方法分別進行了近一千年(分4個時段,大語料庫)和近兩

4、千年(分6個時段,小語料庫)漢語文本詞長分布演化的考察。兩種不同考察的結果都顯示,漢語詞長分布有著非常顯著的歷時演化規(guī)律,即詞長分布越來越趨于“鐘形分布”,平均詞長增加。進一步,基于詞長與其它語言結構特性的“協(xié)同關系”考察顯示,漢語詞長的演化不是孤立的,而是發(fā)生在一個自組織的語言系統(tǒng)中的:詞長與詞頻相互依賴,協(xié)同演化;詞長演化也引起了整個詞匯系統(tǒng)甚至語言系統(tǒng)的演化;詞長的演化是在“省力原則”控制下的,詞長的演化促進了語言交流效率的提高。

5、
  對于漢語詞長的“序列分布”,本文在第5章進行了考察。考察分共時和歷時兩部分。總起來說,考察結果顯示:漢語口語和書面語具有相同的詞長動鏈分布模型;從詞長動鏈長度分布的總體分布趨勢來看,它與詞長分布的情況非常相似,所以,詞長動鏈長度分布確實繼承了詞長分布的一些特性。為了進一步考察漢語詞長序列的歷時演化,我們又使用了N-gram詞長熵的方法??疾祜@示,N-gram詞長熵主要受到了詞長分布的影響,且詞長序列在越長距離上會表現(xiàn)出越高的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論