漢語詞匯統(tǒng)計(jì)研究_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1漢語詞匯統(tǒng)計(jì)研究漢語詞匯統(tǒng)計(jì)研究王惠新加坡國(guó)立大學(xué)中文系1、詞匯統(tǒng)計(jì)概說、詞匯統(tǒng)計(jì)概說詞匯統(tǒng)計(jì)研究是漢語詞匯學(xué)的一個(gè)重要方面,它可以通過對(duì)漢語詞匯的各種現(xiàn)象的量的描述得出質(zhì)的評(píng)價(jià),從而揭示漢語詞匯的各種統(tǒng)計(jì)特性。這種統(tǒng)計(jì)研究可以由人來做,也可以由計(jì)算機(jī)來做。從詞匯研究的角度來看,詞匯統(tǒng)計(jì)研究已有很長(zhǎng)的歷史了。古印度語言學(xué)家在研究婆羅門教的經(jīng)典《吠陀經(jīng)》時(shí),就進(jìn)行過單詞數(shù)目的統(tǒng)計(jì)。1898年德國(guó)學(xué)者F.W.Kaeding編制了世界上第一

2、部頻率詞典《德語頻率詞典》。1944年,英國(guó)數(shù)學(xué)家G.U.Yule發(fā)表了《文學(xué)詞語的統(tǒng)計(jì)研究》,大規(guī)模地使用概率和統(tǒng)計(jì)方法來研究語言。1949年,法國(guó)學(xué)者R.Michea提出建立“統(tǒng)計(jì)詞匯學(xué)”。1965年,德國(guó)學(xué)者R.D.Keil把詞頻統(tǒng)計(jì)與現(xiàn)代統(tǒng)計(jì)學(xué)結(jié)合起來,提出了“詞匯計(jì)量學(xué)(lexicometric)”。近40年來,由于語言統(tǒng)計(jì)研究中廣泛地采用計(jì)算機(jī),逐漸改變了傳統(tǒng)的手工查頻、手工統(tǒng)計(jì)的辦法,提高了統(tǒng)計(jì)的效率和精度,詞匯統(tǒng)計(jì)學(xué)在國(guó)

3、際上有了巨大的發(fā)展。我國(guó)也早在20世紀(jì)20年代就進(jìn)行過漢語詞匯的統(tǒng)計(jì)研究。70年代末以來,我國(guó)開始利用計(jì)算機(jī)進(jìn)行漢語詞匯的統(tǒng)計(jì)研究,除了統(tǒng)計(jì)字、詞頻度以外,還以此為基礎(chǔ)建立了漢語的語料庫,編制了各種頻率詞典、詞表,并對(duì)現(xiàn)代漢語的常用字、常用詞、構(gòu)詞規(guī)則等進(jìn)行了多方面的研究,取得了可觀的成績(jī)。2、二三十年代的漢語基本詞匯統(tǒng)計(jì)、二三十年代的漢語基本詞匯統(tǒng)計(jì)在漢語教學(xué)中,究竟應(yīng)該選擇哪些字最先教給學(xué)生?哪些字是最常用的?哪些是次常用的?一個(gè)人

4、至少要掌握多少字,才可以完成基本的閱讀與寫作?所有這些,無疑是語文教學(xué)首先就遇到的問題。因此,編選常用字表給學(xué)生學(xué)習(xí)使用就成了中國(guó)語文教育的傳統(tǒng)?!肚ё治摹罚?000字)、《三字經(jīng)》(1248字)是古代漢語教學(xué)的重要模式。我國(guó)第一個(gè)進(jìn)行現(xiàn)代意義上的字頻統(tǒng)計(jì)分析,是語言學(xué)家黎錦熙在1922年發(fā)表的《國(guó)語基本語詞的統(tǒng)計(jì)研究》(《國(guó)文學(xué)會(huì)叢刊》1卷1號(hào))。其后,教育學(xué)家陳鶴琴根據(jù)6類材料55萬漢字,歷時(shí)兩三年,選出了4261常用字,1928年

5、6月完成了《語體文應(yīng)用字匯》。此外,王文新也編寫過《小學(xué)分級(jí)字匯研究》一書。1934年,彭仁山對(duì)三民主義用詞作了一些統(tǒng)計(jì)與分析1。1946年,四川省教育科學(xué)院頒發(fā)了《常用字選》,收錄2000個(gè)字。這些統(tǒng)計(jì)都是手工查頻,材料零星分散,而且統(tǒng)計(jì)單位只限于漢字。3、五六十年代常用字詞的統(tǒng)計(jì)、五六十年代常用字詞的統(tǒng)計(jì)建國(guó)以后為了推廣普通話、普及文化知識(shí),首先就要編寫識(shí)字教材。為了避免漢語教學(xué)大綱設(shè)計(jì)和教材編寫的主觀盲目性,提高教學(xué)效率,中央人民

6、政府和各省的教育部門都很重1彭仁山,三民主義用詞統(tǒng)計(jì)與分析,《教育研究》第52期,1934年34.2詞頻統(tǒng)計(jì)由于書面漢語不是按詞分寫的,而是以漢字為單位逐個(gè)書寫的,詞與詞之間的界限以及詞和語素、詞組的劃分,都缺少明顯的依據(jù)。詞的定義成為長(zhǎng)期以來困擾著漢語詞匯學(xué)界的一道難題。因此,漢語大規(guī)模的統(tǒng)計(jì)研究多年來一直停留在以字為單位的階段上。比起常用字來,常用詞的統(tǒng)計(jì)起步晚,難度更大。直到80年代以后,隨著漢語詞匯研究的深入和中文信息處理技術(shù)的

7、進(jìn)步,我國(guó)在詞頻統(tǒng)計(jì)方面才開始大規(guī)模地開展工作。進(jìn)行詞頻統(tǒng)計(jì),首先要從連續(xù)的漢字串中把詞且分出來。切詞的方式有人工切詞和計(jì)算機(jī)自動(dòng)切詞兩種。在現(xiàn)有的詞頻統(tǒng)計(jì)中,大多數(shù)采用人工切詞,憑借人的詞匯、語法知識(shí)和對(duì)上下文的理解,使詞與詞只間留出空白。從1979年末至1986年,北京語言學(xué)院語言教學(xué)研究所把“現(xiàn)代漢語詞匯統(tǒng)計(jì)研究”列為重點(diǎn)項(xiàng)目,對(duì)不同體裁的200萬字語料進(jìn)行了人工切詞和抽樣統(tǒng)計(jì),不僅對(duì)詞頻進(jìn)行統(tǒng)計(jì),而且同時(shí)兼顧字頻、組詞能力和詞長(zhǎng)

8、的統(tǒng)計(jì)分析。統(tǒng)計(jì)結(jié)果分別列成:⑴按音節(jié)排列的頻率詞表;⑵使用度最高的前8000詞詞表;⑶頻率最高的前8000詞詞表;⑷使用度最低的詞語單位表;⑸按報(bào)刊政論、科普書刊、日??谡Z、文學(xué)作品分別列出的頻率最高的4000詞表(4個(gè)表);⑹按遞降順序排列的漢字頻率表;⑺漢字在詞首、詞間和詞末的構(gòu)詞能力分析;⑻其它附表。該項(xiàng)目的成果編成《現(xiàn)代漢語頻率詞典》一書出版。這是我國(guó)最早的一部字詞統(tǒng)計(jì)兼顧的頻率辭典。統(tǒng)計(jì)結(jié)果具有很高的客觀性、準(zhǔn)確性1。此外,

9、該項(xiàng)目組成員還與中國(guó)社會(huì)科學(xué)院語言研究所合作,統(tǒng)計(jì)了全國(guó)中小學(xué)統(tǒng)一使用的十年制語文課本,出版了《漢語詞匯的統(tǒng)計(jì)與分析》。他們發(fā)現(xiàn),總字520934個(gè)字的課本中共包含的不同的詞18177個(gè),平均詞長(zhǎng)為1.98個(gè)漢字。頻率最高的1000詞,共出現(xiàn)278448次,占全部語料詞次總數(shù)的74%強(qiáng)。這些詞由731個(gè)漢字組成,其中頻率最高的前10個(gè)是“的、一、了、我、是、在、不、們、人、有”,它們占全部語料總字?jǐn)?shù)的14.9%,前100個(gè)漢字占全部語料

10、總字?jǐn)?shù)的41.1%,731個(gè)漢字全部語料總字?jǐn)?shù)的63.9%,其常用程度和重要性顯而易見。基于這些數(shù)據(jù),課題組對(duì)731個(gè)漢字的構(gòu)詞能力進(jìn)行了進(jìn)一步的研究。他們還根據(jù)不同音節(jié)的詞的數(shù)量與覆蓋率的對(duì)比提出:在靜態(tài)的環(huán)境中,單音節(jié)詞占的比例較小,但在使用語言的動(dòng)態(tài)過程中,單音節(jié)詞所占的比例則比雙音節(jié)的比例大得多。這為漢語詞匯教學(xué)和研究提供了有價(jià)值的基礎(chǔ)資料。北京師范大學(xué)現(xiàn)代化教育技術(shù)研究所,也利用計(jì)算機(jī)進(jìn)行了中小學(xué)教材的詞頻統(tǒng)計(jì)工作。在對(duì)106

11、.8萬的語料人工切詞的基礎(chǔ)上,建立了一個(gè)含有39601個(gè)詞的頻度詞表。在704841個(gè)總詞次中,單音節(jié)詞占52.7%,雙音節(jié)詞占43.8%,三音節(jié)詞占2.6%,四音節(jié)以上的詞占0.9%??梢姡谡Z言使用過程中,單音節(jié)詞仍比雙音節(jié)詞占優(yōu)勢(shì)。這一階段中,規(guī)模最大的漢語詞頻統(tǒng)計(jì)應(yīng)是1982年國(guó)家標(biāo)準(zhǔn)局下達(dá)的“現(xiàn)代漢語詞頻統(tǒng)計(jì)工程”項(xiàng)目,由北航等10家單位聯(lián)合攻關(guān),從1919~1982年的社會(huì)科學(xué)和自然科學(xué)的3億漢字的材料中抽樣2500萬字的語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論