版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于語料庫的詞匯學(xué)習(xí)(方法與資源 ),,內(nèi)容提綱,語料庫概念簡介(3-5)國內(nèi)外主要語料庫(6,7)語料庫在外語教學(xué)與學(xué)習(xí)中的應(yīng)用(8-29)免費在線語料庫簡介(COCA, BNC, Lextutor)(30-37)軟件工具(38-43)資源分享,,,,,,,What is a corpus?,Corpus = “a body of naturally occurring text”The texts were not p
2、roduced without the creator knowing that they would be used for linguistic analysisNewspapers, magazine articles, short stories, academic journals, etcGood genre balance (spoken, fiction, magazines, newspaper, academic
3、)Current: not 100-year-old novels,3,,Large: at least 100 million wordsMore words than you would see / hear in a whole lifetimeAnnotated: tagged for part of speech and lemma (e.g. the beat, they beat, and beat as)語料(c
4、orpus)是指收集的未經(jīng)組織和加工過的語言材料和素材。 ——戴煒棟,1999 語料(corpus)又稱為素材,是自然發(fā)生的語言材料(包括書面語和口語)的集合??梢杂脕碜鳛槊枋鲆环N語言的出發(fā)點或用于證實有關(guān)一種語言的假設(shè)的手段。 ——陳建生,1989,,語料庫——按照特定目的與方法建立起來的存儲語言材 料的“倉庫”。語料庫是按照一定的語言原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言,運用文本或話語片
5、段而建成的具有一定容量的大型電子文本庫。從其本質(zhì)上來說,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本代表某一研究中所確定的語言運用總體。 ——楊惠中,2002,,國外主要的語料庫,Brown (1963 – 64) ——《布朗大學(xué)當(dāng)代美國英語標(biāo)準(zhǔn)語料 庫》( The Brown University Corpus of Present Day American English) 。含100 萬1
6、961 年前后的書面 英語。由Francis 與Kucera 主持完成。 COBUILD——John Sinclair 主持,迄今最大的語料庫之一; 含的語料超過5 億詞。 COCA —— 美國當(dāng)代英語語料庫,收詞四億多,1990-2010 BNC——英語國家語料庫,收詞一億多,牛津大學(xué)/朗文/ 錢伯斯-哈洛普出版公司。 ICE——國際英語語
7、料庫,口語和書面語各一庫,收詞1 百萬 The Bank of English——英語庫,收詞2.5億。朗文/柯林 斯/伯明翰大學(xué)。,國內(nèi)英語學(xué)習(xí)者語料庫,名稱 類型 建設(shè)單位 母語背景 容量(萬詞)HKUST 書面語 香港科技大學(xué)
8、 廣東話 > 2500TSLC 書面語 香港大學(xué) 廣東話 300CLEC 書面語 廣東外語外貿(mào)大學(xué)等 漢語 100COLSEC 口語 上海交通大學(xué)等 漢語 50
9、MSEE 書面語/口語 華南師范大學(xué) 漢語 87. 6SWECCL 書面語/口語 南京大學(xué) 漢語 > 200,中國英語學(xué)習(xí)者語料庫———CLEC (桂詩春、楊惠中, 2003) 我國中學(xué)生、大學(xué)英語4、6級、英語專業(yè)低年級和高年級學(xué)生在內(nèi)的100多 萬詞的書面英語
10、語料庫, 是一部含有言語失誤標(biāo)注的英語學(xué)習(xí)者語料庫。,中國英語學(xué)生口筆語語料庫———SWECCL 由“中國學(xué)生英語口語語料庫”( Spoken English Corpus of Chinese Learners, (SECCL) 和 “中國學(xué)生英語筆語語料庫”(Written English Corpus of Chinese Learners,(WECCL)二個子項目組成??傄?guī)模為200 萬詞。南京大學(xué)主
11、持, (文秋 芳、王立非、梁茂成2005: 2),JDEST——20世紀(jì)80年代,中國第一個語料庫,上海交大,桂詩春、楊惠中,學(xué)術(shù),,語料庫在外語教學(xué)與學(xué)習(xí)中的應(yīng)用,基于規(guī)則和基于概率的實際應(yīng)用:比如 機閱作文;機器翻譯等語料庫用于目的語和中介語研究詞典編撰:如 Collins Cobuild Advanced Learner’s English Dictionary測試教材編寫翻譯研究 語料庫用于語言學(xué)習(xí):基
12、于大量真實語言輸入的自主性、研究型的語言學(xué)習(xí) 比如:近義詞辨析;語義韻;類聯(lián)結(jié);搭配研究;句法分析;話 語分析等。 應(yīng)用舉例,,,,,,Quiz: order by frequency,vigilantflabbergastedlostrinky-dinkmiserable,9,Quiz: order by frequency,lost (#2691)miser
13、able (#5841, “sad, hopeless”)vigilant (#11831, “watching over”)flabbergasted (#21701, “extremely surprised”)rinky-dink (#44681; “small, cheap, worthless”),10,,11,Obvious errors: not in corpus,12,Corpus of Contempora
14、ry American English (COCA)fall down carefully: no occurrences,13,“unrecycling”,Google: unrecycling (100 hits: lot / little?; they refer to that trashcan picture),15,Corpus of Contemporary American English (COCA): no
15、occurrences,16,COCA: other words with *recycl* (recycling, nonrecyclable, etc),[x*] recyclable: negative words before recyclable,18,Problems: civilized visitor | set up the ecosystem | ecosystem scenery,19,*set up the ec
16、osystem: verbs with ecosystem as an object,20,21,no virtuous near duck,22,Word meaning: collocates: slippery –– near crafty,,,23,slippery near crafty: no occurrences,24,adjectives near slippery: dangerous,25,arouse,,26,
17、collocates (nearby words) near arouse: suspicions, sexually, anger,,外語學(xué)習(xí)的四大難點,native-like pronunciation native way of thinking discrimination of synonyms idiomatic collocation,近義詞辨析,近義詞的辨析可以從意義的不同類型入手:語法意義(grammatic
18、al meaning) 詞匯意義(lexical meaning) 概念意義(denotative meaning) 聯(lián)想意義(associative meaning) 內(nèi)涵意義(connotative meaning) 語體意義(stylistic meaning) 情感意義(affective meaning) 搭配意義(collocative meaning),,語料庫方法在教學(xué)中的應(yīng)用舉例,《高級英語詞匯自主學(xué)習(xí)的
19、語料庫方法》 《SketchEngine工具在詞匯搭配和同義詞辨析教學(xué)上的應(yīng)用》《基于在線語料庫的動_名搭配教學(xué)的實證研究》,,,免費在線語料庫 簡介,COCABNCLextutor,Corpus of Contemporary American English (COCA; www.americancorpus.org),410+ million words (cf. British National Corpus , 1
20、00m)More words than average speaker will hear in a lifetimeFrom more than 160,000 texts20 million words each year from 1990-2010Balanced across spoken, fiction, popular magazines, newspapers, and academic journals (2
21、0% in each genre each year)Freely available online since March 200860,000-70,000 unique users each monthComplete, context-sensitive help files online,31,A good article to learn about COCA (in Chinese):Wang, Xingfu, L
22、iu Guohui, Mark Davies (2008) "The Corpus of Contemporary American English -- A Useful Tool for English Teaching and Research". Computer-Assisted Foreign Language Education in China. 5:24-31,32,Composition of C
23、OCA410+ million words (1990-present): same composition each year,Spoken: (83 million words) Transcripts of unscripted conversation from more than 150 different TV and radio programs (examples: All Things Considered (NPR
24、), Newshour (PBS), Good Morning America (ABC), Today Show (NBC), 60 Minutes (CBS), Hannity and Colmes (Fox), Jerry Springer, etc). Fiction: (79 million words) Short stories and plays from literary magazines, children’s
25、 magazines, popular magazines, first chapters of first edition books 1990-present, and movie scripts. Popular Magazines: (84 million words) Nearly 100 different magazines, with a good mix (overall, and by year) between
26、 specific domains (news, health, home and gardening, women, financial, religion, sports, etc). A few examples are Time, Men’s Health, Good Housekeeping, Cosmopolitan, Fortune, Christian Century, Sports Illustrated, etc.,
27、33,,Newspapers: (79 million words) Ten newspapers from across the US, including: USA Today, New York Times, Atlanta Journal Constitution, San Francisco Chronicle, etc. In most cases, there is a good mix between different
28、 sections of the newspaper, such as local news, opinion, sports, financial, etc. Academic Journals: (79 million words) Nearly 100 different peer-reviewed journals. These were selected to cover the entire range of the L
29、ibrary of Congress classification system (e.g. a certain percentage from B (philosophy, psychology, religion), D (world history), K (education), T (technology), etc.), both overall and by number of words per year,免費在線語料庫
30、COCA檢索方法,http://www.americancorpus.org/ COCA在線檢索首頁COCA檢索頁COCA在線檢索seldomseldom檢索結(jié)果(list形式)seldom檢索結(jié)果(chart形式)COCA在線檢索seldom擴展語境舉例,免費在線語料庫BNC檢索方法,http://corpus.byu.eduBNC首頁 BNC檢索頁BNC在線檢索outcomeBNC在線檢索outcome檢索結(jié)果(
31、list)BNC在線檢索outcome檢索結(jié)果(chart)BNC在線檢索outcome檢索行擴展語境舉例,免費在線語料庫Lextutor檢索方法,Lextutor的多語料庫在線檢索首頁 (http://www.lextutor.ca/concordancers/concord_e.html ) Lextutor檢索consequenceLextutor檢索consequence檢索結(jié)果Lextutor檢索conseque
32、nce檢索結(jié)果refinedLextutor檢索consequence擴展語境舉例,軟件工具,用語料庫檢索工具可以將關(guān)鍵詞及其語境檢索出來,讓語言學(xué)習(xí)者直接而又集中地看到上述特征。用AntConc和Wordsmith檢索詞語Wordsmith——索引軟件。提供關(guān)鍵詞檢索,語塊檢索等。 關(guān)鍵詞及上下文共顯。英國,需付費。AntConc ——日本早稻田大學(xué)教授Antony研發(fā)的檢索軟
33、 件,免費MicroConcord,ConcApp6.0,VocabProfile,PowerGrep,,,Key words in Context--KWIC,,,Concordance lines 索引行/檢索行,,AntConc使用步驟展示,打開Antconc打開open files,載入選定的語料庫選定需要的選項卡:concordance; word list; key word;collocation等在下方輸入要檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 淺析語料庫在外語教學(xué)中的應(yīng)用
- 俄語語料庫和基于語料庫的語法研究.pdf
- 雅思寫作語料庫
- 語料庫研究.pdf
- 語料庫的創(chuàng)建與應(yīng)用
- 基于語料庫的中國外語學(xué)習(xí)者英語短語動詞習(xí)得研究.pdf
- 基于語料庫與非基于語料庫的英語介詞教學(xué)的對比研究.pdf
- 基于語料庫的詞匯自主學(xué)習(xí)研究.pdf
- 語料庫與英語教學(xué).pdf
- 面向本體學(xué)習(xí)的動態(tài)語料庫構(gòu)建方法.pdf
- 漢語學(xué)習(xí)者聲調(diào)語料庫的建設(shè)與應(yīng)用.pdf
- 建立英語學(xué)習(xí)者語料庫標(biāo)注系統(tǒng).pdf
- bcc語料庫使用指南
- 譯文分析的語料庫途徑
- 托??谡Z語料庫整理fancy
- thewindamongthereeds語料庫文體翻譯研究
- bcc語料庫使用指南
- bcc語料庫使用指南
- 基于語料庫的邦譯本
- 地書語料庫的設(shè)計與實現(xiàn).pdf
評論
0/150
提交評論