版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、計(jì)算語(yǔ)言學(xué),是一門橫跨計(jì)算機(jī)科學(xué)、數(shù)學(xué)和語(yǔ)言學(xué)的新興邊緣學(xué)科,它使用形式化數(shù)學(xué)模型和計(jì)算機(jī)技術(shù)對(duì)自然語(yǔ)言進(jìn)行處理與分析。文本分析是計(jì)算語(yǔ)言學(xué)的一個(gè)重要研究領(lǐng)域。目前以單一字、詞、句為研究對(duì)象的語(yǔ)言研究已經(jīng)取得了豐碩的成果,這為使用計(jì)算語(yǔ)言學(xué)的方法對(duì)整個(gè)文本進(jìn)行風(fēng)格分析打下了重要基礎(chǔ),也促生了本文使用計(jì)算語(yǔ)言學(xué)方法進(jìn)行文本風(fēng)格分析的研究需求。
從方法論角度來(lái)看,計(jì)算語(yǔ)言學(xué)的研究方法可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法兩大類
2、。文本分析的計(jì)算語(yǔ)言學(xué)研究方法大多運(yùn)用基于統(tǒng)計(jì)方法的語(yǔ)料庫(kù)語(yǔ)言學(xué)。以整個(gè)文本為研究對(duì)象進(jìn)行風(fēng)格分析需要大量的各類語(yǔ)料庫(kù)作為基礎(chǔ),本文通過(guò)對(duì)網(wǎng)絡(luò)文本進(jìn)行搜索、采集、提取、描述,生成并實(shí)時(shí)更新各類語(yǔ)料庫(kù)。研究中涉及的語(yǔ)料庫(kù)有公共語(yǔ)料庫(kù)、生語(yǔ)料庫(kù)、字頻/詞頻語(yǔ)料庫(kù)、中英文詞典語(yǔ)料庫(kù)、標(biāo)準(zhǔn)漢語(yǔ)詞匯與短語(yǔ)基礎(chǔ)語(yǔ)料庫(kù)、分級(jí)英文詞匯語(yǔ)料庫(kù)、專業(yè)英語(yǔ)術(shù)語(yǔ)語(yǔ)料庫(kù)、英語(yǔ)助記語(yǔ)料庫(kù)、測(cè)試語(yǔ)料庫(kù)等。創(chuàng)建生成并維護(hù)更新這些語(yǔ)料庫(kù)的方法有四:一是網(wǎng)絡(luò)獲取素材,本地
3、創(chuàng)建為主,如標(biāo)準(zhǔn)漢語(yǔ)詞匯與短語(yǔ)基礎(chǔ)語(yǔ)料庫(kù)等;二是通過(guò)網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)技術(shù)采集、抽取,如谷歌提供的公共語(yǔ)料庫(kù)、詞典語(yǔ)料庫(kù)等;三是通過(guò)網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)技術(shù)創(chuàng)建并動(dòng)態(tài)更新,如字頻/詞頻庫(kù)等;四是通過(guò)網(wǎng)絡(luò)發(fā)現(xiàn)獲取生語(yǔ)料后使用算法生成,如專業(yè)英語(yǔ)術(shù)語(yǔ)語(yǔ)料庫(kù)就是結(jié)合條件隨機(jī)場(chǎng)和隱馬爾可夫模型由算法生成,并可通過(guò)網(wǎng)絡(luò)發(fā)現(xiàn)動(dòng)態(tài)更新?;谏鲜稣Z(yǔ)料庫(kù),對(duì)生語(yǔ)料文本使用預(yù)處理和統(tǒng)計(jì)等關(guān)鍵算法處理之后,本文作了面向中文文本寫作風(fēng)格的統(tǒng)計(jì)分析研究、面向英文文本教學(xué)風(fēng)格的
4、統(tǒng)計(jì)分析方法研究,并給出在英語(yǔ)網(wǎng)絡(luò)教學(xué)領(lǐng)域的應(yīng)用。
本文的工作主要分為兩大部分,一是文本風(fēng)格分析的語(yǔ)料與技術(shù)支持,這部分工作主要是語(yǔ)料庫(kù)生成方法和文本預(yù)處理和統(tǒng)計(jì)分析算法;二是中英文文本風(fēng)格統(tǒng)計(jì)分析方法理論與應(yīng)用研究。包括以下幾個(gè)方面:
1、面向文本風(fēng)格分析的語(yǔ)料庫(kù)生成方法
創(chuàng)建語(yǔ)料庫(kù)是使用計(jì)算語(yǔ)言學(xué)統(tǒng)計(jì)方法進(jìn)行文本風(fēng)格分析的先決條件,雖然目前已存在大量的實(shí)用語(yǔ)料庫(kù),但是應(yīng)語(yǔ)料在文本研究中的歷時(shí)
5、和共時(shí)需要,同時(shí)應(yīng)文本風(fēng)格分析研究的需要,本文給出標(biāo)準(zhǔn)漢語(yǔ)詞匯與短語(yǔ)基礎(chǔ)語(yǔ)料庫(kù)和分級(jí)英語(yǔ)詞匯基礎(chǔ)語(yǔ)料庫(kù)的創(chuàng)建方法,并通過(guò)基于條件隨機(jī)場(chǎng)和隱馬爾可夫模型的算法生成英語(yǔ)專業(yè)術(shù)語(yǔ)語(yǔ)料庫(kù),以供專業(yè)英文文本風(fēng)格分析研究之用。為了通用性,使用國(guó)際組織通用的XML/RDF描述本文中出現(xiàn)的各類語(yǔ)料庫(kù),以滿足不同應(yīng)用的需求。
2、文本預(yù)處理與統(tǒng)計(jì)分析算法
作為對(duì)后續(xù)文本風(fēng)格分析的技術(shù)支持,針對(duì)上述特制語(yǔ)料庫(kù),給出文本預(yù)處理和統(tǒng)
6、計(jì)分析兩大類算法,其中預(yù)處理算法主要包括文本正則化處理算法、文本截取算法、中文文本分詞算法等,統(tǒng)計(jì)分析算法包括字?jǐn)?shù)統(tǒng)計(jì),相異字統(tǒng)計(jì),字頻/詞頻統(tǒng)計(jì),句子數(shù)量統(tǒng)計(jì),句長(zhǎng)統(tǒng)計(jì)等。
3、面向中文文本寫作風(fēng)格的統(tǒng)計(jì)分析方法
用前述的文本預(yù)處理和統(tǒng)計(jì)分析算法對(duì)中文文本進(jìn)行預(yù)處理和統(tǒng)計(jì)之后,建立中文文本風(fēng)格統(tǒng)計(jì)分析模型,對(duì)文本的字、詞、句進(jìn)行定量統(tǒng)計(jì)分析,給出界定文本通俗性、從眾性和文本節(jié)奏等寫作風(fēng)格的參數(shù)指標(biāo)-字頻熵、
7、詞聚類度和句子離散度。
4、面向英文文本教學(xué)風(fēng)格的統(tǒng)計(jì)分析方法
針對(duì)英文文本特點(diǎn),提出了英文文本教學(xué)風(fēng)格分析的框架,建立了英文文本教學(xué)風(fēng)格統(tǒng)計(jì)模型,給出通用英語(yǔ)文本定量分析參數(shù)-單詞的秩、新詞覆蓋率、文本難易度和專業(yè)英語(yǔ)文本定量分析參數(shù)-平均共現(xiàn)次數(shù),闡釋了英文文本教學(xué)風(fēng)格分析在英語(yǔ)網(wǎng)絡(luò)教學(xué)中的應(yīng)用。
作為語(yǔ)言學(xué)的一門分支科學(xué),風(fēng)格學(xué)研究可以追溯到18世紀(jì)。本文則基于計(jì)算語(yǔ)言學(xué)方法,利用計(jì)算機(jī)技
8、術(shù)和形式化數(shù)學(xué)模型對(duì)文本風(fēng)格進(jìn)行定量分析研究。其創(chuàng)新點(diǎn)體現(xiàn)在以下幾個(gè)方面:
1、提出了一種集成多種分詞方法的自適應(yīng)最優(yōu)優(yōu)先漢字分詞算法
該算法針對(duì)寫作風(fēng)格分析涉及詞組、成語(yǔ)、歇后語(yǔ)、諺語(yǔ)、警句、名言、駢文名句等復(fù)雜語(yǔ)料素材的特點(diǎn),通過(guò)自適應(yīng)選擇分詞算法的多趟切分,得到最優(yōu)分詞效果。與其它主流分詞算法相比,該算法不僅能夠有效地切分體現(xiàn)寫作風(fēng)格的多種語(yǔ)料素材以有效保證寫作風(fēng)格分析對(duì)聚類度的計(jì)算需求,而且提高了成詞
9、的查全率和消歧的準(zhǔn)確率。
2、建立了一種面向中文文本寫作風(fēng)格的統(tǒng)計(jì)分析模型
給出了字頻熵、詞聚類度和句子離散度的定義及其計(jì)算公式,以字頻熵、詞聚類度和句子離散度為評(píng)測(cè)指標(biāo),建立了能夠定量揭示文本通俗性、從眾性、文本節(jié)奏等寫作風(fēng)格的統(tǒng)計(jì)模型。以《羊脂球》四個(gè)中文譯本為實(shí)驗(yàn)樣本,實(shí)例驗(yàn)證了本文建立的中文文本寫作風(fēng)格統(tǒng)計(jì)分析模型的有效性和實(shí)用性。
3、建立了一種基于條件隨機(jī)場(chǎng)的專業(yè)術(shù)語(yǔ)識(shí)別和抽取模型<
10、br> 在對(duì)條件隨機(jī)場(chǎng)、隱馬爾可夫鏈和條件熵、最大熵原理進(jìn)行改進(jìn)和補(bǔ)充的基礎(chǔ)上,設(shè)計(jì)了嵌入自然語(yǔ)言語(yǔ)法的專業(yè)術(shù)語(yǔ)識(shí)別抽取模型,有效提高了專業(yè)詞匯識(shí)別的有效性和分級(jí)適用性。在此基礎(chǔ)上建立英語(yǔ)專業(yè)術(shù)語(yǔ)詞匯語(yǔ)料庫(kù)。
4、建立了一種面向英文文本教學(xué)風(fēng)格的統(tǒng)計(jì)分析模型
該模型用單詞的秩、生詞覆蓋率、難度系數(shù)等評(píng)測(cè)通用英語(yǔ)文本中詞匯的等級(jí)、閱讀的有效性和文本的難度,用平均共現(xiàn)概率評(píng)測(cè)專業(yè)英語(yǔ)文本的專業(yè)度,并闡釋了英
11、文文本教學(xué)風(fēng)格分析在英語(yǔ)網(wǎng)絡(luò)教學(xué)中的應(yīng)用。實(shí)驗(yàn)結(jié)果與分析表明了方法的有效性和實(shí)用性。
使用更多的計(jì)算機(jī)技術(shù)理論解決更多的語(yǔ)言學(xué)問(wèn)題是計(jì)算機(jī)語(yǔ)言學(xué)的研究目標(biāo),本文進(jìn)一步的工作主要包括:
1、新的網(wǎng)絡(luò)語(yǔ)言不斷涌現(xiàn),某些習(xí)慣用語(yǔ)可能不再使用,由此導(dǎo)致了文本風(fēng)格的多變性。不論是中文語(yǔ)料庫(kù)還是英文語(yǔ)料庫(kù),都要適應(yīng)網(wǎng)絡(luò)語(yǔ)言的變化。因此,建立面向網(wǎng)絡(luò)語(yǔ)言變化的語(yǔ)料庫(kù)動(dòng)態(tài)演進(jìn)模型和方法,是本文的進(jìn)一步工作。
2
12、、通常,基于統(tǒng)計(jì)方法抽取的文本特征之間存在相關(guān)性,因此,建立面向文本風(fēng)格識(shí)別的多特征關(guān)聯(lián)分析算法,是本文的進(jìn)一步工作。當(dāng)然,對(duì)統(tǒng)計(jì)特征、結(jié)構(gòu)特征、語(yǔ)義特征進(jìn)行關(guān)聯(lián)分析,也是一個(gè)重要的研究課題。
3、本文建立的中文文本計(jì)量指標(biāo)及計(jì)算方法還可以進(jìn)一步用于中文文本分類、基于寫作風(fēng)格的信息檢索、作者身份認(rèn)證和基于文本的犯罪心理分析等領(lǐng)域,因此,相關(guān)的應(yīng)用研究是本文的進(jìn)一步工作。
4、本文建立的英語(yǔ)文本統(tǒng)計(jì)分析方法也可
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于統(tǒng)計(jì)方法的漢語(yǔ)依存句法分析研究.pdf
- 基于評(píng)論文本的情感分析研究.pdf
- 基于主題模型的文本情感分析研究.pdf
- 基于深度學(xué)習(xí)的文本情感分析研究.pdf
- 基于外在知識(shí)的短文本聚類分析研究.pdf
- 基于數(shù)據(jù)挖掘的Web文本分析研究.pdf
- 基于統(tǒng)計(jì)方法的中文文本自動(dòng)分類研究.pdf
- 基于監(jiān)督學(xué)習(xí)的文本情感分析研究.pdf
- 基于文本挖掘的定向性信息分析研究.pdf
- 基于淺層語(yǔ)義的文本傾向性分析研究.pdf
- 基于深度學(xué)習(xí)的社交媒體文本立場(chǎng)分析研究.pdf
- 基于微信公眾平臺(tái)的文本情感分析研究.pdf
- 基于GIS人口統(tǒng)計(jì)信息分析研究.pdf
- 文本的情感傾向分析研究.pdf
- 基于統(tǒng)計(jì)的漢語(yǔ)依存句法分析研究.pdf
- 基于統(tǒng)計(jì)方法的中文文本情感傾向分類研究.pdf
- 基于審計(jì)知識(shí)庫(kù)的文本關(guān)聯(lián)分析研究.pdf
- 基于統(tǒng)計(jì)nlp技術(shù)的甲骨卜辭的分析研究
- 基于文本數(shù)據(jù)挖掘技術(shù)的用戶需求分析研究.pdf
- 基于條件隨機(jī)場(chǎng)的中文文本情感分析研究.pdf
評(píng)論
0/150
提交評(píng)論