基于統(tǒng)計方法的文本風格分析研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-10 格式：pdf 頁數(shù)：134 大?。?4.11MB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩133頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、計算語言學，是一門橫跨計算機科學、數(shù)學和語言學的新興邊緣學科，它使用形式化數(shù)學模型和計算機技術對自然語言進行處理與分析。文本分析是計算語言學的一個重要研究領域。目前以單一字、詞、句為研究對象的語言研究已經(jīng)取得了豐碩的成果，這為使用計算語言學的方法對整個文本進行風格分析打下了重要基礎，也促生了本文使用計算語言學方法進行文本風格分析的研究需求。
　　從方法論角度來看，計算語言學的研究方法可以分為基于規(guī)則的方法和基于統(tǒng)計的方法兩大類

2、。文本分析的計算語言學研究方法大多運用基于統(tǒng)計方法的語料庫語言學。以整個文本為研究對象進行風格分析需要大量的各類語料庫作為基礎，本文通過對網(wǎng)絡文本進行搜索、采集、提取、描述，生成并實時更新各類語料庫。研究中涉及的語料庫有公共語料庫、生語料庫、字頻/詞頻語料庫、中英文詞典語料庫、標準漢語詞匯與短語基礎語料庫、分級英文詞匯語料庫、專業(yè)英語術語語料庫、英語助記語料庫、測試語料庫等。創(chuàng)建生成并維護更新這些語料庫的方法有四:一是網(wǎng)絡獲取素材，本地

3、創(chuàng)建為主，如標準漢語詞匯與短語基礎語料庫等;二是通過網(wǎng)絡知識發(fā)現(xiàn)技術采集、抽取，如谷歌提供的公共語料庫、詞典語料庫等;三是通過網(wǎng)絡知識發(fā)現(xiàn)技術創(chuàng)建并動態(tài)更新，如字頻/詞頻庫等;四是通過網(wǎng)絡發(fā)現(xiàn)獲取生語料后使用算法生成，如專業(yè)英語術語語料庫就是結合條件隨機場和隱馬爾可夫模型由算法生成，并可通過網(wǎng)絡發(fā)現(xiàn)動態(tài)更新?；谏鲜稣Z料庫，對生語料文本使用預處理和統(tǒng)計等關鍵算法處理之后，本文作了面向中文文本寫作風格的統(tǒng)計分析研究、面向英文文本教學風格的

4、統(tǒng)計分析方法研究，并給出在英語網(wǎng)絡教學領域的應用。
　　本文的工作主要分為兩大部分，一是文本風格分析的語料與技術支持，這部分工作主要是語料庫生成方法和文本預處理和統(tǒng)計分析算法;二是中英文文本風格統(tǒng)計分析方法理論與應用研究。包括以下幾個方面:
　　 1、面向文本風格分析的語料庫生成方法
　　創(chuàng)建語料庫是使用計算語言學統(tǒng)計方法進行文本風格分析的先決條件，雖然目前已存在大量的實用語料庫，但是應語料在文本研究中的歷時

5、和共時需要，同時應文本風格分析研究的需要，本文給出標準漢語詞匯與短語基礎語料庫和分級英語詞匯基礎語料庫的創(chuàng)建方法，并通過基于條件隨機場和隱馬爾可夫模型的算法生成英語專業(yè)術語語料庫，以供專業(yè)英文文本風格分析研究之用。為了通用性，使用國際組織通用的XML/RDF描述本文中出現(xiàn)的各類語料庫，以滿足不同應用的需求。
　　 2、文本預處理與統(tǒng)計分析算法
　　作為對后續(xù)文本風格分析的技術支持，針對上述特制語料庫，給出文本預處理和統(tǒng)

6、計分析兩大類算法，其中預處理算法主要包括文本正則化處理算法、文本截取算法、中文文本分詞算法等，統(tǒng)計分析算法包括字數(shù)統(tǒng)計，相異字統(tǒng)計，字頻/詞頻統(tǒng)計，句子數(shù)量統(tǒng)計，句長統(tǒng)計等。
　　 3、面向中文文本寫作風格的統(tǒng)計分析方法
　　用前述的文本預處理和統(tǒng)計分析算法對中文文本進行預處理和統(tǒng)計之后，建立中文文本風格統(tǒng)計分析模型，對文本的字、詞、句進行定量統(tǒng)計分析，給出界定文本通俗性、從眾性和文本節(jié)奏等寫作風格的參數(shù)指標-字頻熵、

7、詞聚類度和句子離散度。
　　 4、面向英文文本教學風格的統(tǒng)計分析方法
　　針對英文文本特點，提出了英文文本教學風格分析的框架，建立了英文文本教學風格統(tǒng)計模型，給出通用英語文本定量分析參數(shù)-單詞的秩、新詞覆蓋率、文本難易度和專業(yè)英語文本定量分析參數(shù)-平均共現(xiàn)次數(shù)，闡釋了英文文本教學風格分析在英語網(wǎng)絡教學中的應用。
　　作為語言學的一門分支科學，風格學研究可以追溯到18世紀。本文則基于計算語言學方法，利用計算機技

8、術和形式化數(shù)學模型對文本風格進行定量分析研究。其創(chuàng)新點體現(xiàn)在以下幾個方面:
　　 1、提出了一種集成多種分詞方法的自適應最優(yōu)優(yōu)先漢字分詞算法
　　該算法針對寫作風格分析涉及詞組、成語、歇后語、諺語、警句、名言、駢文名句等復雜語料素材的特點，通過自適應選擇分詞算法的多趟切分，得到最優(yōu)分詞效果。與其它主流分詞算法相比，該算法不僅能夠有效地切分體現(xiàn)寫作風格的多種語料素材以有效保證寫作風格分析對聚類度的計算需求，而且提高了成詞

9、的查全率和消歧的準確率。
　　 2、建立了一種面向中文文本寫作風格的統(tǒng)計分析模型
　　給出了字頻熵、詞聚類度和句子離散度的定義及其計算公式，以字頻熵、詞聚類度和句子離散度為評測指標，建立了能夠定量揭示文本通俗性、從眾性、文本節(jié)奏等寫作風格的統(tǒng)計模型。以《羊脂球》四個中文譯本為實驗樣本，實例驗證了本文建立的中文文本寫作風格統(tǒng)計分析模型的有效性和實用性。
　　 3、建立了一種基于條件隨機場的專業(yè)術語識別和抽取模型<

10、br>　　在對條件隨機場、隱馬爾可夫鏈和條件熵、最大熵原理進行改進和補充的基礎上，設計了嵌入自然語言語法的專業(yè)術語識別抽取模型，有效提高了專業(yè)詞匯識別的有效性和分級適用性。在此基礎上建立英語專業(yè)術語詞匯語料庫。
　　 4、建立了一種面向英文文本教學風格的統(tǒng)計分析模型
　　該模型用單詞的秩、生詞覆蓋率、難度系數(shù)等評測通用英語文本中詞匯的等級、閱讀的有效性和文本的難度，用平均共現(xiàn)概率評測專業(yè)英語文本的專業(yè)度，并闡釋了英

11、文文本教學風格分析在英語網(wǎng)絡教學中的應用。實驗結果與分析表明了方法的有效性和實用性。
　　使用更多的計算機技術理論解決更多的語言學問題是計算機語言學的研究目標，本文進一步的工作主要包括:
　　 1、新的網(wǎng)絡語言不斷涌現(xiàn)，某些習慣用語可能不再使用，由此導致了文本風格的多變性。不論是中文語料庫還是英文語料庫，都要適應網(wǎng)絡語言的變化。因此，建立面向網(wǎng)絡語言變化的語料庫動態(tài)演進模型和方法，是本文的進一步工作。
　　 2

12、、通常，基于統(tǒng)計方法抽取的文本特征之間存在相關性，因此，建立面向文本風格識別的多特征關聯(lián)分析算法，是本文的進一步工作。當然，對統(tǒng)計特征、結構特征、語義特征進行關聯(lián)分析，也是一個重要的研究課題。
　　 3、本文建立的中文文本計量指標及計算方法還可以進一步用于中文文本分類、基于寫作風格的信息檢索、作者身份認證和基于文本的犯罪心理分析等領域，因此，相關的應用研究是本文的進一步工作。
　　 4、本文建立的英語文本統(tǒng)計分析方法也可

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于統(tǒng)計方法的文本風格分析研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于統(tǒng)計方法的文本風格分析研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載