2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、寫作是大規(guī)模語(yǔ)言考試中用于衡量應(yīng)試者語(yǔ)言知識(shí)和詞語(yǔ)組織能力的重要途徑,然而基于人工評(píng)分的方法存在以下缺點(diǎn):一是耗費(fèi)巨大的人力、物力、財(cái)力。二是評(píng)分的主觀性強(qiáng)、誤差大。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,其在詞性標(biāo)注、句法分析等方面都取得了突破性的進(jìn)展,基于統(tǒng)計(jì)和自然語(yǔ)言處理技術(shù)的作文自動(dòng)評(píng)分方法不斷涌現(xiàn)。傳統(tǒng)的作文自動(dòng)評(píng)分方法從詞匯、中心思想和組織結(jié)構(gòu)等方面抽取特征,并采用線性回歸等簡(jiǎn)單模型進(jìn)行訓(xùn)練,其中抽取的特征按是否考慮詞的含義分為非文本特

2、征和文本特征。這種方法存在的問題是:將各類特征簡(jiǎn)單累加在一起并不一定能獲得最好的效果,同時(shí)線性回歸等簡(jiǎn)單模型無法很好的挖掘特征的非線性關(guān)系,并且抽取特征時(shí)很少考慮文中的語(yǔ)義信息。本文主要從作文用詞的多樣性角度進(jìn)行評(píng)分,具體從模型選擇和詞多樣性特征抽取兩個(gè)方面進(jìn)行研究,主要研究?jī)?nèi)容包括以下3個(gè)方面:
  第一,本文從詞層面和句子層面構(gòu)建了非文本特征,并對(duì)比隨機(jī)森林回歸模型和作文評(píng)分中常用模型在非文本特征上的效果。隨后通過增量式特征組

3、合的方式驗(yàn)證各類特征表現(xiàn)力并得到最優(yōu)的非文本特征組合。針對(duì)非文本特征未考慮文章內(nèi)容,評(píng)分信度不高且其評(píng)分機(jī)制很容易被識(shí)破和利用的問題,構(gòu)建了基于LDA主題模型的文本特征,實(shí)驗(yàn)結(jié)果表明基于LDA的文本特征具有很好的效果。
  第二,為了衡量作文用詞的多樣性,需要盡可能準(zhǔn)確的獲取詞的語(yǔ)義信息和詞的語(yǔ)義相似度。本文使用了基于詞向量的詞表示方法,通過詞向量聚類的方法將詞按照語(yǔ)義信息進(jìn)行類別劃分,抽取作文在每個(gè)語(yǔ)義類別下的詞分布情況作為作文

4、的詞多樣性特征訓(xùn)練評(píng)分模型。針對(duì)詞向量無法解決一詞多義問題,將LDA主題模型和詞向量方法進(jìn)行融合,使用融合主題信息的詞向量方法。在作文實(shí)驗(yàn)中使用經(jīng)典的Brown詞聚類方法與詞向量聚類方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明融合主題信息的詞向量方法能更準(zhǔn)確的表示詞的語(yǔ)義信息,在各類文本特征上取得了最好的效果。
  第三,本文實(shí)現(xiàn)了一個(gè)作文自動(dòng)評(píng)分系統(tǒng),使用上述的隨機(jī)森林和融合主題信息的詞向量方法實(shí)現(xiàn)系統(tǒng)的核心評(píng)分功能,并在此基礎(chǔ)上加入相應(yīng)的輔助功

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論