2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩99頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)技術(shù)的發(fā)展使得網(wǎng)絡(luò)上的各種信息急劇增長(zhǎng),隨之而來(lái)的還有大量的冗余信息和垃圾信息.這些信息不但影響 Internet的使用效率和質(zhì)量,而且影響網(wǎng)絡(luò)的健康發(fā)展.在這種情況下,網(wǎng)絡(luò)信息過(guò)濾技術(shù)應(yīng)運(yùn)而生,而通常所說(shuō)信息過(guò)濾一般指對(duì)文本信息的過(guò)濾處理,本文相關(guān)研究就是針對(duì)文本信息過(guò)濾特別是中文文本信息過(guò)濾中存在的問(wèn)題而提出的.
  國(guó)內(nèi)外很多研究機(jī)構(gòu)和個(gè)人針對(duì)信息過(guò)濾技術(shù),特別是面向中文的信息過(guò)濾技術(shù)進(jìn)行了大量的研究工作,也取得了很多

2、成績(jī).但是,由于文本信息特別是中文信息特有的復(fù)雜性、多義性,導(dǎo)致文本信息過(guò)濾研究中仍然存在以下問(wèn)題有待解決:
  (1)基于內(nèi)容的文本信息過(guò)濾在分詞后通常產(chǎn)生大量的候選特征項(xiàng),如果把所有的候選特征項(xiàng)都用來(lái)進(jìn)行文本表示會(huì)增加訓(xùn)練的時(shí)間和空間復(fù)雜度,并且影響過(guò)濾效果.因此,尋找適用于文本信息過(guò)濾的權(quán)重計(jì)算方法是一個(gè)需要解決的問(wèn)題.
  (2)在抽取特征項(xiàng)集合基礎(chǔ)上需要選擇適當(dāng)?shù)膬?yōu)化算法生成類別過(guò)濾模板,目前建立過(guò)濾模板的方法都是

3、對(duì)過(guò)濾需求的近似表達(dá).因此,選擇一種好的優(yōu)化方法使得生成模板盡可能好的代表類別特征是一個(gè)需要解決的問(wèn)題.
  (3)在模板匹配過(guò)程中都是整個(gè)待分類文檔的匹配和分類,從而忽略了待過(guò)濾文本個(gè)性化特征.特別是在過(guò)濾網(wǎng)絡(luò)文本時(shí),獲得的網(wǎng)絡(luò)數(shù)據(jù)文本文檔往往都有一些附加信息,如何整理和優(yōu)化待過(guò)濾文本是一個(gè)有待于解決的問(wèn)題.
  (4)由于過(guò)濾模板只能無(wú)限接近于真實(shí)模板,這就需要采用某種方法對(duì)過(guò)濾結(jié)果進(jìn)行反饋處理從而調(diào)整過(guò)濾模板.如何利用

4、饋結(jié)果及其對(duì)應(yīng)的被過(guò)濾文檔實(shí)現(xiàn)對(duì)過(guò)濾效果的改善是一個(gè)有待于解決的問(wèn)題.
  本文以文本信息過(guò)濾為目標(biāo),針對(duì)文本信息過(guò)濾特別是中文文本信息過(guò)濾中存在的問(wèn)題展開(kāi)研究,主要?jiǎng)?chuàng)新點(diǎn)包括以下五個(gè)方面:
  (1)提出了一種綜合計(jì)算文檔權(quán)重、段落權(quán)重、句子權(quán)重和特征項(xiàng)權(quán)重的權(quán)重計(jì)算方法基于內(nèi)容的文本信息過(guò)濾通常將過(guò)濾訓(xùn)練文檔集轉(zhuǎn)換為空間向量的形式供分類算法分析使用.但是,對(duì)訓(xùn)練文檔集進(jìn)行分詞后通常產(chǎn)生大量的特征項(xiàng),如果把所有特征項(xiàng)都用來(lái)

5、表示類別,會(huì)增加文本過(guò)濾的時(shí)間和空間復(fù)雜度,且很多詞對(duì)文本過(guò)濾的貢獻(xiàn)極小,甚至?xí)绊戇^(guò)濾效果.本文在研究相關(guān)特征權(quán)重計(jì)算方法的基礎(chǔ)上,綜合考慮待匹配文檔的文檔權(quán)重、句子權(quán)重、段落權(quán)重、特征項(xiàng)權(quán)重以及上下文關(guān)系提出了一種新的特征權(quán)重計(jì)算方法.
  (2)建立了遺傳算法解決中文文本信息過(guò)濾問(wèn)題的模型并通過(guò)理論和實(shí)驗(yàn)兩個(gè)方面證明了其可行性無(wú)論采用什么方法建立的過(guò)濾模板,都只是過(guò)濾需求的一種近似表達(dá).但是,針對(duì)某一專題的內(nèi)容來(lái)講,理論上都

6、存在著一個(gè)真實(shí)的過(guò)濾模板,它能夠準(zhǔn)確地表達(dá)過(guò)濾需求,這個(gè)真實(shí)模板通過(guò)數(shù)學(xué)求解或?qū)嶒?yàn)方法是得不到的,只能通過(guò)對(duì)初始模板的調(diào)整使它不斷逼近于真實(shí)模板.本文針對(duì)應(yīng)用遺傳算法解決中文文本信息過(guò)濾問(wèn)題,建立了問(wèn)題模型,并在理論上證明了可行性。同時(shí),還根據(jù)在實(shí)際應(yīng)用中存在的問(wèn)題,引入了自適應(yīng)策略解決應(yīng)用過(guò)程中存在的問(wèn)題.
  (3)給出一種以特征詞概念為中心的邏輯段落結(jié)構(gòu)并實(shí)現(xiàn)了基于邏輯段落的匹配機(jī)方法應(yīng)用向量空間模型進(jìn)行的匹配和分類中,往往

7、都是整個(gè)待分類文檔的匹配和分類,從而忽略了待分類文本中的段落特征.同時(shí),目前針對(duì)于段落的匹配機(jī)制也往往是針對(duì)傳統(tǒng)的物理段落,即給不同的段落賦予不同的權(quán)值,從而使用這些段落進(jìn)行匹配,這就帶有一定的機(jī)械性。因?yàn)檫@些物理段落往往較短或者本身包含的信息過(guò)少,甚至有些段落包含對(duì)于分類有副作用的信息.特別是在過(guò)濾網(wǎng)絡(luò)文本時(shí),獲得的網(wǎng)絡(luò)數(shù)據(jù)文本文檔往往都有一些附加信息,如果使用這些段落實(shí)施匹配極其容易出現(xiàn)分類誤差和匹配率較低的現(xiàn)象.本文從更加廣泛的詞

8、義出發(fā),建立一種以特征詞概念為中心的邏輯段落結(jié)構(gòu),在此基礎(chǔ)上實(shí)現(xiàn)了基于概念的語(yǔ)義段落的匹配機(jī)制,體現(xiàn)段落個(gè)性化特點(diǎn),提高分類效果.
  (4)改進(jìn)了傳統(tǒng)微粒群算法并實(shí)現(xiàn)了基于改進(jìn)微粒群算法的、結(jié)合協(xié)作過(guò)濾思想的模板動(dòng)態(tài)更新要想獲得更好的分類效果,必須使用大量的訓(xùn)練文本對(duì)系統(tǒng)進(jìn)行訓(xùn)練.而訓(xùn)練文本從收集、篩選再到人工標(biāo)注需要耗費(fèi)大量的人力物力.待分類文檔又名未標(biāo)記文檔,因不需要標(biāo)注和整理,在使用過(guò)程中就可以獲得,所以代價(jià)要小得多.如果

9、能有效利用待分類文檔來(lái)調(diào)整過(guò)濾系統(tǒng),將會(huì)帶來(lái)事半功倍的效果.本文在論述內(nèi)容過(guò)濾和協(xié)作過(guò)濾兩種主要技術(shù)的基礎(chǔ)上,針對(duì)它們存在的問(wèn)題,提出一種結(jié)合兩種過(guò)濾技術(shù)的混合方法.該方法應(yīng)用遺傳優(yōu)化生成服務(wù)器端初始模板,應(yīng)用粒子群優(yōu)化用戶返回信息實(shí)現(xiàn)模板更新,并且針對(duì)傳統(tǒng)微粒群算法進(jìn)行了改進(jìn).
  (5)設(shè)計(jì)了基于上述改進(jìn)策略的文本信息過(guò)濾模型并開(kāi)發(fā)實(shí)現(xiàn)了系統(tǒng)結(jié)合本文提出的融合段落特征的權(quán)重計(jì)算方法、基于模糊遺傳算法的過(guò)濾模板生成算法、基于概念

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論