版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)的普及,寬帶移動(dòng)通信帶來的高速移動(dòng)無線傳輸以及“云計(jì)算”催生的新的數(shù)據(jù)存儲(chǔ)方式,物聯(lián)網(wǎng)端到端的傳輸?shù)刃录夹g(shù)變革,均把人類推向了一個(gè)信息極大豐富的時(shí)代。然而,面對(duì)浩如煙海的電子信息,人們卻又顯得無所適從,如何準(zhǔn)確的獲得人們所需要的信息是目前亟待解決的問題。信息過濾應(yīng)運(yùn)而生,而特征項(xiàng)權(quán)重計(jì)算方法是信息過濾的基礎(chǔ),也是信息過濾效果前提保障。本文重點(diǎn)研究了特征項(xiàng)粒度的選取、特征選擇方法,特征權(quán)重計(jì)算方法以及特征項(xiàng)之
2、間的組織方式等相關(guān)內(nèi)容,有一定理論價(jià)值及實(shí)際意義。主要研究?jī)?nèi)容包括:
1.對(duì)特征選擇與權(quán)重計(jì)算的概念加以界定
總結(jié)已有特征選擇函數(shù)與權(quán)重評(píng)價(jià)函數(shù)計(jì)算方法,并對(duì)二者進(jìn)行區(qū)分與對(duì)比,給予概念及意義上的界定,為后繼研究者提供理論基礎(chǔ)。
2.改進(jìn)了傳統(tǒng)的信息增益算法
重點(diǎn)分析了傳統(tǒng)的信息增益算法的優(yōu)點(diǎn)與不足,并針對(duì)傳統(tǒng)的信息增益算法難以處理不平衡語料這一缺陷,利用特征項(xiàng)分布信息改進(jìn)了傳統(tǒng)的信息增益算法,并
3、利用類內(nèi)離散度和類間離散度作為判斷條件,把改進(jìn)的信息增益算法與傳統(tǒng)的信息增益算法相結(jié)合,這樣不克服了傳統(tǒng)信息增益算法難以處理不平衡語料的缺陷,并且保留了傳統(tǒng)信息增益算法的優(yōu)點(diǎn)。最后,通過實(shí)驗(yàn)證明這一方法的可行性。
3.在VSM中引入了句法規(guī)則的思想,增加了特征項(xiàng)的語義描述性
目前,詞法系統(tǒng)不的完善是造成特征項(xiàng)語義缺失的主要原因,也是制約中文信息處理發(fā)展的主要瓶頸。本文通過對(duì)文本標(biāo)引及向量空間模型中特征項(xiàng)粒度的選取等領(lǐng)
4、域認(rèn)真研究。針對(duì)當(dāng)前詞法系統(tǒng)不足,把句法規(guī)則引入到 VSM中,利用句法規(guī)則構(gòu)造詞法合并規(guī)則,從而識(shí)別出文本中的基本短語,并利用這些基本短語代替 VSM中的詞,以擴(kuò)充特征項(xiàng)的語義描述性。并通過實(shí)驗(yàn)證明這一方法的有效性。
4.構(gòu)建了特征關(guān)系樹,增強(qiáng)了VSM中特征項(xiàng)之間的聯(lián)系
由于VSM中各特征項(xiàng)之間相互獨(dú)立,各特征項(xiàng)之間相互干擾,以至于產(chǎn)生搭配歧義和分類噪聲,因此,本文對(duì)VSM中特征項(xiàng)之間的關(guān)系重新組織梳理,引入了樹狀模
5、型,構(gòu)造了VSM特征關(guān)系樹,并把這種思想引入到不良信息情感分類中,取得了良好效果。
5.構(gòu)造了統(tǒng)計(jì)與規(guī)則的權(quán)重計(jì)算方法
針對(duì)現(xiàn)有權(quán)重計(jì)算方法僅僅利用頻次衡量特征項(xiàng)對(duì)文檔的貢獻(xiàn)程度,容易造成特征曲線平坦難以體現(xiàn)項(xiàng)的區(qū)分度的現(xiàn)象,本文綜合考慮了特征項(xiàng)的分布、位置、頻次及語法角色等信息,構(gòu)造了特征項(xiàng)權(quán)重評(píng)價(jià)函數(shù)。并通過文檔主題句提取、文本分類等實(shí)驗(yàn)綜合評(píng)價(jià)本算法。實(shí)驗(yàn)證明,基于統(tǒng)計(jì)的聯(lián)合權(quán)重計(jì)算方法不僅增加了項(xiàng)的區(qū)分度,而
6、且克服了特征項(xiàng)曲線平坦的現(xiàn)象,而且本算法較基于的頻次的計(jì)算方法有較強(qiáng)的穩(wěn)定性及較早的收斂性。
6.設(shè)計(jì)并實(shí)現(xiàn)了基于統(tǒng)計(jì)與規(guī)則的網(wǎng)絡(luò)信息過濾系統(tǒng)
本著先進(jìn)性、可靠性、易用性的設(shè)計(jì)目標(biāo),從用戶角度出發(fā),設(shè)計(jì)并實(shí)現(xiàn)了基于統(tǒng)計(jì)與規(guī)則的網(wǎng)絡(luò)信息過濾系統(tǒng),該系統(tǒng)能夠自動(dòng)對(duì)流經(jīng)本機(jī)的信息進(jìn)行分類過濾,并依據(jù)特定用戶的設(shè)定,自動(dòng)進(jìn)行Web頁的URL過濾、關(guān)鍵詞過濾以及內(nèi)容過濾等,其中內(nèi)容過濾主要依據(jù)本文改進(jìn)的特征選擇算法進(jìn)行特征選擇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本特征項(xiàng)的權(quán)重計(jì)算方法研究.pdf
- 最簡(jiǎn)單的權(quán)重計(jì)算方法
- 文本分類中詞語權(quán)重計(jì)算方法的改進(jìn)及應(yīng)用.pdf
- 基于模糊綜合評(píng)判權(quán)重計(jì)算方法的患者滿意度研究.pdf
- ahp權(quán)重計(jì)算模板
- 基于TF-IDF的文本分類系統(tǒng)中權(quán)重計(jì)算和特征選擇方法研究.pdf
- 基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究.pdf
- 基于ANSYS的梁格計(jì)算方法研究與應(yīng)用.pdf
- 深埋樁計(jì)算方法的研究與應(yīng)用.pdf
- 基于裂縫分布特征的橋梁損傷評(píng)價(jià)與計(jì)算方法研究.pdf
- 面向查詢語句的擴(kuò)展過濾及權(quán)重計(jì)算研究.pdf
- 基于WordNet的語義相似度計(jì)算方法的研究與應(yīng)用.pdf
- 基于紋理特征的光流計(jì)算方法研究.pdf
- 極限的計(jì)算方法與應(yīng)用的探討
- 基于軟計(jì)算方法數(shù)學(xué)形態(tài)學(xué)的研究與應(yīng)用.pdf
- 多支點(diǎn)樁錨計(jì)算方法的研究與應(yīng)用.pdf
- XML文檔相似度計(jì)算方法研究與應(yīng)用.pdf
- 非規(guī)則房屋結(jié)構(gòu)隔震體系的計(jì)算方法與動(dòng)力性能計(jì)算研究.pdf
- 指標(biāo)權(quán)重確定方法之熵權(quán)法(計(jì)算方法參考
- 錨索抗滑樁的計(jì)算方法與工程應(yīng)用研究.pdf
評(píng)論
0/150
提交評(píng)論