垃圾郵件過濾理論和關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、作為Internet的重大“災(zāi)難”之一,日益泛濫的垃圾郵件問題引起了人們的普遍關(guān)注。自上世紀(jì)80年代中期出現(xiàn)首封垃圾郵件以來,各種反垃圾郵件策略與技術(shù)也應(yīng)運(yùn)而生并得到了迅速發(fā)展,至今方興未艾。然而,研究反垃圾郵件問題已經(jīng)逐漸把研究者引入到了一個(gè)“不確定性花園”。由于對(duì)垃圾郵件的判別存在著主觀和客觀上的不確定性,造成了目前針對(duì)垃圾郵件的機(jī)器自動(dòng)分類和過濾技術(shù)存在較大的性能瓶頸。經(jīng)過多年的研究,有很多學(xué)者已經(jīng)注意到利用不確定智能計(jì)算技術(shù)可以

2、在一定程度上較好地處理實(shí)際工程應(yīng)用中的某些不確定性推理問題,雖然相關(guān)研究尚不成熟,但正如很多研究者相信上帝并不是簡單地通過擲骰子來創(chuàng)造人類一樣,不確定性背后的某些奇妙的確定性規(guī)律正吸引著人們不懈地深入探索,并取得了階段性的研究成果。本文認(rèn)為不確定智能計(jì)算技術(shù)在某些層面上,同樣可以有效處理垃圾郵件識(shí)別過程中存在的諸多主觀和客觀不確定性問題,因此研究不確定計(jì)算理論并應(yīng)用相關(guān)理論改進(jìn)現(xiàn)有郵件過濾算法和設(shè)計(jì)新的郵件過濾算法成為了本文的工作重點(diǎn)。

3、不確定智能計(jì)算技術(shù)的引入,使研究反垃圾郵件問題成為了一件充滿樂趣又富有挑戰(zhàn)的工作。 本文在全面吸取和借鑒目前在不確定智能計(jì)算領(lǐng)域和反垃圾郵件領(lǐng)域取得的最新技術(shù)成果的基礎(chǔ)上,從理論和應(yīng)用兩個(gè)層面,深入細(xì)致地研究了不確定智能計(jì)算理論和反垃圾郵件技術(shù)。取得了如下的主要研究成果,包括: 1、系統(tǒng)地分析了垃圾郵件問題的背景,指出研究反垃圾郵件技術(shù)的理論價(jià)值和現(xiàn)實(shí)意義。通過跟蹤國內(nèi)外反垃圾郵件技術(shù)的最新進(jìn)展,較全面地歸納概括了現(xiàn)有反

4、垃圾分類技術(shù)的發(fā)展?fàn)顩r,比較分析了各種方法的優(yōu)點(diǎn)和不足。指出基于統(tǒng)計(jì)理論的不確定智能學(xué)習(xí)和分類方法是值得深入研究,并能夠提高反垃圾郵件技術(shù)水平的重要理論手段。 2、深入地研究了Bayesian網(wǎng)絡(luò)理論,提出了一些改進(jìn)和創(chuàng)新的方法。(1)對(duì)于一般復(fù)雜網(wǎng)絡(luò),提出了一種基于全局消息傳播的PPJT算法。新算法可以將推理計(jì)算的時(shí)間復(fù)雜度有效降低,同時(shí)能夠在較小規(guī)模觀察樣本條件下,保證一般復(fù)雜貝葉斯網(wǎng)絡(luò)推理的精度需求。(2)對(duì)于Polytr

5、ee條件下的復(fù)雜Bayesian網(wǎng)絡(luò),考慮將推理算法擴(kuò)展到多機(jī)模式,通過分析Polytree條件下的中大型貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),定義新的適用于多處理機(jī)環(huán)境下的并行證據(jù)處理格式,并提出基于多處理機(jī)的并行推理算法,為提高Polytree條件下中大型貝葉斯網(wǎng)絡(luò)的全局證據(jù)傳播效率提供了一種并行解決方案。(3)研究了不完備證據(jù)條件下的參數(shù)學(xué)習(xí)問題,基于標(biāo)準(zhǔn)似然函數(shù)構(gòu)建證據(jù)丟失的計(jì)算模型,利用X2距離近似估計(jì)證據(jù)丟失導(dǎo)致的誤差距離,推導(dǎo)出了包含學(xué)習(xí)率的

6、EM算法。實(shí)驗(yàn)結(jié)果表明,新算法與傳統(tǒng)處理算法相比,在不降低估計(jì)精度的前提下具有更快的收斂速度,能夠較好地保證不完備證據(jù)條件下可信高效的Bayesian網(wǎng)絡(luò)參數(shù)估計(jì)。 3、提出了一種包含核函數(shù)的Bayesian參數(shù)估計(jì)方法,提高了Bayesian參數(shù)估計(jì)的實(shí)用性。結(jié)合郵件內(nèi)容和報(bào)文格式兩個(gè)方面分析和提取郵件的重要特征,建立了對(duì)應(yīng)的Bayesian郵件分類網(wǎng)絡(luò)。將包含核函數(shù)的Bayesian參數(shù)估計(jì)方法應(yīng)用到郵件分類網(wǎng)絡(luò),在對(duì)不同郵

7、件測試集的在線學(xué)習(xí)試驗(yàn)結(jié)果證明,這種新的分類模型能夠比較有效地實(shí)現(xiàn)垃圾郵件的分類過濾。 4、嘗試采用擬合Logistic Regression模型對(duì)郵件分類問題建模,并在建模的過程中通過引入偏依賴系數(shù)函數(shù)模擬了郵件過濾中的偏依賴特性。在不同郵件樣本集中的實(shí)驗(yàn)結(jié)果顯示,新的郵件分類模型對(duì)垃圾郵件的誤報(bào)誤差和漏報(bào)誤差具有良好的不對(duì)稱區(qū)分性,因而從算法的層次上實(shí)現(xiàn)了具有偏依賴特征的郵件分類器。 5、為了規(guī)避目前反垃圾郵件技術(shù)在

8、文本關(guān)聯(lián)和內(nèi)容理解方面所存在的諸多困難,提出從另一個(gè)角度研究垃圾郵件分類過濾問題,即從垃圾郵件發(fā)送者的行為模式角度出發(fā)研究郵件類別。通過從郵件發(fā)送者的行為緊密相關(guān)的郵件特征提取對(duì)應(yīng)特征向量,并應(yīng)用支持向量機(jī)的方法構(gòu)建分類函數(shù),提出一種基于行為特征的垃圾郵件模式分類模型。經(jīng)過仿真實(shí)驗(yàn)我們發(fā)現(xiàn)采用這種全新的行為特征分類模型判定郵件的類別具有較精確的判定效果和較強(qiáng)的魯棒性。 6、構(gòu)建了一個(gè)位于郵件服務(wù)器前端的、多層次的垃圾郵件過濾系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論