不良文本過(guò)濾建模理論及應(yīng)用關(guān)鍵技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁(yè)數(shù)：103 大?。?.74MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

不良文本過(guò)濾建模理論及應(yīng)用關(guān)鍵技術(shù)研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩102頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Internet的開放性和日益增長(zhǎng)的規(guī)模，為人們提供了自由交換信息的便捷手段。同時(shí)巨大的開放信息源也使一些惡意的和不良的(反動(dòng)、色情等)內(nèi)容信息趁機(jī)而入，成為用戶獲取有效信息的嚴(yán)重障礙。為保護(hù)國(guó)家安全、穩(wěn)定，同時(shí)保護(hù)網(wǎng)絡(luò)用戶遠(yuǎn)離有害信息的侵?jǐn)_，以及控制對(duì)這些信息的訪問(wèn)，有必要采取有力措施對(duì)這類信息進(jìn)行監(jiān)管，同時(shí)也有必要為運(yùn)行Web服務(wù)的各種組織，提供對(duì)此類信息的訪問(wèn)加以監(jiān)管的技術(shù)和服務(wù)。為此研發(fā)先進(jìn)的文本內(nèi)容安全監(jiān)管技術(shù)是一項(xiàng)緊急而又重

2、要的課題。本文綜合運(yùn)用機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、自然語(yǔ)言理解、中文信息處理、粗糙集理論、人工智能等學(xué)科的相關(guān)知識(shí)，通過(guò)分析各類不良信息的特征，結(jié)合文本信息處理目前研究進(jìn)展，深入研究了適合不良文本信息過(guò)濾的模型、文本預(yù)處理技術(shù)、文本特征選擇技術(shù)、過(guò)濾算法以及相關(guān)應(yīng)用等。首先，對(duì)國(guó)內(nèi)外不良文本過(guò)濾現(xiàn)狀及相關(guān)過(guò)濾系統(tǒng)的研究狀況進(jìn)行了討論分析，分析了基于PICS(PlatformforInternetConte

3、ntSelection)的內(nèi)容選擇，基于URL的過(guò)濾，基于特征詞過(guò)濾的優(yōu)缺點(diǎn)，指出智能內(nèi)容過(guò)濾是進(jìn)行文本深層次分析的必要技術(shù)，并指出了文本安全過(guò)濾的應(yīng)用領(lǐng)域。研究了處理大樣本集的文本預(yù)處理技術(shù)、特殊字符處理技術(shù)、快速詞頻統(tǒng)計(jì)算法、網(wǎng)頁(yè)正文獲取等關(guān)鍵技術(shù)。其次，研究了文本處理中的文本表達(dá)技術(shù)和特征選擇技術(shù)，包括Filter特征選擇技術(shù)，Wrapper特征選擇技術(shù)，基于粗集的特征選擇技術(shù)，以及權(quán)重計(jì)算和歸一化技術(shù)。指出了各種特征選

4、擇技術(shù)的優(yōu)缺點(diǎn)，并對(duì)文本表達(dá)技術(shù)進(jìn)行了實(shí)驗(yàn)。得出不同的過(guò)濾器需要采用適于其本身的文本表達(dá)方法，正確的歸一化能夠得到較好的結(jié)果。實(shí)際的樣本集一般是不平衡樣本，不同的過(guò)濾器對(duì)于不平衡樣本集實(shí)驗(yàn)結(jié)果的性能差別較大。實(shí)驗(yàn)表明：中心向量法、支持向量機(jī)基于向量空間模型來(lái)表示文本，正確歸一化后，和沒(méi)有歸一化前比較，性能有很大的提高。NaiveBayes由于采用概率模型表示文本，在標(biāo)準(zhǔn)樣本集(平衡樣本集)上得到了同中心向量法和基于支持向量機(jī)的方法相當(dāng)?shù)?/p>

5、結(jié)果。而且在實(shí)際樣本集(不平衡樣本集)上，對(duì)于訓(xùn)練集，準(zhǔn)確率差于中心向量空法和基于支持向量機(jī)的方法，然而在過(guò)濾未知不良樣本上，準(zhǔn)確率非常差，而中心向量法和基于支持向量機(jī)的方法較好。分析表明一方面由于不同反動(dòng)網(wǎng)站的反動(dòng)樣本語(yǔ)法風(fēng)格不一樣，另一方面由于反動(dòng)樣本特征空間較大，基于概率的統(tǒng)計(jì)方法不能反映全部特征空間分布。中心向量法和支持向量機(jī)對(duì)于平衡樣本集或不平衡樣本集都表現(xiàn)了較好的性能。第三，討論了粗糙集的基本概念，指出了粗糙集的理

6、論本質(zhì)。研究了粗糙集屬性約簡(jiǎn)算法，比較了基于區(qū)分矩陣的約簡(jiǎn)算法和基于屬性重要度的約簡(jiǎn)算法，指出基于區(qū)分矩陣的約簡(jiǎn)算法在處理文本屬性時(shí)是不可行的。提出了一種混合的屬性約簡(jiǎn)算法，實(shí)驗(yàn)表明該方法在處理文本信息時(shí)是非常有效的，一方面利用常用的特征選擇方法降低了文本維數(shù)，另一方面利用粗糙集約簡(jiǎn)算法去掉了很多冗余屬性。第四，提出了一種粗糙集和相關(guān)過(guò)濾器相結(jié)合的針對(duì)主題特殊文本過(guò)濾的新方法，且基于屬性重要度，對(duì)文本屬性進(jìn)行前向選擇提出了一種

7、新的粗糙集屬性約簡(jiǎn)算法，它產(chǎn)生幾個(gè)約簡(jiǎn)，由于各約簡(jiǎn)基之間沒(méi)有相同的屬性，實(shí)驗(yàn)表明在處理不良文本數(shù)據(jù)時(shí)，具有更強(qiáng)的過(guò)濾能力。整個(gè)過(guò)程分成兩個(gè)階段：首先將多約簡(jiǎn)算法作為前端預(yù)處理工具，進(jìn)行文本特征選擇，大大降低了屬性維數(shù)，然后用統(tǒng)計(jì)方法設(shè)計(jì)過(guò)濾器進(jìn)一步對(duì)約簡(jiǎn)后的屬性進(jìn)行分類過(guò)濾，計(jì)算量大大減少，同時(shí)提高了分類速度。通過(guò)實(shí)驗(yàn)結(jié)果可以看出，對(duì)未經(jīng)粗糙集約簡(jiǎn)的文本屬性集和經(jīng)過(guò)快速約簡(jiǎn)的文本屬性集比較，當(dāng)約簡(jiǎn)個(gè)數(shù)m取值增加后，所選擇的屬性個(gè)數(shù)大大減

8、少，中心向量法和基于支持向量機(jī)的方法在訓(xùn)練集和測(cè)試集上都達(dá)到了未經(jīng)約簡(jiǎn)前的準(zhǔn)確率。第五，融合粗糙度和知識(shí)的粗糙熵，引入粗集的粗糙熵來(lái)量測(cè)知識(shí)的不確定性。這種測(cè)度量測(cè)知識(shí)的不確定性比粗糙度和知識(shí)的粗糙熵更充分。得出粗集的粗糙度、知識(shí)的粗糙熵、粗集的粗糙熵隨著知識(shí)更細(xì)的劃分而單調(diào)下降。最后，開發(fā)了內(nèi)容安全網(wǎng)關(guān)中不良文本過(guò)濾模塊，設(shè)計(jì)了一個(gè)有效的不良文本過(guò)濾架構(gòu)?；诙嗄Ｊ狡ヅ渌惴ㄑ芯吭O(shè)計(jì)了高效的不良文本過(guò)濾引擎，并應(yīng)用于

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

不良文本過(guò)濾建模理論及應(yīng)用關(guān)鍵技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

不良文本過(guò)濾建模理論及應(yīng)用關(guān)鍵技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載