2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩102頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Internet的開放性和日益增長的規(guī)模,為人們提供了自由交換信息的便捷手段。同時巨大的開放信息源也使一些惡意的和不良的(反動、色情等)內(nèi)容信息趁機而入,成為用戶獲取有效信息的嚴(yán)重障礙。為保護(hù)國家安全、穩(wěn)定,同時保護(hù)網(wǎng)絡(luò)用戶遠(yuǎn)離有害信息的侵?jǐn)_,以及控制對這些信息的訪問,有必要采取有力措施對這類信息進(jìn)行監(jiān)管,同時也有必要為運行Web服務(wù)的各種組織,提供對此類信息的訪問加以監(jiān)管的技術(shù)和服務(wù)。為此研發(fā)先進(jìn)的文本內(nèi)容安全監(jiān)管技術(shù)是一項緊急而又重

2、要的課題。 本文綜合運用機器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、自然語言理解、中文信息處理、粗糙集理論、人工智能等學(xué)科的相關(guān)知識,通過分析各類不良信息的特征,結(jié)合文本信息處理目前研究進(jìn)展,深入研究了適合不良文本信息過濾的模型、文本預(yù)處理技術(shù)、文本特征選擇技術(shù)、過濾算法以及相關(guān)應(yīng)用等。 首先,對國內(nèi)外不良文本過濾現(xiàn)狀及相關(guān)過濾系統(tǒng)的研究狀況進(jìn)行了討論分析,分析了基于PICS(PlatformforInternetConte

3、ntSelection)的內(nèi)容選擇,基于URL的過濾,基于特征詞過濾的優(yōu)缺點,指出智能內(nèi)容過濾是進(jìn)行文本深層次分析的必要技術(shù),并指出了文本安全過濾的應(yīng)用領(lǐng)域。研究了處理大樣本集的文本預(yù)處理技術(shù)、特殊字符處理技術(shù)、快速詞頻統(tǒng)計算法、網(wǎng)頁正文獲取等關(guān)鍵技術(shù)。 其次,研究了文本處理中的文本表達(dá)技術(shù)和特征選擇技術(shù),包括Filter特征選擇技術(shù),Wrapper特征選擇技術(shù),基于粗集的特征選擇技術(shù),以及權(quán)重計算和歸一化技術(shù)。指出了各種特征選

4、擇技術(shù)的優(yōu)缺點,并對文本表達(dá)技術(shù)進(jìn)行了實驗。得出不同的過濾器需要采用適于其本身的文本表達(dá)方法,正確的歸一化能夠得到較好的結(jié)果。實際的樣本集一般是不平衡樣本,不同的過濾器對于不平衡樣本集實驗結(jié)果的性能差別較大。實驗表明:中心向量法、支持向量機基于向量空間模型來表示文本,正確歸一化后,和沒有歸一化前比較,性能有很大的提高。NaiveBayes由于采用概率模型表示文本,在標(biāo)準(zhǔn)樣本集(平衡樣本集)上得到了同中心向量法和基于支持向量機的方法相當(dāng)?shù)?/p>

5、結(jié)果。而且在實際樣本集(不平衡樣本集)上,對于訓(xùn)練集,準(zhǔn)確率差于中心向量空法和基于支持向量機的方法,然而在過濾未知不良樣本上,準(zhǔn)確率非常差,而中心向量法和基于支持向量機的方法較好。分析表明一方面由于不同反動網(wǎng)站的反動樣本語法風(fēng)格不一樣,另一方面由于反動樣本特征空間較大,基于概率的統(tǒng)計方法不能反映全部特征空間分布。中心向量法和支持向量機對于平衡樣本集或不平衡樣本集都表現(xiàn)了較好的性能。 第三,討論了粗糙集的基本概念,指出了粗糙集的理

6、論本質(zhì)。研究了粗糙集屬性約簡算法,比較了基于區(qū)分矩陣的約簡算法和基于屬性重要度的約簡算法,指出基于區(qū)分矩陣的約簡算法在處理文本屬性時是不可行的。提出了一種混合的屬性約簡算法,實驗表明該方法在處理文本信息時是非常有效的,一方面利用常用的特征選擇方法降低了文本維數(shù),另一方面利用粗糙集約簡算法去掉了很多冗余屬性。 第四,提出了一種粗糙集和相關(guān)過濾器相結(jié)合的針對主題特殊文本過濾的新方法,且基于屬性重要度,對文本屬性進(jìn)行前向選擇提出了一種

7、新的粗糙集屬性約簡算法,它產(chǎn)生幾個約簡,由于各約簡基之間沒有相同的屬性,實驗表明在處理不良文本數(shù)據(jù)時,具有更強的過濾能力。整個過程分成兩個階段:首先將多約簡算法作為前端預(yù)處理工具,進(jìn)行文本特征選擇,大大降低了屬性維數(shù),然后用統(tǒng)計方法設(shè)計過濾器進(jìn)一步對約簡后的屬性進(jìn)行分類過濾,計算量大大減少,同時提高了分類速度。通過實驗結(jié)果可以看出,對未經(jīng)粗糙集約簡的文本屬性集和經(jīng)過快速約簡的文本屬性集比較,當(dāng)約簡個數(shù)m取值增加后,所選擇的屬性個數(shù)大大減

8、少,中心向量法和基于支持向量機的方法在訓(xùn)練集和測試集上都達(dá)到了未經(jīng)約簡前的準(zhǔn)確率。 第五,融合粗糙度和知識的粗糙熵,引入粗集的粗糙熵來量測知識的不確定性。這種測度量測知識的不確定性比粗糙度和知識的粗糙熵更充分。得出粗集的粗糙度、知識的粗糙熵、粗集的粗糙熵隨著知識更細(xì)的劃分而單調(diào)下降。 最后,開發(fā)了內(nèi)容安全網(wǎng)關(guān)中不良文本過濾模塊,設(shè)計了一個有效的不良文本過濾架構(gòu)。基于多模式匹配算法研究設(shè)計了高效的不良文本過濾引擎,并應(yīng)用于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論