基于互信息的網頁信息過濾技術的研究與應用.pdf_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在當今信息化高度發(fā)達的社會里,人們可以享受到信息化技術所帶來的諸多便利,如網上購物、網上銀行、遠程辦公等。同時,各種各樣的非法信息,如色情、暴力、反動、封建迷信等,也通過網絡呈現(xiàn)在人們的面前。這些非法信息不僅讓人們在精神上和肉體上遭受雙重傷害,而且更進一步加深了網絡文化產業(yè)對社會所造成的負面影響。目前過濾掉這些非法信息也就成了人們的當務之急。因此,如何有效地過濾掉這些非法信息也就成為眾多專家學者們研究的一個焦點。
  在信息論中,

2、互信息通常是兩個隨機變量之間統(tǒng)計相關性的度量單位。在文本分類中,若特征詞屬于某一類別,則它們之間的互信息量最大。因此,人們使用互信息來度量特征詞與類別之間的相關性?;バ畔⒘吭酱螅卣髟~和類別的相關性也越大;反之則越小。由于互信息事先不需要對兩個變量之間的關系作任何假設和限制,所以它在中文分詞、圖像處理、文本分類等方面應用非常廣泛。因此,本文將互信息作為待測文本與主題之間相關性的度量并提出了基于互信息的網頁信息過濾技術的研究與應用。本文依

3、據(jù)訓練語料庫的構建、文本的向量表示、文本內容的特征提取、互信息過濾模型的改進以及Resnik的選擇傾向模型等知識與技術構建一個對非法網頁信息進行過濾的系統(tǒng)。具體內容如下:
  首先,統(tǒng)計模型在實際應用中一個最基礎的前提就是構建訓練語料庫。本文先構建兩個正則表達式以提取網頁中的標題和正文,然后對抽取到的信息進行人工校驗和整理,從而得到一個規(guī)模適中、分布均勻的語料庫。
  然后,統(tǒng)計模型的另一個基本問題就是如何有效地表示文本內容

4、。本文對文本進行切詞、停用詞處理,將單個詞語看作向量中的一個項,這樣就可以用向量來表示文本內容。為了提高計算速度和過濾效率,本文依據(jù)CHI模型設計了一個精簡向量空間維數(shù)的算法以獲得一個維數(shù)合適的特征向量。
  其次,本文對平均互信息公式進行改進并計算該待測文本特征向量與所有主題特征向量的平均互信息值,然后把它們與事先設定的閾值進行比較。若有一個值比事先設定的閾值大,則應把該待測文本作為非法文本過濾掉;若這些平均互信息值均小于事先設

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論