基于特征內(nèi)容的短信消息過濾系統(tǒng)設(shè)計(jì)【文獻(xiàn)綜述】_第1頁
已閱讀1頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p><b>  畢業(yè)設(shè)計(jì)文獻(xiàn)綜述</b></p><p><b>  計(jì)算機(jī)科學(xué)與技術(shù)</b></p><p>  基于特征內(nèi)容的短信消息過濾系統(tǒng)設(shè)計(jì)</p><p><b>  一、前言部分</b></p><p>  垃圾短信問題日益嚴(yán)重,受到了社會(huì)各界的關(guān)注

2、,尤其是迷信、反動(dòng)內(nèi)容、情色內(nèi)容等垃圾短信.現(xiàn)有的針對(duì)短信過來的工作使用規(guī)則方式有黑白名單設(shè)置、模式匹配以及常見的分類算法,例如BP神經(jīng)網(wǎng)絡(luò)等.基于規(guī)則的方法在一定程度上阻攔了一些垃圾短信的來源,但是對(duì)于大量的垃圾短信來說,規(guī)則方法就需要更多的用戶來自定義設(shè)置,也更容易被反過濾.基于內(nèi)容的過濾是當(dāng)前研究的主要技術(shù)之一.</p><p>  短信的發(fā)送與接收是由移動(dòng)網(wǎng)絡(luò)中的短消息服務(wù)中心(SMSC,short me

3、ssage service center)來進(jìn)行完成的,依靠的是SMSC的存儲(chǔ)機(jī)制和轉(zhuǎn)發(fā)機(jī)制.一般有以下兩種發(fā)送短信的方式:1)SP——手機(jī);2)手機(jī)——手機(jī)[1].</p><p>  針對(duì)短信息的傳輸過程和發(fā)送方式,短信過濾技術(shù)主要可以分為以下兩種方式:</p><p>  l)短消息服務(wù)中心的過濾方式[1].基于短信服務(wù)中心的過濾方式可以對(duì)短信中存在的敏感詞匯進(jìn)行有效地更新,在對(duì)接收

4、到的短信進(jìn)行存儲(chǔ)轉(zhuǎn)發(fā)的同時(shí),對(duì)有害的短信息實(shí)施實(shí)時(shí)監(jiān)控.這種監(jiān)控大多根據(jù)的是短信狀態(tài)監(jiān)測(cè)和短信內(nèi)容識(shí)別相結(jié)合的監(jiān)管模式,因而是目前的主流技術(shù)之一.</p><p>  2)手機(jī)終端的過濾方式[1].這種方式通常是在手機(jī)中預(yù)先設(shè)定包含手機(jī)和短信服務(wù)商號(hào)碼的黑名單,并且在接收信息時(shí)根據(jù)黑名單來判別是否對(duì)短信進(jìn)行攔截和過濾.這種方法也同樣存在明顯的局限性,由于是采用預(yù)先設(shè)定的黑名單,在對(duì)有害信息進(jìn)行攔截時(shí)存在不足,比如

5、說有害信息發(fā)送者經(jīng)常變換手機(jī)號(hào)碼,往往都是以新號(hào)碼發(fā)送垃圾短信,這將使得原有黑名單失效.</p><p>  因此,本設(shè)計(jì)將以軟件的形式來完成,根據(jù)文獻(xiàn)[2]中所講述的步驟來設(shè)計(jì)完成這個(gè)系統(tǒng).該系統(tǒng)能夠正確的收發(fā)無特征內(nèi)容的正常短信,而用***代替特征內(nèi)容.而系統(tǒng)設(shè)計(jì)所用的則是大家比較熟悉的java 語言及其開發(fā)工具eclipse,因?yàn)閖ava是面向?qū)ο蟮摹⒎植际降暮投嗑€程的[3-4].本軟件的設(shè)計(jì)涉及到j(luò)ava

6、中數(shù)據(jù)結(jié)構(gòu)、集合架構(gòu)以及多線程和網(wǎng)絡(luò)編程等內(nèi)容.而Eclipse是一個(gè)開放源代碼的、基于 Java 的可擴(kuò)展開發(fā)平臺(tái)[5-6]. </p><p><b>  二、主題部分</b></p><p>  21世紀(jì)是信息時(shí)代,也是網(wǎng)絡(luò)時(shí)代,隨著移動(dòng)通信技術(shù)的飛速發(fā)展,手機(jī)已經(jīng)成為了人們?nèi)粘I罟ぷ髦斜夭豢缮俚耐ㄓ嵐ぞ?,并且短消息的?yīng)用也愈來愈廣泛.短信消息雖然是一種個(gè)人保

7、密性較好的信息傳播方式,不過同時(shí)也很容易帶來大量不良信息.隨著手機(jī)的普及,許多內(nèi)容低俗甚至有害的短消息急劇增加,給我們的信息安全帶來了嚴(yán)重的問題,影響了人們的正常生活.這種短消息蔓延所帶來的危害,應(yīng)當(dāng)引起我們的警惕.因而垃圾短信過濾是目前人們比較關(guān)注的一類問題,可以看成是文本分類技術(shù)的一種應(yīng)用.本文就將對(duì)此問題做出一定的研究,考慮到目前國內(nèi)的短信絕大多數(shù)是中文短信,所以只要對(duì)中文垃圾短信進(jìn)行過濾,就可以解決絕大部分的短信安全問題,因此我

8、們的處理對(duì)象是中文短信.</p><p>  文獻(xiàn)[7]詳細(xì)介紹了中文分詞技術(shù),它是最重要的中文文本預(yù)處理技術(shù).自動(dòng)分詞就是從信息處理需求出發(fā),按照特定的規(guī)范,對(duì)漢語按分詞單位進(jìn)行劃分的過程.基于字符串匹配的、基于理解和基于統(tǒng)計(jì)的分詞方法是現(xiàn)在主要的三大算法.</p><p>  1982年,Denning提出信息過濾(Information Filtering)這一概念.他描述了一個(gè)信

9、息過濾的實(shí)例,即在電子郵件系統(tǒng)中,利用過濾機(jī)制區(qū)分為緊急的郵件和一般的例行郵件,同時(shí)還根據(jù)用戶需要來限制例行信息的顯示方式.為了很好地解決這個(gè)問題,Denning構(gòu)造了一種“內(nèi)容過濾器”,其中采用的主要技術(shù)有層次組織的郵箱、獨(dú)立的私人郵箱、特殊的傳輸機(jī)制等[2] [3].</p><p>  信息過濾[8-9]的定義是指計(jì)算機(jī)根據(jù)用戶提供的一個(gè)過濾需求(user Profile),從動(dòng)態(tài)變化的信息流(比如Web)

10、中自動(dòng)檢索出滿足用戶需求的信息.其應(yīng)用系統(tǒng)就是可以引用信息過濾技術(shù)從而處理相關(guān)信息,特點(diǎn)主要表現(xiàn)為以下幾點(diǎn):</p><p>  第一:信息過濾系統(tǒng)的數(shù)據(jù)設(shè)計(jì)主要可以分為無結(jié)構(gòu)化設(shè)計(jì)和半結(jié)構(gòu)化設(shè)計(jì)兩種.比如電子郵件,就是一類典型的半結(jié)構(gòu)化數(shù)據(jù),它具有結(jié)構(gòu)化的郵件頭和無結(jié)構(gòu)的郵件正文.</p><p>  第二:信息過濾系統(tǒng)主要是用來處理文本信息的.由于信息過濾系統(tǒng)處理的數(shù)據(jù)一般為輸入信息流

11、,其中包括遠(yuǎn)程數(shù)據(jù)源以廣播的形式發(fā)送消息或者直接發(fā)送信息.</p><p>  第三:信息過濾系統(tǒng)還需要包含一組對(duì)用戶過濾需求的描述.這種描述既可以用來屏蔽不良的信息,又可以用來收集有益的信息.</p><p>  信息過濾系統(tǒng)的分類[9]可以從四個(gè)不同的方面劃分,根據(jù)過濾操作的主動(dòng)性與被動(dòng)性、運(yùn)行過濾系統(tǒng)的位置、過濾策略和用戶信息獲取方法的不同機(jī)型不同的體系分類.</p>

12、<p>  信息過濾系統(tǒng)[10-11]可以主要的劃分為四個(gè)重要組成部分,分別是信息提供模塊、用戶需求描述模塊、過濾模塊和學(xué)習(xí)模塊.其中,信息提供模塊的主要任務(wù)是對(duì)輸入系統(tǒng)的信息建立統(tǒng)一的描述方式;用戶需求描述模塊則依賴這一描述方式,建立起突顯用戶需求趨向的概率模型;過濾模塊的主要任務(wù)就是計(jì)算并判斷信息與用戶需求的相關(guān)性;學(xué)習(xí)模塊則通過自學(xué)習(xí)的方式逐步改進(jìn)用戶需求模型,增強(qiáng)過濾系統(tǒng)的準(zhǔn)確性.</p><p&g

13、t;  通常而言,垃圾短信具有如下兩種發(fā)送方式:</p><p>  (l)手機(jī)模塊發(fā)送垃圾短信.這種短信在接收到短信的用戶看到的是普通手機(jī)號(hào)碼發(fā)送的,但是其實(shí)質(zhì)上此類短信是利用電腦連接手機(jī)或手機(jī)模塊(也稱短信貓)進(jìn)行發(fā)送的.電腦軟件具有很強(qiáng)的短信發(fā)送管理功能,包括號(hào)碼資源管理,短信成功與否的狀態(tài)報(bào)告,用戶的回復(fù)信息等等.通常每個(gè)手機(jī)模塊每分鐘能發(fā)6條以上的短信,總速度取決于手機(jī)模塊的數(shù)量,發(fā)送的時(shí)候要占用運(yùn)營商

14、的大量的無線資源,用戶收到垃圾短信時(shí)顯示的發(fā)送號(hào)碼為一普通的手機(jī)號(hào)碼,但是無法打通這個(gè)手機(jī)號(hào)碼. </p><p>  (2)網(wǎng)絡(luò)端口/平臺(tái)發(fā)送垃圾短信.這種發(fā)送垃圾短信的方法是利用了運(yùn)營商的端口或企信通平臺(tái).這種方式是利用了電腦和互聯(lián)網(wǎng)(或從運(yùn)營商處拉的專線網(wǎng)絡(luò)),通過運(yùn)營商的短信網(wǎng)關(guān)進(jìn)行發(fā)送.此種方法具有了發(fā)送速度快,發(fā)送量大等特點(diǎn).用戶收到短信時(shí)看到的短信發(fā)送號(hào)碼是一個(gè)短信接入號(hào),如果是SP的誘騙短信,則直

15、接回復(fù)時(shí)很容易被訂購上某一項(xiàng)SP業(yè)務(wù)[9].</p><p>  短信服務(wù)中心(SMSC)解決方案,它是基于一個(gè)智能網(wǎng)絡(luò)的方法,提供了一個(gè)機(jī)制,用于將短信傳送到無線設(shè)備,及從無線設(shè)備發(fā)送短信,其實(shí)現(xiàn)的關(guān)鍵部分為SMSC.SMSC作為短信的保存、轉(zhuǎn)發(fā)系統(tǒng),其底層無線網(wǎng)絡(luò)為它提供了通信基礎(chǔ)設(shè)施,然后通過信令進(jìn)行尋址并且在短信服務(wù)中心(SMSC)及無線網(wǎng)站之間進(jìn)行短信傳輸.這個(gè)服務(wù)增加了對(duì)文本信息到目的地傳輸?shù)谋WC.而

16、且,無線短信服務(wù)器(SMS)支持多輸入機(jī)制,它允許與不同的信息源及目的地進(jìn)行相互聯(lián)絡(luò).</p><p>  因?yàn)榭紤]到了Struts2中大量使用攔截器來處理用戶的請(qǐng)求,以及通用的mvc模式等因素,決定利用Structs2 web2.0來設(shè)計(jì)本軟件[4] [12].</p><p>  Struts2框架的大概處理流程如下: </p><p>  1、瀏覽器發(fā)送一個(gè)請(qǐng)

17、求. </p><p>  2、核心控制器Filter Dispatcher根據(jù)請(qǐng)求決定調(diào)用合適Action. </p><p>  3、Web Work的攔截器鏈自動(dòng)對(duì)請(qǐng)求應(yīng)用通用功能,如驗(yàn)證等.</p><p>  4、回調(diào)Action的execute方法,該execute方法根據(jù)請(qǐng)求的參數(shù)來執(zhí)行一定的操作.</p><p>  5、Ac

18、tion的execute方法處理結(jié)果信息將被輸出到瀏覽器中,支持多種形式的視圖.</p><p>  Eclipse 是一個(gè)開放源代碼的、基于 Java 的可擴(kuò)展開發(fā)平臺(tái).就其本身而言,它只是一個(gè)框架和一組服務(wù),用于通過插件組件構(gòu)建開發(fā)環(huán)境.幸運(yùn)的是,Eclipse 附帶了一個(gè)標(biāo)準(zhǔn)的插件集,包括 Java 開發(fā)工具(Java Development Tools,JDT)[13].Eclipse是一個(gè)開放源代碼的軟

19、件開發(fā)項(xiàng)目,專注于為高度集成的工具開發(fā)提供一個(gè)全功能的、具有商業(yè)品質(zhì)的工業(yè)平臺(tái).它主要是由Eclipse項(xiàng)目、Eclipse工具項(xiàng)目和Eclipse技術(shù)項(xiàng)目三個(gè)項(xiàng)目組成,具體包括四個(gè)部分組成——Eclipse Platform、JDT、CDT和PDE.JDT支持Java開發(fā)、CDT支持C開發(fā)、PDE用來支持插件開發(fā),Eclipse Platform則是一個(gè)開放的可擴(kuò)展IDE,提供了一個(gè)通用的開發(fā)平臺(tái).它提供建造塊和構(gòu)造并運(yùn)行集成軟件開發(fā)

20、工具的基礎(chǔ).</p><p>  Java ME 為在移動(dòng)設(shè)備上和嵌入式設(shè)備(比如手機(jī)、PDA和打印機(jī))上運(yùn)行的應(yīng)用程序提供了一個(gè)健壯并且靈活的環(huán)境。Java ME 包括了靈活的用戶界面、健壯的安全模型、許多內(nèi)置的網(wǎng)絡(luò)協(xié)議以及對(duì)可以動(dòng)動(dòng)態(tài)下載的連網(wǎng)和離線應(yīng)用程序的十分豐富的支持?;?Java ME 規(guī)范的應(yīng)用程序只需編寫一次,就可以用于許多設(shè)備,而且可以利用每個(gè)設(shè)備的本機(jī)功能[14] [15]。</p&g

21、t;<p>  基于以上特點(diǎn),再加上平時(shí)比較常用eclipse來進(jìn)行一些java編程,因此便采用eclipse平臺(tái)來進(jìn)行軟件的開發(fā).</p><p>  綜上所述,本系統(tǒng)的工作過程為:</p><p> ?、盼谋径滔l(fā)送功能</p><p>  當(dāng)運(yùn)行TalkServer.jar時(shí),界面會(huì)顯示“服務(wù)器已啟動(dòng),等待連接...”字樣;當(dāng)運(yùn)行TalkCli

22、ent.jar后,界面會(huì)顯示“正在嘗試連接…”“連接成功”等字樣,說明此時(shí)軟件已經(jīng)正常運(yùn)行,可以發(fā)送文本短消息.在服務(wù)器端窗口輸入任意文字,并按下界面上的確認(rèn)按鈕,短消息即會(huì)發(fā)送,發(fā)送的短消息將顯示在客戶端窗口中.</p><p> ?、莆谋径滔⑦^濾功能</p><p>  在“C:\”目錄下新建一個(gè)TXT文本文件,并重命名為Filter.txt,打開文件,輸入希望過濾的敏感詞匯,例如“

23、法輪功”、“邪教”、“明慧網(wǎng)”等.重新啟動(dòng)客戶端和服務(wù)器端.在服務(wù)器端輸入包含敏感詞的短信內(nèi)容,并按下確認(rèn)按鈕,短信將發(fā)送.本軟件同時(shí)考慮到網(wǎng)上現(xiàn)在較為流行的一種規(guī)避過濾的方式,例如將“法輪功”寫成“法@輪#功”.面對(duì)這種情況,我們采取了相應(yīng)的技術(shù),同樣可以過濾成功.</p><p><b>  三、總結(jié)部分</b></p><p>  本文只是對(duì)垃圾短信過濾提供一種

24、實(shí)現(xiàn),具有一定的嘗試性和創(chuàng)新性.但由于時(shí)間緊迫及實(shí)驗(yàn)條件所限,其工作還需進(jìn)一步完善.進(jìn)一步的工作將主要圍繞以下幾個(gè)方面展開:第一:由于整個(gè)過濾系統(tǒng)應(yīng)用于手機(jī)終端,程序是通過手機(jī)信號(hào)來觸發(fā)的,所以需要結(jié)合手機(jī)信號(hào)的知識(shí)作進(jìn)一步的完善, 盡管目標(biāo)能實(shí)現(xiàn),但肯定還存在著一些不盡如人意的地方.比如短信識(shí)別判決的過程相對(duì)較慢,智能化程度不高等問題.另外,一些垃圾短信也進(jìn)行反過濾處理,例如,一些中獎(jiǎng)短信有意將“法輪功”寫為“法××

25、;輪%……¥#功”等等,這樣會(huì)使分詞和判決開發(fā)的難度大很多.盡管這與所選用的平臺(tái)有很大關(guān)系,但是整個(gè)程序無疑還是可以優(yōu)化的,這需要對(duì)Java語言有更透徹的了解. </p><p><b>  四、參考文獻(xiàn)</b></p><p>  [1]胡建國. 基于文本信息過濾技術(shù)的短信防火墻系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 西南交通大學(xué), 2008,5.</p><p

26、>  [2]許家珆, 曾翎, 彭德中. 軟件工程――理論與實(shí)踐[M]. 北京:高等教育出版社, 2004,7.</p><p>  [3]孫更新, 賓晟, 孫海倫. Java ME手機(jī)應(yīng)用開發(fā)大全[M]. 北京:科學(xué)出版社, 2008.</p><p>  [4](澳)Ian Roughley. 精通Struts 2:Web 2.0開發(fā)實(shí)戰(zhàn)=Practical apache stru

27、ts 2:Web2.0projects[M]. 北京:人民郵電出版社, 2009.</p><p>  [5]崔群法, 王詠梅, 李有軍. Eclipse 3.0從入門到精通[M]. 北京:電子工業(yè)出版社, 2008.</p><p>  [6]陳剛. Eclipse從入門到精通[M]. 北京:清華大學(xué)出版社,2007.</p><p>  [7]祁文青. 一種改進(jìn)

28、的中文分詞算法[J]. 湖北:黃石理工學(xué)院學(xué)報(bào), 2007,(04)</p><p>  [8]李輝. 基于內(nèi)容的垃圾短信過濾[J]. 大連理工大學(xué)管理學(xué)院, 2008,6,34(12):154-156.</p><p>  [9]胡日勒. 短信過濾系統(tǒng)設(shè)計(jì)分析[J]. 北京郵電大學(xué)信息工程學(xué)院, 2008,8,25(08):2557-</p><p><b&

29、gt;  2560.</b></p><p>  [10]劉挺, 秦兵, 張宇等. 信息檢索系統(tǒng)導(dǎo)論[M]. 北京:機(jī)械工業(yè)出版社, 2008.08.</p><p>  [11]黃文良. 基于客戶端的手機(jī)短信過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 浙江大學(xué), 2008.9.</p><p>  [12](美)Liang.Y.D.Java語言程序設(shè)計(jì)[M]. 北京

30、:機(jī)械工業(yè)出版社, 2008,2.</p><p>  [13]萬輝, 王軍. 基于Eclipse環(huán)境的J2ME應(yīng)用程序開發(fā)[M]. 北京:清華大學(xué)出版社, 2009.</p><p>  [14]汪曉平. 精通Java網(wǎng)絡(luò)編程[M]. 北京:清華大學(xué)出版社, 2005.</p><p>  [15]杜佳榮, 馬進(jìn)紅, 滕振宇. Java網(wǎng)絡(luò)編程技術(shù)與實(shí)踐[M].

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論