版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p><b> 畢業(yè)設(shè)計(jì)開題報(bào)告</b></p><p><b> 計(jì)算機(jī)科學(xué)與技術(shù)</b></p><p> 文本特征信息的搜索與分類系統(tǒng)設(shè)計(jì)</p><p> 一、選題的背景、意義</p><p> 信息無時(shí)不在,無時(shí)不有,具有普遍性、載體依附性、價(jià)值的相對(duì)性、時(shí)效性、共享
2、性、可偽性等一般特征。隨著信息技術(shù)的應(yīng)用與發(fā)展和互聯(lián)網(wǎng)的普及,龐雜的文本信息流急劇增多,對(duì)于我們的認(rèn)知與決策帶來了很大的壓力,如何有效地組織和管理這些信息并快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前信息技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。文本信息是網(wǎng)絡(luò)信息中很重要的一部分。對(duì)于文本信息的整理和顯示,需要經(jīng)過一定的步驟和方法來完成的。文本的搜索是要求用戶提交查詢關(guān)鍵詞(文本特征)來查找與之匹配的一系列信息,通過相關(guān)的調(diào)整,進(jìn)而能夠讓用戶有效、迅
3、捷地為用戶獲取所要的文本信息。</p><p> 文本特征信息的搜索與分類離不開搜索引擎技術(shù)和文本挖掘相關(guān)的技術(shù)。這兩者缺一不可。</p><p> 先談一下搜索引擎技術(shù)的發(fā)展?fàn)顩r?,F(xiàn)如今,搜索引擎已成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù)。在短短十年的時(shí)間內(nèi),搜索引擎迅猛地發(fā)展起來。隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式的增長,搜索引擎越來越引起人們的重視,搜索引擎已成為一個(gè)非常熱門的話題。
4、搜索引擎技術(shù)現(xiàn)在已成為計(jì)算機(jī)產(chǎn)業(yè)界和學(xué)術(shù)界爭相研究和開發(fā)的對(duì)象。通過對(duì)搜索引擎技術(shù)和檢索任務(wù)方面的詞語進(jìn)行統(tǒng)計(jì)和分析,一方面可以反映出學(xué)術(shù)界對(duì)搜索引擎的關(guān)注程度,另一方面也能大致分析出搜索引擎的發(fā)展現(xiàn)狀以及發(fā)展趨勢(shì)。</p><p> 搜索引擎的發(fā)展大致可以分割成3個(gè)階段。</p><p> 第一個(gè)階段里的搜索引擎以雅虎為標(biāo)志,主要依靠人工分揀信息,用分類目錄搜索信息。這一階段的搜索引
5、擎技術(shù)還處于萌芽階段。雖然這樣,但此時(shí)各種搜索引擎概念也相繼出現(xiàn)了,如目錄式搜索引擎、全文搜索引擎、元搜索引擎等。這一階段,詞頻相對(duì)較高的關(guān)鍵詞是全文檢索、智能檢索、多媒體、圖像搜索、語義網(wǎng)絡(luò)、分類目錄、分類主題等。這個(gè)時(shí)期分類搜索是網(wǎng)絡(luò)搜索的主流。</p><p> 搜索引擎在第二個(gè)階段里開始迅速發(fā)展。最負(fù)盛名的搜索引擎當(dāng)數(shù)Google,它在1999年以不可抵擋的勢(shì)頭走向世界,依靠機(jī)器抓取、分析進(jìn)行網(wǎng)頁搜索[
6、1],帶動(dòng)了新技術(shù)PageRank和錨文本技術(shù)的發(fā)展。此階段的熱點(diǎn)詞語有關(guān)鍵詞檢索、倒排索引、全文索引、自動(dòng)摘要、鏈接分析等。這段時(shí)期鏈接分析技術(shù)、PageRank算法以及Hit算法等如火如荼地展開。人們基本認(rèn)為Web信息檢索開始進(jìn)入了新一代搜索引擎階段[2]。</p><p> 第三個(gè)階段里搜索引擎的研究變得非?;馃幔阉饕嬖絹碓较蛑悄芑?、個(gè)性化、專業(yè)化的方向發(fā)展,同時(shí)也不斷地涌現(xiàn)出新的具有鮮明特色的搜索引
7、擎產(chǎn)品。通過對(duì)文本分類、聚類、用戶行為分析、分布式、相關(guān)反饋、智能代理、查詢擴(kuò)展等高頻詞的分析,我們可以看出,人工智能、數(shù)據(jù)庫、數(shù)據(jù)挖掘、自然語言理解等領(lǐng)域的研究有力地促進(jìn)了搜索引擎的發(fā)展。</p><p> 再談一下文本挖掘相關(guān)的發(fā)展。雖然信息通訊技術(shù)的發(fā)展及由此帶來的信息量的增長,極大地促進(jìn)了人們的溝通和交流,為人類的文明和發(fā)展做出了巨大的貢獻(xiàn)。但同時(shí),信息爆炸式增長帶來的消極影響正在凸現(xiàn)。在此,國際上提出
8、了多項(xiàng)文本挖掘計(jì)劃,以期對(duì)網(wǎng)上“堆積如山”的巨大的信息礦床進(jìn)行有效的過濾、開發(fā)與綜合利用,把信息變成能夠方便利用的知識(shí)和財(cái)富。</p><p> NIST(美國國家技術(shù)標(biāo)準(zhǔn)局)和DARPA(美國國防高級(jí)研究計(jì)劃局)組織的TREC(文本檢索會(huì)議)會(huì)議是國際上文本挖掘領(lǐng)域的著名評(píng)測(cè)會(huì)議,從1992年起每年召開一次,迄今已經(jīng)召開了13屆。1991-1998年,DARPA資助了TIPSTER文本計(jì)劃,主要著眼于三項(xiàng)基礎(chǔ)
9、技術(shù)的評(píng)測(cè):文檔檢測(cè)、信息提取、摘要。2003年,DARPA開始啟動(dòng)以機(jī)器學(xué)習(xí)為核心的計(jì)劃PAL4,為期5年,首期(1-1.5年)投資2900萬美元。PAL包含2個(gè)子計(jì)劃:其中,CALO5子計(jì)劃是整個(gè)PAL計(jì)劃的核心(2200萬),將機(jī)器學(xué)習(xí)技術(shù)放到了國家安全的角度來考慮。美國主要大學(xué)與公司參加這個(gè)子計(jì)劃。由此可見,對(duì)海量網(wǎng)絡(luò)信息的有效處理和深層次綜合利用離不開文本挖掘技術(shù),文本挖掘?qū)⒊蔀槿藗儜?yīng)對(duì)信息時(shí)代挑戰(zhàn)的強(qiáng)大利器之一[3]。<
10、;/p><p> 二、研究的基本內(nèi)容與擬解決的主要問題</p><p> 在該系統(tǒng)中要實(shí)現(xiàn)文本信息的搜索與分類,就必須期望實(shí)現(xiàn)以下功能:</p><p> 1)美觀的搜索界面,按文本關(guān)鍵字搜索;</p><p> 2)搜索引擎,完成把所要查詢的關(guān)鍵字與網(wǎng)上文本信息進(jìn)行匹配;</p><p> 3)數(shù)據(jù)庫設(shè)計(jì),實(shí)現(xiàn)
11、把網(wǎng)上匹配的文本特征信息下載并記錄,為顯示結(jié)果提供依據(jù);</p><p> 4)結(jié)果顯示界面,顯示項(xiàng)目包括關(guān)鍵字、相似度和網(wǎng)址,并按一定的順序羅列。</p><p> 研究要求是在已有的專業(yè)理論知識(shí)和應(yīng)用能力的基礎(chǔ)上,掌握J(rèn)ava編程和WEB技術(shù),能較熟練的運(yùn)用Java開發(fā)工具M(jìn)yeclipse及SQL SERVER 2000數(shù)據(jù)庫,研究開發(fā)出具有上述功能的文本特征信息的搜索與分類系統(tǒng)
12、。</p><p> 在研究途中最主要的一個(gè)問題是如何設(shè)計(jì)一個(gè)搜索引擎來實(shí)現(xiàn)在網(wǎng)上根據(jù)文本特征搜索文本信息并進(jìn)行分類。這一點(diǎn)很重要,但充滿著困難。第二個(gè)問題是如何構(gòu)建數(shù)據(jù)庫。搭建一個(gè)好的數(shù)據(jù)庫結(jié)構(gòu)會(huì)省去很多不必要的煩惱與省下不少的精力。第三個(gè)問題是自己所學(xué)的知識(shí)面很窄,技術(shù)掌握不到位,不全面,不能一下子就能解決可能碰到的問題。針對(duì)這一點(diǎn)就需要查閱大量的文檔和書籍,還可以請(qǐng)教導(dǎo)師來幫忙解決。</p>
13、<p> 三、研究的方法與技術(shù)路線、研究難點(diǎn),預(yù)期達(dá)到的目標(biāo)</p><p> 文本挖掘是以半結(jié)構(gòu)(如Web網(wǎng)頁)或者無結(jié)構(gòu)(如純文本)的自然語言文本為對(duì)象的數(shù)據(jù)挖掘。它是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在有用的規(guī)律的過程[4]。文本挖掘首先要從文本中提取適當(dāng)?shù)奶卣?,將文本表示成?jì)算機(jī)能夠理解的數(shù)字形式。根據(jù)處理速度和精度的需要,可以對(duì)文本中的特征進(jìn)行選擇優(yōu)化。然后采用各種文本挖
14、掘方法發(fā)現(xiàn)隱藏的知識(shí)模式,以滿足用戶評(píng)價(jià)標(biāo)準(zhǔn)的模式最終輸出,成為指導(dǎo)人們實(shí)踐的有用知識(shí)。</p><p> 文本挖掘之前,用信息抽取技術(shù)(Information Ex—traction,IE)進(jìn)行非結(jié)構(gòu)化的信息挖掘。但隨著IE系統(tǒng)的發(fā)展,人們認(rèn)為它更適合利用精確的查詢相匹配概念和文字找出關(guān)系。IE系統(tǒng)的主要優(yōu)勢(shì)在于以下幾點(diǎn):查詢的精確,輸出結(jié)果的透明和直接進(jìn)入數(shù)據(jù)庫或真實(shí)地顯示出來?!拔谋就诰颉边@個(gè)詞通過類似于
15、傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)一樣被應(yīng)用到這些系統(tǒng)中。針對(duì)IE對(duì)自然語言處理的不足,文本挖掘可以通過統(tǒng)計(jì)共現(xiàn)方法處理自然語言。</p><p> 文本具有有限的結(jié)構(gòu),有的甚至沒有結(jié)構(gòu),此外計(jì)算機(jī)不能直接處理人類的自然語言,所以對(duì)文本數(shù)據(jù)源要進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要包括分詞技術(shù)(英文文本則需要Stemming技術(shù))和特征表示和特征提取。因?yàn)橹形脑~與詞之間沒有固有的間隔符(空格),需要進(jìn)行分詞處理[5]。</p&g
16、t;<p> 文本經(jīng)過分詞、特征表示和特征提取后就可進(jìn)行挖掘了。對(duì)于非結(jié)構(gòu)化問題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,由于數(shù)據(jù)非常復(fù)雜,導(dǎo)致這種算法的復(fù)雜性很高;另一條途徑就是將非結(jié)構(gòu)化問題結(jié)構(gòu)化,利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,目前的文本挖掘一般采用該途徑進(jìn)行處理。對(duì)于語義關(guān)系,則需要集成計(jì)算語言學(xué)和自然語言處理等成果進(jìn)行分析[6]。常用的文本挖掘技術(shù)有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚
17、類、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)。</p><p> 要表示文本首先要提取文本特征[7]。文本的特征應(yīng)該具有以下特點(diǎn):特征是能夠?qū)ξ谋具M(jìn)行充分表示的語言單位;文本在特征空間中的分布具有較為明顯的統(tǒng)計(jì)規(guī)律;文本映射到特征空間的計(jì)算復(fù)雜度不太大。要表示好文本,就要尋找最有代表性的文本特征。對(duì)于計(jì)算機(jī)來說,文本就是由最基本的語言符號(hào)組成的字符串。西文文本是由字母(letter)和標(biāo)點(diǎn)符號(hào)組成的字符串,中文文本就是
18、由漢字和標(biāo)點(diǎn)符號(hào)組成的字符串。在西文文本中,字母構(gòu)成詞(word)。由于字母數(shù)量太少,無法作為特征,因此普遍使用詞作為特征。在中文文本中,字構(gòu)成詞,詞構(gòu)成短語,進(jìn)而形成句、段、節(jié)、章、篇等語言文字結(jié)構(gòu)。文本挖掘中常用的文本特征有字、詞或短語等。在實(shí)際應(yīng)用中,到底選擇何種特征來表示文本需要結(jié)合處理速度、精度要求、存儲(chǔ)空間等方面的具體要求來決定。</p><p> 由于Web文本的特點(diǎn),Web信息提取算法的特征選擇
19、一般不采用自然語言處理中的語法和語義特征,而使用下列特征[8]:</p><p> 符號(hào)特征:HTML文檔中的符號(hào)包括標(biāo)記符號(hào)和文本中的符號(hào)。對(duì)于英文文本,文本的符號(hào)化很簡單,可以用非數(shù)字字母符號(hào)將文本字符序列隔開成字符串,這些隔開的字符串稱之為token。對(duì)于標(biāo)記符號(hào)token,特征有標(biāo)記名、屬性等。對(duì)于文本符號(hào)token,特征有類型(數(shù)字、單詞等)、值(文本實(shí)際內(nèi)容)等。</p><p&
20、gt; 除符號(hào)特征外,符號(hào)之間的關(guān)系也可能是信息提取的重要線索。關(guān)系特征考慮符號(hào)之間的關(guān)系。</p><p> 文本片段特征:單純從token層次來描述文本特征是不夠的,要提取的信息一般是由很多個(gè)token組成的文本片段,因此從文本片段層次上來描述特征是必要的。</p><p> 文檔結(jié)構(gòu)特征:由于HTML文檔中含有大量的標(biāo)記信息,而標(biāo)記之間是層層嵌套的。大多數(shù)的文本都處于標(biāo)記之內(nèi),
21、有些類型網(wǎng)頁的標(biāo)記出現(xiàn)有一定規(guī)律可循,另外有少數(shù)標(biāo)記具有語義線索,如<title>,<head>,<h1>標(biāo)記中的內(nèi)容一般對(duì)整個(gè)文檔的語義起概括作用??梢岳玫奈臋n結(jié)構(gòu)特征有符號(hào)所在的標(biāo)記、父標(biāo)記等。</p><p> 特征表示是指以一定特征項(xiàng)(如詞條或描述)來代表文檔,在文本挖掘時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理,從而實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本的處理,這是一個(gè)非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)化的處理步
22、驟。特征表示的構(gòu)造過程就是挖掘模型的構(gòu)造過程,特征表示模型有多種,常用的有布爾邏輯型、概率型、向量空間型等[9]。我們采用了應(yīng)用較多的向量空間模型(Vector Space Model ,VSM )。</p><p> 向量空間模型(Vector Space Model, VSM)是由G. Salton等人在20世紀(jì)60年代提出的信息檢索模型,是效果較好、近些年來被廣泛應(yīng)用的一種方法。最典型的向量空間模型原型系
23、統(tǒng)是康奈爾大學(xué)的SMART(System for the Manipulation and Retrieval of Text)系統(tǒng),它提供源代碼開放下載,目前已經(jīng)被成千上萬的研究者所采用。向量空間模型(Vector Space Model)把文本表示成n維歐式空間的向量,并用它們之間的夾角余弦作為相似性的度量。在向量空間模型中,首先要建立文本向量和用戶查詢的向量,然后對(duì)這些向量進(jìn)行相似性計(jì)算(匹配運(yùn)算),在匹配結(jié)果基礎(chǔ)上進(jìn)行相關(guān)反饋,
24、以優(yōu)化用戶的查詢,提高檢索效率[10]。</p><p> 雖然各個(gè)搜索引擎的具體實(shí)現(xiàn)不盡相同,但是一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個(gè)基本部分,而且大致的工作原理是相同的。WEB搜索引擎主要是通過爬蟲程序定期遍歷互聯(lián)網(wǎng),將網(wǎng)頁的統(tǒng)一資源定位符(URL)、內(nèi)容和采集時(shí)間等相關(guān)信息收集到WEB服務(wù)器中,然后通過必要的信息索引和存儲(chǔ)優(yōu)化處理,利用特定的檢索界面對(duì)WEB用戶直接提供服務(wù)[1
25、1]。</p><p> 它的具體工作流程包括以下幾步:</p><p> 第一步,爬蟲程序采用一定的搜索策略對(duì)WEB網(wǎng)絡(luò)進(jìn)行遍歷并下載網(wǎng)頁,系統(tǒng)維護(hù)一個(gè)超鏈隊(duì)列或者堆棧,其中包含一些起始URL;爬蟲程序從這些URL出發(fā),下載相應(yīng)的頁面,并從中抽取出新的超鏈隊(duì)列加入到隊(duì)列或者堆棧中。</p><p> 第二步,由分析程序?qū)ε老x程序下載的網(wǎng)頁進(jìn)行分析以用于索引,
26、網(wǎng)頁分析技術(shù)一般包括分詞(有些僅從文檔某些部分抽詞,如Altavista)或者使用停用詞表(stop list)來過濾網(wǎng)頁信息,同時(shí)還提供諸如單復(fù)數(shù)轉(zhuǎn)換、詞綴去除和同義詞替換等詞語轉(zhuǎn)換,這些技術(shù)的具體實(shí)現(xiàn)往往與處理方式以及系統(tǒng)的索引模型密切相關(guān)。</p><p> 第三步,索引程序?qū)⒕W(wǎng)頁信息表示為一種便于檢索的方式并存儲(chǔ)在索引數(shù)據(jù)庫中。</p><p> 第四步,檢索程序從索引中找出與
27、用戶查詢請(qǐng)求相關(guān)的網(wǎng)頁信息,采用與分析網(wǎng)頁文檔相似的方法來處理用戶查詢請(qǐng)求,最后將相關(guān)度大于閾值的所有網(wǎng)頁按照相關(guān)度遞減的順序并返還給用戶,當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。</p><p> 最后,用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。</p><p> 向量空間模型具體步驟如下:</p><p> 首先把文檔分解成若干詞語,
28、去掉出現(xiàn)頻率較高但又沒有實(shí)際意義的詞語,比如“雖然”、“但是”等等,此時(shí)文檔D(Document)就可以由一系列實(shí)詞建立的n維向量空間來表示[12]。</p><p> 然后利用余弦相似度定理,判斷該文檔與描述用戶興趣的文檔之間的內(nèi)容相關(guān)度,即兩個(gè)文檔向量之間的夾角余弦值即可得出這兩篇文檔之間的相似性(夾角越小相似性越大)。通常用戶至少提供一個(gè)關(guān)鍵詞形成用戶模板,以此表明用戶的興趣取向,權(quán)重大小由輸入的先后順序
29、決定。在進(jìn)行向量匹配時(shí),用戶模板在檢索時(shí)可被看成是由n個(gè)詞語組成的向量。首先得到同時(shí)包括這幾個(gè)詞的文獻(xiàn),然后一一比較,描述文件向量和文獻(xiàn)向量的相似程度,最后根據(jù)相似程度把命中的文獻(xiàn)排序返回給用戶[13]。</p><p> 向量空間模型可將文本和查詢簡化為項(xiàng)及權(quán)重集合的向量表示,從而把檢索操作變成向量空間上的向量運(yùn)算,其權(quán)重計(jì)算可以通過簡單的頻數(shù)統(tǒng)計(jì)來完成,通過定量分析,匹配文本和查詢。在這個(gè)基礎(chǔ)上,引入各種成
30、熟的統(tǒng)計(jì)方法,更大程度地挖掘文本中蘊(yùn)涵的語義信息,如主成分分析、因子分析、聚類分析等等。具有較強(qiáng)的可計(jì)算性和可操作性的特點(diǎn),特別是隨著網(wǎng)絡(luò)信息的迅速膨脹,其應(yīng)用已經(jīng)不僅僅局限于文本檢索、自動(dòng)文摘、關(guān)鍵詞自動(dòng)提取等傳統(tǒng)問題,還可以應(yīng)用到搜索引擎、個(gè)人信息代理、網(wǎng)上新聞發(fā)布等信息檢索領(lǐng)域。在向量空間模型中,文檔的內(nèi)容被形式化為多維空間的一個(gè)點(diǎn),把文檔以向量的形式定義到實(shí)數(shù)域中,能夠使用模式識(shí)別和其它領(lǐng)域中各種成熟的計(jì)算方法,極大地提高自然語
31、言文檔的可計(jì)算性和可操作性,因而在文本過濾中獲得廣泛應(yīng)用并取得良好效果。</p><p> 向量空間模型的缺點(diǎn)在于項(xiàng)之間線性無關(guān)的假設(shè),在自然語言中,詞或短語之間存在著十分密切的聯(lián)系,即存在“斜交”現(xiàn)象,很難滿足假設(shè)條件,對(duì)計(jì)算結(jié)果的可靠性造成一定的影響。此外,將復(fù)雜的語義關(guān)系,歸結(jié)為簡單的向量結(jié)構(gòu),將會(huì)丟失許多有價(jià)值的線索。</p><p> 通過以上分析,可以看出特征文本信息的搜索
32、與分類技術(shù)存在著以下幾種發(fā)展趨勢(shì):</p><p> 一是新的搜索引擎不斷涌現(xiàn):比如智能化搜索引擎。新引擎出現(xiàn)得益于人工智能、機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算等領(lǐng)域中新技術(shù)的涌現(xiàn)和發(fā)展。</p><p> 二是傳統(tǒng)方法的進(jìn)一步發(fā)展:比如支持向量機(jī)[14]的不斷改進(jìn)發(fā)展。傳統(tǒng)分類方法的發(fā)展主要利用了機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算、數(shù)據(jù)挖掘、模糊集和粗糙集[15]等理論中的原理和方法。</p><
33、;p> 三是多技術(shù)融合:一方面根據(jù)實(shí)際問題需要,有針對(duì)性地綜合眾多領(lǐng)域的技術(shù),以提高分類的性能;另一方面,文本、語音和圖像搜索分類技術(shù)的融合,隨著互聯(lián)網(wǎng)和多媒體技術(shù)的進(jìn)一步發(fā)展,文本搜索和分類技術(shù)將與圖像識(shí)別、語音識(shí)別融合,比如圖像文本的分類、語音文本的分類、多媒體數(shù)據(jù)庫索引等。</p><p> 而本系統(tǒng)暫時(shí)停留在只對(duì)文本特征信息進(jìn)行搜索和分類。通過建立一個(gè)搜索引擎,根據(jù)文本特征對(duì)文本信息實(shí)現(xiàn)搜索和分
34、類。這就是預(yù)期達(dá)到的目標(biāo)。</p><p> 四、論文詳細(xì)工作進(jìn)度和安排</p><p> 第七學(xué)期第10周至第15周(2010年12月27日前):文獻(xiàn)檢索和資料收集,完成畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述、開題報(bào)告和外文翻譯;</p><p> 第八學(xué)期 第1周 至第3周(2011年03月19日前):撰寫論文提綱,完成畢業(yè)論文(設(shè)計(jì))初稿;需求分析,系統(tǒng)設(shè)計(jì);<
35、;/p><p> 第八學(xué)期 第4周 至第11周(2011年04月11日前):詳細(xì)設(shè)計(jì);</p><p> 第八學(xué)期第12周至第13周(2011年04月18日前):完成應(yīng)用軟件系統(tǒng)的設(shè)計(jì),畢業(yè)論文定稿;</p><p> 第八學(xué)期第12周(2011年04月24日前):完善畢業(yè)論文(設(shè)計(jì))文檔,完成答辯準(zhǔn)備工作;</p><p> 第八學(xué)期
36、第13周:開始參加畢業(yè)論文(設(shè)計(jì))答辯。</p><p><b> 五、主要參考文獻(xiàn)</b></p><p> [1] 馮英健.什么是第三代搜索引擎[EB/OL].http://www. marketingman. net,2005-02-18.</p><p> [2] 馬少平,張敏.信息檢索研究:過去三十年中我們走了多遠(yuǎn)[C].中
37、國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議.北京:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,2006:11-17.</p><p> [3] 周旭.知識(shí)經(jīng)濟(jì)[J].重慶市科學(xué)技術(shù)協(xié)會(huì),2004,12(2):50-54.</p><p> [4] Tom M.Mitchell.Machine Learning[M]. New York:McGraw-Hill,1997.</p><p&g
38、t; [5] 袁軍鵬,朱東華,李毅等.文本挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2006(2):1—4.</p><p> [6] 程紅莉,周寧,肖爽.文本驅(qū)動(dòng)的商務(wù)智能研究[J].情報(bào)科學(xué),2007(10):1525—1529.</p><p> [7] 張忠平.文本挖掘(TextMining)[R].河北:燕京大學(xué)計(jì)算機(jī)科學(xué)與工程系,2002.03.18.</p&g
39、t;<p> [8] 李效東,顧毓清.基于DOM的Web信息提取[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5):526-533.</p><p> [9] KollerD,Sahami M.Hierarchically classifying documents using very few words[J].ICML97,1997:170-178.</p><p> [
40、10] Buckley C.Implementation of the SMART information retrieval system[R].New York:Cornell University, 1985.</p><p> [11] 李樹青,韓忠愿.個(gè)性化搜索引擎原理與技術(shù)[M].北京:科學(xué)出版社,2008.</p><p> [12] 夏迎炬.文本過濾關(guān)鍵技術(shù)研究[
41、D].上海:復(fù)旦大學(xué),2003.</p><p> [13] 林冬雪.基于改進(jìn)向量空間模型的網(wǎng)絡(luò)信息檢索技術(shù)研究[D].四川:重慶大學(xué),2005.</p><p> [14] Fung G,Mangasarian O L.Incremental support vector machine classification[C].Proceedings of the Second SI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本特征信息搜索與分類系統(tǒng)設(shè)計(jì)【畢業(yè)設(shè)計(jì)+開題報(bào)告+文獻(xiàn)綜述】
- 文本特征信息的搜索與分類系統(tǒng)設(shè)計(jì)【文獻(xiàn)綜述】
- 文本特征信息搜索與分類系統(tǒng)設(shè)計(jì)【畢業(yè)設(shè)計(jì)】
- 文本信息抽取與分類系統(tǒng)研究與設(shè)計(jì).pdf
- 開題報(bào)告-基于人才搜索的博客系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 基于文本過濾的校友信息搜索系統(tǒng)實(shí)現(xiàn).pdf
- 利用多種信息的Web文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 寧波房產(chǎn)分類信息網(wǎng)的設(shè)計(jì)與實(shí)現(xiàn)【開題報(bào)告】
- 文本分類特征選擇與分類算法的改進(jìn).pdf
- 基于SVM的文本分類系統(tǒng)中特征選擇與.pdf
- 文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 視頻搜索引擎中的精確文本信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于文本的手機(jī)視頻搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 開題報(bào)告
- 多級(jí)文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 文本分類與信息提取方法的研究與設(shè)計(jì).pdf
- 網(wǎng)絡(luò)文本采集與分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于hadoop的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 旅游信息垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 軍事敏感信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論