版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、遼寧師范大學(xué)碩士研究生學(xué)位論文論文題目:基于粗糙集的文本自動(dòng)分類研究研究生:張瑩指導(dǎo)教師:謝福鼎教授學(xué)科專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)年級:2003級遼寧師范大學(xué)研究生學(xué)院2006年5月基于粗糙集的文本自動(dòng)分類研究第一章緒論隨著網(wǎng)絡(luò)的迅速發(fā)展,越來越多的文本信息表現(xiàn)為電子文檔的形式,面對如此龐大的而且急劇膨脹的信息海洋,如何有效的組織和管理這些信息,并且快速、準(zhǔn)確、全面的找到用戶所需要的信息是當(dāng)前信息科學(xué)和技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。文本分類作為處理
2、和組織大量的文本數(shù)據(jù)的關(guān)鍵技術(shù),能將大量的文本自動(dòng)分類,可以較大程度上解決信息雜亂的問題,方便用戶準(zhǔn)確地定位所需的信息和分流信息。因此文本自動(dòng)分類作為信息處理的關(guān)鍵技術(shù),具有廣泛的研究背景和現(xiàn)實(shí)意義。11文本分類的國內(nèi)外研究現(xiàn)狀國外對丁文本分類的研究開展較早,50年代末,HPLuhn在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究,提出了詞頻統(tǒng)計(jì)思想用于自動(dòng)分類。1960年,Maronl2J發(fā)表了關(guān)于自動(dòng)分類的第一篇論文,隨后,眾多學(xué)者在這一領(lǐng)域進(jìn)行了卓有
3、成效的研究工作。到目前為止,國外的文本挖掘研究已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了試驗(yàn)性研究進(jìn)入到了實(shí)用化階段,并在郵件分類、電子會(huì)議、信息過濾等方面取得了較為廣泛的應(yīng)用。下面列出了一些著名的國外文本挖掘工具:(1)IBM的文本智能挖掘機(jī)IBM的文本智能挖掘機(jī)由高級搜索引擎(AdvancedSearchEngine)、TextMiner、Web訪問工具(WebAccessTools)tl文本分析工具(TextAna【ysisToo_Is)組
4、成。其主要功能是特征提取、文檔聚集、文檔分類和檢索,支持16種語言的多種格式文本的檢索,采用深層次的文本分析和索引方法,支持全文搜索和索引搜索,搜索條件可以是自然語言和布爾邏輯條件,是Client/Server結(jié)構(gòu),支持大量并發(fā)用戶做檢索任務(wù),聯(lián)機(jī)更新索引,同時(shí)義能完成其他的搜索任務(wù)。TextMiller的特征抽取器主要從文檔中抽取人名、組織名和地名以及由多個(gè)字組成的復(fù)合詞,也能抽取表達(dá)數(shù)字的詞匯,例如:“錢”、“百分比”、“時(shí)間”等。
5、佗1Autonomy公司的核心的產(chǎn)品是ConceptAgents。在經(jīng)過訓(xùn)練以后。它能自動(dòng)從文本中抽取概念。該產(chǎn)品的算法提出者是邁可林奇,他認(rèn)為,按照香農(nóng)的信息論,文檔中除有效概念外,還有大量的冗余信息。而詞或短語是否為冗余可根據(jù)它在文檔中的隨機(jī)度(概率)來判定。如果濾除冗余,就可以從文檔中自動(dòng)抽取表達(dá)文檔主題的概念。林奇的技術(shù)路線是,首先對系統(tǒng)進(jìn)行訓(xùn)練,處理一些文檔,由使用者對非冗余概念做出認(rèn)定和識(shí)別。按照貝葉斯概率理論。這一步實(shí)際上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于粗糙集理論的文本自動(dòng)分類研究.pdf
- 基于粗糙集理論的中文文本自動(dòng)分類的研究.pdf
- 基于粗糙集理論的文本分類研究.pdf
- 基于粗糙集的文本分類算法研究.pdf
- 基于模糊粗糙集的Web文本分類研究.pdf
- 基于粗糙集的文本分類技術(shù)研究.pdf
- 基于粗糙集理論的文本分類方法研究.pdf
- 基于模糊—粗糙集的文本分類模型.pdf
- 基于變精度粗糙集的文本分類研究.pdf
- 基于粗糙集的多標(biāo)記文本分類方法研究.pdf
- 基于粗糙集的Web文本分類技術(shù)研究.pdf
- 鄰域粗糙集及其基于鄰域粗糙集的分類算法.pdf
- 基于粗糙集的分類算法研究.pdf
- 基于粗糙集理論的文本分類算法研究及應(yīng)用.pdf
- 基于粗糙集的web文本挖掘研究.pdf
- 基于粗糙集的SVM層次文本分類技術(shù)研究.pdf
- 基于粗糙集的網(wǎng)頁分類的研究.pdf
- 基于粗糙集的文本分類器的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于粗糙集的中文文本分類算法研究及應(yīng)用.pdf
- 基于粗糙集與支持向量機(jī)的Web文本分類.pdf
評論
0/150
提交評論