基于密度的樣本裁剪算法的改進(jìn)及在knn中的應(yīng)用研究

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-05-21 格式：docx 頁(yè)數(shù)：54 大小：945.48KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于密度的樣本裁剪算法的改進(jìn)及在knn中的應(yīng)用研究_第1頁(yè)

已閱讀1頁(yè)，還剩53頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　重慶大學(xué)　　碩士學(xué)位論文　　基于密度的樣本裁剪算法的改進(jìn)及在kNN中的應(yīng)用研究　　姓名：楊營(yíng)輝　　申請(qǐng)學(xué)位級(jí)別：碩士&

2、lt;/b>　　專業(yè)：計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)　　指導(dǎo)教師：熊忠陽(yáng)　　2010-04　　重慶大學(xué)碩士學(xué)位論文　　摘<

3、;/p>　　要　　中文摘要　　隨著信息技術(shù)的飛速發(fā)展和迅速普及，人們可以方便快捷地獲得大量的信息。　　然而，在浩瀚的信息海洋里，如何快速準(zhǔn)確地找到所需要的信息已經(jīng)成為人們不<p&g

4、t;　　得不面對(duì)的現(xiàn)實(shí)問題。因此，海量信息的組織管理和高效利用已經(jīng)成為急需解決　　的問題。目前，大多數(shù)信息表現(xiàn)為文本形式，為了有效利用這些文本信息，對(duì)它　　們進(jìn)行高效、合理的分類是非常必要的。所以，文本分類已經(jīng)成為處理大量文本　　信息的關(guān)鍵技術(shù)，并已成為數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究方向。&

5、lt;p>　　本文對(duì)文本分類及其相關(guān)技術(shù)進(jìn)行了研究。首先介紹了文本分類的發(fā)展概況　　和文本分類過(guò)程中的相關(guān)技術(shù)，重點(diǎn)介紹了文本預(yù)處理、文本的表示、文本特征　　向量的提取、特征向量的加權(quán)、文本分類的經(jīng)典算法 kNN( k nearest neighbor)、訓(xùn)　　練樣本裁剪算法以及文本分類效果評(píng)估等；其次，分

6、析了 kNN 算法和訓(xùn)練樣本裁　　剪算法的不足并對(duì)其做出了改進(jìn)。本文研究?jī)?nèi)容和創(chuàng)新工作主要包括以下兩大方　　面：　　第一，對(duì)訓(xùn)練樣本裁剪算法進(jìn)行改進(jìn)。在文本分類中，訓(xùn)練集的分布狀態(tài)會(huì)　　直接影響 kNN 分類器的效率和準(zhǔn)確率。通過(guò)分析

7、基于密度的 kNN 文本分類器訓(xùn)練　　樣本的裁剪方法，發(fā)現(xiàn)它存在兩大不足：一是裁減之后的均勻狀態(tài)只是以 e 為半徑　　的球形區(qū)域意義上的均勻狀態(tài)，而非最理想的均勻狀態(tài)即兩兩樣本之間的距離相　　等；二是未對(duì)低密度區(qū)域的樣本做任何處理，裁減之后仍存在大量不均勻的區(qū)域。　　針對(duì)

8、這兩處不足，提出了以下兩點(diǎn)改進(jìn)：一是優(yōu)化了裁減策略，使裁減之后的訓(xùn)　　練集更趨于理想的均勻狀態(tài)；二是實(shí)現(xiàn)了對(duì)低密度區(qū)域樣本的補(bǔ)充。通過(guò)實(shí)驗(yàn)表　　明，改進(jìn)后的算法在穩(wěn)定性和準(zhǔn)確率方面都有明顯提高。　　第二，對(duì) kNN 算法進(jìn)行改進(jìn)。原始 kNN 算法中最佳 k 值的確定目前還沒有很<p

9、>　　好的方法，一般采用先設(shè)定一個(gè)初始值（一般為幾百到幾千之間），然后根據(jù)實(shí)驗(yàn)　　測(cè)試的結(jié)果來(lái)不斷的調(diào)整 k 值。這不利于 kNN 算法在實(shí)際中的推廣應(yīng)用。針對(duì)這　　種不足，本文在基于密度的訓(xùn)練樣本裁剪算法的基礎(chǔ)上提出一種改進(jìn)算法。改進(jìn)　　算法的基本思路是：在給定新文本后，考慮訓(xùn)練文本集中，屬于該新文本的

10、e 鄰域　　的 k 篇文本，根據(jù)這 k 篇文本所屬的類別判定新文本所屬的類別。通過(guò)實(shí)驗(yàn)表明，　　改進(jìn)算法較好的解決了 kNN 算法中參數(shù) k 取值的問題，同時(shí)，在時(shí)間效率上也要　　優(yōu)于原始 kNN 算法。在分類效果上，改進(jìn)算法跟原始 kNN 算法基本一致。　　關(guān)鍵詞：文本

11、分類，kNN，快速分類，樣本裁剪，樣本補(bǔ)充　　I　　重慶大學(xué)碩士學(xué)位論文　　英文摘要　　ABSTRACT　　Alon

12、g with the rapid development of information technology and popularization of　　the Internet, large volumes of information can be acquired conveniently and quickly.　　However, how t

13、o quickly and accurately find the right information in the vast　　information ocean has become a realistic problem which people have to face. It　　becomes an urgent requirement tha

14、t massive information could be managed in a　　well-organized way and could be efficient ly utilized. At the present time, most　　information exists as text. For effective utilizati

15、on of information, the efficient and　　reasonable classification for information is very necessary. Therefore, text classification　　has become a key technology for vast text infor

16、mation processing and has gradually　　become an important research branch in the field of data mining.　　Researches on text classification and its related technologies are done in

17、this paper.　　The thesis firstly introduces general development of automated text categorization.　　Specially, some introductions are made such as text preprocessing, text represen

18、tation,　　feature selection, feature weighting, kNN (k nearest neighbor), the density-based　　method for reducing the amount of training data, classification performance evaluation

19、　　and so on. Then, we focus on the research and analysis of kNN algorithm and the　　density-based method for reduc ing the amount of training data. Our primary works are

20、　　as follows.　　Firstly, we propose an improved approach to the density-based method for　　reducing the amount of training data in kNN. The density of training data dire

21、ctly　　affects the efficiency and precision of kNN text classifier. Through the analysis of　　density-based method for reducing the amount of training data in kNN text classifier,&

22、lt;/p>　　two disadvantages have been uncovered: one is the imperfect state of the even density　　of the training data after reduced, which should be equal distance of every two training&l

23、t;/p>　　texts; and the other is absolutely no treatment of the low-density training texts, there are　　large numbers of low-density texts in the training data after reduced. An improved&l

24、t;/p>　　approach to the mentioned deficiencies is proposed: the reducing strategy is optimized　　and the method of supplementing appropriate data into training data is presented. The</

25、p>　　experiment shows that the improved method has a distinctly better performance both on　　the algorithm stability and accuracy.　　Secondly, an improved approach to

26、kNN is proposed. There wasn’t a proper　　approach to figure the optimal k value of the original kNN algorithm, in which an initial　　II　　重慶大

27、學(xué)碩士學(xué)位論文　　英文摘要　　value was generally set between a few hundred and several thousand, and then it was　　adjusted corresponding to the experime

28、ntal results. Actually, this is not a smart choice to　　promote kNN algorithm in practice. Concerned with the deficiency, an improved　　approach is proposed based on the density-ba

29、sed method for reducing the amount of　　training data in this paper. The improved algorithm is briefly as follows: we find out the　　k nearest neighbors which are in the e-neighbor

30、hood of the new text. Then we classify　　the new text based on the k nearest neighbors. Results show that, the improved　　algorithm can solve the problem of the k value's deter

31、mination in kNN algorithm better　　and meanwhile has superior time efficiency. As for category efficiency, they are largely　　the same.　　Key

32、words: text classification; kNN; fast classification; reducing training data;　　supplementing training data　　III　　重慶大學(xué)碩士學(xué)位論文<

33、;p>　　1 緒　　論　　1 緒論　　1.1 論文的研究背景及選題的意義　　隨著信息科技的發(fā)展，特別是自 20 世紀(jì) 90 年代后期以來(lái)，Intern

34、et 技術(shù)的迅　　猛發(fā)展，我們的生活已進(jìn)入了信息爆炸的時(shí)代。據(jù) 1998 年統(tǒng)計(jì)，世界上每年出版　　的期刊就約有 156000 種，而且還在以每年 12000 種的速度遞增[1] 。美國(guó)國(guó)內(nèi)每年　　就有近 140 萬(wàn)種書刊出版，同時(shí)還在以平均每年 6 萬(wàn)種的速度增加[2] 。Internet 上

35、;　　的信息增長(zhǎng)更是驚人。據(jù) 1999 年統(tǒng)計(jì)，Internet 上約有 3.5 億個(gè) web 頁(yè)面，每天增　　加將近 100 萬(wàn)個(gè)。另外，在日常生活中人們經(jīng)常接觸的信息絕大部分都是文本信　　息。這些信息要么以印刷品的方式存在，要么以電子文檔的形式出現(xiàn)。而隨著因　　特網(wǎng)的迅猛發(fā)展，電子文檔日

36、益成為文本信息存在的主流形式。　　如何有效的組織和管理這些龐大而且還在不斷急劇膨脹的文本信息，并且能　　夠根據(jù)用戶不同的需求，迅速、準(zhǔn)確地從中返回所需信息是當(dāng)前信息科技領(lǐng)域面　　臨的一大挑戰(zhàn)。而文本分類技術(shù)，是能夠解決信息混亂、幫助用戶準(zhǔn)確地定位所　　需信息的關(guān)鍵技術(shù)。因

37、此，文本自動(dòng)分類己成為目前備受關(guān)注的關(guān)鍵技術(shù)，有著　　很大的使用價(jià)值。它同時(shí)也是以下領(lǐng)域的技術(shù)基礎(chǔ)，有著廣泛的應(yīng)用前景。　?、佟⌒畔⑦^(guò)濾　　隨著 Internet 的飛速發(fā)展，網(wǎng)絡(luò)已成為我們方便快捷地獲取信息的重要渠道。　　但面對(duì)如此

38、龐大的海量信息，如何快速的獲取用戶感興趣的信息，同時(shí)避免帶來(lái)　　反面信息成為我們的一大困擾。而信息過(guò)濾正是解決這一困擾的關(guān)鍵技術(shù)，信息　　過(guò)濾技術(shù)本質(zhì)上就是一個(gè)兩分類問題，它把信息分為兩類：感興趣的信息和不感　　興趣的信息。一方面把用戶感興趣的信息提取出來(lái)反饋給用戶，另一方面把用戶<

39、p>　　不感興趣的、反面的信息給過(guò)濾掉。　?、凇∴]件分類　　當(dāng)用戶特別是政府部門收到大量郵件時(shí)，就需要對(duì)郵件進(jìn)行分類，以確定把　　郵件分發(fā)給指定的人員去處理。例如美國(guó)白宮所使用的郵件分類系統(tǒng)能自動(dòng)地把　　總統(tǒng)收到的大量的 E-m

40、ail 分到指定的類別當(dāng)中去，如政治、軍事、外交、經(jīng)濟(jì)、　　環(huán)保等，從而交給適當(dāng)?shù)娜藛T對(duì)郵件進(jìn)行回復(fù)。　?、邸∥谋緮?shù)據(jù)庫(kù)　　隨著需求的發(fā)展，存儲(chǔ)、組織和查詢文本信息也不再是文本數(shù)據(jù)庫(kù)的全部功　　能，而如何提供多層次的服務(wù)已成為文本數(shù)據(jù)

41、庫(kù)的重要功能，如文本挖掘。而文　　本分類技術(shù)正是這些功能的重要基礎(chǔ)。　?、?電子會(huì)議和網(wǎng)絡(luò)論壇　　電子會(huì)議就是所有參會(huì)者通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)參與會(huì)議，它是一種新型的會(huì)議方　　1　　重慶大學(xué)碩士學(xué)位論

42、文　　1 緒　　論　　式。為了調(diào)動(dòng)參與者的積極性，參會(huì)者采用匿名的形式，以便于形成平等、活躍　　的氣氛。然后由文本分類系統(tǒng)對(duì)電子會(huì)議上產(chǎn)生的大量意見和建議進(jìn)行分類和組<

43、;p>　　織，以便確定進(jìn)一步討論的主題。網(wǎng)絡(luò)論壇則是網(wǎng)絡(luò)上進(jìn)行信息交流的一種重要　　形式，對(duì)于用戶發(fā)表的大量信息，由文本分類系統(tǒng)進(jìn)行分類和組織，以便于用戶　　進(jìn)行查找和瀏覽。　?、荨?shù)字圖書館

44、;　　數(shù)字圖書館已成為圖書館的發(fā)展趨勢(shì)，數(shù)字期刊所占的比重也越來(lái)越大。在　　對(duì)圖書進(jìn)行分類時(shí)，圖書管理員不可能對(duì)各個(gè)學(xué)科類別都非常了解，這就造成不　　能對(duì)大量的圖書資料進(jìn)行快速、準(zhǔn)確的分類，而文本自動(dòng)分類技術(shù)可以解決這一　　問題。&l

45、t;b>　?、蕖⌒畔⑼扑头?wù)　　文本分類技術(shù)還可以應(yīng)用到主動(dòng)的信息推送服務(wù)中。在這種模式里，用戶是　　被動(dòng)的，隨著信息的日益增多，信息服務(wù)系統(tǒng)可以主動(dòng)地將最新的信息歸類，然　　后根據(jù)用戶的需求和興趣推送給用戶。　　因此，文本分類是一項(xiàng)基本而重要的

46、功能，它能夠很好地幫助用戶整理、獲　　取信息，可以創(chuàng)造巨大的經(jīng)濟(jì)和社會(huì)效益。　　k-最近鄰方法[3] [4] [5] （k-Nearest Neighbor, k-NN），作為一種基于統(tǒng)計(jì)的簡(jiǎn)單、　　有效、非參數(shù)的經(jīng)典分類方法，在文本分類中得到廣泛使用，并取得了很好的效

47、　果。其基本思想是在訓(xùn)練樣本中找到測(cè)試樣本的 k 個(gè)最近鄰，然后根據(jù)這 k 個(gè)最　　近鄰的類別來(lái)決定測(cè)試樣本的類別。k-最近鄰算法是一種基于需求的或懶惰的學(xué)習(xí)　　方法，它在訓(xùn)練階段只是簡(jiǎn)單存放所有的訓(xùn)練樣本，直到進(jìn)入分類階段才建立分　　類。這樣，與測(cè)試樣本比較的可能近鄰數(shù)量（即訓(xùn)練樣本個(gè)數(shù)）較大時(shí)，會(huì)有很<

48、/p>　　大的計(jì)算代價(jià)。另外，訓(xùn)練文本分布的不均勻也會(huì)造成分類準(zhǔn)確率的下降。　　因此，對(duì)訓(xùn)練樣本集進(jìn)行裁剪和選擇，將對(duì)提高 KNN 算法的分類效率和準(zhǔn)確　　率有重要的意義。　　1.2 國(guó)內(nèi)外研究現(xiàn)狀綜述

49、1.2.1 文本分類的研究現(xiàn)狀　　國(guó)外文本自動(dòng)分類的研究較早。美國(guó) IBM 公司的 H.P.Luhn 首先于 20 世紀(jì) 50　　年代末在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究，他第一個(gè)提出將詞頻統(tǒng)計(jì)的思想運(yùn)用到　　文本分類中。Maron 于 1961 年發(fā)表了關(guān)于自動(dòng)分類的第一篇論文[6] ，1962 年

50、;　　H.Borko 等人將因子分析法的思想引入到文本分類中。隨后，許多著名的科學(xué)家如　　Sparck、Salton 等都在這一領(lǐng)域進(jìn)行了富有成效的研究[7] 。文本分類的方法經(jīng)歷了　　兩大階段：在 80 年代末之前都是基于知識(shí)工程的方法，即利用人為設(shè)定的規(guī)則來(lái)　　2<

51、;/b>　　重慶大學(xué)碩士學(xué)位論文　　1 緒　　論　　進(jìn)行分類；而 90 年代以后，文本自動(dòng)分類引入了統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)的方法[8] ，　　并取得了豐

52、碩的成果，逐漸取代了知識(shí)工程方法。　　國(guó)外的文本分類從理論研究到實(shí)際應(yīng)用的過(guò)程大體上可以分為三個(gè)階段：　　1958 至 1964 年主要進(jìn)行文本分類的可行性研究；1965 至 1974 年主要進(jìn)行文本分　　類的實(shí)驗(yàn)研究；1975 至今一直在進(jìn)行文本分類的實(shí)用化研究[9] 。

53、;　　國(guó)內(nèi)的文本分類研究始于 20 世紀(jì) 80 年代初期，大體上也經(jīng)歷了三個(gè)階段：　　可行性研究、輔助分類、自動(dòng)分類。所采用的方法也比較單一，主要是結(jié)合中文　　文本的特點(diǎn)采用相應(yīng)的策略，把英文文本分類的技術(shù)應(yīng)用到中文文本分類當(dāng)中，　　形成針對(duì)中文文本的分類系統(tǒng)。目前我國(guó)的自動(dòng)分類系統(tǒng)大致可以分為兩類，即</

54、p>　　基于詞典方法的自動(dòng)分類系統(tǒng)和基于專家系統(tǒng)方法的自動(dòng)分類系統(tǒng)?？偟膩?lái)說(shuō)，　　我國(guó)的文本自動(dòng)分類的發(fā)展階段和國(guó)外大致相同，但由于我國(guó)在該領(lǐng)域的研究起　　步較晚，因此我們還有很多技術(shù)有待進(jìn)一步研究。　　在商業(yè)應(yīng)用方面，目前國(guó)外的已經(jīng)有 SAS 公司開發(fā)的數(shù)據(jù)挖掘集成軟件工具</

55、p>　　SAS/EM、SPSS 公司開發(fā)的 Clementine 等，可以應(yīng)用于文本分類方面的研究；國(guó)　　內(nèi)由北京拓爾思信息技術(shù)有限公司開發(fā)的文本挖掘軟件 CKM，是國(guó)內(nèi)外第一個(gè)實(shí)　　用化的中文文本挖掘軟件產(chǎn)品。另外，國(guó)內(nèi)的很多高等院校和研究機(jī)構(gòu)，也建立　　了相關(guān)實(shí)驗(yàn)室從事該領(lǐng)域的研究

56、，并且取得了很大的成就。如中科院開發(fā)的智多　　星中文文本分類器、北京大學(xué)的天網(wǎng)等。目前，我國(guó)在中文文本分類領(lǐng)域已經(jīng)取　　得了令人矚目的研究成果。　　1.2.2 kNN 算法的研究現(xiàn)狀　　kNN 方法作為一種簡(jiǎn)單、有效、非參數(shù)的經(jīng)典分類方法，在文本分類中得到</p&g

57、t;　　廣泛的應(yīng)用。但是這種方法計(jì)算量大，而且訓(xùn)練樣本的分布不均勻會(huì)造成分類準(zhǔn)　　確率的下降。　　目前主要通過(guò)兩種途徑來(lái)減小 k-最近鄰方法的計(jì)算量：一種途徑是設(shè)計(jì)快速　　搜索算法，在盡量短的時(shí)間內(nèi)找到測(cè)試樣本的最近鄰[10] [11] ，另一種途徑是在

58、原來(lái)　　的訓(xùn)練樣本集中選取一些代表樣本作為新的訓(xùn)練樣本集，或刪除原來(lái)的訓(xùn)練樣本　　集中的某些樣本，將剩下的樣本作為新的訓(xùn)練樣本集，從而達(dá)到減小訓(xùn)練樣本數(shù)　　量的目的。　　通過(guò)對(duì)訓(xùn)練樣本進(jìn)行選擇或裁減，使訓(xùn)練樣本達(dá)到一個(gè)相對(duì)均勻的狀態(tài)，

59、一　　方面可以降低文本分類器的計(jì)算量，另一方面還可以提高文本分類的精度[12] 。　　1.2.3 樣本裁剪方法的研究現(xiàn)狀　　文本分類方法主要可以分為基于統(tǒng)計(jì)的、基于連接的和基于規(guī)則的等三大類　　方法。其中，目前使用較多的就是基于統(tǒng)計(jì)的分類方法，這類算法中最常見有 k-&l

60、t;/p>　　最近鄰、樸素貝葉斯、類中心向量、SVM 等。　　3　　重慶大學(xué)碩士學(xué)位論文　　1 緒　　論&

61、lt;p>　　這種基于統(tǒng)計(jì)的分類算法，其分類器的建立一般是通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，　　從而得到某種客觀規(guī)律，或者采用統(tǒng)計(jì)學(xué)中的某種定律來(lái)完成，因此這種分類算　　法的訓(xùn)練階段多為對(duì)訓(xùn)練數(shù)據(jù)的某種統(tǒng)計(jì)和計(jì)算過(guò)程，而在分類階段，分類器根　　據(jù)在訓(xùn)練階段統(tǒng)計(jì)、計(jì)算出來(lái)的可以代表文本與類別之間關(guān)系的數(shù)據(jù)給出某種概&l

62、t;/p>　　率分類結(jié)果?；诮y(tǒng)計(jì)的方法實(shí)質(zhì)上就是一種定量推理的方法，定量是基于概率　　的，因此具有不確定性，也必然會(huì)掩蓋小概率事件的發(fā)生。　　由于基于統(tǒng)計(jì)的分類方法的統(tǒng)計(jì)結(jié)果是從訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)出來(lái)的，訓(xùn)練數(shù)據(jù)是　　否全面、均衡都會(huì)影響統(tǒng)計(jì)結(jié)果，因此訓(xùn)練樣本集的選擇至關(guān)重要。</p

63、>　　國(guó)外從二十世紀(jì)六十年代開始研究如何主動(dòng)的從訓(xùn)練數(shù)據(jù)集中選擇出一部分　　具有代表性的數(shù)據(jù)，然后僅使用這一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。目前國(guó)外主要的　　訓(xùn)練樣本選擇方法有：Peter E Hart 于 1968 年提出的 Condensing 算法[13] 、Dennis L　　Wils

64、on 于 1972 年提出的 Editing 算法[14] 、P Devijver 于 1982 年提出的 MultiEdit　　算法[15] ，另外還有 Ludmila I Kuncheva 在 1995 年至 1997 年之間使用遺傳算法在　　這方面進(jìn)行的一些研究[16] [17] 。但這些方法存在兩方面的不足：一方面這些算法每

65、　　選擇一個(gè)樣本或者裁剪掉一個(gè)樣本，都要對(duì)選擇出來(lái)的數(shù)據(jù)集進(jìn)行一次測(cè)試，反　　復(fù)重復(fù)這一過(guò)程，直到選擇出來(lái)的數(shù)據(jù)集不再變化為止，因此，當(dāng)原始訓(xùn)練數(shù)據(jù)　　集較大的時(shí)候，計(jì)算量會(huì)非常高；另一方面，這些算法沒有考慮到分類效果會(huì)受　　訓(xùn)練數(shù)據(jù)集分布狀態(tài)的影響。

66、　　國(guó)內(nèi)對(duì)訓(xùn)練樣本選擇方面的研究起步比較晚，也比較少。目前主要有復(fù)旦大　　學(xué)的李榮陸博士于 2004 年提出的基于密度的 kNN 文本分類器訓(xùn)練樣本裁剪方法，　　徐義峰等人于 2007 年提出的一種新的基于密度的 k-最近鄰文本分類器訓(xùn)練樣本約　　減方法。

67、　　1.3 本文研究?jī)?nèi)容　　本文研究的內(nèi)容主要包括以下兩個(gè)部分：　　①　分析基于密度的 kNN 分類器訓(xùn)練樣本裁減方法的不足并提出改進(jìn)：　　1）基于密度的 kNN 分類器訓(xùn)練樣本裁減方法中，通過(guò)對(duì)高密度區(qū)的樣本進(jìn)　　行裁減，使訓(xùn)練樣本集在每個(gè)以 e

68、為半徑的圓形區(qū)域內(nèi)的樣本數(shù)相等，從而使整個(gè)　　樣本區(qū)域達(dá)到一個(gè)相對(duì)均勻的狀態(tài)。在對(duì)某一個(gè)以 e 為半徑的區(qū)域內(nèi)的樣本裁減　　時(shí)，優(yōu)先裁減分布最密集的樣本，但這樣的樣本并不一定是信息增益最小的樣本。　　針對(duì)這種不足，本論文考慮在對(duì)高密度區(qū)的訓(xùn)練樣本裁減時(shí)優(yōu)先裁減信息增益最&

69、lt;b>　　低的樣本。　　2）基于密度的 kNN 分類器訓(xùn)練樣本裁減方法沒有實(shí)現(xiàn)對(duì)低密度區(qū)的樣本進(jìn)　　行補(bǔ)充，所以通過(guò)該方法裁減后的訓(xùn)練樣本集仍存在一些比平均密度低的低密度　　4　　重慶大學(xué)碩士學(xué)位論文&l

70、t;/p>　　1 緒　　論　　區(qū)。針對(duì)這種不足，本論文實(shí)現(xiàn)一種對(duì)低密度區(qū)的訓(xùn)練樣本進(jìn)行補(bǔ)充的算法。　?、凇⊙芯?kNN 算法中最佳 k 值的確定：　　kNN 算法中的最

71、佳 k 值一般都是通過(guò)經(jīng)驗(yàn)確定的，本論文通過(guò)研究最佳 k 值　　與基于密度的 kNN 分類器訓(xùn)練樣本裁減方法中的參數(shù) e 之間的關(guān)系，最終為最佳　　k 值的確定提供一定的依據(jù)。　　1.4 本文章節(jié)安排　　本文共分五章，文章結(jié)構(gòu)及各章內(nèi)容安排如下：&

72、lt;p>　　第一章：緒論。主要介紹本課題的研究背景及研究意義，分析文本分類、kNN　　算法以及訓(xùn)練樣本裁剪算法的國(guó)內(nèi)外研究現(xiàn)狀及存在的問題。并闡述本文的主要　　研究?jī)?nèi)容，最后給出本文的章節(jié)安排。　　第二章：文本分類技術(shù)。主要介紹文本分類的相關(guān)技術(shù)，包括文本預(yù)處理、

73、　　文本的表示、文本特征向量的提取、特征向量的加權(quán)、文本分類的經(jīng)典算法 kNN、　　訓(xùn)練樣本裁剪算法以及文本分類效果評(píng)估等。　　第三章：裁剪算法的改進(jìn)。對(duì)訓(xùn)練樣本裁剪算法進(jìn)行分析，針對(duì)其不足做出　　改進(jìn)，最后在兩個(gè)語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn)，對(duì)改進(jìn)前后的算法進(jìn)行對(duì)比，并分析實(shí)驗(yàn)&l

74、t;b>　　結(jié)果。　　第四章：kNN 算法的改進(jìn)。對(duì) kNN 算法進(jìn)行分析，針對(duì)其參數(shù) k 的設(shè)置只能　　根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行調(diào)整的不足，提出一種改進(jìn)的 kNN 算法，最后進(jìn)行實(shí)驗(yàn)對(duì)比，　　并分析實(shí)驗(yàn)結(jié)果。　　第

75、五章：論文總結(jié)與展望。總結(jié)全文的研究?jī)?nèi)容，并對(duì)下一步的研究工作和　　研究方向進(jìn)行討論。　　5　　重慶大學(xué)碩士學(xué)位論文　　2 文本分類技術(shù)

76、　　2 文本分類技術(shù)　　2.1 文本分類的一般過(guò)程　　文本是一系列語(yǔ)句串聯(lián)而成的連貫序列，它可能只是一個(gè)單句，但一般來(lái)說(shuō)　　是由一系列的句子連貫而成。我們?cè)谌粘Ｉ钪兴吹降木哂幸欢ㄒ饬x的文字段　　落都可以稱之為文

77、本。文本自動(dòng)分類就是利用計(jì)算機(jī)按照一定的分類體系或者規(guī)　　則將待分類文本標(biāo)記為預(yù)先設(shè)定好的某個(gè)或某些類別[18] 。文本自動(dòng)分類的過(guò)程可　　以用數(shù)學(xué)公式表示如下：　　f : T?→ C 其中：T?? (D1, D2,L , Dn ) C?? (C1, C2 ,L Cm )

78、　　其中 T 是待分類文本的集合，它可以是無(wú)限集；C 是預(yù)先設(shè)定好的所有類別　　的集合，它必須是有限集。　　通過(guò)數(shù)學(xué)公式可以看出，文本自動(dòng)分類過(guò)程就是一個(gè)函數(shù)映射過(guò)程，由于一　　個(gè)文本的內(nèi)容可以是跨領(lǐng)域的或者是多個(gè)領(lǐng)域的結(jié)合，因此它可以歸屬于多個(gè)類　　別，相應(yīng)的，該函數(shù)映

79、射可以是一對(duì)一的映射也可以是一對(duì)多的映射。數(shù)學(xué)公式　　中的函數(shù) f 對(duì)應(yīng)于文本分類的分類算法，這也是文本自動(dòng)分類系統(tǒng)中的核心內(nèi)容，　　即由分類算法從訓(xùn)練數(shù)據(jù)集中總結(jié)出一定的規(guī)律，從而建立分類規(guī)則，也就是映　　射函數(shù) f。對(duì)于待分類文本，文本自動(dòng)分類系統(tǒng)就根據(jù)映射函數(shù) f 將其映射到某個(gè)&l

80、t;p>　　或某幾個(gè)類別當(dāng)中去。　　文本自動(dòng)分類的過(guò)程一般包括：文本的預(yù)處理、文本的表示、特征處理、構(gòu)　　建分類器、對(duì)文本進(jìn)行分類、對(duì) 分類結(jié)果進(jìn)行評(píng)價(jià)，其主要功能模塊如圖 2.1 所示：　　6　　重慶大學(xué)碩士學(xué)位論文</

81、p>　　2 文本分類技術(shù)　　圖 2.1 文本分類系統(tǒng)　　Fig.2.1 Text classification system　　各個(gè)模塊的主要功能如下：　?、佟∥谋绢A(yù)處理：對(duì)原始語(yǔ)料集進(jìn)行一系列的處理，如去

82、除停用詞、切分詞等，　　將其轉(zhuǎn)化為可以由計(jì)算機(jī)處理的數(shù)據(jù)；　?、凇∥谋灸Ｐ捅硎荆河锰囟ǖ臄?shù)學(xué)模型如向量空間模型來(lái)表示文本；　?、邸√卣魈幚恚簩⑽谋镜奶卣魈崛〕鰜?lái)，選出其中具有代表性的特征來(lái)表示文　　本，并計(jì)算各個(gè)特征的權(quán)重；　?、?/p>

83、　分類：首先選擇特定的分類算法，然后用訓(xùn)練數(shù)據(jù)集對(duì)其訓(xùn)練，得到分類　　器模型，最后對(duì)待分類文本進(jìn)行分類；　?、荨⌒Чu(píng)價(jià)：采用一定的性能指標(biāo)對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)，并根據(jù)分析結(jié)果對(duì)　　分類器進(jìn)行相應(yīng)的調(diào)整。　　2.2 文本預(yù)處理與文本表示<p&g

84、t;　　2.2.1 文本預(yù)處理　　文本預(yù)處理就是將人類可以理解的文本轉(zhuǎn)化為計(jì)算機(jī)可以理解并處理的數(shù)　　7　　重慶大學(xué)碩士學(xué)位論文　　2 文本分類技術(shù)　　據(jù)

85、，這也是文本自動(dòng)分類的前提。另外，文本預(yù)處理的內(nèi)容以及側(cè)重點(diǎn)也應(yīng)隨不　　同的情況如不同的分類對(duì)象、分類器等而有所不同。對(duì)于英文文本進(jìn)行預(yù)處理，　　一般只需要過(guò)濾停用詞、過(guò)濾非法字符等，而對(duì)于中文文本，由于中文文本中詞　　與詞之間沒有天然的分隔符，就必須要進(jìn)行切分詞。<

86、;b>　?、?過(guò)濾停用詞　　將停用詞從原始文本中去除掉的過(guò)程即稱為過(guò)濾停用詞。停用詞主要是指那　　些出現(xiàn)頻率很高但對(duì)文本分類沒有太大貢獻(xiàn)的單詞。各種語(yǔ)言中都存在很多這樣　　的停用詞，例如，中文中的“的”、“是”、“啊”、“而”等語(yǔ)氣詞、助詞等，它們幾乎<p&

87、gt;　　在每個(gè)中文本文中都會(huì)出現(xiàn)，它們的存在僅僅是因?yàn)檎Z(yǔ)法的需要，并沒有什么實(shí)　　際含義，因此，它們幾乎不代表對(duì)應(yīng)文本的任何內(nèi)容。如果將這些詞也作為文本　　的特征提取出來(lái)，只會(huì)增加特征空間的高維性，甚至影響分類精度。　?、?過(guò)濾非法字符<p&g

88、t;　　所謂非法字符就是對(duì)文本分類無(wú)用的字符，它跟停用表的性質(zhì)有些相似，但　　停用詞具有通用性，而非法字符一般來(lái)講隨分類方法的不同而有所不同。所以，　　非法字符跟停用詞一樣，也要被處理掉，以提高分類精度。　　上面這兩種文本分類技術(shù)在所有的文本分類系統(tǒng)中都會(huì)用到，目的就是處理

89、;　　掉那些沒有的詞或字符。而下面要講到的兩種技術(shù)在特定的文本分類中才會(huì)用到，　　中文分詞技術(shù)是中文文本分類中特有的，web 網(wǎng)頁(yè)預(yù)處理是針對(duì) web 文本分類特　　有的。　?、?中文分詞技術(shù)

90、中文分詞技術(shù)，顧名思義就是對(duì)中文文本進(jìn)行切分詞，即把詞語(yǔ)從文本句子　　中提取出來(lái)，也是中文文本預(yù)處理中最關(guān)鍵的一種技術(shù)。中文切分詞的難度較大，　　因?yàn)橹形牟幌裼⑽哪菢?，單詞與單詞之間有空格加以區(qū)分，而必須根據(jù)詞語(yǔ)之間　　的意思、概念來(lái)區(qū)分。目前中文分詞技術(shù)有三類：基于字符串匹配的分詞方法、

91、　　基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。其中最常用的基于字符串匹配的分　　詞方法又有三種：正向最大匹配法 (由左到右的方向)；逆向最大匹配法 (由右到左　　的方向)；最少切分(使每一句中切出的詞數(shù)最小)。黃[19] 給出的中文分詞方法就是　　基于字符串的匹配方法中的最大匹配法?；诶斫獾姆衷~

92、方法是通過(guò)讓計(jì)算機(jī)模　　擬人對(duì)句子的理解，來(lái)達(dá)到識(shí)別詞的效果，其基本思想就是在分詞的同時(shí)進(jìn)行句　　法、語(yǔ)義分析，利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分：　　分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。最后一種方法則是基于統(tǒng)計(jì)的方法：　　從形式上看，詞是穩(wěn)定的字

93、的組合，因此在上下文中，相鄰的字同時(shí)出現(xiàn)的次數(shù)　　越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反　　映成詞的可信度。　　8　　重慶大學(xué)碩士學(xué)位論文&

94、lt;p>　　2 文本分類技術(shù)　　到底哪種分詞算法的準(zhǔn)確度更高，目前并無(wú)定論。對(duì)于任何一個(gè)成熟的分詞　　系統(tǒng)來(lái)說(shuō)，不可能單獨(dú)依靠某一種算法來(lái)實(shí)現(xiàn)，都需要綜合不同的算法。　　④ web 網(wǎng)頁(yè)預(yù)處理：　　web 已經(jīng)成為人類獲取信息

95、和得到服務(wù)主要方式之一。它與一般的文本文檔有　　所不同，web 主要由半結(jié)構(gòu)化的 HTML 語(yǔ)言組成，而 HTML 語(yǔ)言中不同元素所包　　含的信息量也有所不同，因此如何根據(jù) HTML 語(yǔ)言的特點(diǎn)最大量的提取出 web 文　　本的有用信息是 web 文本分類的關(guān)鍵。　　We

96、b 文本預(yù)處理的方法主要有以下幾類：1）簡(jiǎn)單的把 web 文本中的所有文　　字信息全部作為有用信息，這就會(huì)導(dǎo)致包含大量的噪音信息而降低文本分類的精　　度；或者把所有的文字信息作為無(wú)用信息而導(dǎo)致丟掉了大量的有用信息；2）將　　HTML 語(yǔ)言中某些元素的信息提取出來(lái)，如 Title、Key、超鏈接等，過(guò)濾掉其他部

97、　　分的信息。這種方法能過(guò)濾掉大部分的無(wú)用信息，同時(shí)提取到大部分的有用信息，　　能夠取得較好的效果。3）人為的設(shè)定一些相應(yīng)的規(guī)則，然后根據(jù)這些規(guī)則決定　　提取哪些信息。這樣可以根據(jù)不同的情況設(shè)定不同的規(guī)則，靈活性較大，但通用　　性不強(qiáng)。</b&g

98、t;　　2.2.2 文本表示　　如何將文本表示為計(jì)算機(jī)能夠識(shí)別的模型是文本分類系統(tǒng)首先要解決的問　　題。目前大部分文本分類系統(tǒng)都是通過(guò)此條匹配和計(jì)數(shù)將文本中的大部分信息提　　取出來(lái)，常用的文本表示模型有三種：布爾模型，概率模型，向量空間模型。<

99、;p>　　① 布爾模型　　布爾模型是最簡(jiǎn)單的文本表示模型，就是采用布爾表達(dá)式表示文本。布爾模　　型在傳統(tǒng)的信息檢索系統(tǒng)中有著廣泛的應(yīng)用，它也是其它表示模型的基礎(chǔ)。它把　　每一個(gè)文本表示成一個(gè)向量，向量的維就是文本的特征集合，每一維的權(quán)重要么<

100、;p>　　為 0，要么為 1。當(dāng)某一特征出現(xiàn)時(shí)，它的權(quán)重即為 1，否則為 0[20] 。　?、?概率模型　　信息檢索的概率模型考慮詞與詞之間的相關(guān)性，把文本集中的文本分為兩類：　　相關(guān)文本和無(wú)關(guān)文本。它根據(jù)數(shù)學(xué)理論中的概率論原理，通過(guò)特定的計(jì)算方式計(jì)

101、　　算出每個(gè)詞出現(xiàn)在相關(guān)文本和無(wú)關(guān)文本中的概率，然后根據(jù)各個(gè)詞的概率計(jì)算出　　文本間的概率，系統(tǒng)再以此做出決策。概率模型能夠解決文本信息相關(guān)性判斷的　　不確定性和查詢信息表示的模糊性問題。　　概率模型中的概率公式為 P( R | D, q) ，其中 P 表示文本 D 與用戶查詢 q 相關(guān)的&

102、lt;/p>　　概率。另外，用 R′ 來(lái)表示文本 D 與用戶查詢 q 不相關(guān)的概率，這樣，就有　　P( R | D , q)?? P (R′ | D, q)?? 1，即用二值形式判斷相關(guān)性[24] 。　　文本用特征項(xiàng)來(lái)表示，即 d i?? (t1 ,t2 ,L , tn) ，在概率模型中，用特征向量來(lái)表示，

103、　　9　　重慶大學(xué)碩士學(xué)位論文　　2 文本分類技術(shù)　　即 d i?? (wi1 ,wi 2,L ,win )，查詢串 q 也用向量來(lái)表示， q?? (wq1 ,wq 2 ,L , wqm ) 。在概率</p&g

104、t;　　模型中，特征項(xiàng)的權(quán)重都是二值的，即 wij?∈{0,1} ， wqj?∈{0,1} ，權(quán)重為 1 表示該特　　征項(xiàng)在該文本中出現(xiàn)了，0 則表示該特征項(xiàng)沒有出現(xiàn)。　　在信息檢索中，由于參數(shù)不好估計(jì)，直接計(jì)算 P 就比較困難，所以一般采用　　計(jì)算 P( R | t , qk ) 來(lái)代替計(jì)

105、算 P( R | d , qk )，即只根據(jù)文本中出現(xiàn)的特征項(xiàng)來(lái)計(jì)算該文　　本的相關(guān)概率。這樣，兩篇不同的文本如果包含的特征項(xiàng)相同，則他們的相關(guān)概　　率是相同的。對(duì)所有的文本計(jì)算其相關(guān)概率 P( R | t , qk ) 后，按照 P 對(duì)文本進(jìn)行排序，　　這就相當(dāng)于將所有文本按照特征向量排序。其中文本 d 的概率

106、相關(guān)性的計(jì)算公式　　為　　P( R | D , q)???∑ di?? lg　　pi (1?? qi )　　qi (1?? pi )　　(2.1)<

107、/p>　　其中， pi?? P (ti?? 1| R, q), qi?? P(ti?? 1| R′, q) 。　　參數(shù) pi，qi 主要是通過(guò)相關(guān)反饋進(jìn)行估計(jì)，簡(jiǎn)單的方法如：　　pi?? ri / r , qi?? (ni?? ri ) / (n?? r)　　(2.2

108、)　　其中，n 為反饋文本集所含文本的總數(shù)，r 為與用戶查詢相關(guān)的文本數(shù)，ni 為　　特征 ti 出現(xiàn)的樣本個(gè)數(shù)，ri 為特征 ti 出現(xiàn)且與用戶查詢相關(guān)的文本個(gè)數(shù)。概率模型　　就是采用相關(guān)反饋的方法，從兩個(gè)初始的概率開始，不斷調(diào)整概率估計(jì)值，直到

109、得到一個(gè)滿意的概率排序。　　概率模型的優(yōu)點(diǎn)是采用嚴(yán)格的數(shù)學(xué)理論為依據(jù)，為人們提供了一種數(shù)學(xué)理論　　基礎(chǔ)來(lái)進(jìn)行匹配，采用相關(guān)性反饋原理，可開發(fā)出理論上更為堅(jiān)實(shí)的方法。缺點(diǎn)　　是增加了存儲(chǔ)和計(jì)算資源的開銷，且參數(shù)估計(jì)難度較大，另外，由于文本向量中　　的權(quán)重只采用簡(jiǎn)單的二值形式

110、，丟失了一部分有用的信息。　?、?向量空間模型　　向量空間模型是在 1968 年由 Salton[21]　　[22]　　等人提出，這也是目前在信息檢索

111、領(lǐng)域表示文本的經(jīng)典模型。向量空間模型一般使用詞作為特征項(xiàng)，使用這些特征　　項(xiàng)以及其對(duì)應(yīng)的權(quán)重來(lái)表示文本。這樣，每個(gè)文本就被映射為由特征項(xiàng)組成的向　　量空間中的一個(gè)點(diǎn)。　　該模型的建立主要涉及兩個(gè)方面：一方面是提取特征詞，文本的內(nèi)容由前面

112、;　　提到的詞或詞組等基本單位組成。對(duì)于英文可以直接提取單詞，對(duì)于中文可以通　　過(guò)切分詞等技術(shù)提取詞。提取到的每一個(gè)特征項(xiàng)就作為向量空間中的一維。另一　　方面，就是針對(duì)每一個(gè)文本為它相應(yīng)的特征項(xiàng)賦予不同的權(quán)重。權(quán)重表示該特征　　項(xiàng)對(duì)于相應(yīng)文本的重要程度，其計(jì)算方式也有多種，目前較常用的技術(shù)包括以下</p&g

113、t;　　兩種，布爾權(quán)重和通過(guò) TFIDF 計(jì)算權(quán)重。布爾權(quán)重考慮的方式相對(duì)簡(jiǎn)單，如果特　　征項(xiàng)在文本中不出現(xiàn)則權(quán)重為 0，相反則為 1。布爾權(quán)重?zé)o法體現(xiàn)出詞條的重要程　　10　　重慶大學(xué)碩士學(xué)位論文<b&g

114、t;　　2 文本分類技術(shù)　　度。TFIDF 不但要考慮特征項(xiàng)在文本中出現(xiàn)的頻度，同時(shí)還考慮到了它在整個(gè)語(yǔ)　　料中的分布情況，因此被認(rèn)為是較好的特征項(xiàng)權(quán)重計(jì)算公式。其中 TF 表示了特征　　項(xiàng)在文本中出現(xiàn)的頻率，而 IDF 則表示特征項(xiàng)在整個(gè)語(yǔ)料集中的分布情況。TF 越&

115、lt;p>　　大，表示該特征在這個(gè)文本中的重要程度越高，而 IDF 越大則表示它在整個(gè)文本　　中的分布相對(duì)集中。　　由此就得到了由特征項(xiàng)和特征項(xiàng)權(quán)重組成的向量空間模型[23] 。　　2.3 特征處理<p

116、>　　通過(guò)對(duì)訓(xùn)練樣本進(jìn)行去除停用詞、切分詞等預(yù)處理，得到一個(gè)有詞或詞組構(gòu)　　成的初始特征集。一般情況下這個(gè)特征集中的特征項(xiàng)數(shù)目都會(huì)很大，即使一個(gè)文　　本數(shù)很少的訓(xùn)練集，經(jīng)過(guò)預(yù)處理后也會(huì)得到數(shù)萬(wàn)個(gè)特征項(xiàng)。特征項(xiàng)過(guò)多一方面會(huì)　　造成計(jì)算量過(guò)大，制約分類效率；另一方面還會(huì)降低分類的精度，這是因?yàn)橥ㄟ^(guò)</p&

117、gt;　　簡(jiǎn)單預(yù)處理提取出來(lái)的特征項(xiàng)，其中一部分在文本中出現(xiàn)的頻率很低，這些特征　　項(xiàng)對(duì)代表文本內(nèi)容的作用很小，甚至有可能成為分類的噪音數(shù)據(jù)，通常稱這些詞　　為低頻弱關(guān)聯(lián)詞；而有些特征項(xiàng)在文本中出現(xiàn)的次數(shù)較多，它們蘊(yùn)含了大量和類　　別相關(guān)的信息，稱為高頻強(qiáng)關(guān)聯(lián)詞。特征處理就是要對(duì)通過(guò)預(yù)處理得

118、到的初始特　　征集進(jìn)行特征選擇和提取，只將其中有用的部分作為分類器學(xué)習(xí)的特征集，并通　　過(guò)一定的計(jì)算方式賦予各個(gè)特征項(xiàng)不同的權(quán)重，來(lái)表示它對(duì)文本的重要程度[25] 。　　2.3.1 特征提取方法　　文本分類中存在兩大問題：特征空間的高維性和文本表示向量的稀疏性。特<

119、/p>　　征空間的高維性是由構(gòu)成文本的詞匯量相當(dāng)大導(dǎo)致的，而文本表示向量的稀疏性　　是因?yàn)槟承┰~只在少量的文本中出現(xiàn)，大部分文本在這個(gè)詞對(duì)應(yīng)的維上就為空值　　了。特征空間向量的這兩大特性一方面會(huì)導(dǎo)致計(jì)算開銷過(guò)大，從而使很多分類算　　法難以處理，另一方面也會(huì)造成分類結(jié)果精度的降低。所以，

120、我們應(yīng)該盡可能準(zhǔn)　　確、盡可能少的選擇那些與文本主題密切相關(guān)的特征集來(lái)參與分類器的訓(xùn)練和分　　類，這也就是所謂的特征降維。在進(jìn)行有效的特征降維后，不僅可以大大降低分　　類過(guò)程中的計(jì)算量提高分類器的分類效率，同時(shí)還可以提高分類器的分類精度。　　因此如何在不降低分類器的分類精

121、度甚至提高分類精度的前提下尋求一種自　　動(dòng)、高效的特征抽取方法，成為文本分類中急需解決的重要問題。對(duì)于中文文本　　分類，由于其自身的很多特性，如中文存在大量近義詞、多義詞以及中文詞匯量　　相當(dāng)大導(dǎo)致的特征空間的高維性和文本向量的稀疏性更加嚴(yán)重，所有這些決定了　　中文文本特

122、征抽取問題在很大程度上不同于英文文本，在英文文本分類中運(yùn)用得　　很好的特征抽取方法不一定能直接應(yīng)用于中文文本。目前適合于中文文本分類的　　特征抽取方法主要有以下幾種：最簡(jiǎn)單的停用詞移除、互信息 MI、信息增益 IG　　11　　重慶大學(xué)

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于密度的樣本裁剪算法的改進(jìn)及在knn中的應(yīng)用研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于密度的樣本裁剪算法的改進(jìn)及在knn中的應(yīng)用研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載