

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)技術(shù)的快速發(fā)展使得互聯(lián)網(wǎng)上的信息呈現(xiàn)爆炸式的增長(zhǎng)。為了有效地利用和管理海量信息,基于內(nèi)容的信息檢索和數(shù)據(jù)挖掘逐漸成為備受關(guān)注的領(lǐng)域。文本分類技術(shù)TC(TextCategorization)是信息檢索和數(shù)據(jù)挖掘的核心內(nèi)容。其中基于機(jī)器學(xué)習(xí)的文本分類方法被認(rèn)為在分類精度和靈活性上達(dá)到了較為滿意的效果,但是它仍然存在著譬如非線性、數(shù)據(jù)集偏斜、標(biāo)注瓶頸、多層分類、算法的擴(kuò)展性及Web網(wǎng)頁分類等問題。 本文在數(shù)據(jù)集不完整和類別關(guān)系復(fù)雜
2、的情況下進(jìn)行了一系列的研究,主要包括文本表示,特征提取,特征選擇,以及文本分類算法等問題。重點(diǎn)的目標(biāo)就是通過研究這些問題找到如何在不完整樣本集下提高文本分類精度的方法,以及如何在樣本集中類別無法確定的情況下,發(fā)現(xiàn)新的類別,避免錯(cuò)分,借此提高文本分類效果。 現(xiàn)實(shí)世界中的數(shù)據(jù)往往是不完整的,因此對(duì)于不完整數(shù)據(jù)集的文本分類的研究,經(jīng)常采用的方法是利用樸素貝葉斯分類模型與EM算法相結(jié)合的辦法來得到最終的分類器。但由于樸素貝葉斯分類器并E
3、M算法對(duì)初始數(shù)據(jù)值有很大的依賴性,特別是當(dāng)樣本集中的無標(biāo)記文本即缺失數(shù)據(jù)數(shù)量所占比重較大時(shí),分類器的測(cè)試精度會(huì)受到影響。為了改善文本分類的效果,本文在Bernoulli混合模型和EM算法的基礎(chǔ)上進(jìn)行了研究。首先通過樸素貝葉斯算法在已標(biāo)記數(shù)據(jù)的基礎(chǔ)上得到似然函數(shù)參數(shù)估計(jì)初始值,然后利用含有權(quán)值γ的EM算法和Bernoulli混合模型對(duì)分類器的先驗(yàn)概率模型進(jìn)行參數(shù)估計(jì),從而得到最終的分類器。實(shí)驗(yàn)結(jié)果表明,對(duì)于不完整數(shù)據(jù)集而言所提出的方法在準(zhǔn)
4、確率和查全率方面要優(yōu)于樸素貝葉斯文本分類及結(jié)合了EM算法的樸素貝葉斯分類。 在以上方法基礎(chǔ)上對(duì)不完整數(shù)據(jù)集對(duì)于文本分類的影響進(jìn)行了進(jìn)一步的研究。發(fā)現(xiàn)適當(dāng)?shù)脑跍y(cè)試集中加入未標(biāo)記數(shù)據(jù)樣本是在現(xiàn)實(shí)世界中是需要經(jīng)常面對(duì)的問題,本文在這方面做了相關(guān)的工作,將網(wǎng)頁分類看成文本分類的一種特殊情況,同時(shí)考慮了網(wǎng)頁結(jié)構(gòu)對(duì)文本分類造成的影響,重點(diǎn)研究了文本相似度算法在這類問題上的應(yīng)用,簡(jiǎn)單的文本相似度算法無法區(qū)分出有類別文本和無類別文本的區(qū)別,本文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本分類方法及應(yīng)用研究.pdf
- 短文本分類方法研究.pdf
- 中文文本分類的研究與應(yīng)用.pdf
- 中文文本分類中特征選擇方法的應(yīng)用與研究.pdf
- 文本分類技術(shù)與應(yīng)用研究.pdf
- 文本分類技術(shù)的若干方法和應(yīng)用研究.pdf
- 中文文本分類方法的研究與實(shí)現(xiàn).pdf
- 文本分類的特征選擇和分類方法研究.pdf
- Web文本分類方法研究與系統(tǒng)實(shí)現(xiàn).pdf
- 層次化文本分類方法的研究.pdf
- 基于主題的文本分類模型研究與應(yīng)用.pdf
- 基于云計(jì)算的文本分類研究與應(yīng)用.pdf
- 文本分類相關(guān)技術(shù)與應(yīng)用研究.pdf
- 基于TAN的文本分類方法研究.pdf
- 文本分類特征選擇方法研究.pdf
- 砷的衛(wèi)生檢測(cè)新方法研究與應(yīng)用.pdf
- 文本分類與信息提取方法的研究與設(shè)計(jì).pdf
- Web文本分類研究及應(yīng)用.pdf
- 支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究.pdf
- 基于SVM的網(wǎng)絡(luò)文本分類問題研究與應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論