版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著Internet的迅猛發(fā)展和電子文檔信息的不斷豐富,文檔自動(dòng)分類(lèi)日益成為信息檢索和自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)?;谪惾~斯模型的文檔分類(lèi)具有簡(jiǎn)單、直觀、性能穩(wěn)定的優(yōu)點(diǎn),但面對(duì)復(fù)雜的文檔分類(lèi)問(wèn)題,仍然存在許多急待解決的問(wèn)題。本文將針對(duì)貝葉斯文檔分類(lèi)的幾個(gè)關(guān)鍵問(wèn)題進(jìn)行深入研究和探索,具體內(nèi)容和創(chuàng)新成果概括如下: (1) 對(duì)以樸素貝葉斯模型、半樸素貝葉斯模型、樹(shù)形增強(qiáng)樸素貝葉斯模型為代表的廣義樸素貝葉斯模型在網(wǎng)絡(luò)結(jié)構(gòu)、分類(lèi)原理、學(xué)習(xí)
2、方法等方面的異同進(jìn)行理論分析,證明通過(guò)有效的貝葉斯結(jié)構(gòu)改進(jìn),可以提高模型的文檔分類(lèi)性能。這為進(jìn)一步提升貝葉斯模型提供了理論依據(jù)。 (2) 提出一種基于關(guān)聯(lián)特征擴(kuò)展的特征選擇算法。特征選擇對(duì)文檔分類(lèi)的性能影響很大,即便是同樣的分類(lèi)器在不同的特征集上的性能也會(huì)有很大的差異。論文通過(guò)對(duì)現(xiàn)有特征選擇算法的分析,總結(jié)出現(xiàn)有特征選擇算法的三個(gè)問(wèn)題:特征空間不完備;特征集中信息冗余明顯;特征選擇的效率不高。針對(duì)這些問(wèn)題,論文提出先利用關(guān)聯(lián)特征
3、對(duì)原始特征集進(jìn)行擴(kuò)展,再利用改進(jìn)的相關(guān)性分析測(cè)度和啟發(fā)式規(guī)則進(jìn)行冗余檢測(cè)和特征選擇的方法。由于算法避免了對(duì)所有特征對(duì)之間的相關(guān)性分析,因此具有O(NlogN)的算法時(shí)間復(fù)雜度,同時(shí)通過(guò)冗余分析和排除,增加了特征集的信息量。 (3) 提出一種貝葉斯?jié)撛谡Z(yǔ)義模型。與傳統(tǒng)貝葉斯模型相比,該模型最大的特點(diǎn)在于不僅考慮了詞條在文檔中的統(tǒng)計(jì)特征,而且對(duì)每個(gè)詞條在不同上下文中的語(yǔ)義進(jìn)行了辨析。通過(guò)將概念特征引入到貝葉斯模型中,建立起傳統(tǒng)特征與
4、概念,概念與類(lèi)別之間的映射關(guān)系,借助這種映射關(guān)系可以更好的利用詞頻和詞義進(jìn)行文檔分類(lèi)。對(duì)模型訓(xùn)練時(shí)面臨的數(shù)據(jù)缺失和效率問(wèn)題,論文采用了改進(jìn)的 EM 算法和特征優(yōu)化、概念選擇等預(yù)處理,提高了潛在語(yǔ)義模型的分類(lèi)精度和學(xué)習(xí)效率。 (4) 提出一種新的半監(jiān)督語(yǔ)義分類(lèi)模型。模型以語(yǔ)義支持向量機(jī)和貝葉斯?jié)撛谡Z(yǔ)義模型為基礎(chǔ),利用大量無(wú)標(biāo)記樣本和協(xié)同訓(xùn)練算法Co-models,對(duì)模型在少量標(biāo)記樣本集中的性能加以改進(jìn)。與傳統(tǒng)協(xié)同算法Co-trai
5、ning不同,算法Co-models不對(duì)文檔集有任何依賴和限制,而是利用不同模型間的固有差異,反復(fù)對(duì)無(wú)標(biāo)記樣本進(jìn)行分類(lèi)和樣本集擴(kuò)充,并借此逐步提高協(xié)同模型對(duì)無(wú)標(biāo)記樣本的分類(lèi)精度。通過(guò)在文檔集Reuters-21578和 20NG 上的實(shí)驗(yàn),證明該模型在少量標(biāo)記樣本集中同樣可以取得較好的泛化性能。 (5) 提出一種語(yǔ)言獨(dú)立的貝葉斯集成分類(lèi)模型?,F(xiàn)有文檔分類(lèi)模型一般只針對(duì)特定語(yǔ)言的文檔,缺乏對(duì)多種語(yǔ)言的適應(yīng)能力。本文提出將N-Gra
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于樸素貝葉斯的網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù)研究.pdf
- 基于貝葉斯的個(gè)性化郵件分類(lèi)技術(shù)研究.pdf
- 基于貝葉斯算法的多語(yǔ)言文檔分類(lèi).pdf
- 基于智能優(yōu)化的貝葉斯網(wǎng)絡(luò)分類(lèi)模型研究.pdf
- 基于行為與貝葉斯分類(lèi)的木馬檢測(cè)技術(shù)研究.pdf
- 基于數(shù)據(jù)增廣技術(shù)的非參數(shù)貝葉斯分類(lèi)模型研究.pdf
- 多組圖貝葉斯分類(lèi)模型研究.pdf
- 基于貝葉斯的中文郵件分類(lèi)關(guān)鍵技術(shù)研究.pdf
- 貝葉斯圖像檢索模型中的相關(guān)反饋技術(shù)研究.pdf
- 樸素貝葉斯分類(lèi)模型的改進(jìn)研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)的缺失臨床數(shù)據(jù)集分類(lèi)技術(shù)研究.pdf
- 基于貝葉斯理論的網(wǎng)絡(luò)輿情主題分類(lèi)模型研究.pdf
- 基于貝葉斯模型的醫(yī)學(xué)影像分類(lèi)技術(shù)的研究與應(yīng)用.pdf
- 樸素貝葉斯分類(lèi)模型的研究與應(yīng)用.pdf
- 基于貝葉斯模型的醫(yī)學(xué)影像分類(lèi)技術(shù)的研究與應(yīng)用
- 基于貝葉斯方法的分類(lèi)問(wèn)題研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)的事件處理技術(shù)研究.pdf
- 基于隨機(jī)森林特征選擇的貝葉斯分類(lèi)模型及應(yīng)用.pdf
- 基于貝葉斯分類(lèi)技術(shù)的電信客戶欺詐分析.pdf
- 基于聚類(lèi)的樸素貝葉斯分類(lèi)模型的研究與應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論