

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著Internet的迅速發(fā)展,尤其是World Wide Web的全球普及,Web網(wǎng)絡(luò)上信息資源己經(jīng)涵蓋了社會生活的各個方面,網(wǎng)絡(luò)信息過載(Information Overload)問題日益突出,這又促使Web挖掘技術(shù)和Web網(wǎng)絡(luò)信息檢索技術(shù)迅速發(fā)展。其中,通過什么樣的方法和途徑來使網(wǎng)站的網(wǎng)頁信息資源得到合理有效地組織,提高網(wǎng)絡(luò)信息檢索的速度和準(zhǔn)確度,是個頗讓人們感興趣的問題。網(wǎng)頁分類恰恰提供了這樣一種合理而有效組織信息的方法。網(wǎng)頁分
2、類提供了處理和組織大規(guī)模文本信息的關(guān)鍵技術(shù),它是使網(wǎng)絡(luò)信息資源得以合理有效組織的重要方法。它為使用在網(wǎng)絡(luò)上存在的海量信息提供了可能性并大大提高了網(wǎng)絡(luò)資源的利用率。
由于我國的互聯(lián)網(wǎng)起步較晚,因而與之相對應(yīng)的網(wǎng)頁分類也發(fā)展較晚。近年來,中科院軟件研究所、北京郵電大學(xué)模式識別與智能實(shí)驗(yàn)室、微軟亞洲研究院等多家研究機(jī)構(gòu)都在進(jìn)行著與中文網(wǎng)頁分類相關(guān)的理論研究。我校的張鈴老師提出的覆蓋算法也為這一研究提供了理論及算法上的支持。
3、 前向神經(jīng)網(wǎng)絡(luò)的覆蓋算法是由張鈴老師提出的一種機(jī)器學(xué)習(xí)方法。本文將覆蓋算法應(yīng)用到中文網(wǎng)頁的分類中,結(jié)合各種經(jīng)典的分詞和降低特征維數(shù)的方法進(jìn)行分類,并與SVM方法,貝葉斯算法的分類結(jié)果進(jìn)行比較分析。 4、tle>等標(biāo)簽下的文本給以較大權(quán)重值。 5、要使用合適的分類器進(jìn)行分類。本文首次將張鈴、張鈸教授提出的前向人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的覆蓋算法應(yīng)用到中文網(wǎng)頁的分類中。本文對使用覆蓋算法和SVM方法作為分類器進(jìn)行了對比,實(shí)驗(yàn)表明覆蓋算法是一種優(yōu)秀的分類器,可以有效的進(jìn)行中文網(wǎng)頁的分類。
本文所做的主要工作和創(chuàng)新點(diǎn)如下:
1)對HTML文本進(jìn)行了簡要的介紹,說明如何通過預(yù)處理從HTML文本中取出對后期分類有價值的中文文本。
2)本文對以往中文網(wǎng)頁分類的預(yù)處理過程加以改進(jìn),對在分類中作用顯著的
3)對文本內(nèi)容進(jìn)行處理時,為了減少特征向量的維數(shù),本文使用文本分類中常見的幾種特征降維方法(文本頻度、χ2統(tǒng)計(jì)量方法、互信息方法、信息增益方法、期望交叉熵方法、文本證據(jù)權(quán)方法)分別對中文網(wǎng)頁樣本進(jìn)行了測試。實(shí)驗(yàn)結(jié)果表明,χ2統(tǒng)計(jì)量方法和期望交叉熵方法對文本分類最為有效,文本頻度方法和文本證據(jù)權(quán)方法稍差,而互信息方法和信息增益的方法效果最差;
4)獲得有效的網(wǎng)頁文本特征向量后,需
本文在中文網(wǎng)頁分類方面完成了一定的工作,但還存在一些不足,今后可以在以下方面繼續(xù)研究:
1)本文的研究對象是針對中文網(wǎng)頁,今后可以對非中文網(wǎng)頁進(jìn)行研究,將非中文網(wǎng)頁也納入研究范圍中;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于體裁的中文網(wǎng)頁分類.pdf
- 基于網(wǎng)頁特征的中文網(wǎng)頁自動分類問題研究.pdf
- 基于網(wǎng)頁特征的中文網(wǎng)頁自動分類問題研究
- 基于代表樣本的中文網(wǎng)頁分類研究.pdf
- 中文網(wǎng)頁層次分類研究.pdf
- 基于視覺特征中文網(wǎng)頁分類方法的研究.pdf
- 基于SVM的中文網(wǎng)頁分類方法的研究.pdf
- 中文網(wǎng)頁形式自動分類.pdf
- 基于形式概念分析的中文網(wǎng)頁分類研究.pdf
- 基于KNN及相關(guān)鏈接的中文網(wǎng)頁分類研究.pdf
- 基于SVM的中文網(wǎng)頁自動分類技術(shù)研究.pdf
- 基于樸素貝葉斯的中文網(wǎng)頁分類研究.pdf
- 基于支持向量機(jī)的中文網(wǎng)頁分類的研究.pdf
- 中文網(wǎng)頁自動分類技術(shù)研究.pdf
- 中文網(wǎng)頁自動分類的研究及其應(yīng)用.pdf
- 智能搜索中的中文網(wǎng)頁分類研究.pdf
- 大規(guī)模中文網(wǎng)頁的自動分類研究.pdf
- 基于Web挖掘的中文網(wǎng)頁分類的研究與實(shí)現(xiàn).pdf
- 中文網(wǎng)頁自動分類的研究與實(shí)現(xiàn).pdf
- 中文網(wǎng)頁分類技術(shù)的研究與實(shí)現(xiàn).pdf
評論
0/150
提交評論