版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、文本挖掘是一個非?;钴S的研究領(lǐng)域,是數(shù)據(jù)挖掘領(lǐng)域的一個重要分支。文本挖掘采用了很多傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),但又有自己的特性。本文試圖采用支持向量機,流形學(xué)習(xí)與圖論等理論,以網(wǎng)絡(luò)文本為研究對象,全面開展文本分類、聚類、壓縮、可視化及排序等方面的算法研究。全文的主要工作包括以下幾個方面:
1)在定理證明的基礎(chǔ)上,提出一種連分式Mercer核,它可以方便地應(yīng)用于支持向量分類機和其它支持向量機算法。在5個UCI數(shù)據(jù)庫實驗中取得了比傳統(tǒng)
2、核支持向量機更好的綜合水平,而且它還可以方便地被用于合成復(fù)雜核,將此連分式核的支持向量機應(yīng)用到網(wǎng)絡(luò)文本分類中,提高了網(wǎng)絡(luò)文本分類正確率。
2)提出了兩個判別性的特征提取方法– 判別性PCA和判別性KPCA。基于PCA和MMC理論,構(gòu)造了一個多目標規(guī)劃模型作為特征提取的目標。隨后,該模型被轉(zhuǎn)化成一個單目標規(guī)劃問題并通過特征分解的方法求解。此外,將一個近似分塊對角核矩陣K分成c個小矩陣并求出它們的特征值和特征向量,在此基礎(chǔ)上,
3、通過張量代數(shù)處理得到一種映射矩陣V,核矩陣投影到V上后能最大程度上保持同類樣本間的相似信息,同時還能讓類間距離變得更大。
3)提出了一種新的基于支持向量回歸的偏好學(xué)習(xí)算法。它克服了偏好學(xué)習(xí)不一致問題并改善了排序的泛化能力。同時,WMW統(tǒng)計量被引入以評價算法的排序表現(xiàn)。在一個人工數(shù)據(jù)集和幾個基準數(shù)據(jù)集上的實驗顯示了方法的有效性。最后,該方法還被應(yīng)用到網(wǎng)絡(luò)搜索系統(tǒng)的排序問題中,獲得了較高的排序準確率。
4)共享最
4、近鄰(SNN)相似度是一種新的相似性度量,它能克服樣本間相似性低和類密度差異大的問題。目前,基于SNN相似度的聚類算法有JP聚類和基于SNN密度聚類兩種。它們的聚類結(jié)果完全依賴于單鏈的強度,因而算法非常脆弱。引入計算幾何學(xué)中的光滑拼接思想,設(shè)計了一種新的基于SNN相似度的光滑拼接聚類算法。它內(nèi)含強度-光滑度互補機制,相比已有的兩種算法,該算法的泛化能力較高。在公開的文本數(shù)據(jù)集上做比較實驗,結(jié)果顯示,該算法在多個類別上取得了最高的聚類準確
5、率和召回率。
5)針對互聯(lián)網(wǎng)開放性、層次性、演化性、巨量性等本質(zhì)特性,從復(fù)雜自適應(yīng)系統(tǒng)這一全新的角度,以農(nóng)業(yè)垂直搜索為應(yīng)用背景,提出一種新的復(fù)雜自適應(yīng)搜索模型。該搜索模型的主要特點是通過建立信息采集、分類、清洗與服務(wù)智能體聯(lián)盟,組成多智能體實驗環(huán)境;通過建立模型的學(xué)習(xí)機制與進化機制,改善搜索模型對網(wǎng)絡(luò)環(huán)境的動態(tài)適應(yīng)能力。經(jīng)過與現(xiàn)有主流搜索引擎的比較實驗發(fā)現(xiàn),它在查準率方面具有明顯的優(yōu)勢。同時,由于該搜索模型具備通用的結(jié)構(gòu)體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本挖掘中若干關(guān)鍵問題的研究.pdf
- 電子病歷文本挖掘關(guān)鍵算法研究.pdf
- 數(shù)據(jù)挖掘中若干關(guān)鍵算法的研究.pdf
- 中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究.pdf
- 文本語義分析與挖掘的若干關(guān)鍵問題研究.pdf
- 文本挖掘關(guān)鍵詞提取算法的研究.pdf
- 樹挖掘若干算法研究.pdf
- 基于云計算的文本挖掘算法研究.pdf
- WEB文本挖掘中關(guān)鍵問題的研究.pdf
- 文本數(shù)據(jù)聚類算法的若干關(guān)鍵技術(shù)及應(yīng)用研究.pdf
- 時態(tài)文本挖掘的關(guān)聯(lián)規(guī)則算法研究.pdf
- 知識管理和文本挖掘的若干問題研究.pdf
- Web訪問信息挖掘若干關(guān)鍵技術(shù)的研究.pdf
- 意見挖掘中若干關(guān)鍵問題研究.pdf
- 文本挖掘關(guān)鍵技術(shù)研究及實現(xiàn).pdf
- Web使用挖掘若干關(guān)鍵問題研究.pdf
- 基于Web文本挖掘的聚類算法研究.pdf
- 面向Web文本的產(chǎn)品意見挖掘算法研究.pdf
- 復(fù)雜網(wǎng)絡(luò)動態(tài)模式挖掘若干算法研究.pdf
- 文本挖掘關(guān)鍵技術(shù)的研究及模擬實現(xiàn).pdf
評論
0/150
提交評論