屬性子集選擇算法及其推薦方法研究.pdf_第1頁
已閱讀1頁,還剩128頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘領(lǐng)域存在一個重要原則GIGO(Garbage In,Garbage Out),說明挖掘知識的可靠性取決于收集數(shù)據(jù)的質(zhì)量,而影響數(shù)據(jù)質(zhì)量的一個重要因素就是用于描述數(shù)據(jù)的屬性質(zhì)量。為此研究人員常借助于屬性子集選擇(簡稱屬性選擇),通過特定策略從原始屬性集合中選擇與學(xué)習(xí)目標(biāo)密切相關(guān)的屬性子集來描述數(shù)據(jù)集。本文研究重點為屬性選擇算法及如何為新問題推薦合適的屬性選擇算法。
  屬性選擇通常通過識別并刪除與學(xué)習(xí)目標(biāo)不相關(guān)的屬性和對描述

2、學(xué)習(xí)目標(biāo)而言是冗余的屬性來完成。然而屬性間交互作用也是屬性選擇過程中一個不容忽視的因素。已有研究中很少能夠在刪除不相關(guān)、冗余屬性的同時兼顧屬性間交互作用。為此本文首先提出了兩種新的基于規(guī)則挖掘的屬性選擇算法同時兼顧到上述幾點。
  對于中低維度數(shù)據(jù)集,本文提出了一種基于關(guān)聯(lián)規(guī)則挖掘的屬性選擇算法 FEAST(Feature subset sElection Algorithm based aSossicaTion rule min

3、ing),該方法首先挖掘兩種帶約束的關(guān)聯(lián)規(guī)則:分類和原子型關(guān)聯(lián)規(guī)則,之后利用分類型關(guān)聯(lián)規(guī)則來刪除不相關(guān)屬性并保留屬性間交互作用,最后利用原子型關(guān)聯(lián)規(guī)則識別和刪除冗余屬性得到最終屬性子集。同時,由于支持度和置信度閾值是FEAST算法中的兩個關(guān)鍵參數(shù),為了更好的利用FEAST算法,提出了一種基于偏最小二乘回歸的閾值預(yù)測方法來為新的數(shù)據(jù)集預(yù)測合適的參數(shù)。人工數(shù)據(jù)集上的實驗結(jié)果表明FEAST能夠在識別不相關(guān)、冗余屬性的同時兼顧到屬性間交互作用,

4、實際數(shù)據(jù)集上的實驗結(jié)果表明了FEAST算法在提高常用分類器Na?ve Bayes,C4.5,PART以及IB1的平均分類精度上優(yōu)于其他常用屬性選擇算法以及閾值預(yù)測方法的有效性。
  對于高維數(shù)據(jù)集,F(xiàn)EAST算法由于高時間復(fù)雜度而不適用。為此本文提出了一種基于FOIL(First Order Inductive Leaner)規(guī)則生成方法的屬性選擇算法FRFS(FOIL Rule based F eature subset Sel

5、ection algorithm)。該算法通過在基本FOIL規(guī)則生成過程中加入約束條件來過濾冗余屬性并保留屬性間交互作用,同時通過提出的一種基于規(guī)則支持度的屬性相關(guān)性度量指標(biāo)CoverRatio來識別不相關(guān)屬性。最后在人工數(shù)據(jù)集和實際高維數(shù)據(jù)集上對FRFS的性能進(jìn)行測試,實驗結(jié)果表明了FRFS不僅能在識別不相關(guān)、冗余屬性的同時兼顧到屬性間交互作用,而且在提高分類器Na?ve Bayes,C4.5,PART和IB1的平均分類精度上要明顯優(yōu)

6、于常用屬性選擇算法,同時相比其他屬性選擇算法在高維數(shù)據(jù)集上的運行效率提高10倍以上。
  盡管新屬性選擇算法或者已有算法的改進(jìn)在不斷提出,根據(jù)NFL(No Free Lunch)理論,并不存在特定屬性選擇算法適用于所有問題。對于給定屬性選擇問題,不同屬性選擇算法間存在性能差異。如何為指定問題推薦性能較優(yōu)的屬性選擇算法就顯得尤為重要。數(shù)據(jù)挖掘領(lǐng)域的元學(xué)習(xí)是一種通過分析問題特征和算法性能間關(guān)系,進(jìn)而利用這種關(guān)系為新問題選擇合適算法的方

7、法。本文將該思想用于屬性選擇算法推薦,提出了一種基于元學(xué)習(xí)的屬性選擇算法自動推薦方法。對于指定數(shù)據(jù)集,該推薦方法首先抽取數(shù)據(jù)集特征,并根據(jù)數(shù)據(jù)集特征來計算其近鄰數(shù)據(jù)集,然后根據(jù)候選屬性選擇算法在這些近鄰數(shù)據(jù)集上的性能對候選算法進(jìn)行排序,最后將性能表現(xiàn)較優(yōu),即排序靠前的算法推薦給該數(shù)據(jù)集。同時該推薦方法中采用了一種面向用戶的多標(biāo)準(zhǔn)度量指標(biāo)來評價屬性選擇算法性能,能兼顧到屬性選擇算法選擇子集上對應(yīng)分類器的分類精度,算法運行時間和選擇屬性的數(shù)

8、量。最后在115實際數(shù)據(jù)集和22個不同的屬性選擇算法上對該推薦方法進(jìn)行了測試,實驗結(jié)果表明了該方法能夠快速有效地推薦合適的屬性選擇算法,推薦命中率高達(dá)90%以上。
  基于元學(xué)習(xí)的算法推薦方法根據(jù)元特征(即描述數(shù)據(jù)集的指標(biāo))抽取方法和元目標(biāo)(候選算法的相對性能)表現(xiàn)形式不同可分為不同類別。已有推薦方法通常將元學(xué)習(xí)目標(biāo)看作單個算法(或單標(biāo)簽形式)或候選算法的排序,且基于算法排序的推薦方法推薦結(jié)果通常也是算法排序,并不能確定具體有幾個

9、算法可用于推薦。然而從理論和實驗角度分析均可得出,指定數(shù)據(jù)集上合適算法存在多個,且隨著數(shù)據(jù)集不同合適算法數(shù)量不同,即元目標(biāo)看作多標(biāo)簽形式更加合理。因此本文將算法推薦看作多標(biāo)簽學(xué)習(xí)問題并提出了一種基于多標(biāo)簽學(xué)習(xí)的屬性選擇算法推薦方法。最后,通過在115實際屬性選擇數(shù)據(jù)集,5種不同數(shù)據(jù)集特征提取方法和22個屬性選擇算法上進(jìn)行實驗,結(jié)果表明了基于多標(biāo)簽學(xué)習(xí)的推薦方法相比已有的基于算法排序和單標(biāo)簽的推薦方法能夠顯著提高不同數(shù)據(jù)特征上的平均推薦命

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論