版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、當(dāng)今社會(huì)伴隨信息產(chǎn)業(yè)和技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)技術(shù)和應(yīng)用已經(jīng)成為信息傳遞的最主要手段和平臺(tái),而隨著數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍和深度不斷擴(kuò)大,數(shù)據(jù)挖掘工作變得尤為重要。數(shù)據(jù)挖掘集合了機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)、數(shù)據(jù)庫等技術(shù),廣泛運(yùn)用在電子商務(wù)系統(tǒng)、銀行信用系統(tǒng)、保險(xiǎn)行業(yè)、電信業(yè)務(wù)系統(tǒng)、醫(yī)療系統(tǒng)等方方面面。而決策樹分類算法是數(shù)據(jù)挖掘算法體系中比較常用也較為經(jīng)典的算法。
決策樹分類算法體系有很多種算法,包括比較經(jīng)典的ID3、C4.5、CAR
2、T算法等,當(dāng)前形勢下,對算法效率的提升,是一個(gè)很重要的研究課題。本文在學(xué)習(xí)決策樹分類 C4.5算法的基礎(chǔ)上,以 C4.5V1算法為研究重點(diǎn),在此基礎(chǔ)上,展開進(jìn)一步的研究和創(chuàng)新。首先,充分學(xué)習(xí)分析了數(shù)據(jù)挖掘平臺(tái)WEKA的功能和系統(tǒng)框架,在該平臺(tái)下對各經(jīng)典算法進(jìn)行數(shù)據(jù)演練和性能評(píng)估,遵照決策樹分類算法性能的評(píng)價(jià)標(biāo)準(zhǔn),對各算法性能進(jìn)行比較和分析。其次,對C4.5算法進(jìn)行深入研究,并且設(shè)計(jì)出算法系統(tǒng)的模塊組成部分,實(shí)現(xiàn)了代碼,集成到Weka平臺(tái)
3、下。使用網(wǎng)上公開的用于數(shù)據(jù)挖掘的數(shù)據(jù)集進(jìn)行測試,與經(jīng)典的C4.5進(jìn)行性能上的對比,驗(yàn)證了C4.5V1算法很好地集成到Weka平臺(tái)下,且性能明顯優(yōu)于經(jīng)典算法。不足的是,建模時(shí)間復(fù)雜度卻增大了。接著,本文在C4.5V1算法的基礎(chǔ)上,提出了改進(jìn)的C4.5V2算法和C4.5V3算法,分別從算法的分類準(zhǔn)確率和算法的建模時(shí)間兩個(gè)方面進(jìn)行了改進(jìn)。C4.5V2算法通過引入屬性間冗余度的概念,削弱了其他屬性對當(dāng)前屬性的分類影響程度,從而提高了算法的分類準(zhǔn)
4、確率。但與此同時(shí),C4.5V2算法在建模時(shí)間上有了更多的消耗,它的準(zhǔn)確率的提高是以犧牲建模時(shí)間為代價(jià)的。改進(jìn)的C4.5V3算法很好地解決這一問題,通過將公式中大量的對數(shù)運(yùn)算簡化成四則運(yùn)算,簡化了算法體系的計(jì)算過程,從而極大地壓縮了算法的建模時(shí)間。最后,將改進(jìn)后的C4.5V2、C4.5V3算法實(shí)現(xiàn)代碼化,集成到WEKA平臺(tái)下,進(jìn)行算法性能測試,同時(shí),應(yīng)用到電商系統(tǒng)的數(shù)據(jù)集中,分別使用C4.5算法以及改進(jìn)的各個(gè)版本,在分類準(zhǔn)確率和算法建模時(shí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Weka平臺(tái)的決策樹算法研究與實(shí)現(xiàn).pdf
- 電商平臺(tái)下倉儲(chǔ)管理接口系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 電商平臺(tái)下的快時(shí)尚手表打造
- 基于WEKA平臺(tái)的決策樹算法設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Weka平臺(tái)的關(guān)聯(lián)分析算法研究.pdf
- 電商平臺(tái)下的第三方物流
- 多核平臺(tái)下的網(wǎng)格簡化算法研究.pdf
- Hadoop平臺(tái)下的作業(yè)調(diào)度算法的研究.pdf
- 電商服務(wù)平臺(tái)下進(jìn)出口貿(mào)易模式趨勢分析.pdf
- 電商平臺(tái)下生鮮農(nóng)產(chǎn)品共同配送的終端網(wǎng)點(diǎn)選址研究.pdf
- A電商平臺(tái)的戰(zhàn)略研究.pdf
- 電商平臺(tái)系統(tǒng) 開發(fā)服務(wù)協(xié)議
- 云平臺(tái)下任務(wù)調(diào)度算法的研究.pdf
- 電商平臺(tái)合同
- 電商平臺(tái)合同
- 電商平臺(tái)林產(chǎn)品個(gè)性化推薦算法研究.pdf
- 基于Hadoop平臺(tái)下回歸算法的性能研究.pdf
- Hadoop平臺(tái)下的作業(yè)調(diào)度算法研究及應(yīng)用.pdf
- 基于Weka平臺(tái)的改進(jìn)模糊C均值聚類算法研究與應(yīng)用.pdf
- 電商平臺(tái)合同
評(píng)論
0/150
提交評(píng)論