Weka平臺(tái)下電商系統(tǒng)的決策算法研究.pdf_第1頁
已閱讀1頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、當(dāng)今社會(huì)伴隨信息產(chǎn)業(yè)和技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)技術(shù)和應(yīng)用已經(jīng)成為信息傳遞的最主要手段和平臺(tái),而隨著數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍和深度不斷擴(kuò)大,數(shù)據(jù)挖掘工作變得尤為重要。數(shù)據(jù)挖掘集合了機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)、數(shù)據(jù)庫等技術(shù),廣泛運(yùn)用在電子商務(wù)系統(tǒng)、銀行信用系統(tǒng)、保險(xiǎn)行業(yè)、電信業(yè)務(wù)系統(tǒng)、醫(yī)療系統(tǒng)等方方面面。而決策樹分類算法是數(shù)據(jù)挖掘算法體系中比較常用也較為經(jīng)典的算法。
  決策樹分類算法體系有很多種算法,包括比較經(jīng)典的ID3、C4.5、CAR

2、T算法等,當(dāng)前形勢下,對算法效率的提升,是一個(gè)很重要的研究課題。本文在學(xué)習(xí)決策樹分類 C4.5算法的基礎(chǔ)上,以 C4.5V1算法為研究重點(diǎn),在此基礎(chǔ)上,展開進(jìn)一步的研究和創(chuàng)新。首先,充分學(xué)習(xí)分析了數(shù)據(jù)挖掘平臺(tái)WEKA的功能和系統(tǒng)框架,在該平臺(tái)下對各經(jīng)典算法進(jìn)行數(shù)據(jù)演練和性能評(píng)估,遵照決策樹分類算法性能的評(píng)價(jià)標(biāo)準(zhǔn),對各算法性能進(jìn)行比較和分析。其次,對C4.5算法進(jìn)行深入研究,并且設(shè)計(jì)出算法系統(tǒng)的模塊組成部分,實(shí)現(xiàn)了代碼,集成到Weka平臺(tái)

3、下。使用網(wǎng)上公開的用于數(shù)據(jù)挖掘的數(shù)據(jù)集進(jìn)行測試,與經(jīng)典的C4.5進(jìn)行性能上的對比,驗(yàn)證了C4.5V1算法很好地集成到Weka平臺(tái)下,且性能明顯優(yōu)于經(jīng)典算法。不足的是,建模時(shí)間復(fù)雜度卻增大了。接著,本文在C4.5V1算法的基礎(chǔ)上,提出了改進(jìn)的C4.5V2算法和C4.5V3算法,分別從算法的分類準(zhǔn)確率和算法的建模時(shí)間兩個(gè)方面進(jìn)行了改進(jìn)。C4.5V2算法通過引入屬性間冗余度的概念,削弱了其他屬性對當(dāng)前屬性的分類影響程度,從而提高了算法的分類準(zhǔn)

4、確率。但與此同時(shí),C4.5V2算法在建模時(shí)間上有了更多的消耗,它的準(zhǔn)確率的提高是以犧牲建模時(shí)間為代價(jià)的。改進(jìn)的C4.5V3算法很好地解決這一問題,通過將公式中大量的對數(shù)運(yùn)算簡化成四則運(yùn)算,簡化了算法體系的計(jì)算過程,從而極大地壓縮了算法的建模時(shí)間。最后,將改進(jìn)后的C4.5V2、C4.5V3算法實(shí)現(xiàn)代碼化,集成到WEKA平臺(tái)下,進(jìn)行算法性能測試,同時(shí),應(yīng)用到電商系統(tǒng)的數(shù)據(jù)集中,分別使用C4.5算法以及改進(jìn)的各個(gè)版本,在分類準(zhǔn)確率和算法建模時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論