

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超越了人類(lèi)理解力所能達(dá)到的范圍。對(duì)這些數(shù)據(jù)進(jìn)行全面系統(tǒng)的分析,挖掘出這些數(shù)據(jù)中蘊(yùn)藏著的知識(shí)已經(jīng)成為一項(xiàng)極具挑戰(zhàn)性的任務(wù),我們迫切地需要一種新技術(shù)來(lái)幫助我們智能的從這些數(shù)據(jù)中提取出蘊(yùn)藏在其中的知識(shí)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生并發(fā)展起來(lái)的。 本文首先介紹了數(shù)據(jù)庫(kù)技術(shù)的發(fā)展和數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,之后對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了詳細(xì)的闡述,包括數(shù)據(jù)挖掘的起源,發(fā)展,定義等,同時(shí)對(duì)數(shù)據(jù)挖
2、掘中的主要技術(shù)如決策樹(shù),關(guān)聯(lián)規(guī)則,聚類(lèi)分析,粗糙集理論,貝葉斯分類(lèi),人工神經(jīng)網(wǎng)絡(luò)等進(jìn)行了介紹。 本課題是實(shí)驗(yàn)室與日本SORUN公司合作的國(guó)際合作項(xiàng)目,我們所用數(shù)據(jù)是由SORUN公司提供的貼片機(jī)生產(chǎn)數(shù)據(jù)。貼片機(jī)在長(zhǎng)期生產(chǎn)電子芯片過(guò)程中積累了大量的數(shù)據(jù),在這些數(shù)據(jù)的背后往往存在著一些不易被發(fā)現(xiàn)的知識(shí),SORUN公司希望我們把這些數(shù)據(jù)利用起來(lái),通過(guò)對(duì)這些數(shù)據(jù)全面系統(tǒng)地挖掘,得到一些能夠幫助提高生產(chǎn)效率的知識(shí)。 SORUN公司希
3、望我們可以提供易于理解的挖掘結(jié)果。在數(shù)據(jù)挖掘領(lǐng)域的眾多技術(shù)當(dāng)中,由于決策樹(shù)技術(shù)具有可以生成比較直觀易懂的規(guī)則并且計(jì)算量相對(duì)不是很大的特點(diǎn),我們決定采用決策樹(shù)技術(shù)對(duì)貼片機(jī)生產(chǎn)數(shù)據(jù)進(jìn)行應(yīng)用研究。在闡述了貼片機(jī)生產(chǎn)數(shù)據(jù)的預(yù)處理過(guò)程和決策樹(shù)技術(shù)的基本思想之后,我們?cè)敿?xì)地介紹了三種應(yīng)用最為廣泛的決策樹(shù)算法--ID3算法,C4.5算法,分類(lèi)回歸樹(shù)CART算法。然后我們?cè)O(shè)計(jì)了對(duì)比實(shí)驗(yàn),在貼片機(jī)生產(chǎn)數(shù)據(jù)中對(duì)比這三種決策樹(shù)算法的準(zhǔn)確性,以幫助我們選取一種
4、最為適合在貼片機(jī)生產(chǎn)數(shù)據(jù)中應(yīng)用的算法。 通過(guò)ID3算法,C4.5算法和分類(lèi)回歸樹(shù)CART算法的對(duì)比實(shí)驗(yàn),我們得到如下結(jié)論: 首先,這三種決策樹(shù)算法在貼片機(jī)生產(chǎn)數(shù)據(jù)上的準(zhǔn)確性分布基本一致。 其次,這三種決策樹(shù)算法的準(zhǔn)確性隨著測(cè)試訓(xùn)練比的增加先增加后減小。 準(zhǔn)確性在達(dá)到最大值以前迅速增加,在達(dá)到最大值以后緩慢下降。測(cè)試訓(xùn)練比值為1.167時(shí),準(zhǔn)確性達(dá)到最大值。最后,這三種算法構(gòu)造的決策樹(shù)在構(gòu)造過(guò)程的準(zhǔn)確性要比
5、在測(cè)試過(guò)程的準(zhǔn)確性高六到七個(gè)百分點(diǎn)。 由于本課題是實(shí)際課題,貼片機(jī)生產(chǎn)數(shù)據(jù)量很大,分類(lèi)回歸樹(shù)CART算法除了與ID3算法和C4.5算法的準(zhǔn)確性基本一致以外,它還是商品化最為成熟的算法,能夠可靠地處理數(shù)據(jù)量很大的真實(shí)數(shù)據(jù)。它也是三種決策樹(shù)算法中,唯-能夠在給出規(guī)則的同時(shí)給出其準(zhǔn)確性概率的算法,這對(duì)于廠方認(rèn)識(shí)規(guī)則的準(zhǔn)確性也是很有幫助的,所以我們選取分類(lèi)回歸樹(shù)CART算法作為我們的挖掘算法。 我們使用分類(lèi)回歸樹(shù)CART算法對(duì)貼
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘中決策樹(shù)算法在客戶(hù)流失中的應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘(決策樹(shù))在旅游CRM中的應(yīng)用研究.pdf
- 改進(jìn)的關(guān)聯(lián)規(guī)則算法在貼片機(jī)數(shù)據(jù)挖掘中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘中決策樹(shù)分類(lèi)算法研究與應(yīng)用.pdf
- 決策樹(shù)數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)診斷中的應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘決策樹(shù)分類(lèi)算法的研究與應(yīng)用.pdf
- 基于決策樹(shù)算法的數(shù)據(jù)挖掘的應(yīng)用.pdf
- 數(shù)據(jù)挖掘(決策樹(shù)分類(lèi)算法)在呼叫中心CRM中的應(yīng)用研究.pdf
- 基于決策樹(shù)的數(shù)據(jù)挖掘算法的研究及其在實(shí)際中的應(yīng)用.pdf
- 基于決策樹(shù)算法的電信營(yíng)銷(xiāo)數(shù)據(jù)挖掘應(yīng)用.pdf
- 決策樹(shù)算法在臨床診斷中的應(yīng)用研究.pdf
- 基于數(shù)據(jù)挖掘的決策樹(shù)算法研究及應(yīng)用探討.pdf
- 基于決策樹(shù)的數(shù)據(jù)挖掘算法優(yōu)化研究.pdf
- 基于決策樹(shù)分類(lèi)算法和Apriori算法的數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘決策樹(shù)方法在快速貨物運(yùn)輸中的應(yīng)用研究.pdf
- 基于數(shù)據(jù)挖掘的決策樹(shù)技術(shù)在成績(jī)分析中的應(yīng)用研究.pdf
- 決策樹(shù)算法在市場(chǎng)細(xì)分中的應(yīng)用研究.pdf
- 數(shù)據(jù)挖掘中決策樹(shù)分類(lèi)算法的研究與改進(jìn).pdf
- 基于決策樹(shù)的數(shù)據(jù)挖掘算法在空氣質(zhì)量評(píng)估中的應(yīng)用.pdf
- 基于決策樹(shù)的數(shù)據(jù)挖掘技術(shù)在口腔診療中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論