數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用研究——方法改進(jìn)與實(shí)證分析.pdf_第1頁(yè)
已閱讀1頁(yè),還剩67頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用研究——方法改進(jìn)與實(shí)證分析摘要在統(tǒng)計(jì)學(xué)領(lǐng)域,抽樣技術(shù)的研究已經(jīng)相當(dāng)成熟,但在數(shù)據(jù)挖掘領(lǐng)域,抽樣技術(shù)顯然還沒(méi)有得到它應(yīng)有的地位。雖然有學(xué)者提出在超大型的數(shù)據(jù)集上應(yīng)用并行化算法或分塊處理來(lái)提高數(shù)據(jù)挖掘的效率可能比用抽樣技術(shù)更有效,但在本文的實(shí)踐過(guò)程中發(fā)現(xiàn),對(duì)于中等數(shù)量級(jí)( 幾萬(wàn)到幾十萬(wàn)數(shù)量級(jí)) 的數(shù)據(jù)集,抽樣技術(shù)有著其他技術(shù)不可比擬的優(yōu)勢(shì)一速度快,準(zhǔn)確性高,易實(shí)現(xiàn)。畢竟,實(shí)際應(yīng)用有別于科學(xué)研究,對(duì)數(shù)據(jù)分析者來(lái)說(shuō),如何

2、快速,簡(jiǎn)便而準(zhǔn)確地獲得挖掘結(jié)果以輔助相關(guān)決策的制定才是最終目的,在挖掘?qū)嶒?yàn)室以外的地方布置復(fù)雜的運(yùn)算分析環(huán)境是得不償失的。為了進(jìn)一步研究抽樣技術(shù)在數(shù)據(jù)挖掘中應(yīng)用的可行性,本文從理論論證和實(shí)證研究?jī)蓚€(gè)方面展開。理論方面:對(duì)數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的過(guò)程做出了全面而科學(xué)的定義;總結(jié)了現(xiàn)行的在數(shù)據(jù)挖掘領(lǐng)域中廣泛應(yīng)用的抽樣技術(shù);歸納了數(shù)據(jù)挖掘中最重要的三種挖掘方法,并對(duì)當(dāng)前抽樣技術(shù)與數(shù)據(jù)挖掘的結(jié)合情況做了系統(tǒng)的闡述;對(duì)抽樣技術(shù)在數(shù)據(jù)挖掘中的應(yīng)用提出了兩

3、種新的方法——改進(jìn)的靜態(tài)抽樣方法和改進(jìn)的動(dòng)態(tài)抽樣方法。實(shí)證方面:列舉了基于抽樣技術(shù)的數(shù)據(jù)挖掘方法在金融、保險(xiǎn)、零售、制造等各個(gè)行業(yè)的應(yīng)用情況,并針對(duì)理論部分提出的新方法用實(shí)際數(shù)據(jù)做了必要的檢驗(yàn),以比較所研究的抽樣方法T H E A P P R O V I N G S T U D Y O F S A M P L I N G T E C H N O L O G YU S E D I N D A I ’A M I N N G A I t E

4、A :M E T H O D SI M P R O V I N G A N D E M P I R I C A L S T U D YA B S T R A C TS a m p l i n gt e c h n i q u e s h a v en o tp u r s u e dt h e i re s s e n t i a l p o s i t i o n s i nd a t am i n i n gr e a l m a

5、s w e l la st h e y ’v eg o ti ns t a t i s t i c si nw h i c h a so n eo ft h e m o s t i m p o r t a n t a n a l y s i s m e t h o d s .A l t h o u g h s o m e s c h o l a r s p u tf o r w a r dt h a t p a r a l l e l

6、i z a t i o na n dc h u n ka l g o r i t h mw o u l d b ee v e nb e t t e rt h a n s a m p l i n g i n s u p e rd a t as e t s .B u t d u r i n g t h ep r a c t i c ep r o c e s sw ef o u n d t h a t s a m p l i n gt e c

7、 h n i q u e sh a v et h ea d v a n t a g e st h a t o t h e rm e t h o d sc o u l d n ’tc o m p a r ew h e n t h es i z eo f t h ed a t as e t si s f r o mt e nt h o u s a n dt oh u n d r e d t h o u s a n d ‘·- &#

8、183;_ ·- —_ _ _ ·_ —’s o o n e r s p e e d h i g h e r a c c u r a c y a n d e a s i e rr e a l i z a t i o n .F u r t h e r m o r e ,a p p l i c a t i o n i nr e a lw o r l d i sd i f f e r e n tt os c i e n t

9、 i f i cs t u d y .H o wt og e tt h em i n i n gr e s u l t sa sa na s s i s t a n tt oc o n c e r nd e c i s i o na n dp o l i c y q u i c k l y a c c u r a t e l y i s t h e f i n a l p u r p o s e .R e b u i l d i n g

10、 a n dr e s t r u c t u r i n gc o m p l i c a t ea n a l y s i se n v i r o n m e n ti s l o s i n gm o r et h a ng a i no u t s i d e o f t h em i n i n g l a b o r a t o r y .F o rf u r t h e rs t u d yt o t h ep o s

11、s i b i l i t yo f t h e a p p l i c a t i o ni n t h ed a t am i n i n g ,t h i sp a p e r l a u n c hf r o m t h e o r y c e r t i f i c a t i o na n d e x a m p l e r e s e a r c h .I n t h ef i r s ta s p e c t :D e

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論