版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)分析與挖掘習(xí)題數(shù)據(jù)分析與挖掘習(xí)題第一章作業(yè)1.1什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問題:什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問題:(a)它是又一個騙局嗎?它是又一個騙局嗎?數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabaseKDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。數(shù)據(jù)挖掘可以與用戶或知識庫交互。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使
2、用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(infmationretrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。(b)它是一種從數(shù)據(jù)庫,統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)換嗎?它是一種從數(shù)據(jù)庫,統(tǒng)計學(xué)和機(jī)器學(xué)
3、習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)換嗎?硬要去區(qū)分DataMining和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為DataMining技術(shù)的CART、CHAID或模糊計算等等理論方法,也都是由統(tǒng)計學(xué)者根據(jù)統(tǒng)計理論所發(fā)展衍生,換另一個角度看,DataMining有相當(dāng)大的比重是由高等統(tǒng)計學(xué)中的多變量分析所支撐。但是為什么DataMining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言,DataMining有下列幾
4、項(xiàng)特性:1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢,且無須太專業(yè)的統(tǒng)計背景去使用DataMining的工具2.數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機(jī)分析軟件,DataMining的工具更符合企業(yè)需求;3.純就理論的基礎(chǔ)點(diǎn)來看,DataMining和統(tǒng)計分析有應(yīng)用上的差別,畢竟DataMining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學(xué)家檢測用的。(c)解釋數(shù)據(jù)庫技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘解釋數(shù)據(jù)庫技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘近年來,數(shù)據(jù)挖掘引起
5、了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗(yàn),(2)人工智能、模式識別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計算、信息論、信號處理、可
6、視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。(d)當(dāng)把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟。當(dāng)把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果
7、表達(dá)和解釋。1.2給出一個例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)給出一個例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實(shí)現(xiàn)嗎?據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實(shí)現(xiàn)嗎?由于統(tǒng)計學(xué)基礎(chǔ)的建立在計算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計學(xué)工具包含很多可數(shù)據(jù)數(shù)據(jù)倉庫側(cè)重于數(shù)據(jù)分析工作,是按照主題存儲的“與時間相關(guān)”:數(shù)據(jù)庫保存信息
8、的時候,并不強(qiáng)調(diào)一定有時間信息。數(shù)據(jù)倉庫則不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產(chǎn)品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的?!安豢尚薷摹?數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息,并不是很多數(shù)據(jù)庫處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計費(fèi)數(shù)據(jù)庫甚至處理實(shí)時信息)。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是極少
9、或根本不修改的當(dāng)然,向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉庫必須有如下幾點(diǎn)優(yōu)點(diǎn),否則是失敗的數(shù)據(jù)倉庫方案。1.效率足夠高??蛻粢蟮姆治鰯?shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時甚至12小時內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)
10、據(jù)量很大,設(shè)計不好的數(shù)據(jù)倉庫經(jīng)常會出問題,延遲13日才能給出數(shù)據(jù),顯然不行的。2.數(shù)據(jù)質(zhì)量??蛻粢锤鞣N信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程至少分為3步,2次ETL,復(fù)雜的架構(gòu)會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導(dǎo)致分析出錯誤的決策,造成損失,而不是效益。3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計復(fù)雜,是因?yàn)榭紤]到了未來35年的擴(kuò)展性,這樣的話,客戶不用太快花錢去重建數(shù)
11、據(jù)倉庫系統(tǒng),就能很穩(wěn)定運(yùn)行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來了。第二章作業(yè)1.簡述以下高級數(shù)據(jù)庫系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體簡述以下高級數(shù)據(jù)庫系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫和數(shù)據(jù)庫和WWW。面向?qū)ο笫且环N認(rèn)識方法學(xué),也是一種新的程序設(shè)計方法學(xué)。把面向?qū)ο蟮姆椒ê蛿?shù)據(jù)庫技術(shù)結(jié)合起來可以使數(shù)據(jù)庫
12、系統(tǒng)的分析、設(shè)計最大程度地與人們對客觀世界的認(rèn)識相一致。面向?qū)ο髷?shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫系統(tǒng)是為了滿足新的數(shù)據(jù)庫應(yīng)用需要而產(chǎn)生的新一代數(shù)據(jù)庫系統(tǒng)。在數(shù)據(jù)庫中提供面向?qū)ο蟮募夹g(shù)是為了滿足特定應(yīng)用的需要。隨著許多基本設(shè)計應(yīng)用(如MACD和ECAD)中的數(shù)據(jù)庫向面向?qū)ο髷?shù)據(jù)庫的過渡,面向?qū)ο笏枷胍仓饾u延伸到其它涉及復(fù)雜數(shù)據(jù)的應(yīng)用中,其中包括輔助軟件工程(CASE)、計算機(jī)輔助印刷(CAP)和材料需求計劃(MRP)。這些應(yīng)用如同設(shè)計應(yīng)用一樣在程序設(shè)
13、計方面和數(shù)據(jù)類型方面都是數(shù)據(jù)密集型的,它們需要識別于類型關(guān)系的存儲技術(shù),并能對相近數(shù)據(jù)備份進(jìn)行調(diào)整.空間數(shù)據(jù)庫空間數(shù)據(jù)庫指的是地理信息系統(tǒng)在計算機(jī)物理存儲介質(zhì)上存儲的與應(yīng)用相關(guān)的地理空間數(shù)據(jù)的總和,一般是以一系列特定結(jié)構(gòu)的文件的形式組織在存儲介質(zhì)之上的。空間數(shù)據(jù)庫的研究始于20世紀(jì)70年代的地圖制圖與遙感圖像處理領(lǐng)域其目的是為了有效地利用衛(wèi)星遙感資源迅速繪制出各種經(jīng)濟(jì)專題地圖。由于傳統(tǒng)的關(guān)系數(shù)據(jù)庫在空間數(shù)據(jù)的表示、存儲、管理、檢索上存在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公積金管理數(shù)據(jù)分析與挖掘探討
- 教案數(shù)據(jù)分析與挖掘?qū)崙?zhàn)專
- 公路收費(fèi)系統(tǒng)數(shù)據(jù)分析與挖掘.pdf
- 基于數(shù)據(jù)挖掘軟件weka 的數(shù)據(jù)分析與應(yīng)用
- python數(shù)據(jù)分析與挖掘 教學(xué)大綱
- 數(shù)據(jù)挖掘?qū)嶒?yàn)報告-數(shù)據(jù)挖掘的基本數(shù)據(jù)分析
- 旅行社網(wǎng)站數(shù)據(jù)分析與挖掘-數(shù)據(jù)挖掘概論結(jié)果論文
- 基于數(shù)據(jù)挖掘的動態(tài)數(shù)據(jù)分析與研究.pdf
- 基于數(shù)據(jù)挖掘軟件weka 的數(shù)據(jù)分析與應(yīng)用
- 基于數(shù)據(jù)挖掘的電信數(shù)據(jù)分析.pdf
- 大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)分析與挖掘綜合能力提升實(shí)戰(zhàn)
- 醫(yī)院數(shù)據(jù)分析與挖掘的研究與實(shí)現(xiàn).pdf
- 基于數(shù)據(jù)挖掘的審計數(shù)據(jù)分析
- 大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘
- 基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析.pdf
- 基于數(shù)據(jù)挖掘的氣象數(shù)據(jù)分析.pdf
- 基于網(wǎng)絡(luò)的金融數(shù)據(jù)分析與挖掘.pdf
評論
0/150
提交評論