大數(shù)據(jù)分析方法_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1大數(shù)據(jù)是大數(shù)據(jù)是2012的時髦詞匯,正受到越來越多人的關注和談論。大數(shù)據(jù)之所以受到人們的關注和談論,是因為隱藏在大數(shù)據(jù)后面超千億美元的市場機會。大數(shù)據(jù)時代,數(shù)據(jù)挖掘是最關鍵的工作。以下內容供個人學習用,感興趣的朋友可以看一下。智庫百科是這樣描述數(shù)據(jù)挖掘的“數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫領域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決

2、策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的定義技術上的定義及含義技術上的定義及含義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包

3、括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的發(fā)現(xiàn)的是用戶感興趣的知識發(fā)現(xiàn)的知識要可接受、可理解、可運用并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、人工智能、商務智能、模式識別、機器學習、知識發(fā)現(xiàn)、數(shù)據(jù)分析和決策支持等。何為知識從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)

4、可以是結構化的,如關系數(shù)據(jù)庫中的數(shù)據(jù)也可以是半結構化的,如文本、圖形和圖像數(shù)據(jù)甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫技術、

5、人工智能技術、數(shù)理統(tǒng)計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數(shù)據(jù)挖掘這一新興的研究領域,形成新的技術熱點。這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學定理和純數(shù)學公式,更不是什么機器定理證明。實際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領域的,同時還要能夠易于被用戶理解。最好能用自然語言表達所發(fā)現(xiàn)的結果。⑤特征。特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關于這些數(shù)

6、據(jù)的特征式,這些特征式表達了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶的流失。⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業(yè)危機管理及其預警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應用到各種異常信息的發(fā)現(xiàn)、分析、識別、評價

7、和預警等方面。⑦Web頁挖掘。隨著Inter的迅速發(fā)展及Web的全球普及,使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內部經營信息,并根據(jù)分析結果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危

8、機。數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。1、自動預測趨勢和行為、自動預測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認

9、定對指定事件最可能作出反應的群體。2、關聯(lián)分析、關聯(lián)分析數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。3、聚類、聚類數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論