版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、,,BIG DATA,大數(shù)據(jù)技術(shù)與經(jīng)驗(yàn)分享,2017.2.15,,,,,目錄,05,大數(shù)據(jù)計(jì)算與分析研判,04,大數(shù)據(jù)存儲(chǔ)與管理,06,大數(shù)據(jù)項(xiàng)目建設(shè)經(jīng)驗(yàn),02,大數(shù)據(jù)概述,01,現(xiàn)狀與問題,03,大數(shù)據(jù)采集與處理,PPT模板:www.1ppt.com/moban/ PPT素材:www.1ppt.com/sucai/PPT背景:www.1ppt.com/beijing/
2、 PPT圖表:www.1ppt.com/tubiao/ PPT下載:www.1ppt.com/xiazai/ PPT教程: www.1ppt.com/powerpoint/ 資料下載:www.1ppt.com/ziliao/ 范文下載:www.1ppt.com/fanwen/ 試卷下載:www.1ppt.co
3、m/shiti/ 教案下載:www.1ppt.com/jiaoan/ PPT論壇:www.1ppt.cn PPT課件:www.1ppt.com/kejian/ 語文課件:www.1ppt.com/kejian/yuwen/ 數(shù)學(xué)課件:www.1ppt.com/kejian/shuxue/
4、英語課件:www.1ppt.com/kejian/yingyu/ 美術(shù)課件:www.1ppt.com/kejian/meishu/ 科學(xué)課件:www.1ppt.com/kejian/kexue/ 物理課件:www.1ppt.com/kejian/wuli/ 化學(xué)課件:www.1ppt.com/kejian/huaxue/ 生物課件:www.1ppt.com/kejian/shengwu/ 地理課件:www.1pp
5、t.com/kejian/dili/ 歷史課件:www.1ppt.com/kejian/lishi/,,,01,當(dāng)前信息化現(xiàn)狀與問題,,BIG DATA,,1.1,用戶使用方面,,查詢模式固化,01,,查詢操作復(fù)雜,02,,查詢效率低,03,,結(jié)果不準(zhǔn)確,04,,結(jié)果不全面,05,缺少一個(gè)簡便、高效、準(zhǔn)確的在線檢索工具!,1.2,應(yīng)用建設(shè)方面,交管,警綜,戶政,出入境,……,,,,,,數(shù)據(jù)源,基礎(chǔ)設(shè)施,部級(jí)系統(tǒng),省級(jí)系
6、統(tǒng),市級(jí)系統(tǒng),區(qū)級(jí)系統(tǒng),業(yè)務(wù)系統(tǒng),系統(tǒng)多了,資源分散,點(diǎn)對點(diǎn)交互,重復(fù)建設(shè),共享困難,重復(fù)建設(shè)現(xiàn)象突出!信息如何有效共享?,1.3,數(shù)據(jù)的管理與應(yīng)用方面,,結(jié)構(gòu)化數(shù)據(jù),……,圖像,音頻,視頻,非結(jié)構(gòu)化信息的飛速增長為存儲(chǔ)帶來巨大壓力,對非結(jié)構(gòu)化信息的利用缺乏有效手段,,矛盾,巨大的復(fù)雜的數(shù)據(jù)資源怎么用起來?,,,02,大數(shù)據(jù)技術(shù)概述,,BIG DATA,,2.1,,,,,,,,,,,,大數(shù)據(jù)發(fā)展的萌芽期,大數(shù)據(jù)發(fā)展的突破期,大數(shù)據(jù)發(fā)展的
7、孕育期,,發(fā)展歷程,大數(shù)據(jù)不是最近才有的, 數(shù)據(jù)一直存在,只是分析數(shù)據(jù)的技術(shù)近幾年有了革命性的突破!所以,大數(shù)據(jù)也可以稱為一種技術(shù)“大數(shù)據(jù)技術(shù)”,,90年代,,2003年-2006年,2006年-2009年,,2010年-至今,大數(shù)據(jù)發(fā)展的爆發(fā)期,2.2,概述,大數(shù)據(jù)指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,并且這些數(shù)據(jù)沒有辦法在可容忍的時(shí)間下使用常規(guī)軟件方法完成存儲(chǔ)、管理和處理任務(wù)。,1、大量,2、多樣,3、快速,4、
8、價(jià)值,大數(shù)據(jù),存儲(chǔ)量大TB->PB計(jì)算量大,數(shù)據(jù)增長快處理速度要求快,數(shù)據(jù)來源多數(shù)據(jù)類型多,商業(yè)價(jià)值如:行為分析、信息挖掘 廣告定投、信息預(yù)測,結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文檔、視頻、照片等,大數(shù)據(jù)不僅僅是“大”,,,2.3,大數(shù)據(jù)的發(fā)展方向,01,02,03,04,這方向最常見的問題是數(shù)據(jù)的多源和多樣性,導(dǎo)致數(shù)據(jù)的質(zhì)量存在差異,嚴(yán)重影響到數(shù)據(jù)的可用性。針對這些問題,目前很多公司已經(jīng)推出了多種數(shù)據(jù)清洗和質(zhì)量控制
9、工具(如IBM的Data Stage),大數(shù)據(jù)采集與預(yù)處理方向,在數(shù)據(jù)量迅速膨脹的同時(shí),還要進(jìn)行深度的數(shù)據(jù)深度分析和挖掘,并且對自動(dòng)化分析要求越來越高,越來越多的大數(shù)據(jù)數(shù)據(jù)分析工具和產(chǎn)品應(yīng)運(yùn)而生,如用于大數(shù)據(jù)挖掘的R Hadoop版、基于MapReduce開發(fā)的數(shù)據(jù)挖掘算法等等,大數(shù)據(jù)分析與挖掘方向,這方向最常見的挑戰(zhàn)是存儲(chǔ)規(guī)模大,存儲(chǔ)管理復(fù)雜,需要兼顧結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫相關(guān)
10、技術(shù)的發(fā)展正在有效的解決這些方面的問題。,大數(shù)據(jù)存儲(chǔ)與管理方向,由于大數(shù)據(jù)處理多樣性的需求,目前出現(xiàn)了多種典型的計(jì)算模式,包括大數(shù)據(jù)查詢計(jì)算(如Hive)、批處理計(jì)算(如Hadoop MapReduce)、流式計(jì)算(如Storm)、和內(nèi)存計(jì)算(如Hana),而這些計(jì)算模式的組合使用將成為滿足多樣性大數(shù)據(jù)處理和應(yīng)用需求的有效手段。,大數(shù)據(jù)計(jì)算方向,,,03,大數(shù)據(jù)采集與處理,,Big Data,,3.1,大數(shù)據(jù)采集的方式,大數(shù)據(jù)采集就是使
11、用多種技術(shù)或手段 “組合出擊”,將數(shù)據(jù)收集起來并存儲(chǔ)在大數(shù)據(jù)存儲(chǔ)系統(tǒng)中。根據(jù)數(shù)據(jù)的類型常見的采集方式包括一下四種:,,01,數(shù)據(jù)庫采集,,通過ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的結(jié)構(gòu)化數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)化、整合操作后抽取到大數(shù)據(jù)存儲(chǔ)系統(tǒng),02,文本數(shù)據(jù)采集,,通過各類接口從電子文件中獲取數(shù)據(jù)的過程。可以將txt\xml\word\excel\pdf等文件內(nèi)的數(shù)據(jù)提取出來,并以結(jié)構(gòu)化的方式存儲(chǔ)大數(shù)據(jù)存儲(chǔ)系統(tǒng),03,實(shí)時(shí)流式數(shù)據(jù)采集,,實(shí)時(shí)采集
12、物聯(lián)網(wǎng)內(nèi)RFID標(biāo)簽、GPS定位設(shè)備、北斗定位設(shè)備、溫度傳感器等各類傳感器的實(shí)時(shí)狀態(tài)信息、位置信息,并以結(jié)構(gòu)化的方式存儲(chǔ)在大數(shù)據(jù)存儲(chǔ)系統(tǒng),04,多媒體數(shù)據(jù)采集,通過視頻分析技術(shù)、圖形分析技術(shù)將視頻、圖片文件內(nèi)的要素信息提取出來,并以結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到大數(shù)據(jù)存儲(chǔ)系統(tǒng),3.2,大數(shù)據(jù)采集工具(ETL采集工具),ETL即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨
13、時(shí)中間層后,進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫中。,Kettle,,開源工具純java編寫,綠色無需安裝支持Window、Linux、Unix運(yùn)行環(huán)境依賴JDK可視化圖形界面,Informatica PowerCenter,,軟件一次性購買,但技術(shù)支持按項(xiàng)目收費(fèi)支持Window、Linux、Unix客戶端與服務(wù)端分離可視化圖形界面廣泛支持各類結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)源,3.3,大數(shù)據(jù)采集工具(文件數(shù)據(jù)采集),,零散文
14、件(非結(jié)構(gòu)化),快遞、飲食店等員工名單,截獲黑客犯罪人員電腦資料,小區(qū)住戶、租戶登記信息,舊犯罪記錄等文字卷宗,文件篩選,,文件分類,Excel文件,Word文件,文本文件,PDF文件,內(nèi)容抓取,人員和單位數(shù)據(jù)(結(jié)構(gòu)化),審核入庫,,大數(shù)據(jù)存儲(chǔ)系統(tǒng),由于業(yè)務(wù)特點(diǎn)的不同,開源軟件或商業(yè)產(chǎn)品的解決方案針對性較弱,更傾向于由軟件開發(fā)商定制開發(fā)采集器,通過插件的方式擴(kuò)展支持的文件類型。,3.4,大數(shù)據(jù)采集工具(實(shí)時(shí)流式數(shù)據(jù)采集),基于多源的
15、實(shí)時(shí)流式數(shù)據(jù)(如:GPS定位信息、北斗定位信息、移動(dòng)定位終端實(shí)時(shí)位置信息、傳感器),提供數(shù)據(jù)接入、存儲(chǔ)、分發(fā)、自動(dòng)識(shí)別、報(bào)警、監(jiān)控等實(shí)時(shí)處理功能。并支持通過插件的方式擴(kuò)展接入類型。,,,車載終端,手持終端,固定設(shè)備,定位方式,終端支撐,,,,各個(gè)業(yè)務(wù)系統(tǒng),北斗,GPS,WIFI,RFID,基站,網(wǎng)絡(luò),智能終端,,,,04,大數(shù)據(jù)存儲(chǔ)與管理,,Big Data,,4.1,大數(shù)據(jù)存儲(chǔ)方案,大數(shù)據(jù)存儲(chǔ)方案應(yīng)該是根據(jù)數(shù)據(jù)的特點(diǎn)及業(yè)務(wù)需求進(jìn)行“專
16、項(xiàng)治理”,產(chǎn)品和技術(shù)選型應(yīng)該不僅僅局限于1種產(chǎn)品或技術(shù)。一般大數(shù)據(jù)存儲(chǔ)是由多種數(shù)據(jù)存儲(chǔ)方案或技術(shù)組合使用。,1,2,3,4,5,存儲(chǔ)方案,高增長、海量關(guān)系型數(shù)據(jù)存儲(chǔ)方案(Hbase),海量大個(gè)文件存儲(chǔ)方案(Hadoop HDFS),海量小文件存儲(chǔ)方案( FastDFS),高速緩存方案(Redis),傳統(tǒng)關(guān)系型數(shù)據(jù)存儲(chǔ)方案(Oracle集群、MySQL集群),4.2,傳統(tǒng)關(guān)系型數(shù)據(jù)存儲(chǔ)方案,應(yīng)用場景:用于存儲(chǔ)結(jié)構(gòu)化的人員、物品、組織
17、、數(shù)據(jù)字典等數(shù)據(jù)或業(yè)務(wù)關(guān)聯(lián)緊密的事物性數(shù)據(jù)技術(shù)選型:Oracle RAC 或 MySQL集群特 點(diǎn):MPP架構(gòu)、數(shù)據(jù)結(jié)構(gòu)固定、數(shù)據(jù)量相對較小、安全性及穩(wěn)定性較高,MySQL集群,4.3,高增長、海量關(guān)系型數(shù)據(jù)存儲(chǔ)方案,應(yīng)用場景:用于存儲(chǔ)數(shù)據(jù)量大且數(shù)據(jù)增長量較快的數(shù)據(jù)(如:卡口過車信息等)技術(shù)選型:HBase集群特 點(diǎn):運(yùn)行在Hadoop之上適合超大數(shù)據(jù)量的寫入,數(shù)據(jù)按列存儲(chǔ)、
18、只訪問查詢涉及的列-大量降低系統(tǒng)IO,4.4,海量大個(gè)文件存儲(chǔ)方案,應(yīng)用場景:適合存儲(chǔ)、訪問、下載大個(gè)文件(通常是指百M(fèi)B、GB、甚至GB大小的文件),如視頻網(wǎng)站類應(yīng)用。技術(shù)選型:HDFS 分布式文件系統(tǒng)特 點(diǎn):運(yùn)行于廉價(jià)的商用機(jī)器集群上、多副本、采用了切分存儲(chǔ)的方式,4.5,海量小文件存儲(chǔ)方案,應(yīng)用場景:對海量小文件進(jìn)行管理,包括:文件存儲(chǔ)、文件同步、文件上傳、文件下載。如:百度文庫、相冊網(wǎng)站等應(yīng)用場景技術(shù)選型
19、:FastDFS 分布式文件系統(tǒng)特 點(diǎn):不對文件進(jìn)行切分存儲(chǔ)、適合小文件存儲(chǔ)、支持線性擴(kuò)容,,,05,大數(shù)據(jù)計(jì)算與分析研判,,Big Data,,5.1,大數(shù)據(jù)計(jì)算,大數(shù)據(jù)計(jì)算的核心思想是:分而治之,把大量的數(shù)據(jù)劃分開來,分配給各個(gè)子任務(wù)來完成。再將結(jié)果合并到一起輸出。,5.1,大數(shù)據(jù)計(jì)算-海量數(shù)據(jù)檢索,智能檢索,檢索結(jié)果以“檔案”形式展示,5.2,大數(shù)據(jù)離線計(jì)算,文本分析和數(shù)據(jù)分類、聚類對人力情報(bào)信息通過文本分析工具
20、進(jìn)行處理,實(shí)現(xiàn)關(guān)鍵詞提取,包括地名、敏感詞語(如6.4事件、老兵、上訪、嗑粉等)、人名、各類號(hào)碼等,生成人力情報(bào)關(guān)鍵字庫(也稱“標(biāo)簽庫”)。同時(shí)基于關(guān)鍵詞庫,關(guān)聯(lián)分析技術(shù)、聚類分析技術(shù),實(shí)現(xiàn)熱點(diǎn)情報(bào)、相似情報(bào)等宏觀分析。文本分析工具文本分析是文本挖掘、信息檢索的一項(xiàng)基本技術(shù),是指對文本中表示其特征項(xiàng)的“關(guān)鍵詞”自動(dòng)識(shí)別與提取,可以實(shí)現(xiàn)word文檔內(nèi)情報(bào)信息的解析和標(biāo)簽屬性創(chuàng)建。標(biāo)簽庫建設(shè)熱點(diǎn)情報(bào)分析相似情報(bào)分析,5.3,大數(shù)據(jù)
21、分析研判-人員活動(dòng)分析,人員活動(dòng)分析:根據(jù)關(guān)注人員動(dòng)態(tài)管控的需求,基于系統(tǒng)內(nèi)整合的外部信息(如:公安網(wǎng)實(shí)名制登記信息、出行記錄信息)和內(nèi)部信息(如:情報(bào)線索信息、重點(diǎn)人等信息),通過定制化分析模型工具,定義相關(guān)的分析模型,通過分析模型的計(jì)算和運(yùn)行,支持研判的開展和應(yīng)用,相關(guān)的分析模型包括但不限于如下:重點(diǎn)人流入預(yù)警重點(diǎn)人流出預(yù)警異常出行記錄分析人員軌跡分析人員關(guān)系分析(社會(huì)關(guān)系、同行、同住、同鄉(xiāng)),5.4,大數(shù)據(jù)分析研判模型
22、-案例1,旅業(yè)數(shù)據(jù)人員入住登記信息,,“跳房”記錄分析,,較短時(shí)間段內(nèi),,有多條開房記錄,年輕女性,旅館位置集中,深夜凌晨入住,入住時(shí)間短,,,主要條件,輔助條件,,,涉黃可疑人員名單,定時(shí)生成推送,500萬記錄,案件庫有關(guān)涉黃人員,,準(zhǔn)確率高達(dá)87.8%,涉“黃”人員分析,5.4,大數(shù)據(jù)分析研判模型-案例2,密切度分析,張三,李四,籍貫相同,------,乘坐K1234列車從南寧至廣州,2014-08-16,登記入住同一出租屋,
23、2015-02-04,出境前往澳門,2015-05-18,密切度4,,,06,大數(shù)據(jù)項(xiàng)目建設(shè)經(jīng)驗(yàn),,Big Data,,6.1,思考一,一是大數(shù)據(jù)思維的演進(jìn)道路,,,從精確性到相似(相關(guān))性起步階段我們追求精確制導(dǎo);單一查詢不是大數(shù)據(jù)的主要應(yīng)用;用大數(shù)據(jù)去揭示規(guī)律,反映客觀事實(shí);從大數(shù)據(jù)中發(fā)現(xiàn)隱含的知識(shí)。,6.2,思考二,二是統(tǒng)籌耦合三種計(jì)算模式,,,因材施用、用其所長、相輔相成關(guān)系型:結(jié)構(gòu)化程度高,數(shù)據(jù)量不大等;分布式:結(jié)
24、構(gòu)化程度一般,巨量檢索等;大內(nèi)存:數(shù)據(jù)量適中,多變量求解等;不能忽視異構(gòu)數(shù)據(jù)交換工作,6.3,思考三,三是業(yè)務(wù)需求為導(dǎo)向,,,以業(yè)務(wù)需求為導(dǎo)向去設(shè)計(jì)與建設(shè),回到用戶需求,分析日常工作真正所需。技術(shù)是為業(yè)務(wù)服務(wù)的,技術(shù)選型和架構(gòu)決策依賴業(yè)務(wù)規(guī)劃, 離開業(yè)務(wù)發(fā)展 的支撐和驅(qū)動(dòng), 技術(shù)走不遠(yuǎn),甚至還會(huì)迷路!前沿技術(shù)總是出現(xiàn)在前沿業(yè)務(wù)領(lǐng)域。,6.4,思考四,四是將對非結(jié)構(gòu)化的內(nèi)容的管理納入到單位的數(shù)據(jù)管理能力,,,非結(jié)構(gòu)化數(shù)據(jù)一直是單位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 暨大數(shù)量經(jīng)濟(jì)考研經(jīng)驗(yàn)分享
- 2019復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院應(yīng)用統(tǒng)計(jì)考研初試經(jīng)驗(yàn)分享
- 2019年北大數(shù)院金融碩士經(jīng)驗(yàn)分享
- 大數(shù)據(jù)技術(shù)與應(yīng)用
- 數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)應(yīng)用
- 大數(shù)據(jù)技術(shù)
- 大數(shù)據(jù)技術(shù)與應(yīng)用教案
- 大數(shù)據(jù)技術(shù)與應(yīng)用教案
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)
- 大數(shù)據(jù)技術(shù)
- 2020清華大學(xué)自動(dòng)化系大數(shù)據(jù)工程專業(yè)考研初試經(jīng)驗(yàn)分享
- 大數(shù)據(jù)技術(shù)原理與應(yīng)用
- 云計(jì)算大數(shù)據(jù)案例分享中科院
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)
- 大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)
- 大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)
- 大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用
- 大數(shù)據(jù)挖掘技術(shù)
評論
0/150
提交評論