

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、日志數(shù)據(jù)記錄著系統(tǒng)與網(wǎng)絡(luò)用戶行為等豐富的信息,在網(wǎng)絡(luò)管理、用戶行為分析等諸多領(lǐng)域具有較高的實用價值。隨著大數(shù)據(jù)時代的來臨,單位時間內(nèi)產(chǎn)生的日志數(shù)據(jù)規(guī)模呈幾何級數(shù)不斷增長,日志數(shù)據(jù)的多樣性、異構(gòu)性與動態(tài)變化給日志數(shù)據(jù)采集、存儲和深入分析提出了挑戰(zhàn)。傳統(tǒng)的日志處理方式主要是基于單節(jié)點服務(wù)器,沒有擴(kuò)展性,單節(jié)點在CPU、I/O與存儲方面的性能,都是十分有限的。當(dāng)前,在實際應(yīng)用中對日志數(shù)據(jù)分析的響應(yīng)時間要求越來越高,實時性已和針對大數(shù)據(jù)量的高吞
2、吐率并行計算成為了日志數(shù)據(jù)處理的基本需求。在實時處理的應(yīng)用場景中,流式計算處理能完成日志流數(shù)據(jù)的實時處理,可針對一定時間段內(nèi)規(guī)模不大的數(shù)據(jù)集完成知識提取,但數(shù)據(jù)量的局限性限制了可應(yīng)用的算法和結(jié)果的可靠程度,因此,實時計算所提取和依賴的知識亟需與離線批處理技術(shù)針對大規(guī)模離線數(shù)據(jù)的分析結(jié)果相結(jié)合。
針對信息化和大數(shù)據(jù)背景下飛速增長的日志數(shù)據(jù)的采集、存儲和分析面臨的主要問題與離線數(shù)據(jù)與實時流數(shù)據(jù)的知識提取及其整合問題,通過對大數(shù)據(jù)技
3、術(shù)發(fā)展理論和實踐成果的研究,在分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop上通過Storm On YARN從資源調(diào)度層面集成MapReduce和Storm兩種不同計算框架構(gòu)建日志數(shù)據(jù)實時處理平臺,采用Flume與HBase完成日志數(shù)據(jù)分布式采集與存儲,利用吞吐率較高的MapReduce完成大規(guī)模離線數(shù)據(jù)的全局性知識提取,通過 Storm進(jìn)行 Kafka緩沖區(qū)中小規(guī)模數(shù)據(jù)的突發(fā)性知識提取、結(jié)合知識進(jìn)行流數(shù)據(jù)的實時持續(xù)計算,在保證實時性的同時提高準(zhǔn)確率。
4、本文主要研究內(nèi)容與結(jié)果如下:
?。?)日志數(shù)據(jù)實時處理平臺研究
研究設(shè)計具有3層結(jié)構(gòu)的日志數(shù)據(jù)實時處理平臺架構(gòu),包括負(fù)責(zé)數(shù)據(jù)采集與存儲的數(shù)據(jù)服務(wù)層、負(fù)責(zé)數(shù)據(jù)分析的業(yè)務(wù)邏輯層以及實現(xiàn)數(shù)據(jù)可視化的Web展示層,其中利用共享知識庫實現(xiàn)離線分析與實時分析的結(jié)合,并整合Hadoop、Storm、Flume、HBase與Kafka等大數(shù)據(jù)構(gòu)件實現(xiàn)整體架構(gòu)的分布式集群環(huán)境搭建。
(2)日志數(shù)據(jù)的分布式采集與存儲
5、采用 Flume將從多源前端服務(wù)器中采集到的日志數(shù)據(jù)幾近實時地存儲到分布式數(shù)據(jù)庫HBase,其中采用預(yù)分區(qū)與 RowKey隨機(jī)散列技術(shù)對 HBase進(jìn)行優(yōu)化。實驗結(jié)果表明,平臺有效完成了前端服務(wù)器中日志數(shù)據(jù)幾近實時的采集與存儲,經(jīng)過優(yōu)化后的 HBase在日志存儲過程中更加充分的利用集群中的I/O和CPU資源,負(fù)載更加均衡,有效解決了HBase的“熱點”問題。
(3)基于MapReduce的離線日志數(shù)據(jù)深度分析
結(jié)合M
6、apReduce計算模型將傳統(tǒng)數(shù)據(jù)挖掘算法進(jìn)行并行化處理,并將算法移植到平臺上執(zhí)行以實現(xiàn)對 HBase中歷史日志數(shù)據(jù)的全局性知識提取并存入離線知識庫。并針對實際應(yīng)用將 K-means與Apriori進(jìn)行并行化處理在 MapReduce分布式環(huán)境下完成聚類分析與關(guān)聯(lián)規(guī)則分析。實驗結(jié)果表明,實驗結(jié)果表明平臺能有效從歷史日志數(shù)據(jù)中提取出高可靠度的知識,并利用MapReduce并行技術(shù)使深度分析獲得更高的運(yùn)行效率與擴(kuò)展性,充分滿足大規(guī)模日志數(shù)據(jù)
7、知識提取的應(yīng)用需求。
?。?)基于Storm的日志流數(shù)據(jù)實時分析
整合 Storm與 Kafka實現(xiàn)實時計算的日志流數(shù)據(jù)源的穩(wěn)定接入。將傳統(tǒng)數(shù)據(jù)挖掘算法結(jié)合 Storm模型完成對一定時間窗口內(nèi)小規(guī)模實時數(shù)據(jù)的突發(fā)性知識提取并存入實時知識庫,并以共享知識庫中的信息作為決策支持對日志流數(shù)據(jù)進(jìn)行 Storm實時流式計算,完成離線計算與實時計算的結(jié)合。并針對實際應(yīng)用混合 K-means、KNN等多個算法完成網(wǎng)絡(luò)異常識別。實驗結(jié)
8、果表明,平臺能有效提取出實時數(shù)據(jù)中的突發(fā)性知識,并依賴共享知識庫完成高精準(zhǔn)度的實時持續(xù)計算,Storm技術(shù)的應(yīng)用使得實時分析獲得更高的實時性,在流式數(shù)據(jù)處理方面表現(xiàn)出了較大的優(yōu)勢。
綜上所述,本研究構(gòu)建的日志數(shù)據(jù)實時處理平臺有效地解決了日志數(shù)據(jù)的采集、存儲與知識提取等問題,融合了Hadoop與Storm的優(yōu)勢,在利用MapReduce提取隱藏在歷史日志數(shù)據(jù)中的全局性知識的同時,基于 Storm提取小規(guī)模實時日志數(shù)據(jù)中的突發(fā)性知
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于GPU的遙感數(shù)據(jù)實時處理研究.pdf
- 基于多線程的雷達(dá)數(shù)據(jù)實時處理的研究與應(yīng)用.pdf
- 基于twitter storm的數(shù)據(jù)實時分析處理工具研究
- 基于twitter storm的數(shù)據(jù)實時分析處理工具研究
- 基于storm的訂單大數(shù)據(jù)實時監(jiān)控系統(tǒng)
- 基于Storm的訂單大數(shù)據(jù)實時監(jiān)控系統(tǒng).pdf
- 海洋重力測量數(shù)據(jù)實時處理技術(shù)研究.pdf
- 外測數(shù)據(jù)實時處理軟件設(shè)計與實現(xiàn).pdf
- 基于Apache S4的交通流數(shù)據(jù)實時處理系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 視頻數(shù)據(jù)實時處理和圖像去底色算法方法.pdf
- 基于Hadoop的海量日志數(shù)據(jù)處理研究與應(yīng)用.pdf
- 物流數(shù)據(jù)實時采集與分析處理.pdf
- 基于RFID的車間作業(yè)數(shù)據(jù)實時采集與處理技術(shù)研究.pdf
- 基于Storm實時日志分析存儲系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 基于副本選擇的大數(shù)據(jù)實時查詢處理并行調(diào)度.pdf
- 空間多點檢測數(shù)據(jù)實時傳輸與處理的研究.pdf
- 基于Storm的實時大數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn).pdf
- 基于DSP的超聲圖像實時處理平臺研究.pdf
- 基于成本模型的Hadoop與Storm混合系統(tǒng)的研究.pdf
- 一種基于Storm和Mongodb的分布式實時日志數(shù)據(jù)存儲與處理系統(tǒng)的設(shè)計與實現(xiàn)及應(yīng)用.pdf
評論
0/150
提交評論