基于Spark的情報大數(shù)據(jù)可視化分析.pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、信息化時代數(shù)據(jù)量激增,同時由于情報部門等特殊需求部門多年來對信息的積累,存儲了大量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),由于受技術(shù)水平、創(chuàng)新意識、支撐保障等諸多因素影響,出現(xiàn)不同程度的信息壁壘,信息共享度、利用率不高,如何利用這些情報數(shù)據(jù)掌握社會動向、分析事態(tài)的演化趨勢,進(jìn)而提前預(yù)警預(yù)測,并為決策者提出決策性的建議,尚有大量知識需要研究。
  大數(shù)據(jù)技術(shù)經(jīng)過多年的發(fā)展和完善已經(jīng)趨于成熟,使用大數(shù)據(jù)技術(shù)進(jìn)行情報分析,可有效的利用數(shù)據(jù),為決策者提供可

2、靠的指引。通過對信息的采集、整合并輔以大數(shù)據(jù)技術(shù),大力推進(jìn)相關(guān)部門的信息化建設(shè)。利用Spark運行在內(nèi)存中的特點,為使用者提供高效的、交互式的查詢和計算,快速展現(xiàn)數(shù)據(jù)內(nèi)在信息,提高情報機(jī)關(guān)工作效率。本系統(tǒng)以Spark、Hadoop大數(shù)據(jù)技術(shù)為基礎(chǔ),面向特殊應(yīng)用信息庫、各情報資源信息庫等已有數(shù)據(jù)庫或其他多種類型數(shù)據(jù)文件,輔以GraphX圖計算框架、Spark RDD、SparkSQL等工具,進(jìn)行快速、高效的信息查詢和多種圖形化展示,并為使

3、用者提供對社區(qū)人群的分析、通話分析、人員關(guān)聯(lián)查詢等多種功能。
  本文主要工作內(nèi)容如下:
  1、研究情報系統(tǒng)業(yè)務(wù)模型,以及情報、特殊部門的具體需求分析,研究Spark、Hadoop大數(shù)據(jù)分析與存儲技術(shù)、基于J2EE的前端系統(tǒng)、分布式消息系統(tǒng)以及數(shù)據(jù)清洗和數(shù)據(jù)庫使用等,并設(shè)計了情報大數(shù)據(jù)分析系統(tǒng)的一種實現(xiàn)方法。
  2、開發(fā)前端系統(tǒng)使用J2EE技術(shù)架構(gòu),搭載Spring、SpringMVC、Mybatis三大框架作為前

4、端展示系統(tǒng)。其中視圖層采用FreeMarker、JQuery EasyUI、ECharts等組件提供多種形式、直觀的數(shù)據(jù)展示。使用Oracle數(shù)據(jù)庫,為面端組件、用戶名、密碼等信息提供持久化服務(wù)。
  3、分布式計算和傳輸系統(tǒng)開發(fā)。前端展示系統(tǒng)通過Apache Kafka集群與Spark集群進(jìn)行實時交互。Spark集群主要負(fù)責(zé)對數(shù)據(jù)進(jìn)行計算、分析。通過使用SparkRDD、Spark SQL、GrpahX、GraphFrame等工

5、具進(jìn)行社區(qū)發(fā)現(xiàn)、重點人員查找、話單分析、人群分析等功能,并將結(jié)果通過Kafka集群實時的反饋給前端展示系統(tǒng)。
  4、數(shù)據(jù)清洗和導(dǎo)入工作。數(shù)據(jù)存儲采用分布式系統(tǒng)存儲,并支持多種數(shù)據(jù)來源的導(dǎo)入,如關(guān)系型數(shù)據(jù)庫、文本文檔、CSV文件等。經(jīng)過數(shù)據(jù)清洗后統(tǒng)一存放在HDFS系統(tǒng)中。通過Sqoop實現(xiàn)對存儲系統(tǒng)定時更新的功能,在固定時間間隔將外部數(shù)據(jù)導(dǎo)入到存儲系統(tǒng)中,保證數(shù)據(jù)的實時有效性。
  大數(shù)據(jù)分析系統(tǒng)通過將分散在不同業(yè)務(wù)部門的信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論