高并發(fā)異構數據預處理系統的設計與實現.pdf_第1頁
已閱讀1頁,還剩116頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、如今是一個數據的時代,隨著大數據技術的發(fā)展,越來越多的行業(yè)需要使用這些新技術重新挖掘曾經積累的數據的價值,使其發(fā)揮出更大的作用,更好的為用戶和企業(yè)服務。而這些數據大都是不完整、不一致的臟數據,無法直接進行數據挖掘,或者挖掘結果差強人意,故需要對數據進行預處理。本人有幸參與了某專利檢索分析平臺項目的開發(fā),負責該平臺中的底層異構數據預處理系統的設計與實現工作。
  本文從系統的項目背景及意義、國內外發(fā)展現狀、系統需求分析、系統技術架構

2、、系統功能結構、數據詳細設計、系統詳細設計與實現以及測試等方面對本系統進行了詳細闡述。本系統為該平臺提供專利數據預處理與存儲服務。由于專利數據具有文件數量巨大且散碎、數據格式多樣、數據語言多樣、數據來源不一致等特點,而且需要在短時間內將專利數據加載入庫,故而本文設計了索引數據的概念,將專利數據進行了封裝,并基于Quartz框架設計并實現了多任務并行方式加載專利數據入庫的功能,同時采用了五種不同的數據庫滿足數據存儲功能。這五種數據庫分別為

3、檢索數據庫Hybase存儲需要檢索的數據;NoSql數據庫MongoDB存儲供前臺展示的半結構化數據;分布式文件系統存儲海量的非結構化數據;緩存數據庫Redis存儲需要緩存的業(yè)務數據;關系型數據庫MySQL存儲數據流轉過程中的控制、運維數據。并且這五種數據庫均采用分布式方式進行部署,同時采用主從、雙機熱備、ZooKeeper等方式保證數據庫的高可用性。本系統共有五個模塊,分別是數據加載與更新模塊、數據質檢模塊、數據修復模塊、數據監(jiān)控模塊

4、以及任務編排工具模塊。其中數據加載與更新模塊是重中之重,在加載數據入庫時,將一個索引數據文件作為一個批次,采用批次的方式對數據進行分批加載入庫;同時利用索引數據文件對專利數據文件的封裝,從而可以使用多任務并行方式處理數據入庫;并且將數據加載入庫分為多個階段進行,每個階段都可以對數據進行校驗、回滾。數據質檢模塊和數據監(jiān)控模塊協同工作,可以及時發(fā)現錯誤數據。數據修復模塊負責對數據進行修復。任務編排工具模塊負責自動拷貝索引數據文件。
 

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論