基于Hadoop平臺的日志分析系統(tǒng).pdf_第1頁
已閱讀1頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網的迅速發(fā)展和廣泛普及,web的信息量以驚人的速度增長。目前,WorldWide Web已深入到人類社會的每一個角落,成為擁有近億個工作站,數(shù)十億頁面,蘊含著巨大潛在價值知識的分布式信息空間。電子商務網站創(chuàng)造了前所未有的訪問量,各種大型網絡游戲不斷刷新著在線用戶數(shù)峰值,于此同時這些大型系統(tǒng)都記錄下了海量的用戶日志。就電子商務網站而言,處理網站訪問日志有助于為網站的管理者提供決策支持進而指導網站運營,如改善網站結構提升用戶體驗;進

2、行關鍵詞營銷提升流量、促進轉化、提升效益;分析用戶行為進行個性化的推薦和營銷來提高網站的核心競爭力,在激烈的市場競爭中保持優(yōu)勢。
  Hadoop是Apache下的一個開源分布式計算平臺,它提供簡單的編程模型,對大量數(shù)據(jù)進行分布式處理。Hadoop一般運行在由大量普通計算機組成的集群上。Hadoop框架的核心是分布式文件系統(tǒng)HDFS和分布式計算框架Map/Reduce,為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構。對電子商務網站日

3、志進行預處理和分析,可以利用集群優(yōu)勢并行處理與分析日志,快速及時的為網站運營團隊提供決策數(shù)據(jù)。
  某大型網站的分析引擎項目就是為了向企業(yè)提供基于流量、來源通路、訪客、內容、商品和訂單六大對象的數(shù)據(jù)分析,通過圖形報表形式向企業(yè)管理者展示網站的核心數(shù)據(jù),如動銷、轉化率、流量和銷售集中度等,同時滿足企業(yè)對于Web Analysis和Business Analysis的需求。
  本文在分析現(xiàn)有分布式儲存和計算等關鍵技術的基礎上,

4、結合對Hadoop平臺的分析與研究,設計實現(xiàn)了一種基于分布式計算平臺的日志分析系統(tǒng),并使用本系統(tǒng)進行了網站流量、網站來源、網站訪客及訂單等分析工作。本文對該系統(tǒng)的各個功能模塊進行了詳細的闡述并對本文給出的分布式平臺的高效性進行了實驗比較分析。實驗表明,采用該分析系統(tǒng),通過多個資源完成原先由一個節(jié)點承擔的工作,無論是在數(shù)據(jù)處理還是任務執(zhí)行上,其效率都高于基于單機集中式環(huán)境的Web日志分析,另外還可以得出任務的執(zhí)行時間不僅與集群節(jié)點數(shù)量有關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論