最新大廠數(shù)據(jù)湖面試題及知識點總結(jié)_第1頁
已閱讀1頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、最新大廠數(shù)據(jù)湖面試題及知識點總結(jié)什么是數(shù)據(jù)湖?數(shù)據(jù)湖是一種不斷演進中、可擴展的大數(shù)據(jù)存儲、處理、分析的基礎設施;以數(shù)據(jù)為導向,實現(xiàn)任意來源、任意速度、任意規(guī) 模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理;并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各 類企業(yè)級應用。用架構(gòu)圖能很快說明白,用阿里的數(shù)據(jù)架構(gòu)圖來說:CDM ( Common Dimenions Model個性化分析與取故ODS (operational da

2、ta store, staging area)存儲來自各業(yè)務系統(tǒng)(生產(chǎn)系統(tǒng))的原始數(shù)據(jù),即為數(shù)據(jù)湖。CDM為經(jīng)過整合、清洗的數(shù)據(jù)。其中的DWS匯總層,為面向主題的數(shù)據(jù)倉庫(狹義),用于BI報表出數(shù)。簡單來說,數(shù)據(jù)湖的定義就是原始數(shù)據(jù)保存區(qū).雖然這個概念國內(nèi)談的少,但絕大部分互聯(lián)網(wǎng)公司都已經(jīng)有了。國內(nèi)一般把整個 HDFS叫做數(shù)倉(廣義),即存放所有數(shù)據(jù)的地方。02數(shù)據(jù)湖的 數(shù)據(jù)湖的發(fā)展數(shù)據(jù)湖最早是2011年由Pentaho的首席技術官J

3、ames Dixon提出的一個概念,他認為諸如數(shù)據(jù)集市,數(shù)據(jù)倉庫由于其有序性 的特點,勢必會帶來數(shù)據(jù)孤島效應,而數(shù)據(jù)湖可以由于其開放性的特點可以解決數(shù)據(jù)孤島問題。為什么不是數(shù)據(jù)河?因為,數(shù) 據(jù)要能存,而不是一江春水向東流。為什么不是數(shù)據(jù)池?因為,要足夠大,大數(shù)據(jù)太大,一池存不下。為什么不是數(shù)據(jù)海?因 為,企業(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。所以數(shù)據(jù)要能“存”,數(shù)據(jù)要 夠“存”,數(shù)據(jù)要有

4、邊界地“存”。企業(yè)級的數(shù)據(jù)是需要長期積淀的,因此是“數(shù)據(jù)湖”。同時湖水天然會進行分層,滿足不同的生態(tài) 系統(tǒng)要求,這與企業(yè)建設統(tǒng)一數(shù)據(jù)中心,存放管理數(shù)據(jù)的需求是一致的。熱數(shù)據(jù)在上層方便流通應用,溫數(shù)據(jù)、冷數(shù)據(jù)位于數(shù) 據(jù)中心的不同存儲介質(zhì)之中,達到數(shù)據(jù)存儲容量與成本的平衡。但隨著數(shù)據(jù)湖在各類企業(yè)的應用,大家都覺得:嗯,這個數(shù)據(jù) 有用,我要放進去;那個數(shù)據(jù)也有用,我也要放進去;于是把所有的數(shù)據(jù)不假思索地扔進基于數(shù)據(jù)湖的相關技術或工具中,沒 有

5、規(guī)則不成方圓,當我們認為所有數(shù)據(jù)都有用時,那么所有的數(shù)據(jù)都是垃圾,數(shù)據(jù)湖也變成了造成企業(yè)成本高企的數(shù)據(jù)沼澤。 三個引擎的初衷場景并不完全相同,Hudi為了 incremental的upserts, Iceberg定位于高性能的分析與可靠的數(shù)據(jù)管理, Delta定位于流批一體的數(shù)據(jù)處理。這種場景的不同也造成了三者在設計上的差別。尤其是Hudi,其設計與另外兩個相比差別 更為明顯。因此后面是趨同還筑起各自專長優(yōu)勢壁壘未可知。Delta、Hu

6、di、Iceberg三個開源項目中,Delta和Hudi跟Spark 的代碼深度綁定,尤其是寫入路徑。這兩個項目設計之初,都基本上把Spark作為他們的默認計算引擎了。而Apache Iceberg 的方向非常堅定,宗旨就是要做一個通用化設計的Table Format。它完美的解耦了計算引擎和底下的存儲系統(tǒng),便于多樣化計 算引擎和文件格式,很好的完成了數(shù)據(jù)湖架構(gòu)中的Table Format這一層的實現(xiàn),因此也更容易成為Table For

7、mat層的開源事 實標準。另一方面,Apache Iceberg也在朝著流批一體的數(shù)據(jù)存儲層發(fā)展,manifest和snapshot的設計,有效地隔離不同 transaction的變更,非常方便批處理和增量計算。并且,Apache Flink已經(jīng)是一個流批一體的計算引擎,二者都可以完美匹 配,合力打造流批一體的數(shù)據(jù)湖架構(gòu)。Apache Iceberg這個項目背后的社區(qū)資源非常豐富。在國外,Netflix、Apple> Linked

8、in> Adobe等公司都有PB級別的生產(chǎn)數(shù)據(jù)運行在Apache Iceberg ±;在國內(nèi),騰訊這樣的巨頭也有非常龐大的數(shù)據(jù)跑在Apache Iceberg之上,最大的業(yè)務每天有幾十T的增量數(shù)據(jù)寫入。電商 文娛 體育 健康 出行 物流 金融數(shù) 據(jù) 準 備 區(qū)( Staging)線 據(jù)離 數(shù)公共匯爵翳磐扁皿買賣家公共維度衰全站地區(qū)行業(yè)ODS散據(jù)應用層買家育品會員人們可以通過搜索,方便地找到他們想要的數(shù)據(jù),進而進行分析。搜

9、索能力是數(shù)據(jù)湖的十分重要的能力。數(shù)據(jù)安全管控能力:對數(shù)據(jù)的使用權限進行管控,對敏感數(shù)據(jù)進行脫敏或加密處理,也是數(shù)據(jù)湖能商用所必須具備的能力。數(shù)據(jù)質(zhì)量檢驗能力:數(shù)據(jù)質(zhì)量是分析正確的關鍵。因此必須對進入數(shù)據(jù)湖中的數(shù)據(jù)的質(zhì)量情況進行檢驗。及時發(fā)現(xiàn)數(shù)據(jù)湖中數(shù)據(jù)質(zhì)量的問題。為有 效的數(shù)據(jù)探索提供保障。自助數(shù)據(jù)探索能力:應該具備一系列好用的數(shù)據(jù)分析工具,以便各類用戶可以對數(shù)據(jù)湖中的數(shù)據(jù)進行自助探索。包括:支持對流、NoSQL、圖等多種存儲庫的聯(lián)合分

10、析能力支持交互式的大數(shù)據(jù)SQL分析支持AI、機器學習分析支持類似OLAP的BI分析支持報表的生成05數(shù)據(jù)湖的實現(xiàn)遇到了哪些問題?數(shù)據(jù)湖剛提出來時,只是一個樸素的理念。而從理念變成一個可以落地的系統(tǒng),就面臨著許多不得不考慮的現(xiàn)實問題:首先, 把所有原始數(shù)據(jù)都存儲下來的想法,要基于一個前提,就是存儲成本很低。而今數(shù)據(jù)產(chǎn)生的速度越來越快、產(chǎn)生的量越來越大 的情況下,把所有原始數(shù)據(jù),不分價值大小,都存儲下來,這個成本在經(jīng)濟上能不能接受,可能需要

11、打一個問號。其次,數(shù)據(jù) 湖中存放這各類最原始的明細數(shù)據(jù),包括交易數(shù)據(jù)、用戶數(shù)據(jù)等敏感數(shù)據(jù),這些數(shù)據(jù)的安全怎么保證?用戶訪問的權限如何控 制?再次,湖中的數(shù)據(jù)怎么治理?誰對數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的定義、數(shù)據(jù)的變更負責?如何確保數(shù)據(jù)的定義、業(yè)務規(guī)則的一致性? 數(shù)據(jù)湖的理念很好,但是它現(xiàn)在還缺乏像數(shù)據(jù)倉庫那樣,有一整套方法論為基礎,有一系列具有可操作性的工具和生態(tài)為支撐。 正因如此,目前把Hadoop用來對特定的、高價值的數(shù)據(jù)進行處理,構(gòu)建數(shù)據(jù)倉庫

12、的模式,取得了較多的成功;而用來落實數(shù)據(jù) 湖理念的模式,遭遇了一系列的失敗。這里,總結(jié)一些典型的數(shù)據(jù)湖失敗的原因:1.數(shù)據(jù)沼澤:當越來越多的數(shù)據(jù)接入到數(shù)據(jù)湖中,但是卻沒有有效的方法跟蹤這些數(shù)據(jù),數(shù)據(jù)沼澤就發(fā)生了。在這種失 敗中,人們把所有東西都放在HDFS中,期望以后可以發(fā)掘些什么,可沒多久他們就忘那里有什么。2.數(shù)據(jù)泥團:各種各樣的新數(shù)據(jù)接入進數(shù)據(jù)湖中,它們的組織形式、質(zhì)量都不一樣。由于缺乏用于檢查,清理和重組數(shù) 據(jù)的自助服務工具,使

13、得這些數(shù)據(jù)很難創(chuàng)造價值。3.缺乏自助分析工具:由于缺乏好用的自助分析工具,直接對數(shù)據(jù)湖中的數(shù)據(jù)分析很困難。一般都是數(shù)據(jù)工程師或開發(fā) 人員創(chuàng)建一個整理后的小部分數(shù)據(jù)集,把這些數(shù)據(jù)集交付給更廣泛的用戶,以便他們使用熟悉的工具進行數(shù)據(jù)分析。 這限制了更廣泛的人參與到探索大數(shù)據(jù)中,降低了數(shù)據(jù)湖的價值。6.7.缺乏建模的方法論和工具:在數(shù)據(jù)湖中,似乎每一項工作都得從頭開始,因為以前的項目產(chǎn)生的數(shù)據(jù)幾乎沒有辦法重 用。其實,我們罵數(shù)據(jù)倉庫很難變化以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論