版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、最新大廠數(shù)據(jù)湖面試題及知識點(diǎn)總結(jié)什么是數(shù)據(jù)湖?數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施;以數(shù)據(jù)為導(dǎo)向,實(shí)現(xiàn)任意來源、任意速度、任意規(guī) 模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理;并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各 類企業(yè)級應(yīng)用。用架構(gòu)圖能很快說明白,用阿里的數(shù)據(jù)架構(gòu)圖來說:CDM ( Common Dimenions Model個(gè)性化分析與取故ODS (operational da
2、ta store, staging area)存儲來自各業(yè)務(wù)系統(tǒng)(生產(chǎn)系統(tǒng))的原始數(shù)據(jù),即為數(shù)據(jù)湖。CDM為經(jīng)過整合、清洗的數(shù)據(jù)。其中的DWS匯總層,為面向主題的數(shù)據(jù)倉庫(狹義),用于BI報(bào)表出數(shù)。簡單來說,數(shù)據(jù)湖的定義就是原始數(shù)據(jù)保存區(qū).雖然這個(gè)概念國內(nèi)談的少,但絕大部分互聯(lián)網(wǎng)公司都已經(jīng)有了。國內(nèi)一般把整個(gè) HDFS叫做數(shù)倉(廣義),即存放所有數(shù)據(jù)的地方。02數(shù)據(jù)湖的 數(shù)據(jù)湖的發(fā)展數(shù)據(jù)湖最早是2011年由Pentaho的首席技術(shù)官J
3、ames Dixon提出的一個(gè)概念,他認(rèn)為諸如數(shù)據(jù)集市,數(shù)據(jù)倉庫由于其有序性 的特點(diǎn),勢必會帶來數(shù)據(jù)孤島效應(yīng),而數(shù)據(jù)湖可以由于其開放性的特點(diǎn)可以解決數(shù)據(jù)孤島問題。為什么不是數(shù)據(jù)河?因?yàn)?,?shù) 據(jù)要能存,而不是一江春水向東流。為什么不是數(shù)據(jù)池?因?yàn)椋銐虼?,大?shù)據(jù)太大,一池存不下。為什么不是數(shù)據(jù)海?因 為,企業(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。所以數(shù)據(jù)要能“存”,數(shù)據(jù)要 夠“存”,數(shù)據(jù)要有
4、邊界地“存”。企業(yè)級的數(shù)據(jù)是需要長期積淀的,因此是“數(shù)據(jù)湖”。同時(shí)湖水天然會進(jìn)行分層,滿足不同的生態(tài) 系統(tǒng)要求,這與企業(yè)建設(shè)統(tǒng)一數(shù)據(jù)中心,存放管理數(shù)據(jù)的需求是一致的。熱數(shù)據(jù)在上層方便流通應(yīng)用,溫?cái)?shù)據(jù)、冷數(shù)據(jù)位于數(shù) 據(jù)中心的不同存儲介質(zhì)之中,達(dá)到數(shù)據(jù)存儲容量與成本的平衡。但隨著數(shù)據(jù)湖在各類企業(yè)的應(yīng)用,大家都覺得:嗯,這個(gè)數(shù)據(jù) 有用,我要放進(jìn)去;那個(gè)數(shù)據(jù)也有用,我也要放進(jìn)去;于是把所有的數(shù)據(jù)不假思索地扔進(jìn)基于數(shù)據(jù)湖的相關(guān)技術(shù)或工具中,沒 有
5、規(guī)則不成方圓,當(dāng)我們認(rèn)為所有數(shù)據(jù)都有用時(shí),那么所有的數(shù)據(jù)都是垃圾,數(shù)據(jù)湖也變成了造成企業(yè)成本高企的數(shù)據(jù)沼澤。 三個(gè)引擎的初衷場景并不完全相同,Hudi為了 incremental的upserts, Iceberg定位于高性能的分析與可靠的數(shù)據(jù)管理, Delta定位于流批一體的數(shù)據(jù)處理。這種場景的不同也造成了三者在設(shè)計(jì)上的差別。尤其是Hudi,其設(shè)計(jì)與另外兩個(gè)相比差別 更為明顯。因此后面是趨同還筑起各自專長優(yōu)勢壁壘未可知。Delta、Hu
6、di、Iceberg三個(gè)開源項(xiàng)目中,Delta和Hudi跟Spark 的代碼深度綁定,尤其是寫入路徑。這兩個(gè)項(xiàng)目設(shè)計(jì)之初,都基本上把Spark作為他們的默認(rèn)計(jì)算引擎了。而Apache Iceberg 的方向非常堅(jiān)定,宗旨就是要做一個(gè)通用化設(shè)計(jì)的Table Format。它完美的解耦了計(jì)算引擎和底下的存儲系統(tǒng),便于多樣化計(jì) 算引擎和文件格式,很好的完成了數(shù)據(jù)湖架構(gòu)中的Table Format這一層的實(shí)現(xiàn),因此也更容易成為Table For
7、mat層的開源事 實(shí)標(biāo)準(zhǔn)。另一方面,Apache Iceberg也在朝著流批一體的數(shù)據(jù)存儲層發(fā)展,manifest和snapshot的設(shè)計(jì),有效地隔離不同 transaction的變更,非常方便批處理和增量計(jì)算。并且,Apache Flink已經(jīng)是一個(gè)流批一體的計(jì)算引擎,二者都可以完美匹 配,合力打造流批一體的數(shù)據(jù)湖架構(gòu)。Apache Iceberg這個(gè)項(xiàng)目背后的社區(qū)資源非常豐富。在國外,Netflix、Apple> Linked
8、in> Adobe等公司都有PB級別的生產(chǎn)數(shù)據(jù)運(yùn)行在Apache Iceberg ±;在國內(nèi),騰訊這樣的巨頭也有非常龐大的數(shù)據(jù)跑在Apache Iceberg之上,最大的業(yè)務(wù)每天有幾十T的增量數(shù)據(jù)寫入。電商 文娛 體育 健康 出行 物流 金融數(shù) 據(jù) 準(zhǔn) 備 區(qū)( Staging)線 據(jù)離 數(shù)公共匯爵翳磐扁皿買賣家公共維度衰全站地區(qū)行業(yè)ODS散據(jù)應(yīng)用層買家育品會員人們可以通過搜索,方便地找到他們想要的數(shù)據(jù),進(jìn)而進(jìn)行分析。搜
9、索能力是數(shù)據(jù)湖的十分重要的能力。數(shù)據(jù)安全管控能力:對數(shù)據(jù)的使用權(quán)限進(jìn)行管控,對敏感數(shù)據(jù)進(jìn)行脫敏或加密處理,也是數(shù)據(jù)湖能商用所必須具備的能力。數(shù)據(jù)質(zhì)量檢驗(yàn)?zāi)芰Γ簲?shù)據(jù)質(zhì)量是分析正確的關(guān)鍵。因此必須對進(jìn)入數(shù)據(jù)湖中的數(shù)據(jù)的質(zhì)量情況進(jìn)行檢驗(yàn)。及時(shí)發(fā)現(xiàn)數(shù)據(jù)湖中數(shù)據(jù)質(zhì)量的問題。為有 效的數(shù)據(jù)探索提供保障。自助數(shù)據(jù)探索能力:應(yīng)該具備一系列好用的數(shù)據(jù)分析工具,以便各類用戶可以對數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行自助探索。包括:支持對流、NoSQL、圖等多種存儲庫的聯(lián)合分
10、析能力支持交互式的大數(shù)據(jù)SQL分析支持AI、機(jī)器學(xué)習(xí)分析支持類似OLAP的BI分析支持報(bào)表的生成05數(shù)據(jù)湖的實(shí)現(xiàn)遇到了哪些問題?數(shù)據(jù)湖剛提出來時(shí),只是一個(gè)樸素的理念。而從理念變成一個(gè)可以落地的系統(tǒng),就面臨著許多不得不考慮的現(xiàn)實(shí)問題:首先, 把所有原始數(shù)據(jù)都存儲下來的想法,要基于一個(gè)前提,就是存儲成本很低。而今數(shù)據(jù)產(chǎn)生的速度越來越快、產(chǎn)生的量越來越大 的情況下,把所有原始數(shù)據(jù),不分價(jià)值大小,都存儲下來,這個(gè)成本在經(jīng)濟(jì)上能不能接受,可能需要
11、打一個(gè)問號。其次,數(shù)據(jù) 湖中存放這各類最原始的明細(xì)數(shù)據(jù),包括交易數(shù)據(jù)、用戶數(shù)據(jù)等敏感數(shù)據(jù),這些數(shù)據(jù)的安全怎么保證?用戶訪問的權(quán)限如何控 制?再次,湖中的數(shù)據(jù)怎么治理?誰對數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的定義、數(shù)據(jù)的變更負(fù)責(zé)?如何確保數(shù)據(jù)的定義、業(yè)務(wù)規(guī)則的一致性? 數(shù)據(jù)湖的理念很好,但是它現(xiàn)在還缺乏像數(shù)據(jù)倉庫那樣,有一整套方法論為基礎(chǔ),有一系列具有可操作性的工具和生態(tài)為支撐。 正因如此,目前把Hadoop用來對特定的、高價(jià)值的數(shù)據(jù)進(jìn)行處理,構(gòu)建數(shù)據(jù)倉庫
12、的模式,取得了較多的成功;而用來落實(shí)數(shù)據(jù) 湖理念的模式,遭遇了一系列的失敗。這里,總結(jié)一些典型的數(shù)據(jù)湖失敗的原因:1.數(shù)據(jù)沼澤:當(dāng)越來越多的數(shù)據(jù)接入到數(shù)據(jù)湖中,但是卻沒有有效的方法跟蹤這些數(shù)據(jù),數(shù)據(jù)沼澤就發(fā)生了。在這種失 敗中,人們把所有東西都放在HDFS中,期望以后可以發(fā)掘些什么,可沒多久他們就忘那里有什么。2.數(shù)據(jù)泥團(tuán):各種各樣的新數(shù)據(jù)接入進(jìn)數(shù)據(jù)湖中,它們的組織形式、質(zhì)量都不一樣。由于缺乏用于檢查,清理和重組數(shù) 據(jù)的自助服務(wù)工具,使
13、得這些數(shù)據(jù)很難創(chuàng)造價(jià)值。3.缺乏自助分析工具:由于缺乏好用的自助分析工具,直接對數(shù)據(jù)湖中的數(shù)據(jù)分析很困難。一般都是數(shù)據(jù)工程師或開發(fā) 人員創(chuàng)建一個(gè)整理后的小部分?jǐn)?shù)據(jù)集,把這些數(shù)據(jù)集交付給更廣泛的用戶,以便他們使用熟悉的工具進(jìn)行數(shù)據(jù)分析。 這限制了更廣泛的人參與到探索大數(shù)據(jù)中,降低了數(shù)據(jù)湖的價(jià)值。6.7.缺乏建模的方法論和工具:在數(shù)據(jù)湖中,似乎每一項(xiàng)工作都得從頭開始,因?yàn)橐郧暗捻?xiàng)目產(chǎn)生的數(shù)據(jù)幾乎沒有辦法重 用。其實(shí),我們罵數(shù)據(jù)倉庫很難變化以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 最新大廠數(shù)據(jù)湖面試題及知識點(diǎn)總結(jié)
- 2018最新bat大數(shù)據(jù)面試題
- linux筆試面試知識點(diǎn)總結(jié)
- 最新-黨務(wù)崗位面試題
- 最新麻醉專業(yè)面試題
- sap abap面試知識點(diǎn)總結(jié)
- 最新社區(qū)面試題.doc
- 2018最新java面試題整理
- 數(shù)據(jù)分析面試題
- java面試基礎(chǔ)知識點(diǎn)總結(jié)
- 數(shù)據(jù)庫面試題
- 最新上海初中物理知識點(diǎn)總結(jié)
- 最新上海初中物理知識點(diǎn)總結(jié)
- 最新書記員面試題~
- 最新書記員面試題
- 數(shù)據(jù)庫筆試面試題
- 《數(shù)據(jù)結(jié)構(gòu)》知識點(diǎn)總結(jié)
- 數(shù)據(jù)庫面試題整理
- 最新中考數(shù)學(xué)復(fù)習(xí)知識點(diǎn)總結(jié)
- 面試題及答案
評論
0/150
提交評論