Delta Lake入門

技術談話係列

概述

Lakehouse建築模式的崛起是建立在技術創新的基礎上的,使數據湖能夠支持傳統數據倉庫工作負載的酸性交易和其他功能。加入我們,參加Delta Lake的五部分學習係列。這一係列的技術談判將帶您進入三角洲湖技術基金會(Apache Spark),構建高度可擴展的數據管道,解決合並的流媒體 +批處理工作負載,使用Delta Lake和MLFlow為數據科學提供動力,甚至在Delta Lake Engineers的幕後了解起源。

許多研討會都包括筆記本和幻燈片鏈接供您下載。

如果您想跟隨,請注冊您的免費社區版帳戶或者下載三角洲湖圖書館

與三角洲湖變得更好

Apache Spark是大數據的主要處理框架。Delta Lake為Spark增添了可靠性,因此您的分析和機器學習計劃可以隨時訪問質量,可靠的數據。該網絡研討會涵蓋了Delta Lake的使用來增強火花環境的數據可靠性。

簡化和擴展數據工程管道

通用的數據工程管道架構使用與不同質量級別相對應的表,逐步將結構添加到數據中:數據攝取(“青銅”表),轉換/功能工程(“銀”表)和機器學習培訓或預測(“金桌)。合並,我們將這些表稱為“多跳”架構。它允許數據工程師構建一條以原始數據開頭的管道,作為“單一真實來源”,所有內容都從中流動。

超越Lambda:介紹三角洲體係結構

Lambda體係結構是一種流行的技術,其中記錄由批處理係統和流媒體係統並行處理。然後在查詢時間組合結果以提供完整的答案。隨著達美湖(Delta Lake)的出現,我們看到許多客戶在到達時采用了一個簡單的連續數據流模型來處理數據。beplay体育app下载地址我們將此架構稱為“三角洲體係結構”。在本屆會議中,我們介紹了采用連續數據流模型以及三角洲體係結構如何解決這些問題的主要瓶頸。

使用Delta Lake和MLFlow為數據科學準備數據

在計劃數據科學計劃時,必須對整個數據分析領域進行整體視野。數據工程是數據科學的關鍵推動力,幫助及時提供可靠的優質數據。Delta Lake是一個為數據湖帶來可靠性的開源存儲層,可以幫助您將數據可靠性提高到一個新的水平。

幕後:三角洲湖的創世紀

開發人員倡導者丹尼·李(Denny Lee)采訪了Databricks的軟件工程師Burak Yavuz,以了解Delta Lake團隊的決策過程以及他們為何設計,架構和實施今天的架構。了解團隊麵臨的技術挑戰,如何解決這些挑戰以及了解未來計劃。

接下來:潛入三角洲湖

深入研究Delta Lake的內部,這是一種流行的開源技術,可實現酸性交易,時間旅行,模式執法等,以及您的數據湖泊之上。

立即觀看

Baidu
map