跳轉到主要內容
工程的博客

ACID事務數據湖泊技術談判:開始使用三角洲湖

2020年11月23日 工程的博客

分享這篇文章

得到一個O ' reilly的早期預覽新的電子書一步一步的指導你需要開始使用三角洲湖。


作為我們的數據+人工智能網上聚會,我們探討的話題從基因組學(客人從Regeneron)到機器學習管道和GPU-accelerated毫升表的性能優化。一個關鍵的主題區域Lakehouse的探索。

Lakehouse架構模式的興起是建立在技術創新使湖的數據支持ACID事務和其他特性的傳統數據倉庫的工作負載。

開始使用三角洲湖技術演講係列將介紹的技術基礎三角洲湖(Apache火花™),構建高度可伸縮的數據管道,處理合並流+批處理工作負載,驅動數據科學與三角洲湖和MLflow,甚至會在幕後與三角洲湖工程師了解的起源。

的

使Apache火花與三角洲湖更好

Apache火花是占主導地位的大數據的處理框架。三角洲湖增加了可靠性引發你的分析和機器學習計劃準備訪問質量,可靠的數據存儲在雲低成本對象存儲如AWS S3, Azure存儲和穀歌雲存儲。在這個會話中,您將了解使用三角洲湖來提高數據可靠性數據湖泊。

簡化和規模數據工程管道

工程管道架構使用公共數據表對應於不同的質量水平,逐步添加結構數據:數據攝入(“青銅”表),轉換/特性工程(“銀”表)和總表/機器學習培訓或預測(“黃金”表)。結合起來,我們將這些表作為一個“種”的架構。它允許數據工程師建立管道始於原始數據作為“單一來源的真相”的所有流動。在這個會話中,您將了解工程管道架構的數據,數據工程管道場景和最佳實踐,三角洲湖如何提高數據工程管道,並采用三角洲湖是多麼容易構建數據工程管道。

超越λ:引入三角洲體係結構

λ架構是一個受歡迎的技術,記錄是由一批處理並行係統和流媒體係統。結果,在查詢時結合提供一個完整的答案。隨著三角洲湖,我們看到很多我們的客戶采用一個簡單的連續數據流模型來處理數據的到來。beplay体育app下载地址我們稱之為建築“三角洲體係結構。“在這個會話中,我們將介紹采用連續數據流模型的主要瓶頸和三角洲體係結構是如何解決這些問題。

獲取數據準備數據科學與三角洲湖和MLflow

當涉及到規劃數據科學計劃,必須采取一個整個數據分析領域的整體視圖。數據工程數據科學的關鍵推動者,幫助提供可靠、及時質量數據。在這個會話中,您將學習科學數據生命周期,現代數據工程的關鍵原則,三角洲湖如何幫助可靠的數據準備好分析,是多麼容易采用湖三角洲湖權力你的數據,以及如何將三角洲湖內數據基礎設施,使數據的科學。

幕後:創世紀的三角洲湖

開發人員提倡丹尼李采訪Burak•,軟件工程師在磚,了解三角洲湖團隊的決策過程和為什麼他們設計,架構,實現今天的體係結構。在這個會話中,您將了解團隊麵臨的技術挑戰,這些挑戰是如何解決,以及他們對未來的計劃。

開始

今天開始填滿你的三角洲湖通過觀察這一點完整的係列

接下來是什麼?

如果你想擴大你的知識在三角洲湖,看我們深入三角洲湖技術係列。指導下三角洲湖工程團隊,包括Burak•,安德裏亞·諾伊曼如來佛“TD”Das,和開發人員的擁護者,丹尼李,您將了解三角洲湖的內部實現。

如果你想聽到未來網上聚會,加入我們數據+人工智能網絡聚會在meetup.com上

深入三角洲湖
讓自己沉浸在三角洲湖的內部,一個流行的開源技術更可靠數據的湖泊。

免費試著磚
看到所有工程的博客的帖子
Baidu
map