跳轉到主要內容
工程的博客

免費獲取三角洲湖:明確的指南(早期版本)

分享這篇文章

在數據+人工智能峰會上,我們興奮地宣布提前釋放的三角洲湖:明確的指南O ' reilly發表。導遊教如何構建一個現代lakehouse建築結合性能、可靠性和數據完整性的一個倉庫的靈活性,規模和支持非結構化數據在數據湖。它還展示了如何使用三角洲湖lakehouse的關鍵推動者,提供ACID事務,時間旅行、模式約束和更加開放的頂部鋪格式。三角洲湖增強Apache火花和便於存儲和管理大量複雜的數據通過支持數據完整性、數據質量和性能。


得到的早期預覽O ' reilly的新電子書一步一步的指導你需要開始使用三角洲湖。


從閱讀本指南你能指望什麼?了解所有圍繞湖泊使用將事務性和可靠性數據三角洲湖。你將獲得一個了解大數據技術的演變景觀——從數據倉庫到數據lakehouse

Lakehouse進化數據
資料來源:數據Lakehouse進化

沒有短缺的挑戰與構建數據管道,這引導穿過如何解決這些問題,使數據管道健壯和可靠,以便下遊用戶實現重大價值和依賴他們的數據來做出重要的數據驅動的決策。

雖然許多組織已經標準化Apache火花™隨著大數據處理引擎,我們需要添加事務性數據湖泊,以確保高質量的端到端數據管道。這就是三角洲湖。三角洲湖增強Apache火花和便於存儲和管理大量複雜的數據通過支持數據完整性、數據質量和性能。和最近的公告邁克爾時常要馬泰Zaharia,磚最近發布的三角洲湖1.0Apache火花3.1,增加了實驗的支持穀歌雲存儲,甲骨文雲存儲IBM Cloud對象存儲。在本版本中,我們還介紹了三角洲分享,一個開放的協議大型數據集的安全實時交換,使組織共享數據實時不管他們所使用的計算平台。Beplay体育安卓版本我們將介紹所有這些版本的循序漸進的指導將來的版本的書。

本指南的目的是走數據工程師、科學家和數據專業人員通過如何建立可靠的數據使用三角洲湖湖泊和大規模的數據管道。此外,您將:

  • 理解關鍵數據的可靠性及如何應對這些挑戰
  • 學習如何使用三角洲湖實現數據可靠性的改進
  • 同時學習如何運行流湖和批處理作業數據
  • 探索如何執行更新、刪除和合並命令對數據湖
  • 投入使用時間旅行回滾並檢查以前版本的數據
審查事務日誌的結構
  • 學習最佳實踐來構建有效的、高質量的端到端數據管道實際用例
  • 與其他數據集成技術像轉眼間,雅典娜、紅移和其他BI工具和編程語言
  • 了解不同的用例事務日誌可以絕對的救命稻草,如數據治理(GDPR / CCPA):
簡化管理用例與時間旅行

本書讀者角色

本指南不需要任何先驗知識現代lakehouse建築然而,大數據的一些知識,數據格式,雲架構和Apache火花是有益的。雖然我們邀請任何人有興趣的數據架構和機器學習來檢查我們的導遊,這是特別有用:

  • 數據工程師與Apache火花或大數據背景
  • 機器學習工程師參與日常數據工程是誰
  • 數據科學家有興趣學習幕後策劃的工程數據
  • dba(或其他操作人)誰知道SQL和數據庫概念和想要應用他們的知識數據的新的世界湖泊
  • 大學的學生學習一切可能的CS,數據和人工智能嗎

早期發布的數字圖書從可用O ' reilly。你可以閱讀電子書的最早懷疑作者的原始和未編輯的內容寫這麼您可以利用這些技術之前的官方發布這些標題。最後的數字拷貝預計將在2021年底發布的打印副本將在2022年4月。多虧了加裏•奧布萊恩,傑斯哈伯曼克裏斯Faucher從O ' reilly與圖書出版一直幫助我們。

提前釋放的三角洲湖:明確的指南
提前釋放的三角洲湖:明確的指南

提供你一個先睹為快,這裏是一段節選第二章描述三角洲湖是什麼。

三角洲湖是什麼?

如前所述,隨著時間的推移,有不同的數據存儲解決方案構建來解決這個問題——從數據庫到數據質量湖泊。從數據庫數據湖泊過渡允許業務邏輯與存儲的分離以及獨立規模的計算和存儲能力。但迷失在這個轉型是確保數據可靠性。提供數據可靠性數據湖泊三角洲湖的發展。
由最初的創造者Apache火花,三角洲湖旨在結合兩全其美的(即在線分析工作量。OLAP風格):數據庫的事務可靠性數據的水平可伸縮性的湖泊

三角洲湖是一個基於文件的,開源提供ACID事務的存儲格式,可擴展的元數據處理,結合流媒體和批量數據處理。它運行在現有數據的湖泊和兼容Apache火花和其他處理引擎。具體地說,它提供了以下功能:

  • 酸擔保:三角洲湖確保所有數據更改寫入存儲是耐用性和對讀者自動是可見的。換句話說,沒有更多的部分或損壞的文件!我們將討論更多的酸擔保作為交易的一部分記錄在本章後麵。
  • 可伸縮的數據和元數據處理:因為湖泊三角洲湖是建立在數據,所有讀寫使用火花或其他分布式處理引擎本質上是可伸縮的pb級別。然而,與大多數其他的存儲格式和查詢引擎,三角洲湖利用火花規模的所有元數據處理,從而有效地處理數十億的元數據文件pb級別的表。我們將討論更多的事務日誌在本章後麵。
  • 審計曆史和時間旅行:三角洲湖事務日誌記錄每個細節變化提供一個完整的審計跟蹤數據的變化。這些數據快照使開發人員能夠訪問和恢複到早期版本的數據審計,回滾,或者複製實驗。我們將在第三章將深入研究這個話題:時間旅行與三角洲。
  • 執行模式和模式演化:三角洲湖自動防止數據的插入一個不正確的模式,即表模式不匹配。在需要的時候,它允許表模式是明確和安全進化以適應數據不會改變。我們將在第四章將深入研究這個話題聚焦模式執法和演化。
  • 支持刪除、更新和合並:大多數分布式處理框架不支持原子數據修改操作數據湖泊。三角洲湖支持合並、更新和刪除操作,使複雜的用例包括但不限於變更數據獲取(CDC), slowly-changing-dimension (SCD)操作,和流媒體插入。我們將在第5章將深入研究這一主題:數據修改三角洲。
  • 流和批處理的統一:三角洲湖表有工作能力都在批處理和流源和下沉。工作能力在各種各樣的延遲從流數據攝入批曆史回填交互式查詢都是工作的。我們將在第6章將深入研究這個話題:流媒體應用程序與三角洲。

(一)管道使用單獨的存儲係統和(b)使用三角洲湖流和表存儲。

上麵的圖(從VLDB20論文引用)顯示了一個數據管道使用三個存儲係統實現(一個消息隊列,對象存儲和數據倉庫),或者使用三角洲湖流和表存儲。三角洲湖版本刪除了需要管理數據的多個副本,隻使用低成本的對象存儲。有關更多信息,請參考VLDB20論文:三角洲湖:高性能酸表存儲在雲存儲對象。


另外,我們計劃涵蓋以下主題在這本書的最終版本。

  • 構建數據管道正在建設的關鍵部分正確的平台和體係結構,因此我們將聚焦於如何構建Beplay体育安卓版本三角洲湖大獎章架構(第七章)Lakehouse架構(第八章)分別。
  • 作為所有數據的數據可靠性是至關重要的工程和數據科學係統,重要的是,這種能力是可以訪問所有係統。因此在集成與三角洲湖(第9章),我們將關注如何三角洲湖與其他開源和專有係統集成包括但不限於轉眼間,雅典娜和更多!
  • 與三角洲湖生產多年超過1 exabyte每天處理的數據,有大量的設計技巧和最佳實踐,將討論設計模式使用三角洲湖(第十章)
  • 同樣重要的生產環境是構建安全與治理的能力為你的湖,這將是覆蓋著安全性和治理(第11章)。
  • 圓了這本書,我們還將討論重要的主題包括性能和調優(第12章),遷移到三角洲湖(第13章),三角洲湖案例研究(第14章)

請一定要檢查出的一些相關內容數據+人工智能峰會2021Beplay体育安卓版本平台——關鍵提示有遠見和思想領袖包括Bill Inmon:數據倉庫的父親,馬拉拉Yousafzai:諾貝爾和平獎得主和教育主張,Moogega庫珀博士亞當Steltzner:著名的開拓性的工程師火星探測器“毅力”在nasa噴氣推進實驗室的使命,索爾Rashidi:曹在雅詩蘭黛,DJ帕蒂爾誰創造了Linkedin的標題“數據科學家”,邁克爾時常要磚,傑出的軟件工程師,馬泰Zaharia:磚聯合創始人和首席技術專家,和最初的創造者Apache火花MLflow阿裏Ghodsi演講者:磚的首席執行官兼聯合創始人等特性。你的知識水平高技術含量由權威專家了。
免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map