跳轉到主要內容
公司博客上

開源三角洲湖

2019年4月24日 公司博客上

分享這篇文章

得到一個O ' reilly的新電子書的早期預覽一步一步的指導你需要開始使用三角洲湖。

建立可靠的數據湖泊大規模毫不費力

我們興奮地宣布三角洲湖的開源項目。三角洲湖是一個存儲層,給你帶來了可靠性數據的湖泊建立在HDFS和雲存儲通過提供ACID事務之間通過樂觀並發控製為一致讀期間寫撰寫和快照隔離。三角洲湖還提供內置的數據版本控製方便回滾和複製報告。該項目是可用的delta.io下載和使用Apache 2.0許可

挑戰與數據湖泊

湖泊是一個常見元素在現代數據架構。他們作為一個中央攝入過多的數據,組織尋求收集和我的。而一個好的一步處理數據的範圍,他們遇到以下常見問題:

  1. 讀寫數據的湖泊是不可靠的。數據工程師經常遇到不安全的問題寫進數據湖泊,使讀者看到垃圾數據中寫道。他們必須構建解決方案,以確保讀者總是看到一致的數據中寫道。
  2. 數據質量數據湖泊很低。將非結構化數據到數據湖是很容易的。但這是在數據質量的成本。沒有任何驗證機製模式和數據,數據湖泊數據質量不佳。因此,分析項目,努力挖掘這些數據也失敗。
  3. 與越來越多的數據表現不佳。隨著湖被扔進一個數據的數據量增加,文件和目錄的數量也會增加。大數據工作和處理數據的查詢引擎花大量的時間在處理元數據操作。這個問題是更明顯的流媒體工作。
  4. 更新記錄數據的湖泊是困難的。工程師需要建立複雜的管道讀取整個分區或表、修改數據和寫回。這些管道是效率低下,難以維護。

因為這些挑戰,許多大數據項目未能兌現自己的願景或者有時隻是完全失敗。我們需要一個解決方案,使數據專業人員利用現有數據的湖泊,但同時確保數據質量。

介紹了三角洲湖開源項目

三角洲湖地址上麵的問題簡化湖泊你如何建立你的數據。三角洲湖提供了以下主要功能:

  • ACID事務:三角洲湖之間提供ACID事務多個寫道。每寫一個事務有一個連續的訂單寫在一個事務日誌記錄。事務日誌寫在文件級別和用途樂觀並發控製適合數據以來湖泊多個寫道試圖修改同一個文件不經常發生。在場景中有一個衝突,三角洲湖拋出一個並發修改異常為用戶處理他們的工作並重試。三角洲湖還提供強勁可序列化的隔離級別允許工程師不斷保持寫一個目錄或表和消費者保持閱讀或表相同的目錄中。讀者會看到最新的快照時存在閱讀開始。
  • 模式管理:三角洲湖自動驗證的模式DataFrame寫入表的兼容模式。表中的列存在但不是DataFrame設置為null。如果有額外的列DataFrame表中不存在,此操作將拋出一個異常。三角洲湖有DDL顯式地添加新列顯式和自動更新模式的能力。
  • 可擴展的元數據處理:三角洲湖一個表或目錄的元數據信息存儲在事務日誌而不是metastore。這允許三角洲湖在常數時間在大目錄列表文件,讀取數據時是有效的。
  • 數據版本控製和時間旅行:三角洲湖允許用戶讀取之前的快照或目錄表。當文件被修改時寫道,三角洲湖創建新版本的文件和保存舊版本。當用戶想讀表或舊版本的目錄,他們可以提供一個時間戳或版本號Apache火花的閱讀api和三角洲湖構造完整的快照的時間戳或版本基於事務日誌中的信息。這允許用戶複製實驗和報告也恢複舊版本表,如果需要的話。
  • 統一的批處理和流水槽:除了批寫道,三角洲湖也可以作為一個有效的流水槽Apache火花的結構化流。結合ACID事務和可擴展的元數據處理,有效流水槽附近現在使很多實時分析用例,而無需維護一個複雜的流和批處理管道。
  • 更新和刪除記錄(即將到來的):三角洲湖將支持合並,更新和刪除DML命令。這使工程師可以輕鬆地插入和刪除記錄的數據湖泊和簡化他們的變化數據捕獲和GDPR用例。由於三角洲湖追蹤並修改數據在文件級別的粒度,它比閱讀更有效和覆蓋整個分區或表。
  • 數據的預期(即將到來的):三角洲湖還將支持一個新的API來設置數據表上的預期或目錄。工程師將能夠指定一個布爾條件和優化程度來處理數據的預期。當Apache火花工作寫表或目錄,三角洲湖會自動驗證記錄和違反時,它將根據嚴重程度提供了處理記錄。

結論

Apache引發了大數據處理景觀和允許工程師建立有效的數據管道。然而,我們發現一個關鍵的工程師如何管理他們的差距與大數據存儲層,on-prem和雲。他們不得不通過變通方案和構建複雜的數據管道向消費者傳遞數據。隨著三角洲湖,我們看到磚客戶湖泊大規模毫不費力地構建可靠的數據。beplay体育app下载地址現在我們開源三角洲湖項目更廣泛的社區受益。

三角洲湖項目可供下載delta.io。我們也歡迎貢獻和興奮與社區合作,讓它更好。你可以加入我們郵件列表鬆弛的通道與社區的討論。嚐試在雲中三角洲湖在行動,注冊一個免費試用磚(Azure|AWS)。

對開源三角洲湖感興趣嗎?
訪問在線三角洲湖中心要了解更多,請下載最新的代碼,並加入三角洲湖社區。

免費試著磚
看到所有公司博客上的帖子
Baidu
map