跳轉到主要內容
公司博客上

三角洲湖現在由Linux基金會成為數據的開放標準湖泊

2019年10月16日 公司博客上

分享這篇文章

得到一個O ' reilly的新電子書的早期預覽一步一步的指導你需要開始使用三角洲湖。


三角洲湖和Linux基金會

在今天的火花+人工智能在阿姆斯特丹的歐洲峰會上,我們宣布三角洲湖成為Linux基金會項目。與社區一起,該項目旨在建立一個開放的標準來管理大量數據在數據湖泊。Apache 2.0軟件許可保持不變。

三角洲湖的重點是提高數據的可靠性和可伸縮性湖泊。更高層次的抽象和擔保,包括ACID事務和時間旅行,大大簡化了現實世界的數據工程架構的複雜性。因為我們六個月前開源三角洲湖,我們一直卑微的接待。項目已經部署在成千上萬的組織和流程艾每個月的數據,在數據和人工智能體係結構成為一個不可或缺的支柱。

進一步推動采用和發展社區,我們決定與Linux基金會合作,利用他們的平台,在促進影響力的開源項目的豐富經驗,從Linux本身,詹金斯,Kubernetes。Beplay体育安卓版本我們加入了阿裏巴巴,博思艾倫,英特爾和亮光宣布開發三角洲湖不僅支持Apache火花,但也Apache蜂巢,Apache Nifi,轉眼間。

豐富的功能集湖泊更健壯的數據

正如前麵所討論的,湖泊三角洲湖使數據更容易使用、更健壯。它是為了解決普遍存在的許多問題與數據湖泊。例如,不完整的數據攝入會導致腐敗的數據;這是解決三角洲湖的ACID事務,包括多個數據管道的讀寫數據並發數據湖。數據源喂養數據湖泊可能不會提供正確完整的列數據或數據類型,所以模式執行防止錯誤數據導致數據損壞。變化數據捕獲和更新/刪除/插入支持允許non-append-only工作負載在工作數據湖泊,GDPR / CCPA的必須。

的列表三角洲湖的能力的推移,帶來更大的整體目標數據數據可靠性和可伸縮性湖泊,所以他們的數據可以更容易食用,其他係統和技術。

數據湖開放性和可擴展性

三角洲湖的關鍵原則設計的開放性和可擴展性。三角洲湖所有的數據和元數據存儲在雲存儲對象,一個開放協議設計利用現有的開放格式如JSON和Apache拚花。這種開放性不僅消除了廠商鎖定的風險,但同樣重要的是構建一個生態係統,使各種用例從數據科學、機器學習和SQL。

以確保項目的長期增長和社區發展,我們與Linux基金會工作,進一步的開放精神。

開放三角洲湖治理與社區參與

我們感到很興奮Linux基金會現在將主機三角洲湖作為一個中立的項目,一個開放管理模式,鼓勵參與和技術貢獻。這將有助於為長期的管理提供了一個框架;建立一個社區生態係統在三角洲湖投資的成功;和發展一個開放的標準數據存儲在數據湖泊。我們相信這種方法將有助於確保數據存儲在三角洲湖仍然開放和訪問,開車時增加了創新和發展解決挑戰性的問題。

磚團隊創建和導致各種開源項目的數據與人工智能生態係統,包括Apache火花,MLflow,考拉,三角洲湖。我們繼續參與開源社區,因為我們知道這是最快的,最全麵的方式給市場帶來新功能。我們已經能夠建立一個可持續的、健康的業務,同時也結合社區,以確保項目不鎖定客戶的專有係統或數據格式。beplay体育app下载地址

我們迫不及待地想看到社區將塑造未來的三角洲湖和更廣泛的生態係統。請訪問delta.io最新版本的信息,跟進@DeltaLakeOSS在Twitter上。

了解更多:Linux基金會的新聞稿在三角洲湖開源項目托管

免費試著磚
看到所有公司博客上的帖子
Baidu
map