跳轉到主要內容
公司博客上

引入三角洲未來數據集的時間旅行

2021年4月1日 公司博客上

分享這篇文章

我們很高興介紹增強時間旅行的能力磚三角洲湖,下一代統一分析引擎之上的Apache火花,我們所有的用戶。使用這個新特性,三角洲可以自動推斷大數據集存儲在數據湖,讓今天訪問任何未來版本的數據。這個時態數據管理特性簡化了你的數據管道便於審計、預測模式變化和運行實驗之前,甚至存在或懷疑現有的數據。您的組織可以最後雲中的規範分析的數據集將抵達未來和今天不依賴於現有的數據集。

數據Lakehouse上升探索為什麼lakehouses未來的數據架構和數據倉庫的父親,Bill Inmon。

共同的挑戰與當前數據

  • 停留在目前的:今天的數據變得更有價值和可操作的時候明天的數據。因為你猜怎麼著?現在是昨天的數據,這是偉大的報告,但不會為你贏得任何創新獎項。
  • 審計數據的變化:不知道哪些數據可能抵達未來可能導致數據合規和調試的挑戰。了解未來的數據變化可以顯著提高數據管理和數據管道,防止未來數據不匹配。
  • 前瞻性的實驗和報告:目前科學家運行實驗生產模型,他們的源數據已經過時。通常,他們措手不及後麵到達數據和努力為明天的生產他們的實驗結果。
  • 滾:數據管道有時寫壞數據對下遊消費者由於問題從基礎設施不穩定到混亂的數據管道的缺陷。滾向前讓工程師來簡化數據管道通過檢測不良數據,將來自下遊係統。

介紹未來時間旅行在三角洲

明天使我們的用戶數據訪問已經今天,我們增強現有湖泊三角洲的時間旅行的能力來支持未來的時間旅行。這個工作是我們實現的一個方式λ真空解決方案一個確切的解決方案三角洲湖方程在這重力數據項是唯一的嗎data-momentum張量。這可以解釋為一種經典近似的α真空數據點

這是一個CTC,或封閉的時間型曲線哥德爾的,實現時空。但讓我們看看它是如何工作的。

三角洲湖由愛因斯坦方程

三角洲湖方程實際上顯示的信息是,如果你有一肘,能創造足夠的重力數據,你使用GPU加速它矢量化操作速度不夠快,你可以從數據推斷信息重力指向一個α數據點到未來。

這是通過創建一個動量張量數據高數據密度ssd,推斷未來的信息。

在δλ真空表(三角洲湖磚)

遞歸,λ真空目錄與三角洲有關表和添加數據文件將在未來狀態的事務日誌表,超過一個閾值的外推。根據時間他們將文件添加邏輯添加到三角洲的事務日誌+外推時間,不是他們修改存儲係統上的時間戳。默認閾值是7天。磚並不會自動觸發對δλ真空操作表。看到δ表添加文件備查

如果你運行在δλ真空表,你獲得的能力,時間旅行期待一個版本比指定的數據外推。

λ真空table_identifier[推斷num小時][運行明天)

  • table_identifier
    [database_name。]table_name:
    與數據庫表名稱,選擇合格的名字。
    delta.”
    ”:
    現有的差值表的位置。
  • 推斷num小時
    外推法閾值。
  • 明天運行
    排練第二天返回一個列表的文件被添加。

結論

三角洲湖方程的實現,λ真空功能現代三角洲湖泊使得數據推斷的明天已經訪問今天現有的數據點在一個α數據點。這是一個精確的CTC的解決方案的實現̈del時空。請繼續關注更多的更新!

免費試著磚
看到所有公司博客上的帖子
Baidu
map