取消
顯示的結果
而不是尋找
你的意思是:

什麼是最好的方法來實現長期的數據版本控製?

User16752240150
新的貢獻者二世

我是一個數據科學家創建版本毫升模型。合規的原因,我需要能夠複製每個模型的訓練數據的版本。

我看過,你可以版本數據集通過三角洲,但是默認的保持期是30天左右。如果我每月更新我的訓練數據和模型,和想跟蹤模型(和數據)多年來,最好的方法是什麼版本我的數據。

三角洲是一個適當的解決方案嗎?

1回複1

sajith_appukutt
尊敬的貢獻者二世

三角洲,正如你所提到的特性來做時間旅行,在默認情況下,三角洲表保留30天提交曆史。操作的曆史表是平行但日誌大小增加將變得更加昂貴

現在,在這種情況下——因為更新一個月發生一次,值得考慮增加保留時間間隔設置delta.logRetentionDuration因為你會最大限度12一年更新。

如果更新頻率,考慮克隆三角洲表

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map