取消
顯示的結果
而不是尋找
你的意思是:

代理鍵與δ

bgerhardi
新的貢獻者三世

我們正在考慮搬到三角洲生活表從一個傳統的基於sql的數據倉庫。

擔心我這FAQ標識列三角洲生活表常見問題|磚在AWS上這似乎表明,我們基本上無法創建惟一id行除非流當然SCD 1維金表似乎將永遠無法成為一個流表,因為它不是一個擴展(它需要合並)

磚談判要求這裏. .如何標識列生成代理鍵的磚Lakehouse -磚博客所以很明顯這是多麼重要。

我失蹤嗎?

11日回複11

Kearon
新的貢獻者三世

@Brett Gerhardi你得到一個滿意的解決方案了嗎?我們也希望我們倉庫遷移到磚,但是沒有有效的代理鍵的化合物2 ....不到可取的。

@Tom Renish謝謝您提供這個。你找到這個工作可靠嗎?似乎奇怪,這樣的工作是必要的。當然代理鍵的化合物2是必不可少的嗎?或磚期待我們使用效率低下,複雜的連接組合的自然鍵和日期嗎?

bgerhardi
新的貢獻者三世

坦白說缺乏回應這是dissappointing磚。

沒有官方指導從磚的旗艦高端產品在這樣一個基礎和基本數據倉庫概念有關。

TomRenish
新的貢獻者三世

早上好@Kearon McNicol。是的,這是可靠地工作。現在讓我告訴你為什麼我不喜歡的解決方案。首先,一些警告……

  1. 我使用的數據是麵向客戶服務的。這裏的含義是,給定記錄的字段值是容易改變的。簡單的數據,如日誌卻沒有這樣的問題
  2. 我不認為自己是一個專家。這是我的解決方案是合理的,愚蠢的

已經說過,我更緊密地看著dlt管道正在做什麼和什麼樣的對象被創建。當之間的連接表的id和最新數據,代碼很明確要求表“@dlt.table ()”。然而,在圖形視圖輸出對象實際上是一個物化視圖。物化視圖被寫入時,*不*操作在一個append模式!而不是做一個完整的重寫。我今天的幸運小數據表最大的2.3記錄,但會改變。完整的重寫我深切關注,可伸縮性將成為一個問題。我想到的一個解決方案是使用一個火花管道相反,轉而依靠鍵執行合並操作。

我當然願意建議這個話題。

Kearon
新的貢獻者三世

謝謝你!這是有幫助的。

點考慮磚之一就是利用自動化過程的優雅(模式檢測),存儲為SCD 2,等等。這可能會讓一個幹淨的代碼庫和一個更健壯的數據流。

然而,按照這個速度,它看起來像我不得不使用傳統方法,於是問題出現了,為什麼要使用磚呢?

我正在調查可能帖子SCD處理,但到目前為止,這是證明有些痛苦的……

TomRenish
新的貢獻者三世

我忘了一件很重要。正在建造的最後的物化視圖時,它是基於一個dlt.read()而不是dlt.read_stream。為我的目的這是必要的,因為涉及到左連接邊緣父子表鍵一起那裏並不總是孩子。做一個離開時加入,dlt引擎將嚐試使用read_stream時抱怨。我懷疑它能工作如果使用純粹的內在連接完成表。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map