遞增負荷表-磚- 36897 SQL Server

erigaud · ‎07-04-2023

我在訪問一個前提SQL Server表。表相對較小(000行),我使用訪問它

spark.read。jdbc (url = jdbcUrl表=查詢)

每天都有新的記錄prem表,我想添加在我的表在lakehouse青銅。然而沒有“InsertedOn”列或任何東西,也沒有明顯的鑰匙我可以使用合並的數據銅表。所以目前我每天覆蓋所有數據,這似乎不是個好方法。

有一個更好的方法來逐步加載數據從SQL server ?也許一些使用流結構?

謝謝你!

匿名 · ‎07-04-2023

如果沒有明確的“InsertedOn”列或其他明顯的密鑰用於增量加載,你仍然可以從本地SQL Server表實現增量加載的青銅表lakehouse用火花和一些額外的邏輯。雖然流可能沒有必要在這種情況下,你仍然可以使用火花的能力來管理有效負載增量。這裏有一個建議的方法:

erigaud · ‎07-04-2023

就像我說的,沒有表中惟一標識符,允許我做任何形式的青銅源表和表之間的連接。

磚