嗨@Shubhendu Das,感謝你聯係我們關於你擔心你磚的身份列值δ表。我理解這些交易並不像預期的那樣從0或增加一個。
磚三角洲湖並不能保證連續的身份價值由於其分布式特性。當δ表中創建一個標識列,生成的值是唯一的桌子對麵,但可能不是連續的。
然而,如果你需要連續身份價值觀和容忍權衡性能,您可能會考慮使用Windows功能來生成標識列的值。
這是一個如何實現這一目標的例子:
火花。sql(集成”“創建表。TrailingWeeks (Week_ID int NOT NULL)使用三角洲選項(路徑”dbfs: / <路徑>湖在Azure數據/δ”)”“”)
火花。sql(“”“插入集成。TrailingWeeks (Week_ID)從< your_data >選擇Week_ID”“”)
火花。sql(" " "選擇ROW_NUMBER () / (ORDER BY Week_ID) - 1作為ID, Week_ID integrated.TrailingWeeks " " ")
這個方法會有性能影響,尤其對於大型數據集來說,因為它可能涉及跨集群移動數據。如果你的用例可以容忍連任的標識值,建議堅持三角洲湖提供的默認行為。