我們有很多三角洲表與字符串列唯一鍵(PK在傳統的關係數據庫)和我們不想插入新行,因為鍵值隻有在情況有所不同。
很多代碼更改使用上/下函數列值比較(upsert邏輯)尋找替代
δ表列上我看到一個檢查約束可以執行一致的價值但是它太遲了,我已經有大小寫混合數據表。
有什麼類似於sql server排序特性?
spark.conf.set (“spark.sql。caseSensitive’, False)並不像預期的那樣工作(即大小寫混合價值之間的字符串比較顯示我有2個不同的字符串)
還抬起頭spark.conf.set (spark.databricks.analyzer。batchResolveRelations”,假)靜脈
我有試過7.3 lts和9.1 lts磚在azure上
謝謝你的更新。你能你的反應標記為最佳答案嗎?它可能幫助未來的引用。
我不記得有排序在火花/三角洲湖。
還數據損壞/損失絕對是一個主要的焦點´磚,所以我不認為有一個簡單的方法解決這個問題。
我要做的是以下幾點:
覆蓋混合情況下的表大寫或小寫,你的選擇。
修複你的當前數據。
你想要插入的數據,您可以創建一個包裝器函數spark.read左右。拚花(或csv或json或任何你攝入)翻譯字符串列大寫。
我們必須做一個類似的問題(修剪所有字符串列)。
或者你可以總是叫上/下函數。
也許你甚至可以把一切上/下而將它複製到存儲。
但這兩種情況下需要工作。
我並´t看到一個快速的解決方案。
離岸金融中心可以將此數據,和下遊總是考慮到數據是大小寫混合。所以當閱讀在這個混合數據,總是在過濾等應用上。