我們已經配置了工作區與自己的vpc。我們需要提取數據從DB2和δ格式寫。我們試圖為550 k記錄有230列,它了50分鍾完成任務。15 mn記錄時間超過18小時。不知道為什麼這需要這麼長的時間來寫。欣賞一個解決方案。
代碼:
df = spark.read。jdbc (url = jdbcUrl、表= pushdown_query屬性= connectionProperties)
df.write.mode .format(“追加”)(“δ”)。partitionBy(“年”、“月”、“日”).save (delta_path)
請增加並行性,通過調整jdbc設置:
columnName = "關鍵",
下界= 1 l,
upperBound = 100000 l,
numPartitions = 100,
這是示例值。最好的鍵列將是獨一無二的,連續這將同樣沒有數據傾斜。
請分析也引發UI——看看需要的最大時間(讀和寫嗎?)
嗨@Hubert杜德克,我認為唯一列應該是整數而不是字母數字或字符串,對吧?