嗨@nafri,
我不認為有一個解決方案之前合並文件準備的火花。像@Werner Stinckens說,你需要閱讀所有的文件和保存三角洲湖。一旦寫成三角洲湖所有的文件,然後你可以做優化的緊湊的文件。
有時這樣一個簡單的數據轉換確實像我合並使用數據工廠但如經上所記的火花將是相似的。
更多的工人和並行讀取作業將幫助。例如在數據工廠,你可以使用“並行運行”和“分區”選項。
自動裝載的磚會更快(你可以使用流觸發一次運行批處理)https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/auto-loader-gen2
設置模式而不是inferSchema將有助於避免雙重掃描。
總是分區是一個關鍵的所以文件將並行加載不同的目錄: