你好,尋找合適的解決方案模式對於這個場景:
我們有成千上萬的相對較小的XML文件(目前坐在ADLS),我們必須加載到三角洲湖。每個XML文件讀取、解析和旋轉之前寫入三角洲表。XML模式可以是不同的,隨著時間的漂移。沒有文件之間的依賴關係,以及所有可以附加批發到表(即。,沒有合並)。
我有一個實現,但它是非常緩慢的。如果這是一個場景的小數量的非常大的xml文件,然後為磚我可以看到一個簡單的方法來處理並行工作分區/工人,但在這種情況下,文件比較小,所以分區不是一個東西。我試著並行ThreadPoolExecutor自由——它使不同但不夠材料。也試過pyspark並行化()將一個udf應用到每個文件分布在一個抽樣,但事情變得醜陋。我可能不會考慮這個方麵的正確的體係結構模式,需要應用到我的用例。