我隻能提供來源CSV格式(管分隔)。
我有能力生成多個來源CSV文件,並將其轉換到一個上傳文件夾。
所有行必須去同一個目標青銅三角洲表。
我不關心的順序行加載。
青銅目標表列都是字符串。
我試圖找出如果:
是上傳多個csv文件,加載一個流讀者/流作家聲明中最快的方法來加載這些數據?換句話說是多個輸入文件中引入並行過程的路嗎?如果是一個csv文件,它是單線程的,這是正確的嗎?
B:有一些最優數量的文件和/或文件大小,源數據應該被分解成以達到攝入速度。例如時工人的節點數量,或多個,文件我希望負載的數量嗎?和大小有關係,或者僅僅是輸入文件的數量匹配的多個工作節點計數嗎?
C:還有什麼我應該做,提高加載時間。
@Michael Popp來說
在我看來,最好的方法是把一些分區文件(你需要找到最合適的列),攝取他們使用自動裝卸機和觸發= AvailableNow(批處理)和寫入分區的分區文件。
它將允許實現——並行性和避免數據傾斜。
@Michael Popp來說:
加載大量的CSV最快的方式到一個增量表中的行磚,你可以遵循這些方法和優化:
答:上傳和加載多個CSV文件:
b .最優數量的文件和文件大小:
c .其他優化改善加載時間:
通過考慮這些方法和優化,可以大大改善你的大容量加載時間CSV數據攝取到三角洲表數據磚。
@Michael Popp來說:
加載大量的CSV最快的方式到一個增量表中的行磚,你可以遵循這些方法和優化:
答:上傳和加載多個CSV文件:
b .最優數量的文件和文件大小:
c .其他優化改善加載時間:
通過考慮這些方法和優化,可以大大改善你的大容量加載時間CSV數據攝取到三角洲表數據磚。