解決:Re:如何拚花小文件合並到一個singl…-磚- 11617

irfanaziz · ‎11-03-2021

我有成千上萬的鑲花文件有相同的模式,每個有一個或多個記錄。但是閱讀引發這些文件是非常緩慢的。

我想知道如果有任何解決方案如何合並與火花在閱讀之前的文件嗎?

或者還有其他的選擇在Azure數據工廠合並這些文件(盡管存在合並選項文本文件)。

jose_gonzalez · ‎11-08-2021

嗨@nafri,

我不認為有一個解決方案之前合並文件準備的火花。像@Werner Stinckens說,你需要閱讀所有的文件和保存三角洲湖。一旦寫成三角洲湖所有的文件,然後你可以做優化的緊湊的文件。

匿名 · ‎11-03-2021

你好,@nafri a歡迎並感謝您的問題。我的名字是風笛手和我是一個社區版主磚。看看社區有任何解決方案或想法。如果沒有,我們將圓回來。

werners1 · ‎11-04-2021

如果他們已經寫了,你得咬蘋果和閱讀(火花/磚或自動測向數據流)。然後你可以合並/重新分區和寫回數據合並後的文件。

另一個選擇是通過使用三角洲湖,使用MERGE語句(傳入的數據合並在現有的)。

三角洲湖處理分區。最初但依然:你必須先讀這些小文件和寫他們三角洲湖。

Hubert_Dudek1 · ‎11-04-2021

有時這樣一個簡單的數據轉換確實像我合並使用數據工廠但如經上所記的火花將是相似的。

更多的工人和並行讀取作業將幫助。例如在數據工廠,你可以使用“並行運行”和“分區”選項。

設置模式而不是inferSchema將有助於避免雙重掃描。

總是分區是一個關鍵的所以文件將並行加載不同的目錄:

jose_gonzalez · ‎11-08-2021

嗨@nafri,

我不認為有一個解決方案之前合並文件準備的火花。像@Werner Stinckens說,你需要閱讀所有的文件和保存三角洲湖。一旦寫成三角洲湖所有的文件,然後你可以做優化的緊湊的文件。

磚