取消
顯示的結果
而不是尋找
你的意思是:

如何拚花小文件合並成一個單一的鑲花文件?

irfanaziz
因素二世

我有成千上萬的鑲花文件有相同的模式,每個有一個或多個記錄。但是閱讀引發這些文件是非常緩慢的。

我想知道如果有任何解決方案如何合並與火花在閱讀之前的文件嗎?

或者還有其他的選擇在Azure數據工廠合並這些文件(盡管存在合並選項文本文件)。

1接受解決方案

接受的解決方案

jose_gonzalez
主持人
主持人

嗨@nafri,

我不認為有一個解決方案之前合並文件準備的火花。像@Werner Stinckens說,你需要閱讀所有的文件和保存三角洲湖。一旦寫成三角洲湖所有的文件,然後你可以做優化的緊湊的文件。

在原帖子查看解決方案

6個回答6

匿名
不適用

你好,@nafri a歡迎並感謝您的問題。我的名字是風笛手和我是一個社區版主磚。看看社區有任何解決方案或想法。如果沒有,我們將圓回來。

werners1
尊敬的貢獻者三世

如果他們已經寫了,你得咬蘋果和閱讀(火花/磚或自動測向數據流)。然後你可以合並/重新分區和寫回數據合並後的文件。

另一個選擇是通過使用三角洲湖,使用MERGE語句(傳入的數據合並在現有的)。

三角洲湖處理分區。最初但依然:你必須先讀這些小文件和寫他們三角洲湖。

Hubert_Dudek1
尊敬的貢獻者三世

有時這樣一個簡單的數據轉換確實像我合並使用數據工廠但如經上所記的火花將是相似的。

更多的工人和並行讀取作業將幫助。例如在數據工廠,你可以使用“並行運行”和“分區”選項。

自動裝載的磚會更快(你可以使用流觸發一次運行批處理)https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/auto-loader-gen2

設置模式而不是inferSchema將有助於避免雙重掃描。

總是分區是一個關鍵的所以文件將並行加載不同的目錄:

圖像

jose_gonzalez
主持人
主持人

嗨@nafri,

我不認為有一個解決方案之前合並文件準備的火花。像@Werner Stinckens說,你需要閱讀所有的文件和保存三角洲湖。一旦寫成三角洲湖所有的文件,然後你可以做優化的緊湊的文件。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map