取消
顯示的結果
而不是尋找
你的意思是:

5 GB解析json文件在集群上運行長

Jana
新的貢獻者三世

我創建增量表ADLS json輸入文件。但長時間運行的工作是創建增量表從json。下麵是我的集群配置。集群配置相關的問題嗎?我需要升級集群配置嗎?

創建集群non-prod環境和複雜的批ETL ie . .、加入聚合。我創建一個小的集群有400 gb內存和50芯?請通知。

輸入JSON文件大小- 5 GB

standard_D3_V2

14 GB內存和4核

工作者節點-最小2和最大8

遺囑執行人類型-standard_D3_V2

14 gb內存和4核

注意:集群是萬能的

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

所以磚文檔的狀態如下:

你可以閱讀JSON文件單行的多行模式。在單行模式下,一個文件可以分為許多部分並行和閱讀。在多行模式下,一個文件加載實體作為一個整體,不能分割。

這意味著你不會有並行讀取json。

所以你有幾個選擇:

  1. 不要使用多行。這僅僅是可能的如果你的json文件每行包含一個json對象。你可以試著看看它的工作原理
  2. 使用一個更大的集群。驅動程序將讀取json文件,以便司機需要足夠的內存。核的數量是不那麼重要了。
  3. 如果你可以:分手該文件

在原帖子查看解決方案

8回答說8

匿名
不適用

你好,@Jana一個!很高興認識你!我的名字是風笛手,我是一個主持人的磚。歡迎來到社區。謝謝你的問題。我們會給你的同行一個回應的機會,然後我們會回頭如果我們需要。

提前感謝你的耐心。:slightly_smiling_face:

werners1
尊敬的貢獻者三世

你檢查這個話題嗎?可能有一些想法。

Jana
新的貢獻者三世

注意——Df是創建多行真的。工作是長時間運行而放緩集群性能。你能幫我在這個問題上嗎

謝謝

werners1
尊敬的貢獻者三世

多行= true,讀取json作為一個整體和加工。

我試著與一個更強大的集群。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map