02-15-2022上午09:26
我創建增量表ADLS json輸入文件。但長時間運行的工作是創建增量表從json。下麵是我的集群配置。集群配置相關的問題嗎?我需要升級集群配置嗎?
創建集群non-prod環境和複雜的批ETL ie . .、加入聚合。我創建一個小的集群有400 gb內存和50芯?請通知。
輸入JSON文件大小- 5 GB
standard_D3_V2
14 GB內存和4核
工作者節點-最小2和最大8
遺囑執行人類型-standard_D3_V2
14 gb內存和4核
注意:集群是萬能的
03-03-202228我
所以磚文檔的狀態如下:
你可以閱讀JSON文件單行的或多行模式。在單行模式下,一個文件可以分為許多部分並行和閱讀。在多行模式下,一個文件加載實體作為一個整體,不能分割。
這意味著你不會有並行讀取json。
所以你有幾個選擇:
在原帖子查看解決方案
02-16-2022上午08:29
你好,@Jana一個!很高興認識你!我的名字是風笛手,我是一個主持人的磚。歡迎來到社區。謝謝你的問題。我們會給你的同行一個回應的機會,然後我們會回頭如果我們需要。
提前感謝你的耐心。
02-16-2022下午11:23
你檢查這個話題嗎?可能有一些想法。
03-01-202212:33我
注意——Df是創建多行真的。工作是長時間運行而放緩集群性能。你能幫我在這個問題上嗎
謝謝
03-01-202212:48我
多行= true,讀取json作為一個整體和加工。
我試著與一個更強大的集群。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。