取消
顯示的結果
而不是尋找
你的意思是:

需要幫助與11結核病數據加載到火花dataframe gcp磚使用托管。

sh23
新的貢獻者二世

我使用磚豐富的管理。我有11個與5 b行tb的數據。數據從源是不分區的。我很難將數據加載到dataframe做進一步的數據處理。我試過幾個執行人配置,似乎沒有人工作。你能指導我龐大的數據加載到dataframe最好的練習。

數據是在嵌套的json格式。模式不是在文檔的一致性。mongoDB的來源數據。

我已經試過的東西:

n1-standard-4執行人20 - 2 +小時後工作中止

n1-standard-8執行人8 - 2 +小時後工作中止

我知道這些都不是最佳實踐但我也試著設置引發以下配置:

spark.executor。記憶0

spark.driver。記憶0

spark.driver。maxResultSize 0

我想知道應該正確的執行器大小、機器類型,火花配置用於我的用例。任何建議,幫助我們節省額度將是一個額外的好處。我們計劃運行數據質量檢查這個數據,我們將尋找閱讀整個數據集。

提前謝謝。

1接受解決方案

接受的解決方案

Kaniz
社區經理
社區經理

嗨@Shruti年代,這些文章可以幫助你與磚進行數據管理。

在原帖子查看解決方案

2回答2

Kaniz
社區經理
社區經理

嗨@Shruti年代,這些文章可以幫助你與磚進行數據管理。

嗨@Shruti年代,

隻是一個友好的後續。你的錯誤嗎?請分享錯誤堆棧跟蹤我們可以幫助你縮小這個問題的RCA。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map