解決:需要幫助11結核病數據加載到火花dataf……-磚- 15169

sh23 · ‎07-01-2022

我使用磚豐富的管理。我有11個與5 b行tb的數據。數據從源是不分區的。我很難將數據加載到dataframe做進一步的數據處理。我試過幾個執行人配置,似乎沒有人工作。你能指導我龐大的數據加載到dataframe最好的練習。

數據是在嵌套的json格式。模式不是在文檔的一致性。mongoDB的來源數據。

我已經試過的東西:

n1-standard-4執行人20 - 2 +小時後工作中止

n1-standard-8執行人8 - 2 +小時後工作中止

我知道這些都不是最佳實踐但我也試著設置引發以下配置:

spark.executor。記憶0

spark.driver。記憶0

spark.driver。maxResultSize 0

我想知道應該正確的執行器大小、機器類型,火花配置用於我的用例。任何建議,幫助我們節省額度將是一個額外的好處。我們計劃運行數據質量檢查這個數據,我們將尋找閱讀整個數據集。

提前謝謝。

Kaniz · ‎07-14-2022

嗨@Shruti年代,這些文章可以幫助你與磚進行數據管理。

Kaniz · ‎07-14-2022

嗨@Shruti年代,這些文章可以幫助你與磚進行數據管理。

jose_gonzalez · ‎07-20-2022

嗨@Shruti年代,

隻是一個友好的後續。你的錯誤嗎?請分享錯誤堆棧跟蹤我們可以幫助你縮小這個問題的RCA。

磚