我使用磚豐富的管理。我有11個與5 b行tb的數據。數據從源是不分區的。我很難將數據加載到dataframe做進一步的數據處理。我試過幾個執行人配置,似乎沒有人工作。你能指導我龐大的數據加載到dataframe最好的練習。
數據是在嵌套的json格式。模式不是在文檔的一致性。mongoDB的來源數據。
我已經試過的東西:
n1-standard-4執行人20 - 2 +小時後工作中止
n1-standard-8執行人8 - 2 +小時後工作中止
我知道這些都不是最佳實踐但我也試著設置引發以下配置:
spark.executor。記憶0
spark.driver。記憶0
spark.driver。maxResultSize 0
我想知道應該正確的執行器大小、機器類型,火花配置用於我的用例。任何建議,幫助我們節省額度將是一個額外的好處。我們計劃運行數據質量檢查這個數據,我們將尋找閱讀整個數據集。
提前謝謝。