你好,
我使用pyspark和閱讀一堆鋪文件和做指望他們每個人。司機6 g - 8 g內存芽。
我的設置:
我有1驅動節點和2工人的集群節點(全部16核心128 GB RAM)。這是我的問題的簡化版本。
表= (“/ mnt /”、“/ mnt / b”,“/ mnt / c”。#我有大約30個這樣的表。資源描述的表:df = spark.read.parquet(台)df.cache()打印(df.count ())
30的表我加載兩個有2000萬行其他都是小的。
有什麼原因我的司機內存上升?
謝謝
Ramz