嗨@Matt憤怒
是的……我猜緩存覆蓋每次運行它,因為對我來說,花了近100萬條記錄相同數量的時間被緩存。
然而,您可以檢查表是否緩存或不使用.storageLevel方法。
例如我有一個名為表的表。緩存之前,如果我運行下麵,
spark.table(“表1”)。storageLevel——輸出將storageLevel(假的,假的,假的,假的,1)
緩存表名;——現在我緩存表
spark.table(“表1”)。storageLevel——輸出將storageLevel(真的,真的,假的,真的,1)
你可以使用各自的storagelevel像個人標誌
spark.table .storageLevel.useMemory(“表1”)
spark.table .storageLevel.useDisk(“表1”)
spark.table .storageLevel(“表1”)。useOffHeap等等……
更多的存儲水平,看看https://sparkbyexamples.com/spark/spark-persistence-storage-levels/
歡呼聲……