Re:的最佳實踐是什麼火花DataFram……頁2 -磚- 37927

麥當娜 · 3周之前

你好,

當緩存DataFrame時,我總是用“df.cache () .count ()”。

然而,在這參考,建議保存緩存DataFrame到一個新的變量:

當你緩存DataFrame為它創建一個新的變量cachedDF = df.cache ()。這將允許你繞過我們解決的問題在我們的例子中,有時還不清楚什麼是分析計劃,什麼是緩存。這裏,當你打cachedDF.select (…)它將利用緩存的數據。

我不明白背後的邏輯。我在其他文章中找不到類似的建議。

我的問題是使用緩存時的最佳實踐是什麼?

werners1 · 3周之前

完全同意。

磚