取消
顯示的結果
而不是尋找
你的意思是:

火花DataFrame緩存的最佳實踐是什麼?

麥當娜
重視貢獻二世

你好,

當緩存DataFrame時,我總是用“df.cache () .count ()”。

然而,在這參考,建議保存緩存DataFrame到一個新的變量:

  • 當你緩存DataFrame為它創建一個新的變量cachedDF = df.cache ()。這將允許你繞過我們解決的問題在我們的例子中,有時還不清楚什麼是分析計劃,什麼是緩存。這裏,當你打cachedDF.select (…)它將利用緩存的數據。

我不明白背後的邏輯。我在其他文章中找不到類似的建議。

我的問題是使用緩存時的最佳實踐是什麼?

5回複5

werners1
尊敬的貢獻者三世

完全同意。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map