我有一個熊貓在火花dataframe 800萬行和列。花了3.48分鍾運行df。形狀和需要。它還需要很長時間運行df。花了4.55分鍾。相比之下df.var1.value_counts () .reset_index()隻花了0.18秒。
我有點驚訝,形狀和頭部-簡單的dataframe函數把這個長。我會假設value_counts應該需要更長的時間,因為如果var1值分割在不同的節點數據洗牌是必要的。形狀是一個簡單的計數而頭部是一個簡單的從任何節點獲取5行。
我做錯了什麼嗎?有文檔的最佳實踐和指導如何使用火花熊貓API