更快:分組表加入……-磚- 28777

markdias · ‎10-06-2022

這可能是一個棘手的問題,所以請容忍我

在真實的生活場景中,我有一個dataframe(我使用pyspark)稱為年齡,是一個groupBy其他4 dataframes。我加入這四個所以最後我有幾百萬行,但之後groupBy數量減少了200行。

然後保存這個dataframe s3 bucket。

現在的問題是:

更快:執行更多groupBy在這個dataframe,或者我隻是保存在s3中查詢數據,然後應用groupBy它嗎?

最終的目標是拯救這第二個groupBy在s3中。

Hubert_Dudek1 · ‎10-14-2022

”,是一個groupBy其他4 dataframes的我不明白,你可以共享代碼。

更快的在一個目標通常會處理一切。

Vidula_Khanna · ‎11-15-2022

嗨@Marcos迪亞斯

希望一切都好!

做@Hubert杜德克(客戶)響應能夠解決你的問題,你會很高興分享解決方案或答案標記為最佳嗎?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

NhatHoang · ‎11-15-2022

嗨@Marcos迪亞斯,

坦率地說,我認為我們需要更多的細節來回答你的問題:

磚