10-06-202207:52我
這可能是一個棘手的問題,所以請容忍我
在真實的生活場景中,我有一個dataframe(我使用pyspark)稱為年齡,是一個groupBy其他4 dataframes。我加入這四個所以最後我有幾百萬行,但之後groupBy數量減少了200行。
然後保存這個dataframe s3 bucket。
現在的問題是:
更快:執行更多groupBy在這個dataframe,或者我隻是保存在s3中查詢數據,然後應用groupBy它嗎?
最終的目標是拯救這第二個groupBy在s3中。
10-14-202205:12我
”,是一個groupBy其他4 dataframes的我不明白,你可以共享代碼。
更快的在一個目標通常會處理一切。
11-15-202212:48我
嗨@Marcos迪亞斯
希望一切都好!
做@Hubert杜德克(客戶)響應能夠解決你的問題,你會很高興分享解決方案或答案標記為最佳嗎?其他的請讓我們知道如果你需要更多的幫助。
我們很想聽到你的聲音。
謝謝!
11-15-202201:14我
嗨@Marcos迪亞斯,
坦率地說,我認為我們需要更多的細節來回答你的問題:
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。