取消
顯示的結果
而不是尋找
你的意思是:

更快:分組表連接的其他幾個人或查詢數據?

markdias
新的貢獻者二世

這可能是一個棘手的問題,所以請容忍我

在真實的生活場景中,我有一個dataframe(我使用pyspark)稱為年齡,是一個groupBy其他4 dataframes。我加入這四個所以最後我有幾百萬行,但之後groupBy數量減少了200行。

然後保存這個dataframe s3 bucket。

現在的問題是:

更快:執行更多groupBy在這個dataframe,或者我隻是保存在s3中查詢數據,然後應用groupBy它嗎?

最終的目標是拯救這第二個groupBy在s3中。

3回複3

Hubert_Dudek1
尊敬的貢獻者三世

”,是一個groupBy其他4 dataframes的我不明白,你可以共享代碼。

更快的在一個目標通常會處理一切。

Vidula_Khanna
主持人
主持人

嗨@Marcos迪亞斯

希望一切都好!

@Hubert杜德克(客戶)響應能夠解決你的問題,你會很高興分享解決方案或答案標記為最佳嗎?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

NhatHoang
重視貢獻二世

嗨@Marcos迪亞斯,

坦率地說,我認為我們需要更多的細節來回答你的問題:

  • 這些是4 dataframes更新他們的數據嗎?
  • 你怎麼經常使用groupBy-dataframe ?
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map