取消
顯示的結果
而不是尋找
你的意思是:

Pandas.spark.checkpoint()不會斷了傳承

alejandrofm
價值貢獻

嗨,我是磚的筆記本上做一些簡單的事情:

spark.sparkContext.setCheckpointDir進口pyspark (“/ tmp /”)。熊貓是ps sql =(“”“選擇field1, field2表中日期> = 2021 - 01.01”“”)df = ps.sql (sql) df.spark.checkpoint ()

運行很好,節省抽樣/ mp /然後我想保存df

df.to_csv (' / FileStore /表/測試。csv”,指數= False)

df1.spark.coalesce (1) .to_csv (' / FileStore /表/測試。csv”,指數= False)

又將重新查詢(第一次做它在檢查站,然後再保存文件)。

我做錯了什麼嗎?目前,為了解決這個我保存第一個dataframe沒有檢查點,再次打開和保存合並。

如果我直接使用合並(1)它不並行化。

編輯:

試著

df.spark.cache ()

但仍然再加工當我試著保存到CSV、我想要避免再加工,避免保存兩次。謝謝!

問題是,為什麼它重新計算df1檢查點之後的嗎?

謝謝!

7回複7

alejandrofm
價值貢獻

你好,回到這裏,任何想法我應該采取什麼樣的措施,如果我想做類似:

df.head ()

- - -

df.info

- - -

df.to_csv

,隻計算一次,而不是三次

謝謝! ! !

alejandrofm
價值貢獻

抱歉bump,仍然沒有找到正確的方法。

謝謝!

Hubert_Dudek1
尊敬的貢獻者三世

如果你需要檢查點,請嚐試以下代碼。由於持續下去,你就會避免再加工:

df.spark.checkpoint df = ps.sql (sql) .persist () ()

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map