取消
顯示的結果
而不是尋找
你的意思是:

解決方案的ConnectException錯誤:這通常是由一個伯父錯誤導致到Python REPL的連接被關閉。檢查你的查詢的內存使用。

Satty
新的因素

當我試圖運行和加載多個文件在單一dataframe處理(總文件大小超過15 gb單一dataframe在循環結束時,我的代碼崩潰每次用下麵的錯誤……

錯誤的ConnectException:這通常是由一個伯父錯誤導致到Python REPL的連接被關閉。檢查你的查詢的內存使用。

請幫我解決它。下麵是我的代碼

df2 = pd.DataFrame ()

因為我在範圍(0 k):

df1 = pd.DataFrame ()

在pd j。date_range (start_date,時間= 5):

start_date打印(我)

路徑= r ' / dbfs / mnt / xxxx / * * * / Ixxxx / * * * /

path1 = os.path。加入(路徑,“XXXX_”+ start_date + . csv)

如果os.path.isfile (path1):

df = pd。read_csv (path1 low_memory = False)

df = df。下降([‘Var1’,‘Var2’,‘Var3’),軸= 1)

df = df.drop_duplicates(保持= '第一次')

df。reset_index (= True下降,原地= True)

df。set_index (VmsNo,原地= True)

df1 = df1.append (df)

start_date = (pd.Timestamp (start_date)——pd.DateOffset(天= 1).strftime (' % Y % m % d ')

df2 = df2.append (df1)

1回複1

pvignesh92
尊敬的貢獻者

@Satish Agarwal似乎你的係統內存不足以加載15 gb的文件。我相信你是使用Python熊貓數據幀加載15 gb的文件,而不是使用火花。有什麼特別的原因,你不能使用火花。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map