解決:Re: pySpark Dataframe DeepLearning模型-磚- 26165

imgaboy · ‎03-08-2022

我有一個大的時間序列與許多測量站記錄相同的5個數據(溫度、濕度等)我想預測未來時刻的時間序列模型,我將所有測量站的數據傳遞給深度學習模型。如我有100天的記錄數據,我有1000個測量站,每個人有5個數據。我的火花表看起來像這樣:

如何有效的轉置我的數據使用火花和熊貓這樣的結構嗎?

示例代碼:

熊貓作為pd導入隨機進口火花數據導入=[]節點範圍(0100):天的範圍(0100):data.append ([str(節點),天,隨機的。randrange(1) 15日,25日,隨機的。randrange(100 1),隨機的。randrange (1000、1045、1)]) df =火花。createDataFrame(數據,[“節點”,“天”,“臨時”,“嗡嗡聲”,'新聞'])顯示(df)

我不處理數據作為一個整體,但我使用兩個日期之間的一段,說10,20或30時間瞬間。

一個簡單的解決方案,就像所有東西裝進記憶……我可以做到,但我不知道如何有效地使用它。我原來的數據集是一個拚花8列和600萬行(2000節點),如果我全部加載到內存中,變換,我將會得到一個30000行(時間)和2000 * 8列表在內存中。

我的問題是如何有效地加載和轉換這些數據。我拚花磁盤上的數據和負載與火花機。我將處理過的數據傳遞給一個深度學習模型。

Hubert_Dudek1 · ‎03-08-2022

df.groupBy(“日期”).pivot(“節點”).agg(第一(“臨時”))

是將經典crosstable所以主會幫助。上麵的例子。

在原帖子查看解決方案

Hubert_Dudek1 · ‎03-08-2022

df.groupBy(“日期”).pivot(“節點”).agg(第一(“臨時”))

是將經典crosstable所以主會幫助。上麵的例子。

imgaboy · ‎03-08-2022

我不太確定這是如何解決我的問題。這將解決內存過載問題和模型得到正確的數據嗎?此外,如果你過濾數據的時間戳

火花,它減緩了數據處理非常.....有一些火花發生器的喜歡Keras數據生成器嗎?

imgaboy · ‎03-10-2022

謝謝你我犯了一個解決方案基於你的想法。

Hubert_Dudek1 · ‎03-10-2022

太好了。你可以選擇我的答案為最佳?