取消
顯示的結果
而不是尋找
你的意思是:

pySpark Dataframe DeepLearning模型

imgaboy
新的貢獻者三世

我有一個大的時間序列與許多測量站記錄相同的5個數據(溫度、濕度等)我想預測未來時刻的時間序列模型,我將所有測量站的數據傳遞給深度學習模型。如我有100天的記錄數據,我有1000個測量站,每個人有5個數據。我的火花表看起來像這樣:

圖像

如何有效的轉置我的數據使用火花和熊貓這樣的結構嗎?

圖像

示例代碼:

熊貓作為pd導入隨機進口火花數據導入=[]節點範圍(0100):天的範圍(0100):data.append ([str(節點),天,隨機的。randrange(1) 15日,25日,隨機的。randrange(100 1),隨機的。randrange (1000、1045、1)]) df =火花。createDataFrame(數據,[“節點”,“天”,“臨時”,“嗡嗡聲”,'新聞'])顯示(df)

我不處理數據作為一個整體,但我使用兩個日期之間的一段,說10,20或30時間瞬間。

一個簡單的解決方案,就像所有東西裝進記憶……我可以做到,但我不知道如何有效地使用它。我原來的數據集是一個拚花8列和600萬行(2000節點),如果我全部加載到內存中,變換,我將會得到一個30000行(時間)和2000 * 8列表在內存中。

我的問題是如何有效地加載和轉換這些數據。我拚花磁盤上的數據和負載與火花機。我將處理過的數據傳遞給一個深度學習模型。

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世
df.groupBy(“日期”).pivot(“節點”).agg(第一(“臨時”))

是將經典crosstable所以主會幫助。上麵的例子。

在原帖子查看解決方案

4回複4

Hubert_Dudek1
尊敬的貢獻者三世
df.groupBy(“日期”).pivot(“節點”).agg(第一(“臨時”))

是將經典crosstable所以主會幫助。上麵的例子。

imgaboy
新的貢獻者三世

我不太確定這是如何解決我的問題。這將解決內存過載問題和模型得到正確的數據嗎?此外,如果你過濾數據的時間戳

火花,它減緩了數據處理非常.....有一些火花發生器的喜歡Keras數據生成器嗎?

imgaboy
新的貢獻者三世

謝謝你我犯了一個解決方案基於你的想法。

Hubert_Dudek1
尊敬的貢獻者三世

太好了。你可以選擇我的答案為最佳?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map