我有一個大的時間序列與許多測量站記錄相同的5個數據(溫度、濕度等)我想預測未來時刻的時間序列模型,我將所有測量站的數據傳遞給深度學習模型。如我有100天的記錄數據,我有1000個測量站,每個人有5個數據。我的火花表看起來像這樣:
如何有效的轉置我的數據使用火花和熊貓這樣的結構嗎?
示例代碼:
熊貓作為pd導入隨機進口火花數據導入=[]節點範圍(0100):天的範圍(0100):data.append ([str(節點),天,隨機的。randrange(1) 15日,25日,隨機的。randrange(100 1),隨機的。randrange (1000、1045、1)]) df =火花。createDataFrame(數據,[“節點”,“天”,“臨時”,“嗡嗡聲”,'新聞'])顯示(df)
我不處理數據作為一個整體,但我使用兩個日期之間的一段,說10,20或30時間瞬間。
一個簡單的解決方案,就像所有東西裝進記憶……我可以做到,但我不知道如何有效地使用它。我原來的數據集是一個拚花8列和600萬行(2000節點),如果我全部加載到內存中,變換,我將會得到一個30000行(時間)和2000 * 8列表在內存中。
我的問題是如何有效地加載和轉換這些數據。我拚花磁盤上的數據和負載與火花機。我將處理過的數據傳遞給一個深度學習模型。
太好了。你可以選擇我的答案為最佳?