嘿,夥計們,
我想火車深學習模型在ML磚numpy數組作為輸入。
現在我有組織的所有數據在DF - DF包含4列:col1, col2, col3 col4
col1和col2陣列形狀(1,3,3,3,3),坳3與shpe數組(1,3,3,3)和col4是一個浮動的數字。
如你所知,pyspark df斜麵保存np數組作為值,所以我試著三種方法,第一種是將數組保存為二進製數據,第二個是保存列表,當加載數據變更np數組和重塑,第三種方法是改變批火花df成熊貓df和使用np。棧在每一列,這給最快的結果。
之後我有dataframe數組的每一行表示一組我想讓一個24批量大小,這意味著我將有4個np數組,為col1和col 2陣列形狀(24日3,3,3,3)為col3(24日3,3,3)和一維數組24浮動點。(每個數組的組合24行)
當試圖收集批24數組col2花了很多時間,從col1 x10和列表代表了數組收集發生得更快。
所以我有一些問題。
任何一個有好主意如何保存這些數據沒有付出大量的時間當我希望消費模型(e。g的收集數組和重塑每個列表的大小)。
其次,任何一個有什麼更好的方法來做我試圖實現什麼?
在預處理我不介意付出很多,但是我想要訓練快速和花最少的時間在準備數據。1日(我看到示例圖像作為輸入而不是4 d和5 d np數組)
希望你能幫助我。
謝謝!
目前我隻是想我的數據預處理和用有效和快速的方法,
所以不是深度學習的任何代碼。
我沒有找到,如果或與DF怎麼訓練我的模型作為輸入,因為DF不接受np數組數據類型。(有例子圖像dataframe從磚)
我讀npz二進製文件從S3 bucket,後使用udf使用np。二進製內容上的負載和把數據行。
當我試圖得到df的np數組(現在保存列表)我需要用np。堆棧和pd。tolist所以它需要一些時間。
我試圖獲取數據小於1秒快速培訓和最低io浪費。