嗨,我很新磚,我試圖運行快速實驗了解最佳實踐對我來說,我和公司的同事。
我把數據從雪花
df =火花。讀\
.format \(“雪花”)
.options \(* *選項)
.option \(“查詢”,查詢)
.load ()
檢查數據類型的特性與prinSchema ()
轉換為大熊貓與
df.to_pandas_on_spark ()
和我有第一個問題所有的列成為對象的類型
我將列在浮動/ int
我運行一個簡單的RandomForest分類器
從sklearn。整體進口RandomForestClassifier srf
模型= srf ()
X = df [[' col_float]]
y = df(“標簽”)
模型。fit (X, y)
這裏我有第二個問題我一直收到這個錯誤
ValueError:不能將字符串轉換成浮點數:“col_float”
我一直在關注不同的教程,嚐試不同的事物。我想這可能是愚蠢的,因為我天真的磚但我浪費這麼多時間。
誰有一些問題或知道發生了什麼?
模式的火花dataframe非常好與所有不同的特性(日期、字符串、小數)
好的,理解trasformation熊貓,謝謝:)。
但自從我擁有了所有的東西在一個對象格式我總是使用astype所有列轉換成正確的格式(格式)
所以當我運行df。dtypes我看到正確的格式
但當我試著適應一個模型我ValueError:不能將字符串轉換成浮點數:“名稱的第一個特性”