嗨,我很新磚,我試圖運行快速實驗了解最佳實踐對我來說,我和公司的同事。
我把數據從雪花
df =火花。讀\
.format \(“雪花”)
.options \(* *選項)
.option \(“查詢”,查詢)
.load ()
檢查數據類型的特性與prinSchema ()
轉換為大熊貓與
df.to_pandas_on_spark ()
和我有第一個問題所有的列成為對象的類型
我將列在浮動/ int
我運行一個簡單的RandomForest分類器
從sklearn。整體進口RandomForestClassifier srf
模型= srf ()
X = df [[' col_float]]
y = df(“標簽”)
模型。fit (X, y)
這裏我有第二個問題我一直收到這個錯誤
ValueError:不能將字符串轉換成浮點數:“col_float”
我一直在關注不同的教程,嚐試不同的事物。我想這可能是愚蠢的,因為我天真的磚但我浪費這麼多時間。
誰有一些問題或知道發生了什麼?
這是奇怪的事情。列已經被轉變為浮動,你可以看到,當你叫dtypes,如果我嚐試做這些檢查方法之一逗號或其他
“不能叫StringMethods類型FloatType”
但同樣的錯誤當我試著適應模型。方便我試圖去適應一個模型隻有1的特性。
在我看來,錯誤的名字列像它試圖滿足列的名稱。通常,當打印ValueError應該給你不能轉換為浮動的字符串/值,在這種情況下它給我列的名稱
我可以添加,如果我在火花轉換數據類型
如果我使用toPandas() - - >然後它的工作原理
如果我使用to_pandas_on_spark() - - >同樣的錯誤
嗨@Enrico Cascavilla,
隻是一個友好的後續。你能夠找到解決方案或仍在尋求幫助嗎?如果你找到了解決方案,請其標記為最好。