取消
顯示的結果
而不是尋找
你的意思是:

不能將字符串轉換為浮動當合適的模型

enri_casca
新的貢獻者三世

嗨,我很新磚,我試圖運行快速實驗了解最佳實踐對我來說,我和公司的同事。

我把數據從雪花

df =火花。讀\

.format \(“雪花”)

.options \(* *選項)

.option \(“查詢”,查詢)

.load ()

檢查數據類型的特性與prinSchema ()

轉換為大熊貓與

df.to_pandas_on_spark ()

和我有第一個問題所有的列成為對象的類型

我將列在浮動/ int

我運行一個簡單的RandomForest分類器

從sklearn。整體進口RandomForestClassifier srf

模型= srf ()

X = df [[' col_float]]

y = df(“標簽”)

模型。fit (X, y)

這裏我有第二個問題我一直收到這個錯誤

ValueError:不能將字符串轉換成浮點數:“col_float”

我一直在關注不同的教程,嚐試不同的事物。我想這可能是愚蠢的,因為我天真的磚但我浪費這麼多時間。

誰有一些問題或知道發生了什麼?

13日回複13

werners1
尊敬的貢獻者三世

顯然不是您期望的轉換。

我的意思是:你能檢查的模式dataframe (pyspark dataframe),看看列類型。

因為根據這熊貓將把他們或放進對象類型。

enri_casca
新的貢獻者三世

模式的火花dataframe非常好與所有不同的特性(日期、字符串、小數)

werners1
尊敬的貢獻者三世

日期轉換成對象,

字符串轉化為對象,

十進製轉換成對象

我公布(見鏈接)

這是正常的行為。

你應該把熊貓的對象類型,

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.convert_dtypes.html

enri_casca
新的貢獻者三世

好的,理解trasformation熊貓,謝謝:)。

但自從我擁有了所有的東西在一個對象格式我總是使用astype所有列轉換成正確的格式(格式)

所以當我運行df。dtypes我看到正確的格式

但當我試著適應一個模型我ValueError:不能將字符串轉換成浮點數:“名稱的第一個特性”

werners1
尊敬的貢獻者三世
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map