取消
顯示的結果
而不是尋找
你的意思是:

One-Hot-Encoding(鹹寧)分割數據進行訓練和測試之前或之後dataframe嗎

NhatHoang”id=
重視貢獻二世

你好,

我想知道,我應該做鹹寧我分手之前或之後的數據建立一個毫升模型。

請給一些建議。

1接受解決方案

接受的解決方案

LandanG”id=
尊敬的貢獻者”id=
尊敬的貢獻者

嗨@Nhat黃平君,

雖然不是Databricks-specific,這裏有一個好的答案:

“如果你執行編碼在分裂之前,它將導致數據泄漏(train-test汙染)。從這個意義上講,你會引入新的數據(標簽編碼器的整數),因此使用它為您的模型將影響最終的預測結果在部署(好驗證分數但貧窮)。

在火車和驗證數據類別已經匹配,在火車上可以執行fit_transform數據,然後隻變換驗證數據,基於編碼的地圖從訓練數據。

幾乎所有特性等工程規範化、正常化等火車後應做測試。”

此外,如果你運行一個AutoML實驗,看看底層筆記本之前你應該看到,數據被分割編碼。

在原帖子查看解決方案

3回複3

LandanG”id=
尊敬的貢獻者”id=
尊敬的貢獻者

嗨@Nhat黃平君,

雖然不是Databricks-specific,這裏有一個好的答案:

“如果你執行編碼在分裂之前,它將導致數據泄漏(train-test汙染)。從這個意義上講,你會引入新的數據(標簽編碼器的整數),因此使用它為您的模型將影響最終的預測結果在部署(好驗證分數但貧窮)。

在火車和驗證數據類別已經匹配,在火車上可以執行fit_transform數據,然後隻變換驗證數據,基於編碼的地圖從訓練數據。

幾乎所有特性等工程規範化、正常化等火車後應做測試。”

此外,如果你運行一個AutoML實驗,看看底層筆記本之前你應該看到,數據被分割編碼。

NhatHoang”id=
重視貢獻二世

嗨@Landan喬治,

非常感謝。這對我來說是清楚的。

五星級的支持,磚的團隊。:)

LandanG”id=
尊敬的貢獻者”id=
尊敬的貢獻者

謝謝@Nhat黃平君,我很高興我能幫助

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map