解決:Re: One-Hot-Encoding spli之前或之後(鹹寧)……-磚- 17888

NhatHoang · ‎12-08-2022

你好,

我想知道,我應該做鹹寧我分手之前或之後的數據建立一個毫升模型。

請給一些建議。

LandanG · ‎12-08-2022

嗨@Nhat黃平君,

雖然不是Databricks-specific,這裏有一個好的答案:

“如果你執行編碼在分裂之前,它將導致數據泄漏(train-test汙染)。從這個意義上講,你會引入新的數據(標簽編碼器的整數),因此使用它為您的模型將影響最終的預測結果在部署(好驗證分數但貧窮)。

在火車和驗證數據類別已經匹配,在火車上可以執行fit_transform數據,然後隻變換驗證數據,基於編碼的地圖從訓練數據。

幾乎所有特性等工程規範化、正常化等火車後應做測試。”

此外,如果你運行一個AutoML實驗,看看底層筆記本之前你應該看到,數據被分割編碼。

LandanG · ‎12-08-2022

嗨@Nhat黃平君,

雖然不是Databricks-specific,這裏有一個好的答案:

“如果你執行編碼在分裂之前,它將導致數據泄漏(train-test汙染)。從這個意義上講,你會引入新的數據(標簽編碼器的整數),因此使用它為您的模型將影響最終的預測結果在部署(好驗證分數但貧窮)。

在火車和驗證數據類別已經匹配,在火車上可以執行fit_transform數據,然後隻變換驗證數據,基於編碼的地圖從訓練數據。

幾乎所有特性等工程規範化、正常化等火車後應做測試。”

此外,如果你運行一個AutoML實驗,看看底層筆記本之前你應該看到,數據被分割編碼。

NhatHoang · ‎12-08-2022

嗨@Landan喬治,

非常感謝。這對我來說是清楚的。

五星級的支持,磚的團隊。:)

LandanG · ‎12-09-2022

謝謝@Nhat黃平君,我很高興我能幫助

磚