嗨@Nhat黃平君,
雖然不是Databricks-specific,這裏有一個好的答案:
“如果你執行編碼在分裂之前,它將導致數據泄漏(train-test汙染)。從這個意義上講,你會引入新的數據(標簽編碼器的整數),因此使用它為您的模型將影響最終的預測結果在部署(好驗證分數但貧窮)。
在火車和驗證數據類別已經匹配,在火車上可以執行fit_transform數據,然後隻變換驗證數據,基於編碼的地圖從訓練數據。
幾乎所有特性等工程規範化、正常化等火車後應做測試。”
此外,如果你運行一個AutoML實驗,看看底層筆記本之前你應該看到,數據被分割編碼。
嗨@Nhat黃平君,
雖然不是Databricks-specific,這裏有一個好的答案:
“如果你執行編碼在分裂之前,它將導致數據泄漏(train-test汙染)。從這個意義上講,你會引入新的數據(標簽編碼器的整數),因此使用它為您的模型將影響最終的預測結果在部署(好驗證分數但貧窮)。
在火車和驗證數據類別已經匹配,在火車上可以執行fit_transform數據,然後隻變換驗證數據,基於編碼的地圖從訓練數據。
幾乎所有特性等工程規範化、正常化等火車後應做測試。”
此外,如果你運行一個AutoML實驗,看看底層筆記本之前你應該看到,數據被分割編碼。