如何加速交叉驗證

學習如何使用Databricks在SparkML中提高交叉驗證性能。

寫的亞當Pavlacka

最後發布時間:2022年5月16日

Apache SparkML模型的超參數調優需要非常長的時間，這取決於參數網格的大小。你可以在SparkML中提高交叉驗證步驟的性能，以加速事情:

在運行任何特性轉換或建模步驟(包括交叉驗證)之前緩存數據。多次引用數據的進程受益於緩存。記住調用一個動作DataFrame使緩存生效。
對象內部增加並行度參數CrossValidator，它設置運行並行算法時使用的線程數。缺省值為1。有關更多信息，請參閱CrossValidator文檔。
的內部，不要使用管道作為評估器CrossValidator規範。在某些情況下，特性開發人員與模型一起進行調優，在模型內部運行整個管道CrossValidator是有意義的。然而，這將為每個參數組合和折疊執行整個管道。因此，如果隻有模型被調優，則將模型規範設置為CrossValidator．

刪除

信息

CrossValidator可以設置為管道內的最後階段之後的特征。最佳模型由CrossValidator是輸出。