為ML和DL準備數據和環境
本節描述如何為機器學習和深度學習準備數據和Databricks環境。
準備環境
的Databricks運行時機器學習(Databricks Runtime ML)是一個為機器學習和數據科學優化的現成環境。Databricks Runtime ML包括許多外部庫,包括TensorFlow, PyTorch, Horovod, scikit-learn和XGBoost,並提供擴展來提高性能,包括GPU加速XGBoost,分布式深度學習使用HorovodRunner,並使用Databricks File System (DBFS)保險絲掛載.
若要使用Databricks Runtime ML,請在運行時選擇運行時的ML版本創建集群.
請注意
要訪問用於機器學習工作流的Unity Catalog中的數據,必須使用單用戶集群.用戶隔離群集與Databricks機器學習運行時不兼容。
使用GPU集群
通過創建GPU集群,可以加速深度學習任務。有關創建Databricks GPU集群的詳細信息,請參見GPU-enabled集群.Databricks Runtime ML包括GPU硬件驅動程序和NVIDIA庫,如CUDA。