為ML和DL準備數據和環境

本節描述如何為機器學習和深度學習準備數據和Databricks環境。

準備數據

本節中的文章涵蓋了特定於ML和DL應用程序的加載和預處理數據的各個方麵。

準備環境

Databricks運行時機器學習(Databricks Runtime ML)是一個為機器學習和數據科學優化的現成環境。Databricks Runtime ML包括許多外部庫,包括TensorFlow, PyTorch, Horovod, scikit-learn和XGBoost,並提供擴展來提高性能,包括GPU加速XGBoost,分布式深度學習使用HorovodRunner,並使用Databricks File System (DBFS)保險絲掛載

若要使用Databricks Runtime ML,請在運行時選擇運行時的ML版本創建集群

請注意

要訪問用於機器學習工作流的Unity Catalog中的數據,必須使用單用戶集群.用戶隔離群集與Databricks機器學習運行時不兼容。

安裝庫

你可以安裝額外的為您的筆記本或集群創建自定義環境。

使用GPU集群

通過創建GPU集群,可以加速深度學習任務。有關創建Databricks GPU集群的詳細信息,請參見GPU-enabled集群.Databricks Runtime ML包括GPU硬件驅動程序和NVIDIA庫,如CUDA。