深度學習管道

筆記

此頁麵描述開源深度學習管道套餐包含在Databricks運行時6.6毫升及以下。此頁麵並非旨在作為有關數據映中深度學習管道的一般信息的資源。

深度學習管道軟件包是一個高級深度學習框架,可通過Apache Spark Mllib Pipelines API促進常見的深度學習工作流程,並使用Spark縮小對大數據的深度學習。這是一個開源項目,采用Apache許可證2.0

深度學習管道的包裝將呼叫到較低級別的深度學習庫。它支持TensorFlow和Keras,並具有TensorFlow後端。

Databricks運行時遷移指南7.0毫升及以上

重要的

深度學習管道庫的一部分sparkdl已被刪除Databricks運行時7.0毫升(未支撐)具體而言,Apache Spark ML管道中使用的變壓器和估計器。有關遷移技巧和解決方法,請參見以下各節。

閱讀圖像

深度學習管道軟件包包括圖像讀取器sparkdl.image.imageio,被刪除Databricks運行時7.0毫升(未支撐)

而是使用圖像數據源或者二進製文件數據源來自Apache Spark。許多示例筆記本加載數據顯示這兩個數據源的用例。

轉移學習

深度學習管道軟件包包括火花ML變壓器sparkdl.DeepimageFeaturizer用於促進通過深度學習模型來促進轉移學習。DeepimageFeaturizer被刪除Databricks運行時7.0毫升(未支撐)

取而代之的是,使用熊貓UDFS通過深度學習模型執行功能。熊貓UDFS,以及他們的新變體標量迭代器pandas udfs,提供更靈活的API,支持更多的深度學習庫並提供更高的性能。

轉移學習的特征有關PANDAS UDFS轉移學習的示例。

分布式超參數調整

深度學習管道軟件包包括火花ML估計器sparkdl.KerasimageFileStimator用於使用Spark ML調整實用程序調整超參數。KerasimageFileStimator被刪除Databricks運行時7.0毫升(未支撐)

而是使用用HyperOPT調整超參數為深度學習模型分發超參數調整。

分布式推理

深度學習管道軟件包包括幾個用於分發推理的火花ML變壓器,所有這些都將在Databricks運行時7.0毫升(未支撐)

  • Deepimagepredictor

  • tfimagetransformer

  • KerasimageFiletransFormer

  • tftransformer

  • kerastransformer

而是使用熊貓UDFS在Spark DataFrames上運行推斷,按照部署推理和預測模型

將模型部署為SQL UDFS

深度學習管道軟件包包括一個實用程序sparkdl.udf.keras_image_model.registerkerasimageudf用於將深度學習模型部署為SPARK SQL的UDF CORLABLE。registerkerasimageudf被刪除Databricks運行時7.0毫升(未支撐)

而是使用MLFLOW將模型導出為UDF,按照以下示例模型推理