保存Apache Spark DataFrames為TFRecord文件

TFRecord文件格式是ML訓練數據的一種簡單的麵向記錄的二進製格式。的tf.data.TFRecordDataset類使您能夠將一個或多個TFRecord文件的內容作為輸入管道的一部分進行流處理。

請注意

本指南不是關於使用TensorFlow導入數據的全麵指南。看到TensorFlow API指南

保存Apache Spark DataFrames到TFRecord文件

您可以使用spark-tensorflow-connector保存Apache Spark DataFrames到TFRecord文件。

spark-tensorflow-connector圖書館在TensorFlow生態係統支持Spark DataFrames和TFRecords(TensorFlow存儲數據的流行格式)。使用Spark -tensorflow-connector,您可以使用Spark DataFrame api將TFRecords文件讀入DataFrames,並將DataFrames寫入TFRecords。

請注意

包含了spark-張量流連接器庫用於機器學習的Databricks運行時,一個機器學習運行時,為機器學習和數據科學提供了一個現成的環境。無需使用以下說明安裝庫,隻需使用用於機器學習的Databricks運行時.使用火花張量流連接器磚運行時,您需要從Maven安裝庫。看到Maven或Spark包獲取詳細信息。

使用TensorFlow從TFRecord文件加載數據

方法可以加載TFRecord文件tf.data.TFRecordDataset類。看到讀取TFRecord文件從TensorFlow獲取詳細信息。

下麵的示例筆記本演示了如何從Apache Spark DataFrames保存數據到TFRecord文件,並加載TFRecord文件用於ML訓練。

為分布式DL準備圖像數據