保存Apache火花DataFrames TFRecord文件

TFRecord文件格式是一種簡單的麵向記錄毫升訓練數據的二進製格式。的tf.data.TFRecordDataset類允許您流在一個或多個TFRecord文件的內容作為一個輸入管道的一部分。

保存Apache火花DataFrames TFRecord文件

您可以使用spark-tensorflow-connector拯救Apache火花DataFrames TFRecord文件。

spark-tensorflow-connector圖書館內的嗎TensorFlow生態係統,使火花DataFrames之間的轉換TFRecords(TensorFlow流行的格式來存儲數據)。spark-tensorflow-connector一樣,您可以使用火花DataFrame api TFRecords文件讀入DataFrames和寫DataFrames TFRecords。

請注意

spark-tensorflow-connector庫是包含在磚運行時機器學習。使用spark-tensorflow-connector磚運行時,您需要安裝Maven的圖書館。看到Maven或火花包獲取詳細信息。

從與TensorFlow TFRecord文件加載數據

你可以加載TFRecord文件使用tf.data.TFRecordDataset類。看到閱讀TFRecord文件從TensorFlow細節。

下麵的例子筆記本演示了如何從Apache火花DataFrames TFRecord文件保存數據和負載毫升TFRecord文件培訓。

準備用於分布式DL的圖像數據

在新標簽頁打開筆記本