保存Apache Spark DataFrames為TFRecord文件
TFRecord文件格式是ML訓練數據的一種簡單的麵向記錄的二進製格式。的tf.data.TFRecordDataset類使您能夠將一個或多個TFRecord文件的內容作為輸入管道的一部分進行流處理。
請注意
本指南不是關於使用TensorFlow導入數據的全麵指南。看到TensorFlow API指南.
保存Apache Spark DataFrames到TFRecord文件
您可以使用spark-tensorflow-connector保存Apache Spark DataFrames到TFRecord文件。
spark-tensorflow-connector圖書館在TensorFlow生態係統支持Spark DataFrames和TFRecords(TensorFlow存儲數據的流行格式)。使用Spark -tensorflow-connector,您可以使用Spark DataFrame api將TFRecords文件讀入DataFrames,並將DataFrames寫入TFRecords。
請注意
包含了spark-張量流連接器庫用於機器學習的Databricks運行時,一個機器學習運行時,為機器學習和數據科學提供了一個現成的環境。無需使用以下說明安裝庫,隻需使用用於機器學習的Databricks運行時.使用火花張量流連接器磚運行時,您需要從Maven安裝庫。看到Maven或Spark包獲取詳細信息。
使用TensorFlow從TFRecord文件加載數據
方法可以加載TFRecord文件tf.data.TFRecordDataset
類。看到讀取TFRecord文件從TensorFlow獲取詳細信息。
下麵的示例筆記本演示了如何從Apache Spark DataFrames保存數據到TFRecord文件,並加載TFRecord文件用於ML訓練。