準備數據分布式訓練
本文描述了兩種方法準備數據分布式訓練:Petastorm TFRecords。
Petastorm(推薦)
Petastorm是一個開源的數據訪問圖書館,使直接加載數據存儲在Apache鑲花的格式。這是磚和Apache的火花方便用戶因為拚花是推薦的數據格式。本文說明了這個用例:
TFRecord
您還可以使用TFRecord格式作為分布式數據源深度學習。TFRecord格式是一種簡單的麵向記錄的二進製格式,許多TensorFlow訓練數據的應用程序使用。
tf.data.TFRecordDataset是TensorFlow數據集,它是由從TFRecords文件的記錄。更多細節關於如何使用TFRecord數據,看到TensorFlow指南消費TFRecord數據。
下麵的文章描述和說明推薦的方法來保存您的數據和負載TFRecord TFRecord文件文件: