加載數據

本節介紹關於專門為ML和DL應用程序加載數據的信息。有關加載數據的一般信息，請參見把數據輸入數據庫湖屋．

存儲用於數據加載和模型檢查點的文件

機器學習應用程序可能需要使用共享存儲來進行數據加載和模型檢查點。這對於分布式深度學習尤為重要。磚提供什麼是數據庫文件係統(DBFS)?用於使用Spark和本地文件api訪問集群中的數據。

您可以從加載表格式機器學習數據表或文件(例如，參見CSV文件)．方法可以將Apache Spark數據幀轉換為pandas數據幀PySpark方法toPandas ()，然後選擇轉換為NumPy格式熊貓的方法to_numpy ()．

本節介紹了為分布式訓練準備數據的兩種方法:petstorm和TFRecords。