加載數據的機器學習和深度的學習
本節將介紹信息專為毫升和DL應用程序加載數據。對於一般信息加載數據,看看數據加載到磚Lakehouse。
加載和存儲文件數據模型檢查點
機器學習應用程序可能需要使用共享存儲模型數據加載和檢查點。這對於分布式深度學習尤為重要。
磚提供磚文件係統(DBFS)用於訪問數據集群上使用火花和本地文件api。
加載表格數據
機器學習可以加載表格數據表或文件(例如,明白了CSV文件)。你可以將Apache火花DataFrames轉換成熊貓DataFrames使用PySpark方法toPandas ()
,然後選擇皈依NumPy格式使用熊貓的方法to_numpy ()
。
準備數據分布式訓練
本節將介紹兩種方法準備數據分布式訓練:Petastorm TFRecords。