加載數據的機器學習和深度的學習

請注意

托管MLflow與磚在穀歌的雲需要集成磚運行時機器學習9.1 LTS或以上。

本節將介紹信息專為毫升和DL應用程序加載數據。對於一般信息加載數據,看看數據加載到磚Lakehouse。

加載和存儲文件數據模型檢查點

機器學習應用程序可能需要使用共享存儲模型數據加載和檢查點。這對於分布式深度學習尤為重要。

磚提供磚文件係統(DBFS)用於訪問數據集群上使用火花和本地文件api。

機器學習可以加載表格數據表或文件(例如,明白了CSV文件)。你可以將Apache火花DataFrames轉換成熊貓DataFrames使用PySpark方法toPandas (),然後選擇皈依NumPy格式使用熊貓的方法to_numpy ()。

本節將介紹兩種方法準備數據分布式訓練:Petastorm TFRecords。