嗨@Tim Tremper,你提到的特定的數據集,”培訓/電子商務/事件/活動。拚花”,是在拚花格式,但是您可以很容易地將其轉換成CSV格式使用Apache火花™磚。
這是一個循序漸進的指南鋪數據集轉換成一個CSV文件和本地下載:
parquet_df = spark.read.parquet (“dbfs: / databricks-datasets /電子商務/事件/ events.parquet”)
parquet_df.write.csv (“dbfs: / tmp /事件。csv”模式=“覆蓋”,頭= True)
現在,您可以將從DBFS CSV文件複製到本地文件係統驅動程序的節點:
% fs cp - r dbfs: / tmp /事件。csv文件:/ tmp / events.csv
dbutils.fs.cp(“文件:/ tmp /事件。csv”、“dbfs: / FileStore /事件。csv”,遞歸= True)
現在可以從你的瀏覽器導航到下載CSV文件:
https:// < your-databricks-instance > /文件/ events.csv用你的URL替換< your-databricks-instance >磚工作區。
CSV文件後,你可以上傳到你公司的磚環境和使用它作為數據源的“磚Apache火花™編程”課程。
記住,拚花數據集轉化為CSV格式可能會導致文件大小增加,導致損失的一些特性,比如模式演化和數據壓縮。然而,它應該滿足課程的目的。