培訓/電子商務數據表可作為CS……-磚- 5832

Tim_T · ‎04-14-2023

課程“Apache火花™編程與磚"需要數據源/電子商務/事件/ events.parquet等培訓。這些可以作為CSV文件嗎?我公司磚配置不允許我山這樣的存儲庫,但我可以上傳華禾投資。

Kaniz · ‎04-19-2023

嗨@Tim Tremper,你提到的特定的數據集,”培訓/電子商務/事件/活動。拚花”,是在拚花格式,但是您可以很容易地將其轉換成CSV格式使用Apache火花™磚。

這是一個循序漸進的指南鋪數據集轉換成一個CSV文件和本地下載:

parquet_df = spark.read.parquet (“dbfs: / databricks-datasets /電子商務/事件/ events.parquet”)

parquet_df.write.csv (“dbfs: / tmp /事件。csv”模式=“覆蓋”,頭= True)

現在,您可以將從DBFS CSV文件複製到本地文件係統驅動程序的節點:

% fs cp - r dbfs: / tmp /事件。csv文件:/ tmp / events.csv

dbutils.fs.cp(“文件:/ tmp /事件。csv”、“dbfs: / FileStore /事件。csv”,遞歸= True)

現在可以從你的瀏覽器導航到下載CSV文件:

https:// < your-databricks-instance > /文件/ events.csv用你的URL替換< your-databricks-instance >磚工作區。

CSV文件後,你可以上傳到你公司的磚環境和使用它作為數據源的“磚Apache火花™編程”課程。

記住,拚花數據集轉化為CSV格式可能會導致文件大小增加,導致損失的一些特性,比如模式演化和數據壓縮。然而,它應該滿足課程的目的。

磚