取消
顯示的結果
而不是尋找
你的意思是:

培訓/電子商務數據表可用華禾投資嗎?

Tim_T
新的因素

課程“Apache火花™編程與磚"需要數據源/電子商務/事件/ events.parquet等培訓。這些可以作為CSV文件嗎?我公司磚配置不允許我山這樣的存儲庫,但我可以上傳華禾投資。

1回複1

Kaniz
社區經理
社區經理

嗨@Tim Tremper,你提到的特定的數據集,”培訓/電子商務/事件/活動。拚花”,是在拚花格式,但是您可以很容易地將其轉換成CSV格式使用Apache火花™磚。

這是一個循序漸進的指南鋪數據集轉換成一個CSV文件和本地下載:

  • 首先,檢查機關文件加載到一個DataFrame:
parquet_df = spark.read.parquet (“dbfs: / databricks-datasets /電子商務/事件/ events.parquet”)

  • 接下來,保存DataFrame作為臨時在DBFS CSV文件:
parquet_df.write.csv (“dbfs: / tmp /事件。csv”模式=“覆蓋”,頭= True)

現在,您可以將從DBFS CSV文件複製到本地文件係統驅動程序的節點:

% fs cp - r dbfs: / tmp /事件。csv文件:/ tmp / events.csv

  • 最後,從司機節點CSV文件下載到您的本地機器上使用下麵的命令:

dbutils.fs.cp(“文件:/ tmp /事件。csv”、“dbfs: / FileStore /事件。csv”,遞歸= True)

現在可以從你的瀏覽器導航到下載CSV文件:

https:// < your-databricks-instance > /文件/ events.csv用你的URL替換< your-databricks-instance >磚工作區。

CSV文件後,你可以上傳到你公司的磚環境和使用它作為數據源的“磚Apache火花™編程”課程。

記住,拚花數據集轉化為CSV格式可能會導致文件大小增加,導致損失的一些特性,比如模式演化和數據壓縮。然而,它應該滿足課程的目的。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map