樣本數據集

有各種各樣的第三方提供的數據集,你可以上傳你的磚工作區和使用。磚還提供了各種各樣的數據集,已經安裝DBFS在你的磚工作區。

第三方的樣本數據集

磚有內置的工具來快速上傳第三方樣本數據集逗號分隔值(CSV)文件到磚工作區。一些流行的第三方樣本數據集可用以CSV格式:

樣本數據集		下載示例數據集作為一個CSV文件…
鬆鼠的人口普查		在數據網頁,點擊公園的數據,鬆鼠數據,或故事。
OWID數據收集		在GitHub庫,點擊數據集文件夾中。單擊包含目標數據集的子文件夾,然後單擊數據集的CSV文件。
運用CSV數據集		在搜索結果頁麵,點擊目標搜索結果,和旁邊的CSV圖標,點擊下載。
鑽石(需要一個Kaggle賬戶)		在數據集的網頁上數據選項卡,數據選項卡,diamonds.csv,單擊下載圖標。
紐約出租車旅行持續時間(需要一個Kaggle賬戶)		在數據集的網頁上數據選項卡,sample_submission.zip,單擊下載圖標。找到數據集的CSV文件,提取下載的ZIP文件的內容。
不明飛行物(需要一個data.world賬戶)		數據集的網頁,旁邊nuforc_reports.csv,單擊下載圖標。

使用第三方磚工作空間的樣本數據集,執行以下操作:

根據第三方的指示下載數據集作為一個CSV文件到您的本地機器上。
CSV文件上傳從您的本地機器到磚工作區中。
使用導入的數據,使用磚SQL查詢數據。或者你可以使用筆記本來作為一個DataFrame加載數據。

磚數據集(databricks-datasets)

磚包括各種數據集的安裝DBFS。

請注意

磚的可用性和位置數據如有更改,恕不另行通知。

瀏覽數據磚數據集

瀏覽這些文件在數據科學與工程或磚機器學習從筆記本使用Python, Scala或R可以使用磚公用事業。這個例子中的代碼列出了所有可用的磚的數據集。

              顯示(dbutils。fs。ls(' / databricks-datasets '))
             

              顯示(dbutils。fs。ls(“/ databricks-datasets”))
             

              %fsls“/ databricks-datasets”
             

磚的信息數據集

數據集的更多信息,您可以使用一個本地文件API打印出數據集自述(如果可用)通過使用Python, R,或Scala筆記本數據科學與工程或磚機器學習,如這段代碼示例所示。

              f=開放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f。讀())
             

              scala。io。源。fromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
             

              圖書館(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳過=0,n_max=1 l)打印(f)
             

根據磚數據集創建一個表

這段代碼示例演示了如何使用Python, Scala,或R筆記本根據磚數據集創建一個表:

              火花。sql(“創建表默認。people10m選項(路徑dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta’)”)
             

              火花。sql(“創建表默認。people10m選項(路徑dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta’)”)
             

              圖書館(SparkR)sparkR.session()sql(“創建表默認。people10m選項(路徑dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta’)”)