樣本數據集

第三方提供了多種數據集，您可以將它們上傳到Databricks工作空間並使用它們。Databricks還提供了各種已經掛載到的數據集DBFS在您的Databricks工作空間。

第三方的樣本數據集

Databricks有內置的工具，可以將第三方樣例數據集作為逗號分隔值(CSV)文件快速上傳到Databricks工作空間。以CSV格式提供的一些流行的第三方樣本數據集:

樣本數據集		下載樣本數據集作為CSV文件…
鬆鼠的人口普查		在數據網頁,點擊公園的數據，鬆鼠數據,或故事．
OWID數據收集		在GitHub存儲庫中，單擊數據集文件夾中。單擊包含目標數據集的子文件夾，然後單擊數據集的CSV文件。
運用CSV數據集		在搜索結果頁麵，單擊目標搜索結果，在CSV圖標,點擊下載．
鑽石(需要一個Kaggle賬戶)		在數據集的網頁上，在數據選項卡,數據選項卡,diamonds.csv,單擊下載圖標。
紐約市出租車行程時長(需要一個Kaggle賬戶)		在數據集的網頁上，在數據選項卡,sample_submission.zip,單擊下載圖標。要查找數據集的CSV文件，請提取下載的ZIP文件的內容。
不明飛行物(需要一個data.world賬戶)		在數據集的網頁上，旁邊nuforc_reports.csv,單擊下載圖標。

要在Databricks工作空間中使用第三方樣例數據集，請執行以下操作:

按照第三方的指示將數據集作為CSV文件下載到您的本地計算機。
使用Databricks SQL導入CSV文件從您的本地機器到您的Databricks工作區。您可以導入的最大文件大小為100mb。
要處理導入的數據，請使用Databricks SQL來查詢數據．或者你可以用a筆記本來加載數據作為一個數據幀．

磚數據集(databricks-datasets)

Databricks包括掛載到的各種數據集DBFS．

請注意

Databricks數據集的可用性及位置如有更改，恕不另行通知。

瀏覽數據磚數據集

要從筆記本上使用Python、Scala或R瀏覽數據科學與工程或Databricks機器學習中的這些文件，您可以使用磚公用事業．本例中的代碼列出了所有可用的Databricks數據集。

              顯示（dbutils．fs．ls（' / databricks-datasets '）)
             

              顯示（dbutils．fs．ls（“/ databricks-datasets”）)
             

              ％fsls“/ databricks-datasets”
             

統一目錄數據集

Unity目錄提供了訪問一些樣本數據集樣品目錄。您可以查看這些數據集數據瀏覽界麵並直接使用< catalog_name >, < database_name >。< table_name >模式。

的nyctaxi數據庫包含表旅行該網站通過Delta Lake存儲了紐約市出租車出行的詳細信息。下麵的代碼示例返回該表中的所有記錄:

             選擇＊從樣品．nyctaxi．旅行
            

的tpch數據庫包含來自tpc - h基準測試．要查看此數據庫中的表，運行:

             顯示表在樣品．tpch
            

獲取有關Databricks數據集的信息

要獲取關於數據集的更多信息，可以使用本地文件API來打印數據集自述(如果有的話)在數據科學與工程或Databricks機器學習的筆記本上使用Python、R或Scala，如這個代碼示例所示。

              f＝開放（' / dbfs / databricks-datasets / README.md '，“r”）打印（f．讀())
             

              scala．io．源．fromFile（“/ dbfs / databricks-datasets / README.md”）.foreach｛打印｝
             

              圖書館（readr）f＝read_line（“/ dbfs / databricks-datasets / README.md”，跳過＝0，n_max＝1 l）打印（f）
             

基於Databricks數據集創建表

這個代碼示例演示了如何在Databricks SQL查詢編輯器中使用SQL，或者如何在數據科學與工程或Databricks機器學習的筆記本中使用Python、Scala或R，以Databricks數據集為基礎創建表:

              創建表格默認的．people10m選項（路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）
             

              火花．sql（“創建表默認。people10m選項（路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）"）
             

              火花．sql（“創建表默認。people10m選項（路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）"）
             

              圖書館（SparkR）sparkR.session（）sql（“創建表默認。people10m選項（路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）"）