作為一名數據科學家,開始使用Databricks

本教程將引導您如何使用Databricks Data Science & Engineering工作空間:創建集群和筆記本、從數據集創建表、查詢表和顯示查詢結果。

提示

作為本文的補充,請嚐試在您的Databricks數據科學與工程登錄頁麵上提供的快速入門教程。這是一個5分鍾的親身介紹Databricks的教程。當您登錄數據庫時,請查找導遊:快速入門教程在主頁上,單擊開始教程

快速入門圖標和鏈接

如果您沒有看到本教程,請從側邊欄中的角色切換器中選擇Data Science & Engineering。

需求

您已經登錄到Databricks,並且處於Data Science & Engineering工作區中。看到注冊免費試用

數據科學與工程用戶界麵

著陸頁

從左邊欄和常見的任務列表,您就可以訪問基本的Databricks數據科學與工程實體:工作區、集群、表、筆記本、作業和庫。工作區是一個特殊的根文件夾,用於存儲Databricks資產,如筆記本和庫,以及導入的數據。

使用側邊欄

您可以使用側欄訪問Databricks的所有資產。側邊欄的內容取決於所選角色:數據科學與工程機器學習,或SQL

  • 默認情況下,側邊欄顯示為折疊狀態,隻有圖標可見。將光標移到側邊欄上以展開到完整視圖。

  • 要更改角色,請單擊Databricks logo下麵的圖標磚的標誌,並選擇一個角色。

    改變形象
  • 要固定角色以便在下次登錄時顯示,請單擊銷的角色在角色旁邊。再次單擊它以刪除引腳。

  • 使用菜單選項在工具條底部設置工具條模式為汽車(默認行為),擴大,或崩潰

  • 當您打開與機器學習相關的頁麵時,角色自動切換到機器學習

得到幫助

要獲得幫助,請單擊幫助圖標幫助在左下角。

幫助菜單

步驟1:創建集群

集群是Databricks計算資源的集合。創建集群。

  1. 在側邊欄中,單擊計算圖標計算

  2. 在“計算池”頁麵,單擊創建集群

    創建集群

  3. 2 .在“創建集群”頁麵中指定集群名稱快速入門並選擇7.3 LTS (Scala 2.12, Spark 3.0.1)在“Databricks運行時版本”下拉框中。

  4. 點擊創建集群

第二步:製作一個筆記本

筆記本是在Apache Spark集群上運行計算的計算單元的集合。在工作區中創建一個筆記本:

  1. 在側邊欄中,單擊工作空間的圖標工作空間

  2. 在Workspace文件夾中,選擇下脫字符號創建>筆記本

    創建筆記本
  3. 在Create Notebook對話框中,輸入一個名稱並進行選擇SQL選擇“語言”。這個選擇決定了默認的語言的筆記本。

  4. 點擊創建.筆記本打開時頂部有一個空格子。

步驟3:創建表

中的示例CSV數據文件中的數據創建一個表樣本數據集(databricks-datasets)的數據集集合數據庫文件係統(DBFS),是安裝在Databricks集群上的分布式文件係統。創建表有兩個選項。

選項1:根據CSV數據創建Spark表

如果您希望快速進行,並且隻需要標準級別的性能,則使用此選項。複製並粘貼此代碼片段到一個筆記本單元格:

下降表格如果存在鑽石創建表格鑽石使用CSV選項路徑“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”“真正的”

選項2:將CSV數據寫入Delta Lake格式並創建Delta表

三角洲湖提供強大的事務存儲層,支持快速讀取和其他好處。Delta Lake格式由Parquet文件和一個事務日誌組成。使用此選項可獲得表上未來操作的最佳性能。

  1. 將CSV數據讀入DataFrame,並以Delta Lake格式寫入。該命令使用Python語言的魔力命令,它允許您交錯使用筆記本默認語言(SQL)以外的其他語言的命令。複製並粘貼此代碼片段到一個筆記本單元格:

    python鑽石火花格式“csv”選項“頭”“真正的”選項“inferSchema”“真正的”負載“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”鑽石格式“δ”保存“/ mnt /δ/鑽石”
  2. 在存儲位置創建一個Delta表。複製並粘貼此代碼片段到一個筆記本單元格:

    下降表格如果存在鑽石創建表格鑽石使用δ位置“/ mnt /δ/鑽石”

按下鍵運行單元格SHIFT + ENTER.筆記本自動連接到您在步驟2中創建的集群,並在計算單元中運行該命令。

步驟4:查詢表

運行SQL語句按顏色查詢鑽石平均價格表。

  1. 若要向筆記本添加單元格,請將鼠標移到單元格底部並單擊添加細胞圖標。

    添加細胞
  2. 複製此代碼段並將其粘貼到單元格中。

    選擇顏色avg價格作為價格鑽石集團通過顏色訂單通過顏色
  3. 新聞SHIFT + ENTER.筆記本上顯示了鑽石顏色和平均價格的表格。

    運行命令

步驟5:顯示數據

按顏色顯示鑽石平均價格圖表。

  1. 單擊柱狀圖圖標圖表按鈕

  2. 點擊繪圖選項

    • 顏色進入鑰匙箱。

    • 價格輸入值框。

    • 在“Aggregation”下拉菜單中選擇AVG

      選擇聚合
  3. 點擊應用顯示柱狀圖。

    運用圖表類型