作為一名數據科學家,開始使用Databricks
本教程將引導您如何使用Databricks Data Science & Engineering工作空間:創建集群和筆記本、從數據集創建表、查詢表和顯示查詢結果。
提示
作為本文的補充,請嚐試在您的Databricks數據科學與工程登錄頁麵上提供的快速入門教程。這是一個5分鍾的親身介紹Databricks的教程。當您登錄數據庫時,請查找導遊:快速入門教程在主頁上,單擊開始教程.
如果您沒有看到本教程,請從側邊欄中的角色切換器中選擇Data Science & Engineering。
需求
您已經登錄到Databricks,並且處於Data Science & Engineering工作區中。看到注冊免費試用.
數據科學與工程用戶界麵
從左邊欄和常見的任務列表,您就可以訪問基本的Databricks數據科學與工程實體:工作區、集群、表、筆記本、作業和庫。工作區是一個特殊的根文件夾,用於存儲Databricks資產,如筆記本和庫,以及導入的數據。
步驟1:創建集群
集群是Databricks計算資源的集合。創建集群。
在側邊欄中,單擊計算.
在“計算池”頁麵,單擊創建集群.
2 .在“創建集群”頁麵中指定集群名稱快速入門並選擇7.3 LTS (Scala 2.12, Spark 3.0.1)在“Databricks運行時版本”下拉框中。
點擊創建集群.
第二步:製作一個筆記本
筆記本是在Apache Spark集群上運行計算的計算單元的集合。在工作區中創建一個筆記本:
在側邊欄中,單擊工作空間.
在Workspace文件夾中,選擇創建>筆記本.
在Create Notebook對話框中,輸入一個名稱並進行選擇SQL選擇“語言”。這個選擇決定了默認的語言的筆記本。
點擊創建.筆記本打開時頂部有一個空格子。
步驟3:創建表
中的示例CSV數據文件中的數據創建一個表樣本數據集(databricks-datasets)的數據集集合數據庫文件係統(DBFS),是安裝在Databricks集群上的分布式文件係統。創建表有兩個選項。
選項1:根據CSV數據創建Spark表
如果您希望快速進行,並且隻需要標準級別的性能,則使用此選項。複製並粘貼此代碼片段到一個筆記本單元格:
下降表格如果存在鑽石;創建表格鑽石使用CSV選項(路徑“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”,頭“真正的”)
選項2:將CSV數據寫入Delta Lake格式並創建Delta表
三角洲湖提供強大的事務存儲層,支持快速讀取和其他好處。Delta Lake格式由Parquet文件和一個事務日誌組成。使用此選項可獲得表上未來操作的最佳性能。
將CSV數據讀入DataFrame,並以Delta Lake格式寫入。該命令使用Python語言的魔力命令,它允許您交錯使用筆記本默認語言(SQL)以外的其他語言的命令。複製並粘貼此代碼片段到一個筆記本單元格:
%python鑽石=(火花.讀.格式(“csv”).選項(“頭”,“真正的”).選項(“inferSchema”,“真正的”).負載(“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”))鑽石.寫.格式(“δ”).保存(“/ mnt /δ/鑽石”)
在存儲位置創建一個Delta表。複製並粘貼此代碼片段到一個筆記本單元格:
下降表格如果存在鑽石;創建表格鑽石使用δ位置“/ mnt /δ/鑽石”
按下鍵運行單元格SHIFT + ENTER.筆記本自動連接到您在步驟2中創建的集群,並在計算單元中運行該命令。
步驟4:查詢表
運行SQL語句按顏色查詢鑽石平均價格表。
若要向筆記本添加單元格,請將鼠標移到單元格底部並單擊圖標。
複製此代碼段並將其粘貼到單元格中。
選擇顏色,avg(價格)作為價格從鑽石集團通過顏色訂單通過顏色
新聞SHIFT + ENTER.筆記本上顯示了鑽石顏色和平均價格的表格。