與筆記本電腦教程:查詢數據

本教程將引導您完成使用磚數據科學與工程工作區中創建一個集群和一個筆記本,從一個數據集創建一個表,表查詢,並顯示查詢結果。

提示

作為本文的補充,試著快速入門教程,可以在你的磚數據科學與工程的著陸頁。這是一個5分鍾的介紹磚。當你登錄到磚,尋找導遊:快速入門教程在主頁上,單擊開始教程

快速入門圖標和鏈接

如果你不看到教程,從角色轉換開關選擇數據科學與工程在側邊欄。

您還可以使用磚起程拓殖的提供者本文創建的資源。看到創建集群、筆記本和就業起程拓殖

需求

你登錄數據磚,你在數據科學與工程工作區。

數據科學與工程UI

著陸頁

從左邊欄的常見的任務在著陸頁,你訪問基本數據磚數據科學與工程實體:工作區、集群、表、筆記本,工作,和圖書館。工作區是特殊的根文件夾,存儲你的磚的資產,如筆記本電腦和圖書館,和您導入的數據。

使用側邊欄

你可以訪問所有的磚資產使用側邊欄。側邊欄的內容取決於所選擇的角色:數據科學與工程,機器學習,或SQL

  • 默認情況下,側欄出現在倒塌的狀態,隻有圖標是可見的。移動光標時,側邊欄擴展到完整的視圖。

  • 改變形象,請點擊下麵的圖標磚的標誌磚的標誌,並選擇一個人物。

    改變形象
  • 銷一個人物,這樣看來你下次登錄時,點擊銷的角色旁邊的角色。再點擊刪除銷。

  • 使用菜單選項底部的工具欄設置欄模式汽車(默認行為),擴大,或崩潰

  • 當您打開一個機器學習相關的頁麵,角色會自動切換到機器學習

得到幫助

尋求幫助,點擊幫助圖標幫助在左下角。

幫助菜單

步驟1:創建一個集群

集群是一組數據磚計算資源。創建一個集群:

  1. 在側邊欄中,單擊計算圖標計算

  2. 在計算頁麵,點擊創建計算

  3. 在新的計算頁麵,選擇Scala 11.3 LTS毫升(2.12,火花3.3.0)從下拉磚的運行時版本。

  4. 點擊創建集群

步驟2:創建一個筆記本

一個筆記本是細胞的集合,一個Apache火花集群上運行計算。在工作區中創建一個筆記本:

  1. 在側邊欄中,單擊工作空間的圖標工作空間

  2. 在工作區文件夾,選擇下脫字符號創建>筆記本

    創建筆記本
  3. 筆記本創建對話框,並選擇輸入一個名稱SQL在語言下拉。這個選擇決定了默認的語言的筆記本。

  4. 點擊創建。筆記本打開頂部有一個空單元。

  5. 把筆記本創建的集群。單擊工具欄集群選擇器在筆記本上,從下拉菜單中選擇您的集群。如果您沒有看到您的集群,點擊更多的…並從下拉菜單中選擇集群中的對話框。

步驟3:創建一個表

創建一個表使用數據從一個示例CSV數據文件中可用樣本數據集,數據集的集合磚文件係統(DBFS)是什麼?,一個分布式文件係統安裝在磚集群。你有兩種選擇來創建表。

選項1:創建一個火花從CSV數據表

使用這個選項如果你想快,你隻需要標準的性能水平。這個代碼片段複製並粘貼到一個筆記本電池:

下降如果存在鑽石;創建鑽石使用CSV選項(路徑“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”,“真正的”)

選項2:CSV數據寫入三角洲湖格式和創建一個增量表

三角洲湖提供了一個強大的事務性存儲層,使快速讀取和其他福利。三角洲湖格式由檢查機關文件加上一個事務日誌。使用這個選項來獲得最佳的性能在未來操作放在桌子上。

  1. CSV數據讀入DataFrame三角洲湖格式寫出來。這個命令使用Python語言的魔力命令在其他語言,它允許您交錯命令比筆記本默認語言(SQL)。這個代碼片段複製並粘貼到一個筆記本電池:

    %python鑽石=(火花格式(“csv”)選項(“頭”,“真正的”)選項(“inferSchema”,“真正的”)負載(“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”))鑽石格式(“δ”)保存(“/ mnt /δ/鑽石”)
  2. 創建一個增量表的存儲位置。這個代碼片段複製並粘貼到一個筆記本電池:

    下降如果存在鑽石;創建鑽石使用δ位置“/ mnt /δ/鑽石”

運行細胞按SHIFT + ENTER。筆記本自動連接到集群您在步驟2中創建並運行命令在細胞中。

第四步:查詢該表

運行一個SQL語句查詢平均鑽石價格的表的顏色。

  1. 添加一個筆記本電池,電池底部並單擊鼠標添加細胞圖標。

    添加細胞
  2. 粘貼在細胞中複製這個片段。

    選擇顏色,avg(價格)作為價格鑽石集團通過顏色訂單通過顏色
  3. 新聞SHIFT + ENTER。筆記本顯示表的鑽石顏色和平均價格。

    運行命令

第五步:顯示數據

顯示一個圖表鑽石價格的平均顏色。

  1. 單擊“條形圖圖標圖表按鈕

  2. 點擊繪圖選項

    • 顏色到鑰匙箱。

    • 價格框的值。

    • 在聚合下拉,選擇AVG

      選擇聚合
  3. 點擊應用顯示柱狀圖。

    運用圖表類型