DataGrip與Databricks的集成

DataGrip是為數據庫開發人員提供的集成開發環境(IDE),它提供查詢控製台、模式導航、解釋計劃、智能代碼完成、實時分析和快速修複、重構、版本控製集成和其他功能。

本文介紹如何使用本地開發機器安裝、配置DataGrip,並使用DataGrip處理Databricks中的數據庫。

請注意

本文使用macOS進行了測試,磚JDBC驅動程序版本2.6.25,DataGrip2021.1.1版本。

需求

在安裝DataGrip之前,您的本地開發機器必須滿足以下要求:

  • Linux、macOS或Windows操作係統。

  • 下載磚JDBC驅動程序到本地開發機器上,提取DatabricksJDBC42.jar已下載的DatabricksJDBC42——<版本> . zip文件。

  • 一個磚集群SQL倉庫連接DataGrip到。

步驟1:安裝DataGrip

下載並安裝DataGrip

  • Linux:下載. zip文件,提取其內容,然後按照Install-Linux-tar.txt文件。

  • macOS:下載並運行dmg文件。

  • 窗戶:下載並運行. exe文件。

有關更多信息,請參見安裝DataGrip在DataGrip網站上。

步驟2:配置DataGrip的Databricks JDBC Driver

使用前麵下載的Databricks JDBC驅動程序的信息設置DataGrip。

  1. DataGrip開始。

  2. 點擊文件>數據源

  3. 數據來源和驅動程序對話框中,單擊司機選項卡。

  4. 單擊+司機)按鈕,添加驅動程序。

  5. 的名字,輸入

  6. 一般選項卡,驅動程序文件列表中,點擊+添加)按鈕。

  7. 點擊定製的罐子

  8. 瀏覽到並選擇DatabricksJDBC42.jar文件,然後單擊開放

  9. 中,選擇com.databricks.client.jdbc.Driver

  10. 點擊好吧

步驟3:連接DataGrip到您的Databricks數據庫

使用DataGrip連接到您希望用於訪問Databricks工作空間中的數據庫的集群或SQL倉庫。

  1. 在DataGrip中,單擊文件>數據源

  2. 數據源選項卡上,單擊+添加)按鈕。

  3. 選擇上一步添加的驅動程序。

  4. 一般選項卡,URL的值JDBC URL字段為您的Databricks資源設置如下:

    1. 找到JDBC URL的字段值。JDBC / ODBC選項卡中高級選項您的集群的區域。JDBC URL應該類似於下麵這個:

      jdbc//dbc-a1b2345c-d6e7com443/默認的運輸方式httpssl1httpPathsql/protocolv1/o/1234567890123456/1234-567890-reef123AuthMech3.UID令牌鬆材線蟲病= <個人-訪問-令牌>

      重要的

      如果JDBC URL以jdbc:火花:,你必須把它改為jdbc:磚:否則您稍後將會得到一個連接錯誤。

    2. 取代< personal-access-token >與你的個人訪問令牌用於Databricks工作區。

    提示

    如果不想在本地開發機器上存儲個人訪問令牌,請省略UID =令牌;PWD = < personal-access-token >從JDBC URL和保存列表中,選擇從來沒有.係統將提示您輸入您的用戶(這個詞令牌),密碼(您的個人訪問令牌)每次嚐試連接。

    有關更多信息,請參見數據源和驅動程序對話框在DataGrip網站上。

    1. 找到JDBC URL的字段值。連接細節選項卡。JDBC URL應該類似於下麵這個:

      jdbc//dbc-a1b2345c-d6e7com443/默認的運輸方式httpssl1AuthMech3.httpPath= /sql/1.0/倉庫/a123456bcde7f890

      重要的

      如果JDBC URL以jdbc:火花:,你必須把它改為jdbc:磚:否則您稍後將會得到一個連接錯誤。

    2. 用戶,輸入單詞令牌

    3. 密碼,輸入您的個人訪問令牌

    4. 檢查本地保存密碼

      提示

      如果不希望在本地開發機器上存儲個人訪問令牌,請離開用戶而且密碼空白和,在保存列表中,選擇從來沒有.係統將提示您輸入您的用戶(這個詞令牌),密碼(您的個人訪問令牌)每次嚐試連接。

    5. 的名字,輸入磚SQL的倉庫

    有關更多信息,請參見數據源和驅動程序對話框在DataGrip網站上。

  5. 點擊測試連接

    提示

    應該在測試連接之前啟動資源。否則,在資源啟動時,測試可能需要幾分鍾才能完成。

  6. 如果連接成功,則在模式選項卡中,選中希望能夠訪問的模式的複選框默認的

  7. 點擊好吧

對於希望DataGrip訪問的每個資源,重複此步驟中的說明。

步驟4:使用DataGrip瀏覽表

使用DataGrip訪問Databricks工作區中的表。

  1. 在DataGrip中數據庫窗口,展開資源節點,展開要瀏覽的模式,然後展開

  2. 雙擊一個表。顯示表中的第一組行。

重複此步驟中的說明以訪問其他表。

中訪問其他模式中的表數據庫窗口的工具欄,單擊數據源屬性圖標。在數據來源和驅動程序對話框,對模式選項卡,選中要訪問的每個其他模式的複選框,然後單擊好吧

步驟5:使用DataGrip運行SQL語句

使用DataGrip加載示例鑽石表的樣本數據集(databricks-datasets)默認的數據庫,然後查詢表。有關更多信息,請參見創建一個表作為一名數據科學家,開始使用Databricks.如果不想加載樣例表,請跳到下一個步驟

  1. 在DataGrip中數據庫窗口,默認的模式展開,點擊File >新建> SQL文件

  2. 例如,為文件輸入一個名稱create_diamonds

  3. 在file選項卡中,輸入這些SQL語句,這將刪除一個名為鑽石,然後創建一個名為鑽石根據指定的數據庫文件係統(DBFS)掛載點內CSV文件的內容:

    下降表格如果存在鑽石創建表格鑽石使用CSV選項路徑“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”“真正的”);
  4. 選擇下降表格聲明。

  5. 在文件選項卡的工具欄上,單擊執行圖標。

  6. 選擇如果存在鑽石,刪除表;CREATE TABLE diamond ..在下拉列表中。

    提示

    更改單擊時發生的情況執行圖標,選擇定製在下拉列表中。

  7. 數據庫窗口中,雙擊鑽石表查看其數據。如果鑽石表未顯示,單擊刷新窗口工具欄中的按鈕。

刪除鑽石表:

  1. 在DataGrip中數據庫窗口的工具欄,單擊跳轉到查詢控製台按鈕。

  2. 選擇控製台(默認)

  3. 在控製台選項卡中,輸入以下SQL語句:

    下降表格鑽石
  4. 選擇下降表格聲明。

  5. 在控製台選項卡的工具欄上,單擊執行圖標。的鑽石表從表列表中消失。如果鑽石表未消失時,單擊刷新按鈕數據庫窗口的工具欄。

下一個步驟

額外的資源