創建集群和SQL倉庫統一目錄訪問

本文將展示如何創建一個磚集群或SQL的倉庫,可以在統一目錄訪問數據。

SQL倉庫用於運行磚SQL工作負載,如查詢、儀表板和可視化。SQL倉庫允許您訪問統一編目數據和運行統一Catalog-specific命令默認情況下,隻要你的工作區是附加到一個統一的目錄metastore

集群用於運行工作負載數據科學與工程和磚機器學習persona-based環境,使用筆記本或自動工作。創建一個集群,可以訪問目錄,統一工作區創建集群必須連接到一個目錄metastore和必須使用Unity-Catalog-capable統一訪問模式(共享或單用戶)。

你可以處理數據在統一目錄使用這些計算資源,這取決於您所使用的環境:磚SQL SQL倉庫,或集群的數據科學與工程和磚機的學習環境。

請注意

信息集群的配置界麵更改,可在預覽,明白了創建一個集群

集群訪問模式是什麼?

當你創建任何集群在磚,你必須選擇一個訪問模式是特定於您想要使用的類型的工作負載集群。統一目錄執行安全使用特定集群訪問模式。如果沒有配置了一個集群Unity-Catalog-capable訪問模式(或單用戶)共享,集群不能訪問數據在統一目錄。

下表列出了所有可用的訪問模式:

訪問模式

對用戶可見

加州大學的支持

支持的語言

筆記

單用戶

總是

是的

Python, SQL, Scala, R

可以分配給單個用戶使用的。閱讀從一個視圖,你必須有選擇所有引用的表和視圖。不支持動態視圖。

共享

總是(保費計劃要求)

是的

Python(磚運行時的11.3 LTS和上圖),SQL

可以使用多個用戶與用戶之間數據隔離。看到共享的局限性

任何隔離共享

管理員可以隱藏這個集群類型執行用戶隔離在管理頁麵設置。

沒有

Python, SQL, Scala, R

有一個相關帳戶級別設置為任何隔離共享集群

自定義

隱藏(所有新集群)

沒有

Python, SQL, Scala, R

這個選項顯示隻有如果你有現有的集群,而無需指定的訪問模式。

你可以升級現有集群的要求統一目錄通過設置集群訪問模式單用戶共享。有額外的訪問模式的局限性對結構化流統一目錄,看看結構化流媒體支持

重要的

在不支持集群API訪問模式。

共享訪問模式的局限性

  • 不支持Init腳本。

  • 集群在磚運行時庫不支持13.0及以下。

  • 支持集群級Python庫磚運行時的13.1及以上。支持Python輪子,也可以作為工作空間上傳文件,但不使用DBFS filepaths引用的庫,包括庫上傳到DBFS根。不支持非python庫。看到集群庫

  • 不支持Spark-submit工作。

  • 磚不支持運行時毫升。

  • 不能使用Scala, R,抽樣api,或客戶直接從雲存儲讀取數據,比如DBUtils。

  • 不能使用用戶定義函數(udf),包括UDAFs UDTFs,熊貓在火花(applyInPandas和mapInPandas),蜂巢udf。

  • 必須作為low-privilege用戶集群節點上運行的命令禁止訪問文件係統的敏感部分或創建網絡連接端口80和443。

試圖繞過這些限製將會失敗。這些限製是通過集群用戶不能訪問未經授權的數據。

請注意

  • 對於許多用例,替代特性可以用來代替init腳本配置集群。

  • 如果您的工作負載需要init腳本、集群庫jar或用戶定義的函數,您可能有資格使用這些特性在一個私人預覽。想要了解更多關於私人的條款和條件預覽和請求訪問,注冊在這裏

需求

創建一個集群,可以訪問統一目錄

等運行工作負載集群設計筆記本和自動工作。

創建一個集群,可以訪問目錄,統一工作區metastore必須附加到一個統一的目錄。

磚運行時的要求

統一目錄需要磚運行的集群運行時11.3 LTS或以上。

步驟

創建一個集群:

  1. 在側邊欄,使用角色切換器選擇數據科學與工程或機器學習。

  2. 在側邊欄,點擊新的>集群

  3. 選擇您想要使用的訪問模式。

    創建集群加州大學

    為集群上運行標準磚運行時版本,選擇單用戶共享訪問模式連接統一目錄。如果你對機器學習使用磚運行時,你必須選擇單用戶訪問模式連接統一目錄。看到集群訪問模式是什麼?

  4. 選擇一個磚11.3 LTS以上的運行時版本。

  5. 完成你的集群配置並點擊創建集群

當集群是可用的,它將能夠運行工作負載,使用統一目錄。

創建一個可以訪問的SQL倉庫統一目錄

SQL倉庫需要在磚SQL運行工作負載,如查詢、儀表板和可視化。默認情況下所有SQL倉庫可以連接到統一目錄。看到配置SQL倉庫為特定的配置選項。