跳轉到主要內容
工程的博客

允許簡單的集群創建完整的管理控製使用集群政策

分享這篇文章

磚的集群政策是什麼?

磚的集群政策是一個模板,限製了用戶與集群配置的方式。今天,任何用戶集群創建權限能夠推出一個Apache火花與任何配置集群。這導致了一些問題:

  • 管理者被迫選擇的控製和靈活性。我們經常看到集群被集中管理,加上被剝奪了集群創建權限;這提供了可接受的控製環境,但創建用戶效率的瓶頸。alternative-allowing自由所有用戶——會導致成本失控等問題和跨企業的集群類型的爆炸。
  • 用戶被迫選擇自己的配置,即使他們可能不需要或想要的。對於許多用戶來說,選擇在創建一個新的集群的數量可以overwhelming-many用戶隻是想創建一個小,基本集群為原型,或重新創建一個集群,其他人已經配置。在這些情況下,更多的選擇不是更好。
  • 的標準化配置諸如標簽的目的,退款,用戶新員工培訓和複現性環境是經常手冊。這些可以通過API工作區主要完成,但他們並不完整。

幫助解決這些問題,我們正在引入集群政策允許創建可重用,admin-defined集群模板。這些將控製用戶可以看到並選擇在創建一個集群,並且可以通過組或用戶權限集中管理和控製。我們看到兩大方麵的好處:增加管理員的能力平衡控製和靈活性,簡化用戶體驗加上。

集群政策幫助管理員如何平衡管理控製和用戶的靈活性?

雖然過去管理員必須選擇之間的控製和靈活性在設計使用模式在磚,集群政策將使兩者的共存。通過定義一組模板,可以分配給特定的用戶或組,管理員可以滿足組織的使用指南和治理沒有阻礙的敏捷性特別的集群模型。為此,政策將允許一些最常見的模式自動被複製和執行:

  • 每小時最大DBU燃盡每個集群可以強製執行,以防止用戶旋轉過於大或昂貴的集群
  • 標簽的集群可以強製啟用退款/ showback基於AWS資源標簽
  • 實例類型和數量的實例可以通過白名單控製範圍規範,甚至是正則表達式,提供細粒度控製創建集群的類型和大小
  • 集群類型可以限製,以確保用戶運行作業時隻在集群而不是通用的集群

更複雜的模板,如執行透傳,使外部metastore,等等,還可以提供一個可重用的框架;而不是每次都麵臨複雜的配置創建一個集群,它可以做一次反複,然後應用到新的集群。所有這些將提供更好的可見性,控製和治理磚管理員和雲運維團隊,沒有拿走的靈活性和敏捷性,使得很多磚有價值的客戶。beplay体育app下载地址

集群政策如何幫助簡化非管理用戶的經驗嗎?

今天的磚作為一個用戶,我需要做出一些選擇在創建一個集群時,使用什麼樣的實例類型和大小等我的司機和工人節點,包括有多少實例,磚的版本運行時,自動定量參數,等等。而這些選項一些用戶可能會發現有用的和必要的,大多數用戶隻需要基本的選擇在創建一個集群時,如選擇小的、中等的、大的。高級選項可能會不必要地讓non-sophisticated用戶無所適從。集群政策將讓這些用戶選擇一個基本政策(如“小”),提供一個集群名稱,直接得到他們的筆記本。例如,而不是完整的創建集群屏幕今天看到所有用戶,最小的政策看起來像這樣:

新磚集群政策模板簡化集群的創建,減少一些基本的配置選項的選擇。

這是特別有用的用戶可能是新的雲計算世界,或者不熟悉Apache火花TM;他們現在可以依靠模板提供給他們,而不是猜測。更高級的用戶可能需要額外的選項,可以創建政策和分配給特定用戶或組。政策是足夠靈活,允許許多層次的粒度,這樣數據科學或工程團隊可以看到他們需要的精確的詳細級別,沒有額外的複雜性導致混亂和降低生產力。

一些示例集群的政策是什麼?

盡管集群政策將繼續成為我們添加更多的端點和接口,我們已經采取了一些最佳實踐的領域,形成成一個起點。這些模板的一些例子包括:

  • 小/中/大“t恤尺寸”集群:最小集群要求沒有配置由用戶;我們使用一個標準i3.2xlarge節點類型和伸縮auto-termination執行。用戶隻需要提供一個集群名稱。
  • 馬克斯DBU數:允許所有集群的參數進行修改,但提供了一個限製(即。每小時50 DBUs),以防止用戶創建一個特別大的或昂貴的集群
  • 單節點機器學習(ML)集群:限製磚毫升的運行時,運行時執行1司機和0工人,並提供選擇CPU或GPU機器接受毫升工作負載
  • 多數集群:用戶隻能創建一個工作集群和運行數據磚工作使用這個政策,和不能創建共享通用的集群

這是一個小樣本的許多不同類型的模板,對集群政策是可能的。

一般集群政策

描述:這是一個通用的集群政策旨在引導用戶,限製一些功能,同時要求標簽,限製最大實例數,和執行超時。

{“spark_conf.spark.databricks.cluster.profile”:{“類型”:“固定”,“價值”:“serverless”,“隱藏”:真正的},“instance_pool_id”:{“類型”:“禁止”,“隱藏”:真正的},“spark_version”:{“類型”:“正則表達式”,“模式”:“6。[0 - 9].x-scala。*”},“node_type_id”:{“類型”:“白名單”,“價值觀”:【“i3.xlarge”,“i3.2xlarge”,“i3.4xlarge”),“defaultValue”:“i3.2xlarge”},“driver_node_type_id”:{“類型”:“固定”,“價值”:“i3.2xlarge”,“隱藏”:真正的},“autoscale.min_workers”:{“類型”:“固定”,“價值”:1,“隱藏”:真正的},“autoscale.max_workers”:{“類型”:“範圍”,“執行”:25,“defaultValue”:5},“autotermination_minutes”:{“類型”:“固定”,“價值”:30.,“隱藏”:真正的},“custom_tags.team”:{“類型”:“固定”,“價值”:“產品”}}

注意:對於Azure用戶來說,“node_type_id”和“driver_node_type_id”需要Azure支持vm。

簡單的中等規模的政策

描述:這個政策允許用戶創建一個集群中磚用最小的配置。隻有在創建時必需字段集群名稱;其餘的是固定的和隱藏。

{“instance_pool_id”:{“類型”:“禁止”,“隱藏”:“真正的”},“spark_conf.spark.databricks.cluster.profile”:{“類型”:“禁止”,“隱藏”:“真正的”},“autoscale.min_workers”:{“類型”:“固定”,“價值”:1,“隱藏”:“真正的”},“autoscale.max_workers”:{“類型”:“固定”,“價值”:10,“隱藏”:“真正的”},“autotermination_minutes”:{“類型”:“固定”,“價值”:60,“隱藏”:“真正的”},“node_type_id”:{“類型”:“固定”,“價值”:“i3.xlarge”,“隱藏”:“真正的”},“driver_node_type_id”:{“類型”:“固定”,“價值”:“i3.xlarge”,“隱藏”:“真正的”},“spark_version”:{“類型”:“固定”,“價值”:“7. x-snapshot-scala2.11”,“隱藏”:“真正的”},“custom_tags.team”:{“類型”:“固定”,“價值”:“產品”}}

注意:對於Azure用戶來說,“node_type_id”和“driver_node_type_id”需要Azure支持vm。

工作政策

描述:這個政策隻允許用戶創建磚工作(自動化)集群和集群運行作業使用。用戶無法創建一個通用(互動)集群使用該策略。

{“cluster_type”:{“類型”:“固定”,“價值”:“工作”},“.dbus_per_hour”:{“類型”:“範圍”,“執行”:One hundred.},“instance_pool_id”:{“類型”:“禁止”,“隱藏”:“真正的”},“num_workers”:{“類型”:“範圍”,“minValue”:1},“node_type_id”:{“類型”:“正則表達式”,“模式”:“[rmci] [3 - 5] [rnad] *。(主){0,1}xlarge”},“driver_node_type_id”:{“類型”:“正則表達式”,“模式”:“[rmci] [3 - 5] [rnad] *。(主){0,1}xlarge”},“spark_version”:{“類型”:“正則表達式”,“模式”:“6。[0 - 9].x-scala。*”},“custom_tags.team”:{“類型”:“固定”,“價值”:“產品”}}

注意:對於Azure用戶來說,“node_type_id”和“driver_node_type_id”需要Azure支持vm。

高並發透傳政策

描述:這個政策允許用戶創建默認啟用了透傳的集群,在高並發模式。這簡化了管理員的設置,因為用戶需要手動設置適當的激發參數。

{“spark_conf.spark.databricks.passthrough.enabled”:{“類型”:“固定”,“價值”:“真正的”},“spark_conf.spark.databricks.repl.allowedLanguages”:{“類型”:“固定”,“價值”:“python, sql”},“spark_conf.spark.databricks.cluster.profile”:{“類型”:“固定”,“價值”:“serverless”},“spark_conf.spark.databricks.pyspark.enableProcessIsolation”:{“類型”:“固定”,“價值”:“真正的”},“custom_tags.ResourceClass”:{“類型”:“固定”,“價值”:“Serverless”}}

外部Metastore政策

描述:這個政策允許用戶創建一個磚集群與admin-defined metastore已附呈。這是非常有用的,允許用戶創建自己的集群,而無需額外的配置。

{“spark_conf.spark.hadoop.javax.jdo.option.ConnectionURL”:{“類型”:“固定”,“價值”:" jdbc::狀態"置疑" / / < jdbc url >”},“spark_conf.spark.hadoop.javax.jdo.option.ConnectionDriverName”:{“類型”:“固定”,“價值”:“com.microsoft.sqlserver.jdbc.SQLServerDriver”},“spark_conf.spark.databricks.delta.preview.enabled”:{“類型”:“固定”,“價值”:“真正的”},“spark_conf.spark.hadoop.javax.jdo.option.ConnectionUserName”:{“類型”:“固定”,“價值”:”{{秘密/ metastore / databricks-poc-metastore-user}}”},“spark_conf.spark.hadoop.javax.jdo.option.ConnectionPassword”:{“類型”:“固定”,“價值”:”{{秘密/ metastore / databricks-poc-metastore-password}}”}}< / jdbc url >

我如何開始?

你需要磚層(Azure磚或AWS)和加(見價格細節)使用集群政策。

磚管理的,你可以去“集群”頁麵,“集群政策”選項卡創建您的政策在政策JSON編輯器。或者,您可以創建政策通過API。看到細節磚文檔——集群政策(AWS,Azure)。

免費試著磚
看到所有工程的博客的帖子
Baidu
map