故障排除創建工作區

概述

以下部分描述在工作區中創建和配置錯誤如何修複錯誤。大多數問題適用於工作區創建使用賬戶控製台賬戶API,異常。

請注意

本文描述的過程賬戶的E2版本磚平台Beplay体育安卓版本。所有新磚帳戶和大多數現有的帳戶現在E2。如果你不確定該帳戶類型,請聯係您的磚的代表。

重要的

這篇文章提到了這個詞數據平麵,這是計算層磚平台。Beplay体育安卓版本在本文的上下文中,平麵是指經典數據平麵在AWS帳戶。相比之下,Serverless飛機數據支持Serverless SQL倉庫(公共預覽版)在磚AWS帳戶運行。欲了解更多,請看Serverless計算

一般的錯誤

最大數量的vpc

如果你得到一個錯誤消息,提到vpc的最大數量,提交服務限製增加請求vpc的數量允許在該地區。這個錯誤通常隻發生如果你使用Databricks-managed VPC,不是customer-managed VPC。

最大數量的VPC端點

如果你得到一個錯誤消息,提到VPC端點的最大數量,提交服務限製增加請求網關VPC端點的數量允許在該地區。這個錯誤通常隻發生如果你使用Databricks-managed VPC,不是customer-managed VPC。

最大數量的地址

如果你得到一個錯誤消息,提到地址的最大數量,提交服務限製增加請求VPC彈性IP地址允許的地區。這個錯誤通常隻發生如果你使用Databricks-managed VPC,不是customer-managed VPC。

未授權來執行該操作

如果你得到一個錯誤,你未被授權執行這個操作,檢查你的我的角色有所有必要的政策,如中定義我的角色的文章

存儲配置錯誤消息

畸形的要求:失敗的存儲配置驗證檢查

如果你得到一個錯誤消息,提到存儲配置驗證檢查失敗,你的S3 bucket權限不正確設置。遵循本文中的步驟AWS存儲配置以確保S3 bucket的權限是正確的。

證書配置錯誤消息

畸形的要求:沒有憑據配置驗證檢查

列表的權限檢查錯誤消息指出你的問題的可能原因。

  • 如果證書配置驗證失敗少於十權限檢查,很可能你我的政策是失蹤的那些特定的權限。從這篇文章複製正確的策略創建一個cross-account我的角色

  • 如果證書配置驗證失敗10或更多的檢查,不過更有可能的是,我的信任關係的角色是不正確設置。確認客戶的信任關係的角色是根據指令設置正確創建一個cross-account我的角色

如果你的政策和信任關係似乎是正確的,還要檢查以下幾點:

  • 確認你是憑證對象包括正確的作用。

  • 確認你是否有企業級服務控製策略(scp)否認了AssumeRole行動或否認EC2 / VPC訪問。如果你不確定,問你對scp的AWS管理員。

網絡配置

子網已經在使用由另一個網絡

一個子網使用錯誤通常看起來像下麵的:

MALFORMED_REQUEST:畸形的參數:subnet_id subnet-xxxxxxxx1已經使用另一個網絡,subnet_id subnet-xxxxxxxx2已經使用另一個網絡。

這意味著你有一個磚使用相同的子網的網絡配置。解決,做以下之一:

  • 刪除之前的配置。如果您使用賬戶API,使用刪除網絡配置API。您還可以使用賬戶控製台刪除配置。

  • 如果之前的配置是不使用,您可以使用之前的配置為您的新工作區。

  • 如果運行網絡配置已經在使用的工作區,創建新的子網和網絡配置為您的新工作區。

注意,如果先前嚐試工作區創建失敗,相關配置組件不會自動刪除。

在設置任何網絡配置錯誤,但錯誤出現在工作區中創建

網絡配置可能試圖部署一個工作區後顯示錯誤,但是當你設置它顯示沒有錯誤。這是因為磚隻執行基本的驗證對象在創建網絡。例如,它檢查獨特的子網,獨特的安全組,和失蹤的字段。

最有意義的網絡配置驗證隻發生在您嚐試創建一個新的工作區與新的網絡配置。如果有錯誤工作區部署期間,密切關注網絡驗證錯誤消息的細節。

一個新的集群不響應或“數據平麵網絡配置”事件日誌錯誤

看起來像一個工作區部署成功後,您可能會注意到,你的第一個測試集群不回應。大約20 - 30分鍾後,檢查你的集群事件日誌。你可能會看到類似的錯誤消息:

數據平麵網絡配置錯誤。請確認您的數據平麵的網絡配置正確。錯誤信息:節點守護進程在600000毫秒平超時…

這個消息表明路由或防火牆是不正確的。磚要求新集群的EC2實例,但遇到了一個長的時間延遲等待EC2實例引導和連接到控製飛機。集群管理器終止實例和報告這個錯誤。

你的網絡配置必須允許集群節點實例成功連接到磚控製飛機。速度比使用一個集群故障診斷技術,可以將一個EC2實例部署到一個工作區子網和典型的網絡故障排除步驟數控,,遠程登錄,traceroute等等。每個地區的繼電器CNAMEcustomer-managed VPC的文章。構件存儲,確保有一個成功的網絡路徑S3。

訪問域和ip的地區必需的數據平麵地址。區域端點,明白了配置區域端點(推薦)。下麵的例子使用AWS地區一來就:

#驗證訪問web應用程序數控-zv ireland.cloud.www.eheci.com443年#驗證訪問安全集群連接繼電器數控-zv tunnel.eu -西方- 1. cloud.www.eheci.com443年#驗證S3全球和區域的訪問數控-zv s3.amazonaws.com443年數控-zv s3.eu -西方- 1. amazonaws.com443年#驗證STS全球和區域的訪問數控-zv sts.amazonaws.com443年數控-zv sts.eu -西方- 1. amazonaws.com443年#驗證區域運動的訪問數控-zv kinesis.eu -西方- 1. amazonaws.com443年

如果這些都返回正確,網絡可以正確配置,但可能會有另一個問題如果您正在使用一個防火牆。防火牆可能深度數據包檢測,SSL檢驗,或別的東西導致磚命令失敗。使用一個EC2實例磚子網,試試以下:

curl - x - h得到“授權:無記名<標記>”\https:// <工作空間名稱>.cloud.www.eheci.com/api/2.0/clusters/spark-versions

取代<標記>用你自己的個人訪問令牌和對您的工作空間中使用正確的URL。看到身份驗證使用磚個人的訪問令牌

如果這個請求失敗,嚐試- k選擇與你請求刪除SSL驗證。如果這個工作的- k選項,那麼防火牆導致SSL證書的問題。

看看SSL證書使用以下和替換的域名控製平麵的web應用程序域你的地區:

openssl s_client -showcerts連接oregon.cloud.www.eheci.com: 443

這個命令顯示了返回代碼和數據磚證書。如果它返回一個錯誤,這是一個跡象,表明你的防火牆配置,必須固定。

請注意,SSL問題不是一個網絡層問題。查看流量防火牆不會顯示這些SSL問題。看著源和目的地的請求將正常工作。

一個工作區似乎工作但其網絡配置狀態警告

確保你可以開始一個集群,運行一個數據的工作,而你沒有DBFS_DOWNMETASTORE_DOWN顯示在你的集群事件日誌。如果沒有這種集群事件日誌中的錯誤警告狀態不一定是一個問題。

對於一個新的工作空間,有許多磚試圖檢查的事情。如果你不做一個簡單的路由像工作區子網→NAT網關→網絡網關,然後磚不能確認您的網絡是否正確。在這種情況下,磚上顯示一個警告的網絡配置。

檢查子網路由表錯誤

在集群事件日誌,你可以看到這樣的錯誤:

子網:路由表ID rtb-xxxxxxxx用於ID subnet-yyyyyyyyy不見了默認路由的子網直接所有流量nat-zzzzzzzzzzz NAT網關。

這個錯誤可以指出一個問題如果你要部署一個簡單的磚工作區配置。

如果你做你自己的出口設置,如路由通過防火牆通過交通門戶樞紐輪輻的方式(可選),這個錯誤也不一定是有意義的。

另一個潛在的這個錯誤的原因是你注冊一個NAT子網的磚子網的集群。從列表中移除NAT子網的磚工作區子網並重新創建工作區。

不添加你的NAT子網的網絡配置子網

不添加你的NAT子網的磚工作區子網。NAT為NAT網關和子網是並不打算作為一個子網磚集群節點的部署。創建網絡配置時,隻列出兩個子網節點用於磚。

問題用你metastore或集群事件日誌包括METASTORE_DOWN事件

如果你的工作區似乎和您可以設置集群,但你有METASTORE_DOWN事件在你的集群事件日誌,或者如果你的metastore似乎並不工作,確認如果你使用一個Web應用程序防火牆(WAF)像魷魚代理。集群成員必須連接到幾個WAF服務,不工作。

集群開始錯誤:無法啟動火花容器實例

你可能會看到一個集群日誌錯誤,如:

集群開始錯誤:無法啟動火花容器實例…例外:不能添加容器…與地址....超時1例外後嚐試

集群日誌錯誤可能是因為實例無法使用STS進入根S3 bucket。這通常發生當你實現漏出保護,使用VPC鎖定通信端點,或者添加一個防火牆。

修複,下列之一:

獲得更多關於錯誤的信息,調用decode-authorization-messageAWS CLI命令。詳情,請參閱AWS文章decode-authorization-message。命令的樣子:

aws sts decode-authorization-message——編碼信息

你可以看到這個錯誤如果你建立了一個VPC端點(VPCE)不同的安全組STS VPCE工作區。你可以更新安全組,讓資源在每一個安全組交談或者把STS VPCE在同一子網安全組的工作空間。

集群節點需要使用STS使用客戶訪問根S3 bucket S3政策。網絡路徑必須用於AWS STS從磚集群節點的服務。

安全組不能更新最新的規則

您可能會看到一個集群日誌錯誤,如:

安全組ID sg-xxxx不能更新最新安全組規則

更新我的符合我們的角色我的角色的文章。在某些情況下,資源AuthorizeSecurityGroupEgress和類似的行動可以有逗號分隔的值。更新這些單獨的資源而不是一個資源:

正確的

“行動”:(“ec2: AuthorizeSecurityGroupEgress”,“ec2: AuthorizeSecurityGroupIngress”,“ec2: RevokeSecurityGroupEgress”,“ec2: RevokeSecurityGroupIngress”),“資源”:(“攻擊:aws: ec2: us-east-1:444:安全組/ sg-xxxx”,“攻擊:aws: ec2: us-east-1:444:安全組/ sg-yyyy”,“攻擊:aws: ec2: us-east-1:444:安全組/ sg-zzzz”),

不正確的

“資源”:(“攻擊:aws: ec2: us-east-1:444:安全組/ sg-xxxx sg-yyyy, sg-zzzz”),

如果你有網絡設置問題,考慮使用Databricks-managed VPC

如果你有網絡設置的問題,你可以選擇創建工作區Databricks-managed VPC而不是customer-managed VPC。

重要的

你必須選擇是否提供customer-managed VPC當創建工作區。你不能改變這個設置後您成功創建工作區。

切換工作空間使用Databricks-managed VPC失敗,你必須使用一個不同的cross-account我角色:

  1. cross-account我角色篇文章。

  2. 選擇並複製策略的標簽磚VPC

  3. 使用這一政策工作區創建使用帳戶控製台工作區創建使用帳戶API

    • 賬戶控製台在網絡配置選擇器,選擇Databricks-managed

    • 賬戶的API,小心不包括network_id元素,例如:

      {“workspace_name”:“<工作空間名稱>”,“deployment_name”:“< deployment-name >”,“aws_region”:“< aws-region >”,“credentials_id”:“< credentials-id >”,“storage_configuration_id”:“< storage-configuration-id >”}

賬戶API特定錯誤消息

以下錯誤可能從一個帳戶API請求返回創建工作區。

畸形的要求:無效<設置>在HTTP請求體

的JSON請求主體是格式不正確的。在這個錯誤消息,<設置>是指憑證,存儲配置,或網絡。確認所有的特殊字符都逃脫了正確的URL或者使用REST API客戶機應用程序例如郵差。

畸形的要求:無效<設置>在身體

的JSON請求主體是格式不正確的。在這個錯誤消息,<設置>是指憑證,存儲配置,或網絡。確認所有的特殊字符都逃脫了正確的URL或者使用REST API客戶機應用程序例如郵差。