故障排除創建工作區
概述
以下部分描述在工作區中創建和配置錯誤如何修複錯誤。大多數問題適用於工作區創建使用賬戶控製台或賬戶API,異常。
請注意
本文描述的過程賬戶的E2版本磚平台Beplay体育安卓版本。所有新磚帳戶和大多數現有的帳戶現在E2。如果你不確定該帳戶類型,請聯係您的磚的代表。
重要的
這篇文章提到了這個詞數據平麵,這是計算層磚平台。Beplay体育安卓版本在本文的上下文中,平麵是指經典數據平麵在AWS帳戶。相比之下,serverless飛機數據支持serverless SQL倉庫在磚AWS帳戶運行。欲了解更多,請看Serverless計算。
一般的錯誤
最大數量的vpc
如果你得到一個錯誤消息,提到vpc的最大數量,提交服務限製增加請求vpc的數量允許在該地區。這個錯誤通常隻發生如果你使用Databricks-managed VPC,不是customer-managed VPC。
最大數量的VPC端點
如果你得到一個錯誤消息,提到VPC端點的最大數量,提交服務限製增加請求網關VPC端點的數量允許在該地區。這個錯誤通常隻發生如果你使用Databricks-managed VPC,不是customer-managed VPC。
最大數量的地址
如果你得到一個錯誤消息,提到地址的最大數量,提交服務限製增加請求VPC彈性IP地址允許的地區。這個錯誤通常隻發生如果你使用Databricks-managed VPC,不是customer-managed VPC。
未授權來執行該操作
如果你得到一個錯誤,你未被授權執行這個操作,檢查你的我的角色有所有必要的政策,如中定義我的角色的文章。
存儲配置錯誤消息
畸形的要求:失敗的存儲配置驗證檢查
如果你得到一個錯誤消息,提到存儲配置驗證檢查失敗,你的S3 bucket權限不正確設置。遵循本文中的步驟為工作區中創建一個S3 bucket部署以確保S3 bucket的權限是正確的。
證書配置錯誤消息
畸形的要求:沒有憑據配置驗證檢查
列表的權限檢查錯誤消息指出你的問題的可能原因。
如果證書配置驗證失敗少於十權限檢查,很可能你我的政策是失蹤的那些特定的權限。從這篇文章複製正確的策略為工作區部署創建了我的角色。
如果證書配置驗證失敗10或更多的檢查,不過更有可能的是,我的信任關係的角色是不正確設置。確認客戶的信任關係的角色是根據指令設置正確為工作區部署創建了我的角色。
如果你的政策和信任關係似乎是正確的,還要檢查以下幾點:
確認你是憑證對象包括正確的作用。
確認你是否有企業級服務控製策略(scp)否認了
AssumeRole
行動或否認EC2 / VPC訪問。如果你不確定,問你對scp的AWS管理員。
網絡配置
子網已經在使用由另一個網絡
一個子網使用錯誤通常看起來像下麵的:
MALFORMED_REQUEST:畸形的參數:subnet_id subnet-xxxxxxxx1已經使用另一個網絡,subnet_id subnet-xxxxxxxx2已經使用另一個網絡。
這意味著你有一個磚使用相同的子網的網絡配置。解決,做以下之一:
如果之前的配置是不使用,您可以使用之前的配置為您的新工作區。
如果運行網絡配置已經在使用的工作區,創建新的子網和網絡配置為您的新工作區。
注意,如果先前嚐試工作區創建失敗,相關配置組件不會自動刪除。
在設置任何網絡配置錯誤,但錯誤出現在工作區中創建
網絡配置可能試圖部署一個工作區後顯示錯誤,但是當你設置它顯示沒有錯誤。這是因為磚隻執行基本的驗證對象在創建網絡。例如,它檢查獨特的子網,獨特的安全組,和失蹤的字段。
最有意義的網絡配置驗證隻發生在您嚐試創建一個新的工作區與新的網絡配置。如果有錯誤工作區部署期間,密切關注網絡驗證錯誤消息的細節。
一個新的集群不響應或“數據平麵網絡配置”事件日誌錯誤
看起來像一個工作區部署成功後,您可能會注意到,你的第一個測試集群不回應。大約20 - 30分鍾後,檢查你的集群事件日誌。你可能會看到類似的錯誤消息:
數據平麵網絡配置錯誤。請確認您的數據平麵的網絡配置正確。錯誤信息:節點守護進程在600000毫秒平超時…
這個消息表明路由或防火牆是不正確的。磚要求新集群的EC2實例,但遇到了一個長的時間延遲等待EC2實例引導和連接到控製飛機。集群管理器終止實例和報告這個錯誤。
你的網絡配置必須允許集群節點實例成功連接到磚控製飛機。速度比使用一個集群故障診斷技術,可以將一個EC2實例部署到一個工作區子網和典型的網絡故障排除步驟數控
,平
,遠程登錄
,traceroute
等等。每個地區的繼電器CNAMEcustomer-managed VPC的文章。構件存儲,確保有一個成功的網絡路徑S3。
訪問域和ip的地區必需的數據平麵地址。區域端點,明白了配置區域端點(推薦)。下麵的例子使用AWS地區一來就
:
#驗證訪問web應用程序數控-zv ireland.cloud.www.eheci.com443年#驗證訪問安全集群連接繼電器數控-zv tunnel.eu -西方- 1. cloud.www.eheci.com443年#驗證S3全球和區域的訪問數控-zv s3.amazonaws.com443年數控-zv s3.eu -西方- 1. amazonaws.com443年#驗證STS全球和區域的訪問數控-zv sts.amazonaws.com443年數控-zv sts.eu -西方- 1. amazonaws.com443年#驗證區域運動的訪問數控-zv kinesis.eu -西方- 1. amazonaws.com443年
如果這些都返回正確,網絡可以正確配置,但可能會有另一個問題如果您正在使用一個防火牆。防火牆可能深度數據包檢測,SSL檢驗,或別的東西導致磚命令失敗。使用一個EC2實例磚子網,試試以下:
curl - x - h得到“授權:無記名<標記>”\https:// <工作空間名稱>.cloud.www.eheci.com/api/2.0/clusters/spark-versions
取代<標記>
用你自己的個人訪問令牌和對您的工作空間中使用正確的URL。看到令牌管理API。
如果這個請求失敗,嚐試- k
選擇與你請求刪除SSL驗證。如果這個工作的- k
選項,那麼防火牆導致SSL證書的問題。
看看SSL證書使用以下和替換的域名控製平麵的web應用程序域你的地區:
openssl s_client -showcerts連接oregon.cloud.www.eheci.com: 443
這個命令顯示了返回代碼和數據磚證書。如果它返回一個錯誤,這是一個跡象,表明你的防火牆配置,必須固定。
請注意,SSL問題不是一個網絡層問題。查看流量防火牆不會顯示這些SSL問題。看著源和目的地的請求將正常工作。
一個工作區似乎工作但其網絡配置狀態警告
確保你可以開始一個集群,運行一個數據的工作,而你沒有DBFS_DOWN
或METASTORE_DOWN
顯示在你的集群事件日誌。如果沒有這種集群事件日誌中的錯誤警告
狀態不一定是一個問題。
對於一個新的工作空間,有許多磚試圖檢查的事情。如果你不做一個簡單的路由像工作區子網→NAT網關→網絡網關,然後磚不能確認您的網絡是否正確。在這種情況下,磚上顯示一個警告的網絡配置。
問題用你metastore或集群事件日誌包括METASTORE_DOWN
事件
如果你的工作區似乎和您可以設置集群,但你有METASTORE_DOWN
事件在你的集群事件日誌,或者如果你的metastore似乎並不工作,確認如果你使用一個Web應用程序防火牆(WAF)像魷魚代理。集群成員必須連接到幾個WAF服務,不工作。
集群開始錯誤:無法啟動火花容器實例
你可能會看到一個集群日誌錯誤,如:
集群開始錯誤:無法啟動火花容器實例…例外:不能添加容器…與地址....超時1例外後嚐試
這集群日誌錯誤可能是因為實例無法使用STS進入根S3 bucket。這通常發生當你實現漏出保護,使用VPC鎖定通信端點,或者添加一個防火牆。
修複,下列之一:
獲得更多關於錯誤的信息,調用decode-authorization-message
AWS CLI命令。詳情,請參閱AWS文章decode-authorization-message。命令的樣子:
aws sts decode-authorization-message——編碼信息
你可以看到這個錯誤如果你建立了一個VPC端點(VPCE)不同的安全組STS VPCE工作區。你可以更新安全組,讓資源在每一個安全組交談或者把STS VPCE在同一子網安全組的工作空間。
集群節點需要使用STS使用客戶訪問根S3 bucket S3政策。網絡路徑必須用於AWS STS從磚集群節點的服務。
安全組不能更新最新的規則
您可能會看到一個集群日誌錯誤,如:
安全組ID sg-xxxx不能更新最新安全組規則
更新我的符合我們的角色我的角色的文章。在某些情況下,資源AuthorizeSecurityGroupEgress
和類似的行動可以有逗號分隔的值。更新這些單獨的資源而不是一個資源:
正確的
“行動”:(“ec2: AuthorizeSecurityGroupEgress”,“ec2: AuthorizeSecurityGroupIngress”,“ec2: RevokeSecurityGroupEgress”,“ec2: RevokeSecurityGroupIngress”),“資源”:(“攻擊:aws: ec2: us-east-1:444:安全組/ sg-xxxx”,“攻擊:aws: ec2: us-east-1:444:安全組/ sg-yyyy”,“攻擊:aws: ec2: us-east-1:444:安全組/ sg-zzzz”),
不正確的
“資源”:(“攻擊:aws: ec2: us-east-1:444:安全組/ sg-xxxx sg-yyyy, sg-zzzz”),
如果你有網絡設置問題,考慮使用Databricks-managed VPC
如果你有網絡設置的問題,你可以選擇創建工作區Databricks-managed VPC而不是customer-managed VPC。
重要的
你必須選擇是否提供customer-managed VPC當創建工作區。你不能改變這個設置後您成功創建工作區。
切換工作空間使用Databricks-managed VPC失敗,你必須使用一個不同的cross-account我角色:
去cross-account我角色篇文章。
選擇並複製策略的標簽磚VPC。
使用這一政策工作區創建使用帳戶控製台或工作區創建使用帳戶API
在賬戶控製台在網絡配置選擇器,選擇Databricks-managed。
賬戶的API,小心不包括
network_id
元素,例如:{“workspace_name”:“<工作空間名稱>”,“deployment_name”:“< deployment-name >”,“aws_region”:“< aws-region >”,“credentials_id”:“< credentials-id >”,“storage_configuration_id”:“< storage-configuration-id >”}
診斷與AWS可達性分析儀VPC網絡問題
AWS的可達性分析儀配置分析工具可用於測試資源來源和目的地在VPC資源。你可以找到你的AWS控製台VPC可達性分析。
可達性分析,你可以旋轉測試機磚沒有登錄的子網。您需要添加源作為你的EC2實例和目的地磚控製平麵的IP地址和端口。你可以找到屏蔽組件測試連接。有關更多信息,請參見什麼是可達性分析。