這些文章可以幫助您管理Apache Spark集群。
這個類別中有50篇文章
如果您仍有疑問或希望直接從代理處獲得幫助,請提交申請。我們會盡快回複您的。
請輸入您的請求的詳細信息。我們的支持人員會盡快做出回應。
查詢和轉換在發送到集群之前是加密的。默認情況下,集群中工作節點之間交換的數據不加密。如果您要求始終對數據進行加密,則可以通過TLS 1.2連接使用AES 128對集群工作節點之間的流量進行加密。在某些情況下,您可能需要使用TLS 1.3…
最後更新:2022年3月2日通過亞當Pavlacka
您可以在工作區UI中使用集群詳細信息頁麵上的Metrics選項卡查看Databricks集群中的核心數量。注意Azure Databricks集群節點必須安裝度量服務。如果驅動程序和執行程序具有相同的節點類型,您還可以通過編程方式確定集群中可用的內核數量,使用Sca…
某些用例可能要求您從私有PyPI存儲庫安裝庫。如果從公共存儲庫安裝,則應該查看庫文檔。本文向您展示如何配置一個示例init腳本,該腳本驗證並從私有存儲庫下載PyPI庫。創建初始化腳本
最後更新:2022年3月4日通過darshan.bargal
你正在嚐試更新一個IP訪問列表,你得到一個INVALID_STATE錯誤消息。{"error_code":"INVALID_STATE","message":"Your current IP 3.3.3.3 will not be allowed to access the workspace under current configuration"}產生原因您試圖提交的IP訪問列表更新不包括您當前的公網IP地址。如果你……
最後更新:2022年3月4日通過Gobinath。Viswanathan
你部署了一個新的E2工作空間,但是你得到了集群啟動失敗的消息Client.InternalError。原因您在AWS帳戶級別對EBS卷進行了加密,或者您正在使用自定義KMS密鑰進行EBS加密。這兩種場景中的任何一種都可能導致客戶端。InternalErrorwhen you try to create a cluster in an E2 work...
最後更新:2022年3月4日通過satyadeepak.bollineni
您試圖更新現有的集群策略,但更新不適用於與該策略關聯的集群。如果嚐試編輯由策略管理的集群,則不會應用或保存更改。因為這是一個已知的問題,正在被解決。你可以使用一個變通的方法,直到找到一個永久性的解決方案。
最後更新:2022年3月4日通過jordan.hicks
您的集群的Spark配置值未應用。產生原因當Spark配置值在集群配置和init腳本中聲明時,會發生這種情況。當Spark配置值位於多個位置時,init腳本中的配置優先,集群忽略配置設置…
本文描述了集群無法啟動的幾種場景,並根據日誌中發現的錯誤消息為每種場景提供了故障排除步驟。集群超時錯誤提示:Driver failed to start in time INTERNAL_ERROR: The Spark Driver failed to start within 300 seconds Cluster failed to be healthy within 200 seconds cause…
最後更新:2022年3月4日通過亞當Pavlacka
您嚐試使用自定義Docker容器啟動Databricks集群,但創建集群失敗,並提示錯誤。{"reason": {"code": "CONTAINER_LAUNCH_FAILURE", "type": "SERVICE_FAULT", "parameters": {"instance_id": "i-xxxxxxx", "databricks_error_message": "Failed to launch spark container on instance i-xxxx. "例外:不能…
最後更新:2022年3月4日通過dayanand.devarapalli
問題Databricks Notebook或Job API返回以下錯誤:為作業創建集群時意外失敗。由於API速率限製,請求被拒絕。請稍後重試請求,或選擇更大的節點類型。產生原因Cluster Manager Service核心實例請求…
問題描述當擁有啟動集群權限的用戶(如Databricks Admin用戶)提交一個由其他用戶擁有的作業時,作業失敗,提示信息如下:message: Run executed on existing cluster ID failed because of permissions不足。從集群管理器收到的錯誤是:'You are no…
問題描述啟動集群失敗。您將得到一條Apache Spark錯誤消息。內部錯誤信息:Spark error: Driver down你檢查集群驅動和worker日誌,看到一個錯誤信息包含java.io.FileNotFoundException: File File:/databricks/ Driver /dummy does not exist。21/07/14 21:44:06 ERROR DriverDaemon$: X…
最後更新:2022年3月4日通過arvind.ravish
注意:本文適用於Databricks Runtime 7.3 LTS及以下版本。問題集群開始變慢,並可能顯示以下症狀的組合:報告不健康的集群事件:請求超時。驅動程序暫時不可用。亞穩態癱瘓了。DBFS已關閉。您沒有看到與此相關的任何高GC事件或內存利用率。
最後更新:2022年3月4日通過arjun.kaimaparambilrajan
您正在嚐試創建一個集群,但它失敗了,並提示無效的標簽值錯誤消息。係統。異常:Content={"error_code":"INVALID_PARAMETER_VALUE","message":"\nInvalid標簽值(<<<< tag - value >>>>) -長度不能超過256個\nUnicode字符,UTF-8。\n "}導致標簽鍵和值的限製
最後更新:2022年3月4日通過kavya.parag
問題即使啟用了存儲自動伸縮,但由於磁盤上空間不足,Databricks作業失敗。在查看集群事件日誌時,您將看到一條消息,說明由於授權錯誤,實例未能擴展磁盤。實例i-xxxxxxxxx擴容磁盤失敗,原因如下:您沒有執行該操作的權限。恩……
在AWS上終止集群後,部分EBS卷沒有被自動刪除。這些遊離的、未連接的EBS卷通常被稱為“泄漏”卷。產生原因當Databricks啟動集群時,總是為它創建的EBS卷設置deletiononterminate =true。因此,當一個集群實例終止時,AWS應該…
您正在使用另一個帳戶的gauserole向S3桶發送集群日誌,得到一個拒絕訪問錯誤。產生原因假設角色不允許使用其他帳戶向S3桶發送集群日誌。這是因為日誌守護進程運行在主機上。它不在容器內運行。隻有在容器內運行的項目…
你觀察到一個作業失敗,異常:com.amazonaws.SdkClientException: Unable to complete multi-part upload。單個部分上傳失敗:Unable to execute HTTP request: Timeout waiting for connection from pool org.apache.http.conn.ConnectionPoolTimeoutException: Timeout waiting for connection from pool…com.amazonaws.http.Ama……
Spark有一個可配置的度量係統,該係統支持許多接收器,包括CSV文件。在本文中,我們將向您展示如何配置Databricks集群以使用CSV接收器並將這些指標持久化到DBFS位置。所有的配置都在init腳本中完成。初始化腳本做以下三個…
Spark UI通常用作Spark作業的調試工具。如果無法訪問Spark界麵,可以在其他集群中加載事件日誌,使用“事件日誌回放”筆記本重放Spark事件。警告默認不啟用集群日誌下發。您必須在啟動集群之前啟用集群日誌傳遞,否則會出現…
最後更新:2023年2月10日通過arjun.kaimaparambilrajan
您正在使用Databricks Utilities (dbutils)訪問S3桶,但它失敗了,錯誤提示“沒有角色指定,沒有角色可用”。您已經確認與集群關聯的實例概要文件具有訪問S3桶所需的權限。無法從鏈中的任何提供商加載AWS憑據:[com. databicks .bac…]
最後更新:2022年3月4日通過pavan.kumarchalamcharla
您有一個場景,需要設置Apache Hadoop屬性。您通常會在core-site.xml文件中執行此操作。在本文中,我們將解釋如何在集群中設置core-site.xml。在DBFS中創建core-site.xml文件,並將其保存到集群的DBFS中。創建這個文件的一個簡單方法是通過…
警告本文描述了客戶使用Log4j 1的相關步驟。在Databricks集群中使用。Log4j 1。cve . x不再維護,有三個已知的cve (CVE-2021-4104、CVE-2020-9488和CVE-2019-17571)。如果您的代碼使用其中一個受影響的類(JMSAppender或SocketServer),您的使用可能會受到這些漏洞的潛在影響…
在本文中,我們回顧了為AWS屬性instance_profile_arn創建集群策略的步驟,並將其定義為可選的。這允許您使用特定的AWS實例配置文件啟動集群。您也可以在沒有實例概要文件的情況下啟動集群。說明必須是admin用戶才能管理集群策略。創建一個新的集群…
最後更新:2022年3月4日通過ravirahul.padmanabhan
沒有啟動Spark job,驅動日誌中顯示如下錯誤:Initial job has not accepted any resources;原因當在Spark Config選項卡上顯式設置了executor內存和executor核數時,會發生此錯誤。這是樣品……
您試圖啟動作業集群,但創建作業失敗,並提示錯誤信息。創建作業錯誤群集自動終止當前已禁用。產生原因任務集群完成後自動終止。因此,它們不支持顯式自動終止策略。如果你在你的集群策略中包含autotermination_minutes…
最後更新:2022年8月23日通過navya.athiraram
有時集群會意外終止,而不是由於手動終止或配置的自動終止。由於多種原因可以終止集群。有些終止是由Databricks發起的,而其他終止是由雲提供商發起的。本文介紹了終止合同的原因和補救措施。磚ini……
當創建集群時,Databricks為每個工作節點啟動一個Apache Spark執行器實例,執行器使用該節點上的所有內核。在某些情況下,比如想要運行非線程安全的JNI庫,可能需要一個隻有一個核心或任務槽的執行程序,並且不試圖運行並發任務。在這個c…
最後更新:2022年12月8日通過亞當Pavlacka
默認情況下,每個執行程序可用的內存量在Java虛擬機(JVM)內存堆中分配。這是由spark.executor.memory屬性控製的。但是,在分配了大量內存的實例上觀察到一些意想不到的行為。隨著jvm內存大小的增加,垃圾收集器的問題…
Spark UI中的Executors頁簽顯示的內存小於節點的實際可用內存:AWS An m4。xlarge實例(16 GB ram, 4核)用於驅動節點,在Executors選項卡上顯示4.5 GB內存。m4。驅動節點的大型實例(8gb ram, 2核),在Executors選項卡上顯示710 MB內存:Azure一個F8s實例(16gb, 4核)
最後更新:2022年7月22日通過亞當Pavlacka
Databricks集群默認使用公共NTP服務器。這對於大多數用例來說已經足夠了,但是您可以將集群配置為使用自定義NTP服務器。這並不一定是一個公共NTP服務器。它可以是您控製下的私有NTP服務器。一個常見的用例是最小化來自集群的Internet通信量。更新NT…
最後更新:2022年12月8日通過xin.wang
使用Databricks Runtime 9.1 LTS及以下版本的Databricks集群默認情況下不啟用GCM (Galois/Counter Mode)密碼套件。必須在集群上啟用GCM密碼套件才能連接到需要GCM密碼套件的外部服務器。提示本文適用於使用Databricks Runtime 7.3 LTS和9.1 LTS的集群。磚Runti……
Init腳本通常用於配置Databricks集群。在某些情況下,您可能希望在初始化腳本中實現重試。這個初始化腳本示例向您展示如何實現一個基本複製操作的重試。您可以使用此示例代碼作為在自己的init腳本中實現重試的基礎。% scala…
你試圖讀取一個udit日誌,並得到一個AnalysisException:發現重複列錯誤。spark.read.format("json").load("dbfs://mnt/logs//date=2021-12-07") // AnalysisException: Found duplicate column(s) in the data schema: ' ' Cause From November 2021 to December 2021, a limited number of data…
當你試圖在集群範圍的初始化腳本中設置一個自定義的PYTHONPATH環境變量,但是這些值在驅動程序啟動時被覆蓋。產生原因在初始化腳本中設置自定義PYTHONPATH不工作,不支持。此外,在使用Databricks容器服務時,不能設置自定義PYTHONPATH。解你…
最後更新:2022年9月13日通過prakash.jha
您試圖訪問EC2實例的元數據服務器,但無法連接。產生原因這是預期的默認行為。它正在按照設計運作。處理建議通過init腳本將自定義的iptables配置應用到Databricks集群,使其能夠訪問元數據服務器。定義一個位置來存儲init sc…
最後更新:2022年10月25日通過manoj.hegde
大多數Databricks客戶在其集群中使用生產版Dabeplay体育app下载地址tabricks運行時發行版(AWS | Azure | GCP)。但是,在拋出支持票據後,有時可能會要求您運行自定義Databricks運行時。Custom Databricks運行時映像是為特定的短期修複和邊緣情況創建的。如果一個邪教…
最後更新:2022年10月26日通過rakesh.parija
您正在使用自定義init腳本在集群啟動時運行以安裝自定義庫。大多數時候它都能工作,但是當init腳本中運行apt-get update時,您會遇到間歇性的故障。失敗將返回進程中鏡像同步錯誤消息。獲取https://repos失敗。.com/zulu/ deb/dists/stable/main/biny-a ..
最後更新:2022年10月31日通過harrison.schueler
默認情況下,通用集群配置將在最後一次終止集群後30天刪除。如果管理員固定集群,則可以將集群配置保留超過30天。在任何一種情況下,管理員都可以在任何時候手動刪除集群配置。如果你想經營一份工作……
最後更新:2022年10月31日通過約翰。Lourdu
問題描述集群啟動時間過長,提示如下錯誤:cluster is running but X node could not be acquired原因分析發放Azure虛擬機一般需要2 ~ 4分鍾,但如果不能同時發放集群中的所有虛擬機,可能會導致創建集群延遲。這要歸功於Azure Databricks…
當您將鼠標懸停在集群狀態上時,創建集群失敗,提示雲提供程序錯誤。雲提供程序啟動失敗:在設置集群時遇到雲提供程序錯誤。當您查看集群事件日誌以獲取更多詳細信息時,您將看到一條關於publicIPAddresses限製的消息。ResourceQuotaExceeded Azure錯誤…
當您將鼠標懸停在集群狀態上時,創建集群失敗,提示雲提供程序錯誤。雲提供程序啟動失敗:在設置集群時遇到雲提供程序錯誤。查看集群事件日誌以獲取更多詳細信息時,會看到一條關於核心配額限製的消息。操作導致超過配額限製…
您正在嚐試在運行Databricks Runtime 10.0及以上版本的集群上使用自定義Apache Spark垃圾收集算法(而不是默認的並行垃圾收集)。現象描述啟動集群失敗。如果在執行程序上設置了配置,則立即終止執行程序。例如,如果你……
最後更新:2022年12月8日通過harikrishnan.kunhumveettil
本文介紹如何使用SSH連接到Apache Spark驅動程序節點進行高級故障排除和安裝自定義軟件。警告:如果工作空間部署在您控製的Azure虛擬網絡(VNet)中,則隻能使用SSH。如果您的工作空間不是注入VNet, SSH選項將不會出現。配置Azure網絡…
當您在Apache Spark配置文本區域中添加配置設置時,新的設置會替換現有的設置,而不是被追加。版本Databricks運行時5.1及以下。產生原因集群重啟時,從集群界麵創建的配置文件中讀取配置,並覆蓋了配置文件中…
當你啟動Azure Databricks集群時,你會得到一個UnknownHostException錯誤。您還可能會得到以下錯誤消息之一:錯誤:網絡配置中有一個錯誤。databricks_error_message:無法訪問工作構件。錯誤:名稱解析臨時失敗。內部錯誤信息:Failed to launch sp…
最後更新:2022年12月8日通過arnab.saha
通常情況下,集群配置會在最後一次終止後30天自動刪除。如果您想保留特定的集群配置,可以固定它們。最多可釘住100個集群。釘住的集群不會自動刪除,但是可以手動刪除。你必須是一個Databricks管理員釘一個數據庫…
最後更新:2022年12月21日通過simran.arora
通常情況下,集群配置會在最後一次終止後30天自動刪除。如果您想保留特定的集群配置,可以固定它們。最多可釘住100個集群。如果不再需要固定的集群,可以取消固定。如果你已經釘住了100個集群,你必須先解除一個集群的釘住,然後才能釘下一個集群。
您試圖在自定義Docker集群(AWS | Azure)上運行R筆記本,但它們立即失敗。當您嚐試執行R筆記本時,它返回一個錯誤,說筆記本已取消。當您查看集群驅動程序和工作日誌(AWS | Azure)時,您會看到一個名為“Rserve”的包錯誤。Tue Aug 30 16:24:34 UTC 2022…
最後更新:2023年1月20日通過Atanu。Sarkar