所有文章-數據 - beplay体育赛事,Beplay体育安卓版本

磚管理

SSO服務器重定向到原始URL，而不是虛榮Databricks URL

當您使用虛URL(如mycompany.cloud.www.eheci.com)登錄到Databricks時，您將被重定向到單點登錄(SSO)服務器進行身份驗證。當該服務器將您重定向到Databricks網站時，URL將從虛榮URL更改為原始部署URL(例如dbc-XXXX.cloud.www.eheci.com)。這可以…

最後更新:2022年2月25日通過亞當Pavlacka

PingFederate的SSO SAML身份驗證錯誤

使用PingFederate通過與Databricks的單點連接進行身份驗證時，重定向失敗，錯誤如下:19/12/21 01:27:01 error SamlAuthenticator[root= servicemin -6c710d1c1fca0002 parent= servicemin -6c710d1c1fca0002 op=HttpServer-6c710d1c1fdf2812]: SAML login failed java.lang.IllegalArgumentException: com....

最後更新:2022年2月25日通過ashwin

如何發現誰在Azure門戶中刪除了集群

如果工作空間中的集群已經消失或被刪除，您可以通過在Azure門戶中的Log Analytics工作空間服務中運行查詢來確定是哪個用戶刪除了它。注意:如果您沒有設置分析工作空間，則必須在繼續之前在Azure Databricks中配置診斷日誌記錄。加載Log Analytics工作空間…

最後更新:2022年2月25日通過亞當Pavlacka

如何發現誰在Azure門戶中刪除了工作區

如果您的工作空間已經消失或被刪除，您可以通過檢查Azure門戶中的Activity日誌來確定是哪個用戶刪除了它。轉到Azure門戶中的活動日誌。展開時間軸以關注刪除工作區的時間。過濾日誌以獲取特定事件的記錄。單擊該事件以顯示有關…

最後更新:2022年2月25日通過亞當Pavlacka

雲基礎設施

AWS服務失敗，提示“沒有區域提供錯誤”

使用AWS服務的代碼段出現java.lang.IllegalArgumentException失敗:在Databricks Runtime 7.0及以上版本中沒有區域提供錯誤。同樣的代碼可以在Databricks Runtime 6.6及以下版本運行。您可以通過在筆記本中運行示例代碼片段來驗證該問題。在Databricks Runtime 7.0及以上版本中，它將返回ex…

最後更新:2022年2月25日通過arjun.kaimaparambilrajan

解決亞馬遜紅移連接問題

創建VPC對等連接，並在對端網絡中配置了Amazon Redshift集群。訪問Redshift集群時，出現如下錯誤:error message: OperationalError: could not connect to server: Connection timed out原因如下:VPC對等連接配置錯誤。對應的p…

最後更新:2022年2月25日通過亞當Pavlacka

漏洞掃描顯示Databricks EC2實例中的漏洞

企業信息安全(CIS)漏洞管理團隊識別AWS實例中的漏洞，這些漏洞可以追溯到Databricks(工作AMI)創建的EC2實例。產生原因Databricks安全團隊解決了所有關鍵漏洞，並定期更新核心ami和輔助ami。然而，如果有長r…

最後更新:2022年2月25日通過亞當Pavlacka

使用dnsmasq配置自定義DNS設置

dnsmasq是一個用於為集群節點安裝和配置DNS路由規則的工具。您可以使用它來設置Databricks環境和內部網絡之間的路由。警告:如果您使用自己的DNS服務器，它宕機，您將經曆停機，將無法創建集群。使用以下集群範圍的init…

最後更新:2022年2月25日通過亞當Pavlacka

無法加載AWS憑據

當您嚐試訪問AWS資源，如S3, SQS或Redshift時，操作失敗，錯誤如下:com.amazonaws.SdkClientException: Unable to load AWS credentials from any provider in the chain: [BasicAWSCredentialsProvider: access key or secret key is null, com.amazonaws.auth。InstanceProfileCredentialsProvider@a590007a:請求的元數據…

最後更新:2022年2月25日通過亞當Pavlacka

向S3桶寫入日誌時拒絕訪問

當您嚐試將日誌文件寫入S3桶時，您會得到錯誤:com.amazonaws.services.s3.model。AmazonS3Exception: Access Denied (Service: AmazonS3;狀態代碼:403;錯誤碼:AccessDenied;Request ID: 2F8D8A07CD8817EA)， S3 Extended Request ID: Cause DBFS掛載在S3桶中，該桶承擔角色，使用sse-kms加密。Th……

最後更新:2022年2月25日通過亞當Pavlacka

S3部件號必須在1到10000之間(含10000)

S3上從本地文件係統拷貝大文件到DBFS時，會出現以下異常:Amazon.S3。亞馬遜S3Exception: Part number must be an integer between 1 and 10000, inclusive Cause This is an S3 limit on segment count. Part files can only be numbered from 1 to 10000, inclusive. Solution To prevent this exception from occu...

最後更新:2022年7月22日通過亞當Pavlacka

如何分析用戶界麵性能問題

“Databricks”用戶界麵運行緩慢。用戶界麵性能問題通常是由於網絡延遲或數據庫查詢花費的時間超過預期而發生的。為了排除這種類型的問題，您需要收集網絡日誌並分析它們，以查看哪些網絡流量受到了影響。在大多數情況下，……

最後更新:2022年2月25日通過亞當Pavlacka

無法掛載Azure數據湖存儲Gen1帳戶

當您嚐試在Databricks上掛載Azure數據湖存儲(ADLS) Gen1帳戶時，它失敗了，錯誤如下:com.microsoft.azure.datalake.store.ADLException:創建目錄錯誤/獲取訪問令牌錯誤操作null失敗，異常。java.io.IOException:服務器返回HTTP響應代碼:401 for URL: https://login.windows....

最後更新:2022年2月25日通過亞當Pavlacka

商業智能工具

在Windows中配置帶代理的Simba ODBC驅動程序

在本文中，您將了解當您的本地Windows計算機位於代理服務器之後時，如何配置Databricks ODBC Driver。下載Simba驅動for Windows下載並安裝最新版本的Databricks ODBC driver for Windows。將代理設置添加到Windows注冊表打開Windows注冊表並將代理設置添加到…

最後更新:2022年3月2日通過jordan.hicks

解決JDBC和ODBC連接問題

DBR版本:<列出所有適用的DBR版本>雲版本:AWS、Azure、GCP作者:<作者的Databricks電子郵件>歸屬團隊:<區域+平台/Spark>票據URL: <原始Salesforce或Jira票據鏈接>最後審閱日期:2021年5月05日本文提供的信息可幫助您解決…Beplay体育安卓版本

最後更新:2022年8月15日通過亞當Pavlacka

集群

啟用OpenJSSE和TLS 1.3

查詢和轉換在發送到集群之前是加密的。默認情況下，集群中工作節點之間交換的數據不加密。如果您要求始終對數據進行加密，則可以通過TLS 1.2連接使用AES 128對集群工作節點之間的流量進行加密。在某些情況下，您可能需要使用TLS 1.3…

最後更新:2022年3月2日通過亞當Pavlacka

如何計算集群的核數

您可以在工作區UI中使用集群詳細信息頁麵上的Metrics選項卡查看Databricks集群中的核心數量。注意Azure Databricks集群節點必須安裝度量服務。如果驅動程序和執行程序具有相同的節點類型，您還可以通過編程方式確定集群中可用的內核數量，使用Sca…

最後更新:2022年3月2日通過亞當Pavlacka

安裝一個私人PyPI回購

某些用例可能要求您從私有PyPI存儲庫安裝庫。如果從公共存儲庫安裝，則應該查看庫文檔。本文向您展示如何配置一個示例init腳本，該腳本驗證並從私有存儲庫下載PyPI庫。創建初始化腳本

最後更新:2022年3月4日通過darshan.bargal

IP訪問列表更新返回INVALID_STATE

你正在嚐試更新一個IP訪問列表，你得到一個INVALID_STATE錯誤消息。{"error_code":"INVALID_STATE"，"message":"Your current IP 3.3.3.3 will not be allowed to access the workspace under current configuration"}產生原因您試圖提交的IP訪問列表更新不包括您當前的公網IP地址。如果你……

最後更新:2022年3月4日通過Gobinath。Viswanathan

客戶端啟動失敗。InternalError

你部署了一個新的E2工作空間，但是你得到了集群啟動失敗的消息Client.InternalError。原因您在AWS帳戶級別對EBS卷進行了加密，或者您正在使用自定義KMS密鑰進行EBS加密。這兩種場景中的任何一種都可能導致客戶端。InternalErrorwhen you try to create a cluster in an E2 work...

最後更新:2022年3月4日通過satyadeepak.bollineni

無法應用更新的集群策略

您試圖更新現有的集群策略，但更新不適用於與該策略關聯的集群。如果嚐試編輯由策略管理的集群，則不會應用或保存更改。因為這是一個已知的問題，正在被解決。你可以使用一個變通的方法，直到找到一個永久性的解決方案。

最後更新:2022年3月4日通過jordan.hicks

群集Apache Spark配置未應用

您的集群的Spark配置值未應用。產生原因當Spark配置值在集群配置和init腳本中聲明時，會發生這種情況。當Spark配置值位於多個位置時，init腳本中的配置優先，集群忽略配置設置…

最後更新:2022年3月4日通過Gobinath。Viswanathan

群集啟動失敗

本文描述了集群無法啟動的幾種場景，並根據日誌中發現的錯誤消息為每種場景提供了故障排除步驟。集群超時錯誤提示:Driver failed to start in time INTERNAL_ERROR: The Spark Driver failed to start within 300 seconds Cluster failed to be healthy within 200 seconds cause…

最後更新:2022年3月4日通過亞當Pavlacka

自定義Docker映像需要root

您嚐試使用自定義Docker容器啟動Databricks集群，但創建集群失敗，並提示錯誤。{"reason": {"code": "CONTAINER_LAUNCH_FAILURE"， "type": "SERVICE_FAULT"， "parameters": {"instance_id": "i-xxxxxxx"， "databricks_error_message": "Failed to launch spark container on instance i-xxxx. "例外:不能…

最後更新:2022年3月4日通過dayanand.devarapalli

由於集群管理器核心實例請求限製，作業失敗

問題Databricks Notebook或Job API返回以下錯誤:為作業創建集群時意外失敗。由於API速率限製，請求被拒絕。請稍後重試請求，或選擇更大的節點類型。產生原因Cluster Manager Service核心實例請求…

最後更新:2022年3月4日通過亞當Pavlacka

Admin用戶不能重新啟動集群運行作業

問題描述當擁有啟動集群權限的用戶(如Databricks Admin用戶)提交一個由其他用戶擁有的作業時，作業失敗，提示信息如下:message: Run executed on existing cluster ID failed because of permissions不足。從集群管理器收到的錯誤是:'You are no…

最後更新:2022年3月4日通過亞當Pavlacka

集群啟動失敗，提示虛擬人不存在錯誤

問題描述啟動集群失敗。您將得到一條Apache Spark錯誤消息。內部錯誤信息:Spark error: Driver down你檢查集群驅動和worker日誌，看到一個錯誤信息包含java.io.FileNotFoundException: File File:/databricks/ Driver /dummy does not exist。21/07/14 21:44:06 ERROR DriverDaemon$: X…

最後更新:2022年3月4日通過arvind.ravish

由於Ganglia度量填充根分區導致集群減速

注意:本文適用於Databricks Runtime 7.3 LTS及以下版本。問題集群開始變慢，並可能顯示以下症狀的組合:報告不健康的集群事件:請求超時。驅動程序暫時不可用。亞穩態癱瘓了。DBFS已關閉。您沒有看到與此相關的任何高GC事件或內存利用率。

最後更新:2022年3月4日通過arjun.kaimaparambilrajan

日誌含義創建帶有無效標簽值的集群失敗

您正在嚐試創建一個集群，但它失敗了，並提示無效的標簽值錯誤消息。係統。異常:Content={"error_code":"INVALID_PARAMETER_VALUE"，"message":"\nInvalid標簽值(<<<< tag - value >>>>) -長度不能超過256個\nUnicode字符，UTF-8。\n "}導致標簽鍵和值的限製

最後更新:2022年3月4日通過kavya.parag

事件解釋擴容EBS卷失敗

問題即使啟用了存儲自動伸縮，但由於磁盤上空間不足，Databricks作業失敗。在查看集群事件日誌時，您將看到一條消息，說明由於授權錯誤，實例未能擴展磁盤。實例i-xxxxxxxxx擴容磁盤失敗，原因如下:您沒有執行該操作的權限。恩……

最後更新:2022年3月4日通過亞當Pavlacka

EBS數據泄露

在AWS上終止集群後，部分EBS卷沒有被自動刪除。這些遊離的、未連接的EBS卷通常被稱為“泄漏”卷。產生原因當Databricks啟動集群時，總是為它創建的EBS卷設置deletiononterminate =true。因此，當一個集群實例終止時，AWS應該…

最後更新:2022年3月4日通過亞當Pavlacka

日誌傳遞失敗

您正在使用另一個帳戶的gauserole向S3桶發送集群日誌，得到一個拒絕訪問錯誤。產生原因假設角色不允許使用其他帳戶向S3桶發送集群日誌。這是因為日誌守護進程運行在主機上。它不在容器內運行。隻有在容器內運行的項目…

最後更新:2022年3月4日通過dayanand.devarapalli

多部分上傳失敗

你觀察到一個作業失敗，異常:com.amazonaws.SdkClientException: Unable to complete multi-part upload。單個部分上傳失敗:Unable to execute HTTP request: Timeout waiting for connection from pool org.apache.http.conn.ConnectionPoolTimeoutException: Timeout waiting for connection from pool…com.amazonaws.http.Ama……

最後更新:2022年3月4日通過亞當Pavlacka

將Apache Spark CSV度量持久化到DBFS位置

Spark有一個可配置的度量係統，該係統支持許多接收器，包括CSV文件。在本文中，我們將向您展示如何配置Databricks集群以使用CSV接收器並將這些指標持久化到DBFS位置。所有的配置都在init腳本中完成。初始化腳本做以下三個…

最後更新:2022年3月4日通過亞當Pavlacka

在集群中重播Apache Spark事件

Spark UI通常用作Spark作業的調試工具。如果無法訪問Spark界麵，可以在其他集群中加載事件日誌，使用“事件日誌回放”筆記本重放Spark事件。警告默認不啟用集群日誌下發。您必須在啟動集群之前啟用集群日誌傳遞，否則會出現…

最後更新:2022年3月4日通過arjun.kaimaparambilrajan

S3連接失敗，提示“沒有指定角色且沒有可用角色”

您正在使用Databricks Utilities (dbutils)訪問S3桶，但它失敗了，錯誤提示“沒有角色指定，沒有角色可用”。您已經確認與集群關聯的實例概要文件具有訪問S3桶所需的權限。無法從鏈中的任何提供商加載AWS憑據:[com. databicks .bac…]

最後更新:2022年3月4日通過pavan.kumarchalamcharla

設置Apache Hadoop core-site.xml屬性

您有一個場景，需要設置Apache Hadoop屬性。您通常會在core-site.xml文件中執行此操作。在本文中，我們將解釋如何在集群中設置core-site.xml。在DBFS中創建core-site.xml文件，並將其保存到集群的DBFS中。創建這個文件的一個簡單方法是通過…

最後更新:2022年3月4日通過arjun.kaimaparambilrajan

設置執行器日誌級別

警告本文描述了客戶使用Log4j 1的相關步驟。在Databricks集群中使用。Log4j 1。cve . x不再維護，有三個已知的cve (CVE-2021-4104、CVE-2020-9488和CVE-2019-17571)。如果您的代碼使用其中一個受影響的類(JMSAppender或SocketServer)，您的使用可能會受到這些漏洞的潛在影響…

最後更新:2022年3月4日通過亞當Pavlacka

使用集群策略將instance_profile_arn設置為可選

在本文中，我們回顧了為AWS屬性instance_profile_arn創建集群策略的步驟，並將其定義為可選的。這允許您使用特定的AWS實例配置文件啟動集群。您也可以在沒有實例概要文件的情況下啟動集群。說明必須是admin用戶才能管理集群策略。創建一個新的集群…

最後更新:2022年3月4日通過ravirahul.padmanabhan

Apache Spark作業未啟動

沒有啟動Spark job，驅動日誌中顯示如下錯誤:Initial job has not accepted any resources;原因當在Spark Config選項卡上顯式設置了executor內存和executor核數時，會發生此錯誤。這是樣品……

最後更新:2022年3月4日通過亞當Pavlacka

在啟動作業集群時禁用自動終止

您試圖啟動作業集群，但創建作業失敗，並提示錯誤信息。創建作業錯誤群集自動終止當前已禁用。產生原因任務集群完成後自動終止。因此，它們不支持顯式自動終止策略。如果你在你的集群策略中包含autotermination_minutes…

最後更新:2022年8月23日通過navya.athiraram

意外的集群終止

有時集群會意外終止，而不是由於手動終止或配置的自動終止。由於多種原因可以終止集群。有些終止是由Databricks發起的，而其他終止是由雲提供商發起的。本文介紹了終止合同的原因和補救措施。磚ini……

最後更新:2022年3月4日通過亞當Pavlacka

如何配置單核執行程序來運行JNI庫

當創建集群時，Databricks為每個工作節點啟動一個Apache Spark執行器實例，執行器使用該節點上的所有內核。在某些情況下，比如想要運行非線程安全的JNI庫，可能需要一個隻有一個核心或任務槽的執行程序，並且不試圖運行並發任務。在這個c…

最後更新:2022年3月4日通過亞當Pavlacka

如何在Databricks集群上覆蓋log4j配置

最後更新:2022年3月4日通過亞當Pavlacka

Apache Spark執行器內存分配

默認情況下，每個執行程序可用的內存量在Java虛擬機(JVM)內存堆中分配。這是由spark.executor.memory屬性控製的。但是，在分配了大量內存的實例上觀察到一些意想不到的行為。隨著jvm內存大小的增加，垃圾收集器的問題…

最後更新:2022年3月4日通過亞當Pavlacka

Apache Spark UI顯示的節點內存小於總內存

Spark UI中的Executors頁簽顯示的內存小於節點的實際可用內存:AWS An m4。xlarge實例(16 GB ram, 4核)用於驅動節點，在Executors選項卡上顯示4.5 GB內存。m4。驅動節點的大型實例(8gb ram, 2核)，在Executors選項卡上顯示710 MB內存:Azure一個F8s實例(16gb, 4核)

最後更新:2022年7月22日通過亞當Pavlacka

配置集群使用自定義NTP服務器

Databricks集群默認使用公共NTP服務器。這對於大多數用例來說已經足夠了，但是您可以將集群配置為使用自定義NTP服務器。這並不一定是一個公共NTP服務器。它可以是您控製下的私有NTP服務器。一個常見的用例是最小化來自集群的Internet通信量。更新NT…

最後更新:2022年8月23日通過亞當Pavlacka

啟用GCM密碼套件

默認情況下，數據集群不啟用GCM (Galois/Counter Mode)密碼套件。必須在集群上啟用GCM密碼套件才能連接到需要GCM密碼套件的外部服務器。驗證所需的密碼套件使用nmap實用程序來驗證外部服務器需要哪些密碼套件。——script ssl-enu…

最後更新:2022年3月4日通過亞當Pavlacka

在初始化腳本中啟用重試

Init腳本通常用於配置Databricks集群。在某些情況下，您可能希望在初始化腳本中實現重試。這個初始化腳本示例向您展示如何實現一個基本複製操作的重試。您可以使用此示例代碼作為在自己的init腳本中實現重試的基礎。% scala…

最後更新:2022年3月4日通過arjun.kaimaparambilrajan

由於列重複，無法讀取審計日誌

你試圖讀取一個udit日誌，並得到一個AnalysisException:發現重複列錯誤。spark.read.format("json").load("dbfs://mnt/logs//date=2021-12-07") // AnalysisException: Found duplicate column(s) in the data schema: ' ' Cause From November 2021 to December 2021, a limited number of data…

最後更新:2022年7月22日通過亞當Pavlacka

不能設置自定義PYTHONPATH

當你試圖在集群範圍的初始化腳本中設置一個自定義的PYTHONPATH環境變量，但是這些值在驅動程序啟動時被覆蓋。產生原因在初始化腳本中設置自定義PYTHONPATH不工作，不支持。此外，在使用Databricks容器服務時，不能設置自定義PYTHONPATH。解你…

最後更新:2022年9月13日通過prakash.jha

數據管理

附加到一個數據框架

要添加到一個數據幀，使用union方法。%scala val firstDF = spark.range(3).toDF("myCol") val newRow = Seq(20) val appendded = firstDF.union(newRow.toDF()) display(appendded) %python firstDF = spark.range(3).toDF("myCol") newRow = spark.createDataFrame([[20]]) appendded = firstDF.union(newRow) display(appendded)…

最後更新:2022年3月4日通過亞當Pavlacka

如何提高性能與桶

桶是Apache Spark SQL中的一種優化技術。根據從一個或多個桶列派生的值，在指定數量的桶之間分配數據。bucket通過在下遊操作(如表連接)之前對數據進行洗牌和排序來提高性能。權衡是初始開銷，由於洗牌和s…

最後更新:2022年3月4日通過亞當Pavlacka

如何處理XML文件中包含的blob數據

如果以XML格式記錄事件，那麼每個XML事件都被記錄為base64字符串。為了使用Apache Spark對這些數據運行分析，您需要使用spark_xml庫和BASE64DECODER API來轉換數據以進行分析。您需要使用Spark分析xml格式日誌文件中的base64編碼字符串。例如……

最後更新:2022年3月4日通過亞當Pavlacka

簡化鏈式轉換

有時候你可能需要在你的DataFrame上執行多個轉換:_ import org.apache.spark.sql.DataFrame val testDf =(1到10). todf ("col") def func0(x: Int => Int, y: Int)(in: DataFrame): DataFrame = {in. apache.spark.sql.DataFrame val testDf =(1到10). todf ("col") def func0(x: Int => Int, y: Int)filter('col > x(y))} def func1(x: Int)(in: DataFrame): DataFrame = {in.sele…

最後更新:2022年5月25日通過亞當Pavlacka

如何轉儲表在CSV, JSON, XML，文本，或HTML格式

您希望在Databricks之外的Databricks中發送計算結果。您可以使用BI工具通過JDBC連接到您的集群，並從BI工具導出結果，或者將表保存在DBFS或blob存儲中，並通過REST API複製數據。本文介紹JSpark，一個簡單的控製台工具，用於在Spark上使用JDBC執行SQL查詢。

最後更新:2022年5月25日通過亞當Pavlacka

在筆記本中獲取和設置Apache Spark配置屬性

在大多數情況下，您在集群級別設置Spark配置(AWS | Azure)。但是，在某些情況下，您可能需要檢查(或設置)筆記本中特定Spark配置屬性的值。本文向您展示如何在筆記本中顯示Spark配置屬性的當前值。它還告訴你如何設置一個新的v…

最後更新:2022年5月26日通過mathan.pillai

蜂巢udf

本文展示了如何創建Hive UDF，在Spark中注冊它，並在Spark SQL查詢中使用它。下麵是一個Hive UDF，它以一個長參數作為參數並返回它的十六進製表示。%scala import org.apache.hadoop.hive.ql.exec.UDF import org.apache.hadoop.io.LongWritable //該UDF接受一個長整數並將其轉換為十六進製…

最後更新:2022年5月31日通過亞當Pavlacka

當連接兩個dataframe時，防止重複列

如果你在Spark中執行連接，沒有正確地指定連接，你將會得到重複的列名。這使得選擇這些列變得更加困難。本文和筆記本演示了如何執行連接以避免重複列。在列上連接如果在列上連接，就會得到重複的列。Scala % Scala val llist…

最後更新:2022年5月31日通過亞當Pavlacka

撤銷所有用戶權限

當顯式地為各個表和視圖授予用戶權限時，所選用戶可以訪問這些表和視圖，即使他們沒有訪問底層數據庫的權限。如果要撤銷用戶的訪問權限，可以使用revoke命令。然而，REVOKE命令是顯式的，並且嚴格限定在ob…

最後更新:2022年5月31日通過pavan.kumarchalamcharla

如何在數據庫中更快地列出和刪除文件

假設需要刪除一個按年、月、日、地區、服務劃分的表。但是，表非常大，每個分區大約有1000個零件文件。您可以列出每個分區中的所有文件，然後使用Apache Spark作業刪除它們。例如，假設你有一個表，它被a, b，…

最後更新:2022年5月31日通過亞當Pavlacka

如何處理損壞的Parquet文件與不同的模式

假設您有一個本質上獨立的Parquet文件的大列表，具有各種不同的模式。您希望隻讀取與特定模式匹配的文件，而跳過不匹配的文件。一種解決方案是按順序讀取文件，識別模式，並將dataframe聯合在一起。然而，這種方法……

最後更新:2022年5月31日通過亞當Pavlacka

對數據庫沒有USAGE權限

您使用的集群運行Databricks Runtime 7.3 LTS及以上版本。您已經作為admin用戶為您的工作空間(AWS | Azure | GCP)啟用了表訪問控製，並將SELECT特權授予需要訪問表的標準用戶組。一個用戶試圖訪問數據庫中的一個對象，並得到一個SecurityException錯誤…

最後更新:2022年5月31日通過rakesh.parija

分區列中的空字符串和空字符串保存為空值

如果在分區表的列中保存了包含空字符串和空值的數據，在寫入和讀取表後，這兩個值都變成空值。為了說明這一點，創建一個簡單的DataFrame:_ import org.apache.spark.sql.catalyst.encoders.RowEncoder val data = Seq(Row(1， "")…

最後更新:2022年5月31日通過亞當Pavlacka

randomSplit方法的行為

在DataFrame上使用randomSplit時，可能會觀察到不一致的行為。下麵是一個例子:%python df = spark.read.format('inconsistent_data_source').load() a,b = df. randomsplit ([0.5, 0.5]) a.join(broadcast(b)， on='id'， how='inner').count()通常這個查詢返回0。然而，根據底層數據源或輸入…

最後更新:2022年5月31日通過亞當Pavlacka

使用Spark-Avro將十進製值寫入AWS Redshift時作業失敗

Databricks Runtime版本中的問題x以上，當使用Spark-Avro作為默認臨時文件格式寫入小數到Amazon Redshift時，要麼寫入操作失敗，異常:錯誤(代碼1207)，而將數據加載到Redshift:“無效數字，值' ' '，Pos 0，類型:Decimal”，要麼寫入操作將null替換為…

最後更新:2022年5月31日通過亞當Pavlacka

從案例類生成模式

Spark提供了一種從Scala case類生成模式的簡單方法。對於案例類A，使用方法ScalaReflection.schemaFor[A]. datatype . asinstanceof [StructType]。例如:% scala導入org.apache.spark.sql.types.StructType導入org.apache.spark.sql.catalyst.ScalaReflection案例類(關鍵:字符串,時間:java.sql。時間戳，日期:java....

最後更新:2022年5月31日通過亞當Pavlacka

如何在數據集和基於數據框架的連接命令中指定傾斜提示

當你對DataFrame或Dataset對象執行join命令時，如果你發現由於數據傾斜而導致查詢停留在完成少量任務上，你可以使用hint("skew")方法指定傾斜提示:df.hint("skew")。傾斜連接優化(AWS | Azure | GCP)在您指定傾斜提示的DataFrame上執行。在…

最後更新:2022年5月31日通過亞當Pavlacka

如何更新嵌套列

Spark不支持在嵌套結構中添加新列或刪除現有列。特別地，Dataset類的withColumn和drop方法不允許您指定與任何頂級列不同的列名。例如，假設您有一個具有以下模式的數據集:%scala val schema = (new StructType) .a…

最後更新:2022年5月31日通過亞當Pavlacka

某些文件中的模式不兼容

Spark job在讀取Parquet文件時出現如下異常而失敗:Error in SQL statement: SparkException: job aborted due to stage failure: Task 20 in stage 11227.0 failed 4 times, most recent failure: Lost Task 20.3 in stage 11227.0 (TID 868031, 10.111.245.219, executor 31): java.lang.UnsupportedOperationException: org.…

最後更新:2022年5月31日通過亞當Pavlacka

使用RDD寫入S3桶時拒絕訪問

使用rdd寫入S3桶失敗。驅動程序節點可以寫，但是工作(執行程序)節點返回一個拒絕訪問的錯誤。然而，使用DataFrame API編寫可以很好地工作。例如，假設您運行以下代碼:%scala import java.io.File import java.io.Serializable import org.apache.spark。{SparkConf, SparkContext} imp…

最後更新:2022年5月31日通過亞當Pavlacka

將數據加載到Amazon Redshift時，時間戳無效

當使用spark-redshift寫操作將時間戳數據保存到Amazon Redshift時，如果時間戳數據包含時區信息，則會發生以下錯誤。錯誤(代碼1206)，當加載數據到Redshift: "無效的時間戳格式或值[YYYY-MM-DD HH24:MI:SSOF]"原因Redshift表正在使用時間戳數據類型…

最後更新:2022年5月31日通過亞當Pavlacka

數據源

在JSON數據集上創建表

在本文中，我們將介紹如何使用SerDe在JSON數據集上創建表。下載JSON SerDe JAR打開hive-json-serde 1.3.8下載頁麵。單擊json-serde-1.3.8-jar-with-dependencies.jar下載文件json-serde-1.3.8-jar-with-dependencies.jar。您可以查看Hive-JSON-Serde GitHub回購關於JAR的更多信息…

最後更新:2022年5月31日通過ram.sankarasubramanian

刪除底層S3桶時刪除表

當你試圖刪除或修改一個表時，你得到一個錯誤。Error in SQL statement: IOException: Bucket_name…does not exist可以使用DROP TABLE或ALTER TABLE命令重現此錯誤。DROP TABLE ;%sql ALTER TABLE <數據庫名。SET LOCATION "";…

最後更新:2022年5月31日通過何塞·岡薩雷斯

掛載或訪問Azure Blob存儲時失敗

當您試圖訪問一個已經創建的掛載點或創建一個新的掛載點時，它失敗了，錯誤如下:WASB: fails with java.lang.NullPointerException原因當根掛載路徑(例如/mnt/)也掛載到blob存儲時，會發生此錯誤。執行以下命令，查看根路徑是否也掛載。%python dbutls .f…

最後更新:2022年5月31日通過亞當Pavlacka

無法讀取WASB文件係統中的文件和列表目錄

當你嚐試用Spark在WASB上讀取文件時，你會得到以下異常:org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times，最近的失敗:Lost Task 0.3 in stage 1.0 (TID 19, 10.139.64.5, executor 0): shaded.databricks.org.apache.hadoop.fs.azure.AzureException: com.microsoft.a…

最後更新:2022年6月1日通過亞當Pavlacka

優化JDBC數據源的讀取性能

從外部JDBC數據庫讀取數據很慢。如何提高讀性能?解決方案請參見Databricks文檔中關於如何從外部JDBC數據庫....讀取數據(AWS | Azure | GCP)時優化性能的詳細討論

最後更新:2022年6月1日通過亞當Pavlacka

疑難解答JDBC/ODBC訪問Azure數據湖存儲Gen2

一般情況下，當您想訪問Azure數據湖存儲Gen2 (ADLS Gen2)時，您應該使用Databricks運行時5.2及以上版本，其中包括內置的Azure Blob文件係統(ABFS)驅動程序。本文適用於使用JDBC/ODBC訪問ADLS Gen2存儲的用戶。當您從JDBC或ODBC客戶端運行SQL查詢到ac…

最後更新:2022年6月1日通過亞當Pavlacka

CosmosDB-Spark連接器庫衝突

本文解釋如何解決在Databricks環境中運行使用CosmosDB-Spark連接器的應用程序時出現的問題。通常情況下，如果你在Spark集群中添加一個Maven依賴，你的應用程序應該能夠使用所需的連接器庫。但目前，如果你簡單地指定CosmosDB-Spark連接器的Maven協…

最後更新:2022年6月1日通過亞當Pavlacka

在JSON中檢測編碼失敗

問題Spark作業失敗，異常包含消息:Invalid UTF-32字符0x1414141(以上10ffff) at char #1, byte #7) at org.apache.spark.sql.catalyst.json.JacksonParser.parse原因JSON數據源閱讀器能夠自動檢測輸入JSON文件的編碼，使用文件開頭的BOM。然而，BOM不是…

最後更新:2022年6月1日通過亞當Pavlacka

與JDBC應用程序不一致的時間戳結果

當使用Databricks集群的JDBC應用程序時，在標準時間和夏令時之間切換時，會看到不一致的java.sql.Timestamp結果。產生原因數據集群默認使用UTC標準。java.sql.Timestamp使用JVM的本地時區。如果Databricks集群返回2021-07-12 21:43:08作為字符串，JVM將解析i…

最後更新:2022年6月1日通過manjunath.swamy

Kafka客戶端被offsetoutofranceexception終止

你有一個Apache Spark應用程序，它試圖從一個Apache Kafka源獲取消息，當它被終止時，有一個kafkashaded.org.apache.kafka.clients.consumer. offsetoutofranceexception錯誤消息。您的Spark應用程序試圖從Kafka獲取過期的數據偏移量。我們通常在以下兩種情況下看到這種情況:

最後更新:2022年6月1日通過vikas.yadav

Apache Spark JDBC數據源查詢選項不適用於Oracle數據庫

當您使用Apache Spark JDBC數據源的查詢選項連接到Oracle數據庫時，會出現以下錯誤:java.sql.SQLSyntaxErrorException: ORA-00911: invalid character例如，如果您執行以下命令來建立JDBC連接。讀.format (jdbc) .option(“url”,“< url >”).option(…

最後更新:2022年6月1日通過亞當Pavlacka

使用NullPointerException訪問Redshift失敗

有時當你讀取一個紅移表:%scala val original_df = spark.read。格式(“com.databricks.spark.redshift”)。選項(“url”,url)。用戶選項(“用戶”)。選項(“密碼”,密碼)。選項(“查詢”,查詢)。選項(“forward_spark_s3_credentials”,真正的)。選項(“tempdir”、“路徑”)。load()……

最後更新:2022年6月1日通過亞當Pavlacka

紅移JDBC驅動程序衝突問題

如果您將多個紅移JDBC驅動程序附加到一個集群，並使用紅移連接器，notebook REPL可能會掛起或崩潰，並發出SQLDriverWrapper錯誤消息。19/11/14 01:01:44 ERROR SQLDriverWrapper: Fatal non-user ERROR throw in ReplId-9d455-9b970-b2042 java.lang.NoSuchFieldError: PG_SUBPROTOCOL_NAMES at com.amazon.redshi…

最後更新:2022年6月1日通過亞當Pavlacka

如果使用了錯誤的客戶端ID或路徑，ABFS客戶端將掛起

您正在使用Azure數據湖存儲(ADLS) Gen2。當您試圖從Databricks集群訪問Azure Blob文件係統(ABFS)路徑時，該命令會掛起。打開調試日誌，可以在驅動日誌中看到如下堆棧跟蹤:Caused by: java.io.IOException: Server returned HTTP response code: 400 for URL: https://login.microso…

最後更新:2022年6月1日通過亞當Pavlacka

數據庫文件係統(DBFS)

不能從Databricks外部訪問由Databricks寫入的對象

通過AWS命令行訪問Databricks寫入的S3位置對象時，出現如下錯誤:ubuntu@0213-174944-clean111-10-93-15-150:~$ AWS S3 cp S3:////0/delta/sandbox/deileringDemo__m2/_delta_log/00000000000000000000。json。致命錯誤:當調用H…

最後更新:2022年3月8日通過亞當Pavlacka

無法讀取存儲在DBFS根目錄中的Databricks對象

當您試圖從Databricks集群外讀取存儲在blob存儲的DBFS根目錄中的Databricks對象時，返回Access Denied錯誤。產生原因DBFS根目錄正常。Databricks在DBFS根目錄中存儲庫和其他臨時係統文件等對象。數據庫是唯一的…

最後更新:2022年3月8日通過亞當Pavlacka

如何計算DBFS (Databricks file system) S3 API調用開銷

DBFS S3桶的成本主要由API調用的數量驅動，其次由存儲成本驅動。您可以使用AWS CloudTrail日誌創建一個表，計算API調用的數量，從而計算API請求的確切成本。獲取以下信息。您可能需要聯係AWS管理員來獲取它…

最後更新:2022年3月8日通過亞當Pavlacka

如何指定DBFS路徑

在使用Databricks時，有時必須訪問Databricks文件係統(DBFS)。在DBFS上訪問文件是使用標準的文件係統命令完成的，但是語法因所使用的語言或工具而異。例如，DBFS路徑為:DBFS:/mnt/test_folder/test_folder1/ Apache Spark在Spark下，you should spec…

最後更新:2022年3月8日通過ram.sankarasubramanian

在追加期間不支持操作

您試圖將數據追加到保存在外部存儲掛載點上的文件，並得到一個錯誤消息:OSError: [Errno 95]操作不支持。當試圖從Python和r中追加到一個文件時發生錯誤。原因在FUSE v2中不支持直接追加和隨機寫入，這是在Databricks Runt…

最後更新:2022年7月7日通過亞當Pavlacka

並行文件係統操作

DBR版本:<列出所有適用的DBR版本>雲版本:AWS, Azure作者:sandeep.chandran@www.eheci.com擁有團隊:<區域+平台/Spark>票據URL: <原始Salesforce或Jira票據鏈接>最後審查日期:2021年7月21日- AsBeplay体育安卓版本hish Singh當你需要加快複製和移動操作時，並行化它們是…

最後更新:2022年8月4日通過sandeep.chandran

S3連接重置錯誤

問題您的Apache Spark作業在嚐試S3操作時失敗。堆棧跟蹤中出現錯誤信息“Caused by: java.net.SocketException: Connection reset”。來自S3讀操作的堆棧跟蹤示例:請求ID: XXXXX，擴展請求ID: XXXXX，雲提供商:AWS，實例I…

最後更新:2022年3月15日通過arjun.kaimaparambilrajan

使用DBFS API 2.0和PowerShell上傳大文件

使用Databricks REST API以編程方式與集群交互是一種利用腳本簡化工作流程的好方法。該API可以使用各種工具調用，包括PowerShell。在本文中，我們將看一下使用curl的DBFS put命令示例，然後向您展示如何使用PowerShe執行相同的命令。

最後更新:2022年9月27日通過ravirahul.padmanabhan

磚的SQL

空列值顯示為NaN

你有一個在某些列中有空值的表。在Databricks中使用選擇語句查詢表時，空值顯示為null。當您在Databricks SQL中使用相同的選擇語句查詢表時，空值將顯示為NaN。%sql select * from default。 where is null Databric…

最後更新:2022年3月4日通過亞當Pavlacka

檢索被禁用用戶擁有的查詢

當Databricks SQL用戶從組織中刪除時，該用戶擁有的查詢仍然保留，但僅對已經擁有訪問權限的人可見。Databricks SQL管理員可以將所有權轉讓給其他用戶，也可以刪除被禁用的用戶帳戶擁有的警報、儀表板和查詢。克隆查詢a Databricks…

最後更新:2022年3月4日通過約翰。Lourdu

開發人員工具

Apache Spark會話在DBConnect中為空

當你得到sparkSession is null錯誤消息時，你正在嚐試使用Databricks Connect (AWS | Azure | GCP)運行你的代碼。java.lang.AssertionError: assertion failed: sparkSession is null while trying to executeCollectResult at scala.Predef$.assert(Predef.scala:170) at org.apache.spark.sql. execukplan .executeCollectResult(…

最後更新:2022年4月1日通過何塞·岡薩雷斯

Databricks Connect報告Databricks Runtime 6.4版本錯誤

當您使用Databricks Connect客戶端與Databricks Runtime 6.4連接時，收到錯誤消息，提示客戶端不支持集群。集群運行的服務器版本是“dbr-6.4”，但是這個客戶端隻支持Set(dbr-5.5)。你可以在ht…找到客戶端發布的列表。

最後更新:2022年5月9日通過rakesh.parija

在Windows下使用Databricks命令行創建過程錯誤失敗

當在Windows中嚐試訪問Databricks CLI (AWS | Azure | GCP)時，您得到一個創建進程失敗的錯誤消息。產生原因如果係統上安裝了多個Databricks命令行實例，可能會出現這種情況。如果Windows係統上的Python路徑包含空格。提示在pip中有一個已知的問題，導致pip安裝…

最後更新:2022年5月9日通過約翰。Lourdu

DBConnect的GeoSpark未定義函數錯誤

你正在嚐試使用GeoSpark函數st_geofromwkt與DBConnect (AWS | Azure | GCP)，你得到一個Apache Spark錯誤消息。分析異常:未定義函數:'st_geomfromwkt'。這個函數既不是注冊的臨時函數，也不是注冊在數據庫'default'中的永久函數。T…

最後更新:2022年6月1日通過arjun.kaimaparambilrajan

在DBConnect中獲取Apache Spark配置

通過在工作空間中查看集群詳細信息，您始終可以查看集群的Spark配置(AWS | Azure | GCP)。如果您正在使用DBConnect (AWS | Azure | GCP)，您可能希望快速查看當前Spark配置細節，而無需切換到工作區UI。這個示例代碼向您展示了如何獲取當前的Spark…

最後更新:2022年5月9日通過arvind.ravish

如何排序S3文件修改時間在Databricks筆記本

當您使用dbutils實用程序列出S3位置中的文件時，S3文件以隨機順序列出。但是，dbutils沒有提供任何方法來根據修改時間對文件進行排序。Dbutils也沒有列出修改時間。處理建議使用Hadoop文件係統API對S3文件進行排序，如下所示:%scala import org....

最後更新:2022年5月9日通過亞當Pavlacka

使用氣流運行作業時，無效訪問令牌錯誤

當你運行預定的風流數據作業時，你會得到這個錯誤:無效的訪問令牌:403禁止錯誤原因要通過風流運行或調度數據作業，你需要使用風流web界麵配置數據連接。以下任何錯誤的設置都可能導致錯誤:將host字段設置為Databricks wo…

最後更新:2022年5月9日通過亞當Pavlacka

DBConnect中的ProtoSerializer堆棧溢出錯誤

當你得到一個堆棧溢出錯誤時，你正在使用DBConnect (AWS | Azure | GCP)在一個超過100列的DataFrame上運行PySpark轉換。py4j.protocol。Py4JJavaError:調用o945.count時發生錯誤。: java.lang.StackOverflowError at java.lang.Class.getEnclosingMethodInfo(Class.java:1072) at java.lang.Clas…

最後更新:2022年5月9日通過ashritha.laxminarayana

使用tcpdump創建pcap文件

如果您想分析特定集群上節點之間的網絡流量，可以在集群上安裝tcpdump，並使用它將網絡數據包詳細信息轉儲到pcap文件中。然後可以將pcap文件下載到本地機器進行分析。創建tcpdump init腳本在集群的筆記本上運行這個示例腳本，創建ini…

最後更新:2022年7月20日通過pavan.kumarchalamcharla

三角洲湖

找不到事務日誌中引用的文件

作業失敗，提示錯誤消息:無法找到事務日誌中引用的文件。堆棧跟蹤示例:Error in SQL statement: SparkException: Job aborted due to stage failure: Task 0 in stage 6.0 failed 4 times，最近一次失敗:Lost Task 0.3 in stage 6.0 (TID 106, XXX.XXX.XXX. xxx .)XXX, executor 0): com. databicks .sql.io. filere…

最後更新:2022年5月10日通過亞當Pavlacka

不能在Eclipse中使用JDBC刪除數據

您不能使用JDBC從本地Eclipse環境中刪除Delta表中的數據。同樣的刪除操作也適用於筆記本電腦。您可以從本地環境連接到Databricks。選擇查詢可以工作。整數count = namedlocalJdbcTemplate。queryForObject("SELECT COUNT(*) FROM "， new mapsqlparameter…

最後更新:2022年5月10日通過annapurna.hiriyur

比較Delta表的兩個版本

Delta Lake支持時間旅行，它允許您查詢Delta表的舊快照。一個常見的用例是比較Delta表的兩個版本，以確定發生了什麼變化。有關時間旅行的更多詳細信息，請查看Delta Lake時間旅行文檔(AWS | Azure | GCP)。您可以使用SQL SELEC…

最後更新:2022年5月10日通過mathan.pillai

從Parquet轉換到Delta Lake失敗

您正在嚐試將Parquet文件轉換為Delta Lake文件。包含Parquet文件的目錄包含一個或多個子目錄。轉換失敗，提示錯誤信息:expected 0 partition column(s): []， but found 1 partition column(s): [] from parsing The file name: …

最後更新:2022年5月10日通過何塞·岡薩雷斯

Delta Merge無法解析嵌套字段

您正在嚐試使用自動模式進化進行增量合並，但它失敗於增量合並:由於數據類型不匹配的錯誤消息，無法解析“字段”。產生原因如果您對嵌套列字段進行了更改，可能會發生這種情況。例如，假設我們有一個名為Address的列，字段為streetName、houseNumber和city ne…

最後更新:2022年5月10日通過亞當Pavlacka

刪除流查詢檢查點並重新啟動

由於Delta表<值>不存在，作業失敗。請刪除您的流查詢檢查點並重新啟動。錯誤消息。產生原因配置了兩個不同的流源使用同一個檢查點目錄。這是不支持的。例如，假設流查詢A從Delta表A傳輸數據，並使用導流器…

最後更新:2022年5月10日通過亞當Pavlacka

Delta緩存在自動伸縮集群上的行為如何

本文介紹Delta緩存(AWS | Azure | GCP)在自動伸縮集群上的行為，它會根據需要刪除或添加節點。當集群縮減規模並終止節點時:Delta緩存的行為與RDD緩存相同。每當一個節點宕機，該特定節點中的所有緩存數據都會丟失。未移動增量緩存數據…

最後更新:2022年5月10日通過亞當Pavlacka

如何提高三角洲湖合並成查詢使用分區修剪的性能

本文解釋了如何在Databricks的Delta Lake MERGE INTO (AWS | Azure | GCP)查詢中觸發分區修剪。分區修剪是一種優化技術，用於限製查詢檢查的分區數量。當與Delta表一起使用時，MERGE INTO是一個開銷很大的操作。如果你不劃分底層…

最後更新:2022年5月10日通過亞當Pavlacka

刪除托管Delta Lake表的最佳實踐

無論如何刪除托管表，都會花費大量時間，這取決於數據大小。Delta Lake托管表特別包含大量事務日誌形式的元數據，而且它們可能包含重複的數據文件。如果一個Delta表已經使用了很長一段時間，它可以積累非常大量的數據……

最後更新:2022年5月10日通過亞當Pavlacka

在Athena中讀取表時出現HIVE_CURSOR_ERROR

您在Athena中創建了一個外部表，並使用Presto和Athena到Delta Lake集成文檔中的說明將其與Delta Lake集成。Athena中的外部表是在Apache Hive metastore中定義的。你在Athena查詢編輯器的外部表上運行一個選擇查詢，它返回一個HIVE_CURSOR_ERROR。HIVE_C……

最後更新:2022年5月10日通過annapurna.hiriyur

將Delta Lake表寫入S3時拒絕訪問

將Delta Lake格式的DataFrame內容寫入S3位置可能會導致錯誤:com.amazonaws.services.s3.model。AmazonS3Exception: Forbidden (Service: AmazonS3;狀態代碼:403;錯誤碼:403禁止;請求ID: C827672D85516BA9;S3 Extended Request ID: Cause涉及Delta Lake格式的寫操作需要權限…

最後更新:2022年5月10日通過亞當Pavlacka

Delta Lake寫作業失敗，java.lang.UnsupportedOperationException

Delta Lake寫作業有時會失敗，出現以下異常:java.lang.UnsupportedOperationException: com.databricks.backend.daemon.data.client.DBFSV1。putIfAbsent(path: path, content: InputStream)。DBFS v1不支持來自多個集群的事務性寫入。請升級到DBFS v2。或者你可以禁用多集群寫入…

最後更新:2022年5月10日通過亞當Pavlacka

如何填充或更新現有Delta表中的列

您有一個現有的Delta表，其中有一些空列。您需要使用來自原始Parquet文件的數據填充或更新這些列。在本例中，存在一個customers表，它是一個已經存在的Delta表。beplay体育app下载地址它有一個缺少值的地址列。更新後的數據以Parquet格式存在。創建一個DataFrame從…

最後更新:2022年5月10日通過亞當Pavlacka

在追加操作中識別重複數據

在Delta表上執行追加操作時，一個常見的問題是重複數據。例如，假設用戶1對Delta表a執行寫操作，同時用戶2對Delta表a執行追加操作，這可能導致表中出現重複記錄。在本文中，我們回顧了基本的故障排除步驟，您可以使用這些步驟…

最後更新:2022年5月10日通過chetan.kardekar

將Delta Lake表寫入S3時，對象鎖定錯誤

您正在嚐試對S3桶執行Delta寫操作，並得到一個錯誤消息。com.amazonaws.services.s3.model。亞馬遜S3Exception: Content-MD5 HTTP header is required for Put Part requests with Object Lock parameters Cause Delta Lake does not support S3 buckets with object lock enabled. Solution You should use an S3 bucket that do...

最後更新:2022年5月10日通過ashritha.laxminarayana

優化結構化流應用程序中的增量接收器

您正在使用Delta表作為結構化流應用程序的接收器，並且您希望優化Delta表以使查詢更快。如果結構化流應用程序的觸發間隔非常頻繁，那麼它可能無法在每個微批處理中創建足夠的文件來進行壓縮。自動優化操作compac…

最後更新:2022年5月10日通過mathan.pillai

Delta Lake UPDATE查詢失敗，出現IllegalState異常

當你執行一個Delta Lake UPDATE, DELETE，或MERGE查詢，在它的任何轉換中使用Python udf，它會失敗，出現以下異常:AWS java.lang.UnsupportedOperationException: Error in SQL statement: IllegalStateException: File (s3a://xxx/table1) to be rewrite not found among candidate files: s3a://xxx/table1/part-000…

最後更新:2022年5月10日通過亞當Pavlacka

無法將字符串強製轉換為varchar

你試圖將一個字符串類型的列轉換為varchar，但它不工作。提示在Databricks Runtime 8.0及以上版本中支持varchar數據類型(AWS | Azure | GCP)。創建一個簡單的Delta表，其中一列為類型string。創建或替換表delta_table1 (' col1 ' string)使用SHOW TABLE在新創建的ta…

最後更新:2022年5月10日通過DD沙瑪

零保留的真空會導致數據丟失

問題向Delta表中添加數據，但數據毫無警告地消失了。沒有明顯的錯誤消息。產生原因當spark. databicks .delta. retentiondurationcheck .enabled設置為false並且VACUUM配置為保留0小時時，會發生這種情況。%sql VACUUM RETAIN 0 HOURS OR %sql VACUUM delta. '

最後更新:2022年10月7日通過DD沙瑪

z - order將無效，不收集統計

您正在嚐試通過z - order優化Delta表，並收到關於不收集列的統計信息的錯誤。[col1, col2]上的z排序將無效，因為我們目前不收集這些列的統計信息。請查看z -排序(多維聚類)(AWS | Azure | GCP)以獲取更多信息…

最後更新:2022年5月10日通過mathan.pillai

更改Delta Live Table管道的集群配置

您正在使用Delta活動表，並想更改集群配置。你創建了一個管道，但隻有選項來啟用或禁用Photon和選擇工人的數量。產生原因當創建Delta Live Table管道時，大多數參數都配置為默認值。這些值不能在管道啟動之前配置。

最後更新:2022年7月1日通過pratik.bhawsar

工作

區分活的和死的工作

在並發任務過多的集群上，經常會看到一些任務卡在Spark UI中沒有任何進展。這使得識別哪些是活動作業/階段，哪些是死亡作業/階段變得複雜。當集群上有太多的並發任務時，Spark內部的eventListenerBus…

最後更新:2022年5月10日通過亞當Pavlacka

Spark作業失敗，Driver暫時不可用

問題A Databricks筆記本返回如下錯誤:Driver is temporarily unavailable此問題可能是間歇性的，也可能不是。相關的錯誤消息是:與集群失去連接。筆記本可能被拆開了。造成此錯誤的一個常見原因是驅動程序正在經曆內存瓶頸。當這種情況發生時，司機會尖叫…

最後更新:2022年5月10日通過亞當Pavlacka

如何使用REST API刪除所有作業

運行以下命令刪除Databricks工作空間中的所有作業。確定要刪除的作業，並將其列在文本文件中:%sh curl -X GET -u "Bearer: " https:///api/2.0/jobs/list | grep -o -P 'job_id. xml " . xml " grep -o -P 'job_id. xml "{0,6}' | awk -F':' '{print $2}' >> job_id.txt循環執行curl命令刪除identif…

最後更新:2022年5月10日通過亞當Pavlacka

確定較少使用的工作

工作區對可以在UI中顯示的作業數量有限製。當前的作業限製是1000個。如果超出了作業限製，則會收到QUOTA_EXCEEDED錯誤消息。'error_code':'QUOTA_EXCEEDED'，'message':'已達到作業數量的配額。當前配額為1000。此配額僅適用於通過……

最後更新:2022年5月10日通過亞當Pavlacka

作業集群對筆記本輸出的限製

問題您正在作業集群上運行一個筆記本，您得到一條錯誤消息，指示輸出太大。筆記本的輸出量太大了。原因:rpc response (of 20975548 bytes) exceeds limit of 20971520 bytes原因:rpc response (of 20975548 bytes) exceeds limit of 20971520 bytes

最後更新:2022年5月10日通過何塞·岡薩雷斯

作業失敗，但Apache Spark任務完成

問題您的Databricks作業報告失敗狀態，但所有Spark作業和任務都已成功完成。你在代碼中顯式地調用了spark.stop()或System.exit(0)。如果調用其中任何一個，Spark上下文將被停止，但與Databricks作業服務的優雅關閉和握手不會發生。解決方案做…

最後更新:2022年5月10日通過harikrishnan.kunhumveettil

作業速率限製導致作業失敗

問題:Databricks notebook或Jobs API請求返回以下錯誤:error: {"error_code":"INVALID_STATE"，"message":"There were already created in past 3600 seconds, exceeded rate limit:每3600秒創建1000個job。"產生原因每小時的任務數超過了Da…

最後更新:2022年5月10日通過亞當Pavlacka

在覆蓋模式下創建表中斷時失敗

問題當你嚐試重新運行Apache火花寫操作被取消當前運行工作,以下錯誤:錯誤:org.apache.spark.sql.AnalysisException:無法創建管理表(“testdb”。testtable”)。關聯的位置('dbfs:/user/hive/warehouse/testdb.db/metastore_cache_ testtable)已經存在;因為……

最後更新:2022年5月10日通過亞當Pavlacka

Apache Spark作業掛起是因為不確定的自定義UDF

有時Apache Spark作業會由於Spark用戶定義函數(UDF)的不確定性行為而無限期掛起。下麵是這樣一個函數的例子:%scala val convertorUDF = (commentCol: String) => {#UDF definition} val translateColumn = UDF (convertorUDF)如果你使用withColumn() a…

最後更新:2022年5月10日通過亞當Pavlacka

Apache Spark作業失敗，解析字節字符串失敗

Spark-submit作業失敗，報錯Failed to parse byte string: -1。java.util.concurrent.ExecutionException: java.lang.NumberFormatException: Size必須指定為bytes(b)、kibibytes (k)、mebibytes (m)、gibibytes (g)、tebibytes (t)或pebibytes(p)。例如50b、100k或250m。解析字節字符串失敗:-1 at java.util. concurrent…

最後更新:2022年5月10日通過noopur.nigam

Apache Spark UI顯示錯誤的作業數量

通過Spark界麵查看集群上的Apache Spark活動作業數量，發現數量過高，不準確。如果重新啟動集群，Spark UI中顯示的作業數量一開始是正確的，但隨著時間的推移，它會異常地增加。產生原因對於大型或長時間運行的集群，Spark UI並不總是準確的。

最後更新:2022年5月11日通過阿施施

Apache Spark作業失敗，提示連接池關閉錯誤

Spark任務失敗，錯誤信息為java.lang.IllegalStateException: Connection pool shut down當試圖寫入S3上的Delta表時。產生原因寫入S3的Spark任務被限製為最大同時連接數。java.lang.IllegalStateException:連接池關閉發生在此連接池…

最後更新:2022年5月11日通過noopur.nigam

作業失敗，出現非典型錯誤消息

由於觀察到非典型錯誤錯誤消息，作業運行失敗。Cluster was unreachable during run原因:xxx-xxxxxx-xxxxxxx is throttle due to observing asymmetric errors原因集群上的作業返回給Apache Spark driver節點的大結果太多。結果，司機服務已經用完了。

最後更新:2022年5月11日通過亞當Pavlacka

Apache Spark作業失敗，maxResultSize異常

Spark job failed with maxResultSize exception: org.apache.spark.SparkException: job aborted due to stage failure: Total size of serialized results of XXXX tasks (X.0 GB) is bigger than Spark .driver.maxResultSize (X.0 GB)產生原因超過配置的大小限製。大小限製適用於全部序列化…

最後更新:2022年5月11日通過亞當Pavlacka

由於沒有安裝庫，Databricks作業失敗

問題A Databricks作業失敗，因為作業需要一個尚未安裝的庫，導致導入錯誤。產生原因在安裝所需的庫之前作業已經開始運行。如果您在以下任何一種情況下在集群上運行作業，則集群在安裝庫時可能會遇到延遲:當您啟動…

最後更新:2022年5月11日通過亞當Pavlacka

Azure數據湖存儲(ADLS) CREATE限製導致作業失敗

當您運行涉及在Azure數據湖存儲(ADLS)中創建文件的作業時，無論是Gen1還是Gen2，都會出現以下異常:原因:java.io.IOException: CREATE failed with error 0x83090c25(文件和文件夾正在創建的速率太高)。[745c5836-264e-470c-9c90-c605f1c100f5] failed with error 0x83090c25 (Files and fo…

最後更新:2022年5月11日通過亞當Pavlacka

作業因訪問令牌無效而失敗

長時間運行的作業，例如流作業，在使用dbutils.secrets.get() (AWS | Azure | GCP)時，在48小時後失敗。例如:%python streamingInputDF1 = (spark .readStream .format("delta") .table("default.delta_sorce")) def writeIntodelta(batchDF, batchId): table_name = dbutil…

最後更新:2022年5月11日通過manjunath.swamy

如何確保工作的等冪性

當您通過Databricks jobs REST API提交作業時，不能保證具有等冪性。如果客戶端請求超時，客戶端重新提交相同的請求，您可能會運行重複的作業。當你通過jobs API提交作業時，為了確保作業的冪等性，你可以使用一個冪等令牌來為一個特定的…

最後更新:2022年5月11日通過亞當Pavlacka

使用Job Run指示板監視正在運行的作業

作業運行指示板是一個筆記本，它顯示有關當前在工作區中運行的所有作業的信息。要配置儀表板，必須具有將筆記本附加到要監視的工作區中的通用集群的權限。如果不存在通用集群，則需要具備創建通用集群的權限。一旦d…

最後更新:2022年5月11日通過亞當Pavlacka

流作業降低了性能

你有一個流作業，它的性能隨著時間的推移而下降。您使用相同的配置和相同的源啟動一個新的流作業，它比現有作業執行得更好。舊檢查點的問題可能導致長時間運行的流作業性能下降。如果工作是斷斷續續的，就會發生這種情況。

最後更新:2022年5月11日通過阿施施

任務反序列化時間長

你的任務運行速度比預期的慢。您在集群上的Spark UI中查看了階段細節，發現任務反序列化時間很長。產生原因集群安裝的庫(AWS | Azure | GCP)隻在集群啟動時安裝在驅動上。這些庫隻在第一個任務執行時安裝在執行器上。

最後更新:2022年5月11日通過亞當Pavlacka

作業執行

增加每個階段的任務數量

當使用Spark -xml包時，您可以通過在集群的Spark配置(AWS | Azure)中更改Spark .hadoop.mapred.max.split.size的配置設置來增加每個階段的任務數量。此配置設置控製輸入塊大小。當從DBFS讀取數據時，它被劃分為輸入塊，然後…

最後更新:2022年5月11日通過亞當Pavlacka

已達到最大執行上下文或筆記本附件限製

Notebook或job執行停止並返回以下錯誤之一:Run result unavailable: job failed with error message Context ExecutionContextId(1731742567765160237) is disconnected。無法附加此筆記本，因為集群已達到所附筆記本的限製。分離一個筆記本並重試。因為當你附上一個記事本…

最後更新:2022年5月11日通過亞當Pavlacka

序列化任務太大

如果您看到以下錯誤消息，您可以在啟動集群時通過更改Spark配置(AWS | Azure)來修複此錯誤。序列化任務XXX:XXX為XXX字節，超過max allowed: spark.rpc.message.maxSize (XXX字節)。考慮增加spark.rpc.message.maxSize或使用大值的廣播變量。要改變……

最後更新:2022年5月11日通過亞當Pavlacka

庫

無法在egg庫中導入模塊

您嚐試將一個egg庫安裝到您的集群中，它失敗了，並提示庫中的a模塊無法導入。即使是簡單的導入也會失敗。導入sys egg_path='/dbfs//。sys.path.append(egg_path) import shap_master產生原因庫的pac方式導致此錯誤。

最後更新:2022年5月11日通過xin.wang

無法從AutoGluon導入TabularPrediction

你試圖從AutoGluon導入TabularPrediction，但得到一個錯誤消息。ImportError:不能從“autogluon”導入名稱“TabularPrediction”(未知位置)。當autogluon通過筆記本電腦安裝或作為集群安裝的庫(AWS | Azure | GCP)時，會發生這種情況。您可以通過運行import c…

最後更新:2022年5月11日通過kavya.parag

在Databricks Runtime 6.4上安裝最新版PyStan失敗

您試圖在Databricks Runtime 6.4 Extended Support集群上安裝PyStan PyPi包，並得到ManagedLibraryInstallFailed錯誤消息。java.lang.RuntimeException: ManagedLibraryInstallFailed: org.apache.spark.SparkException: Process List(/databricks/python/bin/pip, install, pystan，——disable-pip-version-check) exited wit…

最後更新:2022年5月11日通過rakesh.parija

庫不可用導致作業失敗

您正在啟動導入外部庫的作業，並得到一個導入錯誤。當作業導致節點重啟時，作業失敗，報錯如下:ImportError: No module named XXX原因Cluster Manager是Databricks服務的一部分，管理客戶Apache Spark集群。它發送命令來安裝Python和R…

最後更新:2022年5月11日通過亞當Pavlacka

如何在Databricks中正確更新Maven庫

您對存儲庫中的一個庫做了一個小的更新，但是您不想更改版本號，因為這是一個用於測試的小更改。當您再次將庫附加到集群時，您的代碼更改不會包含在庫中。Databricks的一個優點是能夠安裝第三方或自定義libra…

最後更新:2022年5月11日通過亞當Pavlacka

Init腳本下載Maven JAR失敗

你有一個初始化腳本，試圖通過Maven安裝一個庫，但在嚐試下載JAR時失敗。https://repo1.maven.org/maven2/com/nvidia/rapids-4-spark_2.12/0.4.1/rapids-4-spark_2.12-0.4.1.jar%0D解決repo1.maven.org (repo1.maven.org)…151.101.248.209連接repo1.maven.org (repo1.maven.org)|151.101.248....

最後更新:2022年5月11日通過arvind.ravish

使用以前的CRAN快照安裝包

問題您正在嚐試通過CRAN安裝庫包，由於一個錯誤錯誤消息，庫安裝失敗。由於某些(cran {package: ""})的基礎設施故障，庫安裝失敗。java.lang.RuntimeException: install failed with message: Erro…

最後更新:2022年5月11日通過darshan.bargal

安裝PyGraphViz

PyGraphViz Python庫用於繪製因果推斷網絡。如果試圖將PyGraphViz作為標準庫安裝，則會由於依賴錯誤而失敗。PyGraphViz有以下依賴項:python3-dev graphviz libgraphviz-dev pkg-config使用apt-get安裝依賴項。%sh sudo apt-get install -y python3-de…

最後更新:2022年5月11日通過pavan.kumarchalamcharla

通過init腳本安裝Turbodbc

Turbodbc是一個Python模塊，它使用ODBC接口訪問關係數據庫。它依賴於libboost-all-dev、unixodbc-dev和python-dev包，這些包需要按順序安裝。可以手動安裝，也可以使用init腳本自動安裝。在記事本中運行這個示例腳本…

最後更新:2022年5月11日通過約翰。Lourdu

無法從UI卸載庫

通常情況下，庫可以在集群界麵卸載。如果選擇庫的複選框被禁用，則無法從UI卸載庫。產生原因如果您使用REST API版本1.2創建庫，並且啟用了自動連接，則該庫將安裝在所有集群上。在這個場景中，Clusters UI複選框…

最後更新:2022年5月11日通過亞當Pavlacka

在集群上安裝Cartopy時出錯

您正在嚐試在集群上安裝Cartopy，並收到ManagedLibraryInstallFailed錯誤消息。java.lang.RuntimeException: ManagedLibraryInstallFailed: org.apache.spark.SparkException: Process List(/databricks/python/bin/pip, install, cartopy==0.17.0，——disable-pip-version-check) exited with code 1。ERROR: Command ERROR out…

最後更新:2022年5月11日通過prem.jayaraj

在集群上安裝pyodbc時出錯

使用pip安裝pyodbc庫時，出現以下錯誤之一。java.lang.RuntimeException:安裝失敗，消息:收集pyodbc "庫安裝由於缺少依賴項而失敗。sasl和thrift_sasl是sasl或Kerberos支持的可選依賴項。

最後更新:2022年5月11日通過亞當Pavlacka

庫失敗，依賴項異常

你有一個Python函數，它定義在一個自定義的egg或wheel文件中，並且還具有由集群上安裝的另一個客戶包滿足的依賴關係。當您調用此函數時，它將返回一個錯誤，表示無法滿足需求。org.apache.spark.SparkException: Process List(/local_disk0/pythonVirtualEnv…

最後更新:2022年5月11日通過jordan.hicks

庫由於瞬態Maven問題而失敗

作業失敗，因為無法安裝庫。庫解析失敗。原因:java.lang.RuntimeException:由於瞬態Maven問題，無法下載一些庫。Please try again later產生原因升級Databricks後，集群試圖從Maven下載所需的庫。下載後，庫存儲在一個…

最後更新:2022年5月11日通過dayanand.devarapalli

從DBFS或S3添加庫時，新作業失敗

您創建了一個新作業，並試圖從DBFS或S3存儲中添加一個庫。工作區UI返回一個錯誤。無法讀取未定義的屬性“concat”重新加載頁麵，然後重試。如果錯誤仍然存在，請聯係技術支持。單擊“重新加載”頁麵不能解決錯誤消息。因為這是一個已知的問題。修複…

最後更新:2022年5月12日通過jordan.hicks

使用xlrd讀取.xlsx文件失敗

你在你的集群上安裝了xlrd，並試圖讀取Excel .xlsx格式的文件時，你得到一個錯誤。XLRDError: Excel xlsx文件;原因分析xlrd 2.0.0及以上版本隻能讀取.xls文件。由於存在潛在的安全漏洞，xlrd刪除了對.xlsx文件的支持。使用openpyxl打開。xl…

最後更新:2022年5月12日通過prakash.jha

1.刪除Log4j。. x JMSAppender和SocketServer類

Databricks最近發布了一篇關於Log4j 2漏洞(CVE-2021-44228)研究和評估的博客。Databricks不會直接使用Databricks平台中已知受此漏洞影響的Log4j版本，我們認為這種方式可能是脆弱的。Beplay体育安卓版本Databricks也不使用Log4j 1中受影響的類。X與已知vul…

最後更新:2022年5月16日通過亞當Pavlacka

替換默認的庫jar

Databricks包含許多默認的Java和Scala庫。您可以使用集群範圍的init腳本刪除默認庫jar，然後安裝所需的版本，從而將這些庫中的任何一個替換為另一個版本。刪除默認庫並安裝新版本可能會導致不穩定或完全破壞您的D…

最後更新:2022年5月16日通過ram.sankarasubramanian

Python命令失敗AssertionError:錯誤的顏色格式

你運行一個Python筆記本，它失敗了，並提示AssertionError:錯誤的顏色格式消息。堆棧跟蹤示例:File "/local_disk0/tmp/1599775649524-0/PythonShell.py"，第39行，in from ipython .nbconvert. filtering .ansi import ansi2html File ""， line 983, in _find_and_load File "<…

最後更新:2022年5月16日通過約翰。Lourdu

PyPMML失敗，提示無法找到py4j jar錯誤

PyPMML是一個Python PMML評分庫。在Databricks集群中安裝PyPMML後，它會失敗，報錯Py4JError: Could not find py4j jar error。%python from pypmml import Model modelb = Model. fromfile ('/dbfs/shyam/DecisionTreeIris.pmml') Error: Py4JError: Could not find py4j jar at原因此錯誤是由於依賴於defa…

最後更新:2022年5月16日通過arjun.kaimaparambilrajan

TensorFlow導入失敗

你的集群上安裝了TensorFlow。當你嚐試導入TensorFlow時，它會以無效語法或導入錯誤失敗。產生原因集群上安裝的protobuf版本與TensorFlow版本不兼容。解決方案使用集群範圍的init腳本安裝TensorFlow和匹配的NumPy和proto版本…

最後更新:2022年5月16日通過kavya.parag

在集群上驗證Log4j的版本

Databricks最近發布了一篇關於Log4j 2漏洞(CVE-2021-44228)研究和評估的博客。Databricks不會直接使用Databricks平台中已知受此漏洞影響的Log4j版本，我們認為這種方式可能是脆弱的。Beplay体育安卓版本如果您在集群中使用Log4j(例如，如果您正在處理…

最後更新:2022年5月16日通過亞當Pavlacka

Apache Spark作業失敗，環境目錄未找到錯誤

安裝Python庫後(通過集群UI或使用pip)， Apache Spark作業失敗，報出“環境目錄未找到”錯誤消息。org.apache.spark.SparkException:環境目錄不在/local_disk0/。蜉al_nfs /cluster_libraries/python原因分析庫安裝在NFS (Network File System)上。

最後更新:2022年7月1日通過亞當Pavlacka

在Docker容器服務中使用Databricks Repos

根據您的用例，您可能希望同時使用Docker容器服務(DCS)和Databricks reppos (AWS | Azure | GCP)。DCS在默認情況下不與Databricks Repos一起工作，但是您可以使用自定義init腳本來使用兩者。如果您沒有安裝初始化腳本來配置DCS與Databricks Repos，您可能…

最後更新:2022年9月28日通過darshan.bargal

機器學習

Conda從Anaconda下載包失敗

您正在嚐試從Anaconda存儲庫下載包，並獲得PackagesNotFoundError錯誤消息。在筆記本中使用%conda或%sh conda時，以及在初始化腳本中使用conda時，可能會發生此錯誤。原因Anaconda Inc.更新了repo.anaconda.com和anaconda.org/anaconda的服務條款。根據蟒蛇…

最後更新:2022年5月16日通過mathan.pillai

從MLflow下載工件

默認情況下，MLflow客戶端在實驗期間將工件保存到工件存儲URI中。工件存儲URI類似於/dbfs/databricks/mlflow-tracking/< experimental -id>//artifacts/。這個工件存儲是一個MLflow管理的位置，所以您不能直接下載工件。你必須使用客戶端。Download_artifacts在…

最後更新:2022年5月16日通過shanmugavel.chandrakasu

如何為基於樹的Apache SparkML管道模型提取特征信息

當你擬合一個基於樹的模型時，如決策樹、隨機森林或梯度增強樹，能夠回顧特征的重要性級別和特征名稱是很有幫助的。通常SparkML中的模型適合作為管道的最後階段。利用樹算法從管道中提取相關特征信息。

最後更新:2022年5月16日通過亞當Pavlacka

擬合Apache SparkML模型會拋出錯誤

問題Databricks在擬合SparkML模型或Pipeline時拋出錯誤:org.apache.spark.SparkException: Job aborted to stage failure: Task 0 in stage 162.0 failed 4次，最近的失敗:Lost Task 0.3 in stage 162.0 (TID 168, 10.205.250.130, executor 1): org.apache.spark.SparkException: failed to execute user - defined function($anonfu…

最後更新:2022年5月16日通過亞當Pavlacka

H2O。ai氣泡水集群不可達

問題你在嚐試初始化H2O。當你得到H2OClusterNotReachableException錯誤消息時，ai 's Sparkling Water on Databricks Runtime 7.0及以上。%python導入ai.h2o.sparkling。_ val h2oContext = h2oContext . getorcreate () ai.h2o. sparkle .backend.exceptions。H2OClusterNotReachableException: H2O cluster X.X.X.X:54321 - sparkle -water-ro…

最後更新:2022年5月16日通過shanmugavel.chandrakasu

如何使用Apache Spark執行組K-fold交叉驗證

交叉驗證將訓練數據隨機分成指定的折疊數。為了防止數據泄露，當相同的數據在多個折疊中顯示時，您可以使用組。scikit-learn支持K-fold交叉驗證，以確保折疊是不同的和不重疊的。在Spark上，你可以使用Spark -sklearn庫，它分發…

最後更新:2022年5月16日通過亞當Pavlacka

導入OneHotEncoderEstimator時出錯

將筆記本從Databricks Runtime 6.4 for Machine Learning或以下版本遷移到Databricks Runtime 7.3 for Machine Learning或以上版本。您正在嚐試導入OneHotEncoderEstimator，並得到一個導入錯誤。ImportError:不能從pyspark.ml導入名稱“OneHotEncoderEstimator”。功能的(/磚/火花/ python / pyspark / m…

最後更新:2022年5月16日通過shyamprasad.miryala

MLflow項目訪問Apache Hive表失敗

你有一個MLflow項目，無法訪問Hive表，並返回一個表或視圖未找到錯誤。pyspark.sql.utils.AnalysisException: "表或視圖未找到:' default ' . ' tab1 ';\n' aggregate [unresolvedalias(count(1)， None)]\n+- 'UnresolvedRelation ' default '。“tab1”\n“xxxxx ERROR mlflow.”cli: === Run (ID 'xxxxx') failed…

最後更新:2022年5月16日通過vikas.yadav

如何加速交叉驗證

Apache SparkML模型的超參數調優需要很長時間，這取決於參數網格的大小。您可以在SparkML中提高交叉驗證步驟的性能以加快速度:在運行任何特性轉換或建模步驟(包括交叉驗證)之前緩存數據。引用數據多…

最後更新:2022年5月16日通過亞當Pavlacka

Hyperopt失敗，maxNumConcurrentTasks錯誤

當使用py4j作業失敗時，您正在使用Hyperopt調優機器學習參數。Py4JException:方法maxNumConcurrentTasks([])不存在錯誤。您正在使用Databricks Runtime for Machine Learning (Databricks Runtime ML)集群。原因分析Databricks Runtime ML已經預先安裝了兼容的Hyperopt版本(AWS | Azure |…)

最後更新:2022年5月16日通過chetan.kardekar

使用文檔作為輸入時，結果不正確

您有一個ML模型，它將文檔作為輸入，特別是字符串數組。您可以使用像TfidfVectorizer這樣的特征提取器將文檔轉換為字符串數組，並將數組攝取到模型中。模型經過訓練，預測發生在筆記本上，但模型服務並沒有為JS返回預期的結果……

最後更新:2022年5月16日通過pradeepkumar.palaniswamy

在不使用MLflow客戶端訪問MLflow工件時出現錯誤

MLflow實驗權限(AWS | Azure)現在在MLflow跟蹤中的工件上強製執行，使您能夠輕鬆控製對數據集、模型和其他文件的訪問。當嚐試使用DBFS (Databricks File System)命令(如dbutils)訪問MLflow運行工件時，出現無效的掛載異常問題。f，您將得到以下錯誤:com....

最後更新:2022年5月16日通過亞當Pavlacka

使用自定義工件存儲位置時的實驗警告

當您使用自定義工件位置創建MLflow實驗時，您會得到以下警告:原因MLflow跟蹤中的工件強製執行MLflow實驗權限(AWS | Azure | GCP)，使您能夠輕鬆控製對數據集、模型和其他文件的訪問。MLflow不能保證對應用程序執行訪問控製。

最後更新:2022年5月16日通過亞當Pavlacka

使用遺留工件存儲位置時的實驗警告

MLflow實驗頁麵上出現一個新圖標，帶有以下開放訪問警告:原因MLflow跟蹤中的工件強製執行MLflow實驗權限(AWS | Azure | GCP)，使您能夠輕鬆控製對數據集、模型和其他文件的訪問。在MLflow 1.11及以上版本中，新的實驗將文物存儲在MLflow-mana中…

最後更新:2022年5月16日通過亞當Pavlacka

KNN模型使用pyfunc返回ModuleNotFoundError或FileNotFoundError

你已經使用KNeighborsClassifier創建了一個Sklearn模型，並使用pyfunc來運行預測。例如:%python import mlflow。Pyfunc pyfunc_udf = mlflow.pyfunc。Spark_udf (spark, model_uri=model_uri, result_type='string') predicted_df = merge。withColumn(" forecast "， pyfunc_udf(*merge.columns[1:])) predicted_df.collect()

最後更新:2022年5月16日通過pradeepkumar.palaniswamy

訪問MLflow實驗工件時的OSError

當嚐試使用以下方法之一下載或記錄artifacts時，您會得到一個OSError:沒有這樣的文件或目錄錯誤消息:MlflowClient.download_artifacts() mlflow.[flavor].log_model() mlflow.[flavor].load_model() mlflow.log_artifacts() OSError:沒有這樣的文件或目錄:'/dbfs/databricks/mlflow-tracking/<實驗id>/

最後更新:2022年5月16日通過亞當Pavlacka

訪問MLflow實驗工件時出現PERMISSION_DENIED錯誤

當您試圖使用MLflow客戶端訪問MLflow工件時，您會得到一個PERMISSION_DENIED錯誤。RestException: PERMISSION_DENIED: User < User > does not have permission to 'View' experiment with id < experimental -id> or RestException: PERMISSION_DENIED: User < User > does not have permission to 'Edit' experiment with id

最後更新:2022年5月16日通過亞當Pavlacka

Python命令在機器學習集群上失敗

您正在使用Databricks運行時機器學習集群，Python筆記本正在失敗。您在日誌中發現一個無效的語法錯誤。SyntaxError: invalid syntax File "/local_disk0/tmp/1593092990800-0/PythonShell.py"， line 363 def __init__(self， *args, condaMagicHandler=None， **kwargs): Cause

最後更新:2022年5月16日通過arjun.kaimaparambilrajan

在Hyperopt中啟用SparkTrials時，運行不嵌套

Problem SparkTrials是Hyperopt的一個擴展，它允許運行分發給Spark worker。當您在工作函數中用nested=True啟動MLflow運行時，結果應該嵌套在父運行之下。有時結果不正確嵌套下的父運行，即使你運行SparkTrials嵌套=True…

最後更新:2022年5月16日通過pradeepkumar.palaniswamy

MLflow“無效訪問令牌”錯誤

您的筆記本或作業中有長時間運行的MLflow任務，這些任務尚未完成。相反，它們返回一條(403)Invalid訪問令牌錯誤消息。錯誤堆棧跟蹤:MlflowException: API請求endpoint / API /2.0/mlflow/runs/create失敗，錯誤代碼403 != 200。響應正文:'

最後更新:2022年7月22日通過shanmugavel.chandrakasu

Metastore

外部亞瘤的自動縮放很慢

您在集群上配置了一個外部metastore，並且啟用了自動伸縮，但是集群不能有效地自動伸縮。原因:你正在複製metastore jar到每個執行程序，而它們隻需要在驅動程序中。每次啟動新的執行程序時，初始化和運行jar都需要一些時間。因此，增加更多的前…

最後更新:2022年5月16日通過Gobinath。Viswanathan

數據太長導致列錯誤

你試圖插入一個結構到一個表，但你得到一個java.sql.SQLException:數據太長列錯誤。查詢是:INSERT INTO COLUMNS_V2 (CD_ID,COMMENT， ' COLUMN_NAME '，TYPE_NAME,INTEGER_IDX) VALUES (?，?，?，?，?)， parameters [103182，，'address…

最後更新:2022年5月16日通過亞當Pavlacka

刪除數據庫而不刪除

默認情況下，DROP DATABASE (AWS | Azure | GCP)命令刪除數據庫，並從文件係統中刪除數據庫關聯的目錄。有時您可能希望刪除數據庫，但保持底層數據庫目錄不變。您可以使用此示例代碼刪除數據庫，而不刪除底層存儲。

最後更新:2022年5月24日通過arvind.ravish

如何創建表ddl導入到外部metastore

Databricks支持使用外部metastore代替默認的Hive metastore。您可以將所有的表元數據從Hive導出到外部metastore。使用Apache Spark Catalog API列出metastore中包含的數據庫中的表。使用SHOW CREATE TABLE語句生成ddl並將它們存儲在文件中。使用該文件…

最後更新:2022年5月16日通過亞當Pavlacka

從metastore中刪除帶有損壞元數據的表

有時候你不能從Databricks UI中刪除一個表。使用%sql或spark。SQL刪除表也不工作。產生原因存儲在metastore中的元數據(表模式)損壞。執行Drop table命令時，Spark會先檢查表是否存在，然後再刪除表。由於元數據損壞表Spark c…

最後更新:2022年5月16日通過亞當Pavlacka

用外部Hive亞metastore創建表時出錯

你正在連接到一個外部的MySQL metastore，並試圖創建一個表時，你得到一個錯誤。AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(消息:在添加/驗證類(es)時拋出異常:(conn=21)列長度太大，列'PARAM_VALUE' (max = 16383);使用BLOB或TE…

最後更新:2022年5月16日通過jordan.hicks

在azure支持的亞metastore上刪除表時出現AnalysisException

當你試圖在部署在Azure SQL數據庫的外部Hive 2.0或2.1 metastore中刪除一個表時，Databricks拋出以下異常:com.databricks.backend.common.rpc.DatabricksExceptions$SQLExecutionException: org.apache.spark.sql.AnalysisException: org.apache.hadoop. Hive .metadata. hiveexception: MetaException(…

最後更新:2022年5月16日通過亞當Pavlacka

如何排除幾個Apache Hive亞穩態問題

問題1:外部metastore表不可用當您檢查驅動日誌時，您會看到一個堆棧跟蹤，其中包括錯誤Required table missing: WARN查詢:查詢org.apache.hadoop.hive.metastore.model.MDatabase和子類導致沒有可能的候選Required table missing: "DBS" in Catalog "" Schema ""。DataNu……

最後更新:2022年5月16日通過亞當Pavlacka

列出表名

要從metastore中獲取所有的表名，可以使用spark.catalog.listTables()或%sql show tables。如果你觀察獲取詳細信息的持續時間，你會發現spark.catalog.listTables()通常比%sql show tables花費更長的時間。原因spark.catalog.listTables()嚐試先獲取每個表的元數據，然後顯示請求…

最後更新:2022年5月16日通過亞當Pavlacka

如何設置一個嵌入式Apache Hive亞穩態

您可以設置Databricks集群來使用嵌入式metastore。當您隻需要在集群的生命周期內保留表元數據時，可以使用嵌入式metastore。如果集群重啟，元數據將丟失。如果您需要在集群重新啟動後持久化表元數據或其他數據，那麼您應該使用默認的metastore o…

最後更新:2022年5月16日通過亞當Pavlacka

日本性格支持外部亞穩態

你試圖在你的表中使用日本字符，但不斷得到錯誤。使用OPTIONS關鍵字創建一個表，OPTIONS為表提供額外的元數據。您嚐試使用OPTIONS創建一個表，並將字符集指定為utf8mb4。創建默認表。JPN_COLUMN_NAMES(“作成年月”字符串,“計上年月”字符串,“所屬コード”字符串,“生保代理店コード_8……

最後更新:2022年5月16日通過亞當Pavlacka

Parquet時間戳要求Hive metastore 1.2或以上

問題您正在嚐試使用TIMESTAMP創建Parquet表，但您得到一個錯誤消息。SQL語句錯誤:QueryExecutionException: FAILED:執行錯誤，從org.apache.hadoop.hive.ql.exec.DDLTask返回代碼1。unsupportedoperationexception: Parquet不支持時間戳。參見HIVE-6384代碼示例%sql CREATE EXTERN…

最後更新:2022年5月16日通過rakesh.parija

指標

如何探索Apache Spark指標與Spark監聽器

Apache Spark提供了幾個有用的內部偵聽器，用於跟蹤任務和作業的指標。例如，在開發周期中，這些指標可以幫助您了解任務何時以及為什麼需要很長時間才能完成。當然，您可以利用Spark UI或History UI來查看每個任務和階段的信息，但也有一些不足之處。

最後更新:2022年5月16日通過亞當Pavlacka

如何使用Apache Spark指標

本文給出了一個如何使用Spark可配置度量係統監視Apache Spark組件的示例。具體來說，它展示了如何設置新源和啟用接收器。有關可用於指標收集的Spark組件(包括開箱即用的接收器)的詳細信息，請參見上麵的文檔鏈接。正……

最後更新:2022年5月16日通過亞當Pavlacka

筆記本電腦

使用臨時會話憑證訪問S3

在Databricks Runtime 8.3及以上版本中，您可以使用帶有Hadoop配置支持的IAM會話令牌來訪問S3存儲。提示使用會話憑據時，不能將S3路徑作為DBFS掛載。您必須使用S3A URI。從集群中提取會話憑據從集群中提取會話憑據。您將需要實例…

最後更新:2022年5月16日通過Gobinath。Viswanathan

不能使用表ACL的IAM角色

當啟用表acl時，您想使用IAM角色，但您得到一個錯誤，說無法定位憑據。NoCredentialsError: Unable to locate credentials原因分析啟用表ACL時，訪問EC2實例元數據服務被阻斷。這是一種安全措施，可防止用戶獲取IAM訪問憑據。索爾……

最後更新:2022年5月16日通過亞當Pavlacka

為筆記本啟用s3cmd

s3cmd是一個客戶端庫，允許您從任何機器執行所有AWS S3操作。Databricks集群默認不安裝s3cmd。在使用它之前，必須通過集群範圍的初始化腳本安裝它。示例init腳本在一個環境變量中存儲一個秘密的路徑。你應該這樣保存秘密……

最後更新:2022年5月16日通過pavan.kumarchalamcharla

如何檢查一個火花屬性是可修改的筆記本

通過設置各種配置，可以對應用進行調優。有些配置必須在集群級別設置，而有些則在筆記本電腦或應用程序中設置。處理建議檢查某個Spark配置是否可以在筆記本中設置，在筆記本單元格中執行如下命令:%scala Spark .conf. ismodifiable (" Spark .databrick…"

最後更新:2022年5月16日通過亞當Pavlacka

JSON閱讀器將值解析為null

您正在嚐試讀取一個JSON文件。您知道文件中有數據，但是Apache Spark JSON閱讀器返回一個空值。您可以使用此示例代碼來重現問題。在DBFS中創建一個測試JSON文件。%python dbutils.fs.rm("dbfs:/tmp/json/parse_test.txt") dbutils.fs.put("dbfs:/tmp/json/parse_test.txt"， """{…

最後更新:2022年5月16日通過saritha.shivakumar

筆記本常見錯誤

使用筆記本電腦時有一些常見的問題。本節概述了一些常見問題和您應該遵循的最佳實踐。有時你可能會遇到這樣的錯誤:%scala java.lang.NoClassDefFoundError:無法初始化類行.....這個c…

最後更新:2022年5月16日通過亞當Pavlacka

Display()不能正確顯示微秒

你想以微秒精度顯示時間戳值，但是當你使用display()時，它不會顯示超過毫秒的值。例如，Apache Spark SQL display()命令:% SQL display(Spark . SQL display)sql("select cast('2021-08-10T09:08:56.740436' as timestamp) as test"))返回一個截斷的值:2021-08-10T09:08:56.740+0000原因…

最後更新:2022年5月16日通過harikrishnan.kunhumveettil

錯誤:在對象id為p0上收到命令c

你已經導入了Python庫，但是當你試圖在筆記本中執行Python代碼時，你會得到一個重複的消息作為輸出。INFO:py4j.java_gateway:Received command c on object id p0 INFO:py4j.java_gateway:Received command c on object id p0 INFO:py4j.java_gateway:Received command c on object id p0 INFO:py4j.java_gateway:Received command…

最後更新:2022年5月16日通過sandeep.chandran

訪問或掛載存儲失敗

您正在嚐試訪問一個現有的掛載點，或創建一個新的掛載點，但失敗並報錯。無效掛載異常:後端無法獲取路徑/mnt的令牌。產生原因根掛載路徑(/mnt)也掛載到存儲位置。您可以通過列出所有掛載點來驗證某個東西被掛載到根路徑…

最後更新:2022年5月16日通過kiran.bharathi

貨品太大，無法出口

您正在嚐試使用工作區UI導出筆記本，並得到一個錯誤消息。這個項目太大了，不能出口。嚐試輸出更小或更少的項目。產生原因筆記本文件大於10mb。解決方案最簡單的解決方案是限製筆記本電腦或文件夾的大小，您試圖下載到10mb或…

最後更新:2022年5月16日通過pavan.kumarchalamcharla

訪問已刪除用戶擁有的筆記本

當您從Databricks刪除用戶(AWS | Azure)時，將在工作空間中創建一個特殊的備份文件夾。此備份文件夾包含已刪除用戶的所有內容。工作空間中的備份文件夾顯示為- Backup -#。提示隻有admin用戶可以訪問備份文件夾。訪問備份文件夾:以…方式登錄Databricks。

最後更新:2022年5月16日通過約翰。Lourdu

由於文件大小限製，筆記本自動保存失敗

筆記本自動保存失敗，錯誤信息如下:Failed to save revision:筆記本大小超過限製。這通常是由結果較大的單元格引起的。刪除一些單元格或分割筆記本。產生原因允許自動保存的最大筆記本大小為8mb。處理建議首先，使用您的br檢查您的筆記本文件大小。

最後更新:2022年5月16日通過亞當Pavlacka

如何從Databricks筆記本發送電子郵件或短信

您可能需要從Databricks筆記本向一組收件人發送通知。例如，您可能希望根據匹配的業務規則或命令的成功或失敗發送電子郵件。本文描述了兩種通過筆記本發送電子郵件或SMS消息的方法。這兩個例子都使用Python筆記本:發送電子郵件或SMS消息…

最後更新:2022年5月17日通過亞當Pavlacka

取消流單元後不能運行筆記本命令

問題:當取消連接到Databricks Runtime 5.0集群的筆記本中正在運行的流計算單元後，無法在筆記本中運行後續的任何命令。命令處於“等待運行”狀態，您必須清除筆記本的狀態或分離並重新連接集群，才能成功地在筆記本....上運行命令

最後更新:2022年5月17日通過亞當Pavlacka

故障排除無響應的Python筆記本或取消的命令

本文概述了在筆記本無響應或取消命令時可以采取的故障排除步驟。檢查metastore連通性問題在新連接的筆記本電腦上執行簡單命令失敗，但在之前連接到同一集群的筆記本電腦上執行命令成功。故障處理步驟檢查metastore連通性。無法……

最後更新:2022年5月17日通過亞當Pavlacka

更新多個用戶的作業權限

運行作業時，可能需要更新多個用戶的用戶權限。你可以通過使用Databricks作業權限API (AWS | Azure | GCP)和一些Python代碼來做到這一點。將示例代碼複製到筆記本中。在數組arr[]中輸入(或多個job-id)。輸入有效負載{}。在這個例子中……

最後更新:2022年5月17日通過Atanu。Sarkar

服務主體無法創建訪問令牌

你試圖在REST API中使用/2.0/令牌管理/on-behalf-of/令牌創建一個代表服務主體的令牌，但是得到一個PERMISSION_DENIED錯誤。{"error_code": "PERMISSION_DENIED"， "message": "User xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx沒有權限使用令牌。"當服務…

最後更新:2022年7月1日通過rakesh.parija

生成瀏覽器HAR文件

在排除UI問題時，有時需要獲取有關在瀏覽器中生成的網絡請求的附加信息。如果需要，我們的支持團隊將要求您生成一個HAR文件。本文描述了如何在每個主要的web瀏覽器上生成一個HAR文件。警告HAR文件包含敏感文件…

最後更新:2022年7月1日通過vivian.wilfred

從回收站中恢複已刪除的筆記本

DBR版本:這適用於工作區UI，因此它與DBR版本是分開的。類別:筆記本次級類別:<列表次級類別，如適用>雲版本:AWS, Azure, GCP作者:vivian.wilfred@www.eheci.com所屬團隊:<印度+平台>票證URL: <原始Salesforce或Jira票證鏈接>上次評審…Beplay体育安卓版本

最後更新:2022年9月2日通過vivian.wilfred

安全性和權限

訪問S3數據時禁止出錯

在嚐試使用DBFS掛載或直接在Spark api中訪問S3數據時，命令失敗，並出現類似以下異常:com.amazonaws.services.s3.model。AmazonS3Exception:禁止;請求ID: XXXXXXXXXXXXX，擴展請求ID: XXXXXXXXXXXXXXXXXXX，雲提供商:AWS，實例ID: XXXXXXXXXX(服務:Amazon S3;地位有限公司…

最後更新:2022年5月17日通過亞當Pavlacka

創建表失敗，出現安全異常

嚐試使用啟用了表acl的集群創建表，但出現以下錯誤:SQL語句中的錯誤:SecurityException: User does not have permission SELECT on any file。產生原因在啟用了表acl的集群上，如果您不是管理員，並且沒有足夠的權限來創建ta…

最後更新:2022年5月17日通過亞當Pavlacka

排除關鍵保險庫訪問問題

當您試圖訪問機密時，您收到了一條錯誤消息。com.www.eheci.common.client.DatabricksServiceException: INVALID_STATE: Databricks無法訪問keyvault: https://xxxxxxx.vault.azure.net/。此錯誤消息沒有單一的根本原因，因此您必須進行一些故障排除。確認權限設置正確…

最後更新:2022年5月17日通過arvind.ravish

流媒體

不支持沒有水印的附加輸出

使用追加模式進行聚合，返回異常錯誤消息。當流式數據幀/數據集上存在流聚合時，不支持追加輸出模式。原因分析在沒有水印的聚合數據幀上不能使用追加輸出模式。這是有意為之。處理建議您必須申請一個…

最後更新:2022年5月17日通過亞當Pavlacka

不支持Apache Spark DStream

您試圖在Databricks流作業中使用Spark離散化流(DStream)，但作業正在失敗。產生原因數據庫不支持DStreams和DStream API。解決方案不使用Spark DStream，你應該遷移到結構化流。回顧生產中的Databricks結構化流(AWS | Azure |…

最後更新:2022年5月17日通過亞當Pavlacka

文件接收器流:如果您更改檢查點或輸出目錄，將出現恢複問題

當您將數據流輸入文件接收器時，您應該始終同時更改檢查點和輸出目錄。否則，您可能會得到失敗或意外的輸出。Apache Spark在輸出目錄中創建了一個名為_spark_metadata的文件夾。此文件夾包含每個批處理運行的預寫日誌。這就是Spark如何得到精確的一次保證…

最後更新:2022年5月17日通過亞當Pavlacka

獲取自動加載器使用的文件的路徑

當您使用Auto Loader (AWS | Azure | GCP)處理流文件時，將根據底層存儲中創建的文件記錄事件。本文向您展示如何將每個文件名的文件路徑添加到輸出DataFrame中的新列中。其中一個用例是審計。當文件被攝取到一個分區的文件夾結構，在那裏i…

最後更新:2022年5月18日通過亞當Pavlacka

如何在Databricks上設置Apache Kafka

本文介紹如何在AWS EC2機器上設置Apache Kafka，並將它們與Databricks連接。以下是創建Kafka集群和從Databricks筆記本連接所需的高級步驟。步驟1:在AWS中創建新VPC創建新VPC時，請將新的VPC CIDR範圍與Databricks的VPC CIDR範圍設置為不同…

最後更新:2022年5月18日通過亞當Pavlacka

在使用SQS隊列作為流源時處理分區列值

如果S3中的數據按分區存儲，則使用分區列的值來命名源目錄結構中的文件夾。但是，如果使用SQS隊列作為流源，則S3-SQS源無法檢測分區列值。例如，以下DataFrame以JSON格式保存到S3: %scala val df = spark.range(1…

最後更新:2022年5月18日通過亞當Pavlacka

如何從最後寫入偏移量重新啟動結構化流查詢

場景:你有一個流，運行一個窗口聚合查詢，從Apache Kafka讀取文件，並以追加模式寫入文件。您希望升級應用程序並重新啟動查詢，使偏移量等於最後寫入的偏移量。您希望丟棄所有尚未寫入接收器的狀態信息，從最早開始處理…

最後更新:2022年5月18日通過亞當Pavlacka

如何將SNS流作業切換到新的SQS隊列

你有一個結構化流作業通過S3-SQS連接器運行。假設您希望以SNS數據為後盾重新創建源SQS，並且希望在同一作業和同一輸出目錄中繼續處理一個新隊列。處理建議新建SQS隊列，從SNS訂閱s3-events。在…

最後更新:2022年5月18日通過亞當Pavlacka

Kafka錯誤:沒有可解析的引導url

當你試圖讀取或寫入數據到Kafka流時，你得到一個錯誤消息。kafkashaded.org.apache.kafka.common.KafkaException: Failed to construct kafka consumer原因:kafkashaded.org.apache.kafka.common.config.ConfigException: bootstrap中沒有給出可解析的引導url。如果你正在運行一個筆記本電腦，錯誤我…

最後更新:2022年5月18日通過亞當Pavlacka

在運行查詢時，readStream()不是白名單錯誤

您在集群上啟用了表訪問控製(AWS | Azure | GCP)。您正在嚐試運行結構化流查詢並獲得錯誤消息。py4j.security。Py4JSecurityException:方法public org.apache.spark.sql.streaming.DataStreamReader org.apache.spark.sql.SQLContext.readStream()不在類類org.apache.s的白名單中…

最後更新:2022年5月19日通過mathan.pillai

使用display()時未刪除檢查點文件

你有一個流作業使用display()來顯示DataFrames。%scala val streamingDF = spark.readStream.schema(schema).parquet() display(streamingDF)檢查點文件正在創建，但沒有被刪除。您可以通過導航到根目錄並查看/local_disk0/tmp/文件夾來驗證問題。Ch……

最後更新:2022年5月19日通過亞當Pavlacka

使用foreachBatch()不刪除檢查點文件

你有一個流作業使用foreachBatch()來處理DataFrames。% scala streamingDF.writeStream.outputMode(“追加”)。foreachBatch {(batchDF: DataFrame, batchId: Long) => batchDF.write.format("parquet").mode(" override ").save(output_directory)}.start()檢查點文件正在創建，但沒有被刪除。你可以證實…

最後更新:2022年5月19日通過亞當Pavlacka

目錄結構衝突錯誤

您有一個Apache Spark作業失敗，出現Java斷言錯誤Java .lang. assertionerror:斷言失敗:檢測到衝突的目錄結構。由:org.apache.spark.sql.streaming.StreamingQueryException:在嚐試推斷當前批文件的分區模式時出錯。請求……

最後更新:2022年5月19日通過阿施施

日誌含義RocksDB獲取鎖失敗

當你試圖使用RocksDB作為結構化流應用程序的狀態存儲時，你得到一個錯誤消息，說實例無法獲得。導致:java.lang.IllegalStateException: RocksDB實例不能被[ThreadId: 742, task: 140.3 in stage 3152, TID 553193]獲取，因為它沒有被[ThreadI…

最後更新:2022年5月19日通過亞當Pavlacka

使用自動加載器流XML文件

Apache Spark不包括用於XML文件的流式API。但是，您可以將Spark批處理API的自動加載器特性與OSS庫Spark-XML結合起來，以流處理XML文件。在本文中，我們將介紹一個基於Scala的解決方案，它使用自動加載器解析XML數據。安裝Spark-XML庫必須安裝Spark-XML OSS庫…

最後更新:2022年5月19日通過亞當Pavlacka

使用Kinesis連接器的流式作業失敗

你有一個流作業寫到一個Kinesis接收器，它是失敗的內存不足錯誤消息。Java .lang. outofmemoryerror: GC開銷限製超過Java .lang. outofmemoryerror: Java堆空間。症狀包括:Ganglia顯示JVM內存使用量逐漸增加。微批分析顯示輸入和處理率是一致的…

最後更新:2022年5月19日通過阿施施

流作業在寫入檢查點時卡住

您正在監視一個流作業，並注意到它在處理數據時似乎卡住了。當您查看日誌時，您發現作業在向檢查點寫入數據時卡住了。INFO hdfsbackkedstatestoreprovider: delete files than 381160 for HDFSStateStoreProvider[id = (op=0,part=89)，dir = dbfs:/FileStore/R_CHECKPOINT5/st…

最後更新:2022年5月19日通過何塞·岡薩雷斯

數據的顯式路徑或自動加載程序所需的已定義模式

提示本文適用於Databricks Runtime 9.1 LTS及以上版本。當你得到一個IllegalArgumentException時，你正在使用自動加載器為你的ELT管道攝取數據:請提供源目錄路徑選項' path '錯誤消息。當您啟動Auto Loader作業時，如果數據路徑或數據…

最後更新:2022年9月28日通過mathan.pillai

可視化

如何保存Plotly文件和顯示從DBFS

您可以將使用Plotly生成的圖表保存為jpg或png文件到驅動節點。然後，您可以使用displayHTML()方法將其顯示在筆記本中。默認情況下，您將Plotly圖表保存到集群中驅動節點的/databricks/driver/目錄下。使用以下過程可在以後顯示圖表。生成一個示例…

最後更新:2022年5月19日通過亞當Pavlacka

Python與Apache Spark

function對象沒有屬性

你正在從一個DataFrame中選擇列，你得到一個錯誤消息。ERROR: AttributeError: function對象中沒有屬性_get_object_id原因分析DataFrame API中保護的關鍵字較少。如果DataFrame中的列使用受保護關鍵字作為列名，則會得到一條錯誤消息。例如……

最後更新:2022年5月19日通過noopur.nigam

將Python datetime對象轉換為字符串

使用Python有多種顯示日期和時間值的方法，但並非所有方法都易於閱讀。例如，當您從DataFrame收集時間戳列並將其保存為Python變量時，該值將存儲為datetime對象。如果你不熟悉datetime對象格式，它不像常見的Y…

最後更新:2022年5月19日通過亞當Pavlacka

使用Conda創建一個集群

Conda是用於Anaconda回購的一個流行的開源包管理係統。Databricks Runtime for Machine Learning (Databricks Runtime ML)使用Conda來管理Python庫依賴項。如果你想使用Conda，你應該使用Databricks Runtime ML。不支持試圖安裝Anaconda或Conda來使用Databricks Runtime。符合……

最後更新:2022年5月19日通過亞當Pavlacka

顯示文件和目錄的時間戳詳細信息

在本文中，我們將向您展示如何顯示詳細的時間戳，包括創建或修改文件的日期和時間。使用ls命令顯示文件時間戳最簡單的方法是在bash shell中使用ls -lt 命令。例如，這個示例命令顯示/dbfs/ fold…文件和目錄的基本時間戳。

最後更新:2022年5月19日通過rakesh.parija

安裝和編譯Cython

本文檔解釋了如何使用已編譯的Cython代碼運行Spark代碼。步驟如下:在DBFS (AWS | Azure)上創建Cython示例模塊。將文件添加到Spark會話。創建包裝器方法以在執行器上加載模塊。在示例數據集上運行映射器。生成一個更大的數據集，並將性能與nat…

最後更新:2022年5月19日通過亞當Pavlacka

使用Python api讀取大的dbfs掛載文件

本文將解釋如何解決使用本地Python api讀取大型dbfs掛載文件時發生的錯誤。如果你把一個文件夾掛載到dbfs://上，然後在一個類似pandas的Python API中讀取一個大於2GB的文件，你會看到以下錯誤:/ databricks/ Python /local/lib/python2.7/site-packages/pandas/parser。所以在pandas.parser.TextRead…

最後更新:2022年5月19日通過亞當Pavlacka

在Python中使用HDFS API讀取文件

有時您可能希望直接讀取文件而不使用第三方庫。當常規存儲blob和bucket不能作為本地DBFS掛載時，這對於讀取小文件非常有用。AWS S3桶存儲使用以下示例代碼。%python URI = sc._gateway.jvm.java.net.URI Path = sc._gateway.jvm.org.apa…

最後更新:2022年5月19日通過arjun.kaimaparambilrajan

如何導入自定義CA證書

在使用Python時，您可能希望導入自定義CA證書，以避免到端點的連接錯誤。httpconnectionpool (host='my_server_endpoint'， port=443): Max retries exceeded with url: /endpoint(由NewConnectionError(': Failed t…

最後更新:2022年5月19日通過arjun.kaimaparambilrajan

作業在啟動前保持空閑狀態

Apache Spark任務正常觸發，但啟動前長時間處於空閑狀態。您有一個Spark作業，它運行得很好，但在恢複之前空閑了很長時間。症狀包括:集群在空閑時間降至最小工作節點數。驅動程序日誌在idl期間沒有顯示任何Spark作業…

最後更新:2022年5月19日通過阿施施

列出所有工作區對象

您可以使用Databricks Workspace API (AWS | Azure | GCP)遞歸地列出給定路徑下的所有工作空間對象。常見的用例包括:為工作區中所有用戶的所有筆記本名稱和類型建立索引。將輸出與其他API調用一起使用，可以刪除未使用的工作區或管理筆記本。動態獲取t…

最後更新:2022年5月19日通過亞當Pavlacka

用Spark-XML加載特殊字符

您的源文件中有特殊字符，並且正在使用OSS庫Spark-XML。特殊字符無法正確呈現。例如，“CLU®”被呈現為“CLU�”。產生原因Spark-XML默認支持UTF-8字符集。您在XML文件中使用了不同的字符集。處理建議必須指定字符se…

最後更新:2022年5月19日通過annapurna.hiriyur

Python命令在高並發集群上失敗

您正在嚐試在高並發集群上運行Python命令。所有的Python命令都失敗並顯示WARN錯誤消息。WARN PythonDriverWrapper: Failed to start repl ReplId-61bef-9fc33-1f8f6-2 ExitCodeException exitCode=1: chown: invalid user: ' spark-9fcdf4d2-045d- 4fb3 - 92993 -0f ' Cause Both spark. databrks .pyspark. enableprocessisolation…

最後更新:2022年5月19日通過xin.wang

安裝Bokeh後，集群取消Python命令執行

在Python筆記本中，集群返回Cancelled。檢查集群配置頁麵的驅動程序日誌(std.err)，以獲得類似於以下的堆棧跟蹤和錯誤消息:log4j:WARN沒有為logger (com.databricks.conf.trusted.ProjectConf$)發現appenders。log4j:WARN請正確初始化log4j係統。log4j:警告年代…

最後更新:2022年5月19日通過亞當Pavlacka

由於庫衝突，集群取消Python命令執行

在Python筆記本中，集群返回Cancelled。所有其他語言的筆記本在同一集群上成功執行。當你在PYTHONPATH中安裝了一個衝突版本的庫，比如ipython、ipywidgets、numpy、scipy或pandas時，Python REPL可能會崩潰，導致所有命令在30秒後返回Cancelled…

最後更新:2022年5月19日通過亞當Pavlacka

Python命令執行失敗，出現AttributeError錯誤

本文可以幫助您解決Python命令執行失敗並出現AttributeError的情況。問題:'tuple'對象沒有屬性'類型'當你運行一個筆記本，Python命令執行失敗，出現以下錯誤和堆棧跟蹤:AttributeError: 'tuple'對象沒有屬性'類型' Traceback(最近一次調用):File "/…

最後更新:2022年5月19日通過亞當Pavlacka

Python REPL無法在Docker中啟動

當你使用一個包含預構建的Python庫的Docker容器時，Python命令會失敗，虛擬環境不會被創建。在驅動程序日誌中可以看到以下錯誤消息。20/02/29 16:38:35 WARN PythonDriverWrapper: Failed to start repl ReplId-5b591-0ce42-78ef3-7 java.io.IOException: Cannot run program "/local_disk0/…

最後更新:2022年5月19日通過arjun.kaimaparambilrajan

如何從Python腳本運行SQL查詢

您可能希望訪問Databricks筆記本之外的表。除了通過JDBC (AWS | Azure)連接BI工具外，還可以使用Python腳本訪問表。您可以使用PyHive通過JDBC連接到Spark集群，然後運行腳本。你應該在運行Python腳本的機器上安裝PyHive。信息Pytho……

最後更新:2022年5月19日通過arjun.kaimaparambilrajan

在Python中運行c++代碼

從Python示例筆記本中運行c++查看從Python筆記本中運行c++以學習如何編譯c++代碼並在集群上運行....

最後更新:2022年5月19日通過亞當Pavlacka

Python 2日落狀態

Python.org於2020年1月1日正式將Python 2移至EoL(生命終結)狀態。這對你來說意味著什麼?Databricks Runtime 6.0及以上版本Databricks Runtime 6.0及以上版本僅支持Python 3。不能使用這些運行時在Python 2中創建集群。根據定義，使用這些運行時創建的任何集群都使用Python 3。磚俄文的……

最後更新:2022年5月19日通過亞當Pavlacka

R與Apache Spark

R的變化版本(R -base)

這些說明描述了如何在集群上安裝不同版本的R (R -base)。您可以在每個Databricks Runtime發布說明(AWS | Azure | GCP)的“係統環境”部分查看每個Databricks Runtime版本安裝的默認r-base版本。列出可用的r-base-core版本。

最後更新:2022年5月20日通過亞當Pavlacka

修複R包的版本

當您使用install.packages()函數來安裝CRAN包時，您不能指定包的版本，因為期望您將安裝包的最新版本，並且它應該與其依賴項的最新版本兼容。如果您安裝了一個過時的依賴項，它也將被更新。Som……

最後更新:2022年5月20日通過亞當Pavlacka

如何用gapply並行化R代碼

R代碼的並行化是很困難的，因為R代碼運行在驅動程序上，而R數據幀不是分布式的。通常，現有的R代碼在本地運行，並被轉換為在Apache Spark上運行。在其他情況下，一些用於高級統計分析和機器學習技術的SparkR函數可能不支持分布式com。

最後更新:2022年5月20日通過亞當Pavlacka

如何用spark.lapply並行化R代碼

最後更新:2022年5月20日通過亞當Pavlacka

如何在RStudio中持久化和共享代碼

問題與Databricks筆記本不同，當RStudio所在的高並發集群關閉時，RStudio中開發的代碼就會丟失。要在RStudio中保存和共享代碼，請執行以下操作之一:從RStudio中，將代碼保存到DBFS的文件夾中，該文件夾可以從Databricks筆記本和RStudi訪問…

最後更新:2022年5月20日通過亞當Pavlacka

安裝rJava和RJDBC庫

本文解釋了如何安裝rJava和RJBDC庫。當您在筆記本單元格中使用以下命令安裝rJava和RJDBC庫時:error: configuration failed for package 'rJava' Cause the rJava and RJDBC package check for Java dependencies and…

最後更新:2022年5月20日通過亞當Pavlacka

呈現包含sparklyr代碼的R markdown文件失敗

當你在Databricks環境中安裝和配置RStudio後，當你啟動RStudio並單擊Knit按鈕來編製一個Markdown文件，其中包含初始化sparklyr上下文的代碼，呈現失敗，錯誤如下:failed to start sparklyr backend:object 'DATABRICKS_GUID' not found Calls: <匿名>…tryCatch…

最後更新:2022年5月20日通過亞當Pavlacka

正在解決包或命名空間加載錯誤

本文解釋如何解決包或名稱空間加載錯誤。當你在一個筆記本單元中安裝和加載一些庫，如:%r library(BreakoutDetection)，你可能會得到一個包或命名空間錯誤:Loading required package: BreakoutDetection: error: package or namespace load failed for ' BreakoutDetection ' in loadNamespace(i，…

最後更新:2022年5月20日通過亞當Pavlacka

RStudio服務器後端連接錯誤

當使用RStudio服務器時，出現後端連接錯誤。係統錯誤。setenv(EXISTING_SPARKR_BACKEND_PORT = system(paste0("wget - qo - 'http://localhost:6061/?type=\"com.databricks.backend.common.rpc.DriverMessages$StartRStudioSparkRBackend\"'——post-data='{\"@class\":\"com.databricks.backend.common.rpc.DriverMessages$StartRStudioSparkRB…

最後更新:2022年5月20日通過arvind.ravish

驗證通過init腳本安裝的R包

當您配置R包以通過init腳本安裝時，如果沒有安裝依賴項，則包安裝可能會失敗。您可以在筆記本中使用R命令檢查所有軟件包是否正確安裝。這篇文章確實需要你提供一個包列表來檢查。列出已安裝包

最後更新:2022年5月20日通過kavya.parag

Scala與Apache Spark

Apache Spark UI與作業不同步

Spark UI (AWS | Azure | GCP)沒有正確顯示Spark作業的狀態。一些被確認為“完成”狀態的作業在Spark UI中顯示為“活動/運行中”。在某些情況下，Spark UI可能出現空白。當您查看驅動程序日誌時，您會看到一個AsyncEventQueue警告。日誌===== 20/12/23 21:20:26…

最後更新:2022年7月8日通過chetan.kardekar

Apache Spark作業失敗，Parquet列無法轉換錯誤

問題您正在以Parquet格式讀取數據並寫入Delta表時，您得到Parquet列不能轉換錯誤消息。集群運行的是Databricks Runtime 7.3 LTS或以上版本。寫行時任務失敗。導致:com. databicks .sql.io. filereadexception: Error while reading file s3://buc…

最後更新:2022年5月20日通過shanmugavel.chandrakasu

cache()、count()和take()的最佳實踐

cache()是一個Apache Spark轉換，當你想要執行多個操作時，可以在DataFrame、Dataset或RDD上使用。cache()將指定的DataFrame、Dataset或RDD緩存到集群worker的內存中。由於cache()是一個轉換，緩存操作僅在Spark操作(例如count()，…

最後更新:2022年5月20日通過ram.sankarasubramanian

無法導入timestamp_millis或unix_millis

您試圖將timestamp_millis或unix_millis導入到Scala筆記本中，但得到一個錯誤消息。導入org.apache.spark.sql.functions。{timestamp_millis, unix_millis}錯誤:value timestamp_millis不是org.apache.spark.sql.functions導入org.apache.spark.sql.functions對象的成員。{timestamp_millis, unix_millis}

最後更新:2022年5月20日通過saritha.shivakumar

不能修改Apache Spark配置的值

問題您正在嚐試在筆記本中設置Spark配置的值，並得到無法修改Spark配置的值錯誤。例如:%sql SET spark.serializer=org.apache.spark.serializer。SQL語句中的KryoSerializer錯誤:AnalysisException:不能修改Spark配置的值:Spark .serializer;產生原因SET命令不生效…

最後更新:2022年5月20日通過亞當Pavlacka

將扁平DataFrame轉換為嵌套JSON

本文將解釋如何通過在另一個case類中嵌套case類，將扁平的DataFrame轉換為嵌套結構。您可以使用此技術構建一個JSON文件，然後將其發送到外部API。我們將從一個扁平的DataFrame開始。使用這個DataFrame示例，我們定義了一個自定義嵌套模式usi…

最後更新:2022年5月20日通過亞當Pavlacka

將嵌套JSON轉換為扁平的DataFrame

本文向您展示如何僅使用$"列來平鋪嵌套JSON。*”和爆炸方法。示例JSON文件將示例JSON字符串傳遞給閱讀器。% scala val json = " " {" id ": " 0001 ",“類型”:“甜甜圈”、“名稱”:“蛋糕”、“ppu”:0.55,“人次”:{“糊”:……

最後更新:2022年5月20日通過亞當Pavlacka

從JSON字符串或Python字典創建一個DataFrame

在本文中，我們將回顧如何從包含JSON字符串或Python字典的變量創建Apache Spark DataFrame。將變量中的JSON內容添加到列表中。%scala import scala.collection.mutable. listbuffer val json_content1 = "{'json_col1': 'hello'， 'json_col2': 32…

最後更新:2022年7月1日通過ram.sankarasubramanian

Decimal$DecimalIsFractional斷言錯誤

你在Databricks Runtime 7上運行一個作業。當你得到一個java.lang.AssertionError: assertion failed: Decimal$DecimalIsFractional錯誤消息時。示例:java.lang.AssertionError: assertion failed: Decimal$DecimalIsFractional while compilation: during phase: globalPhase=terminal, enteringPhase=j…

最後更新:2022年5月23日通過saikrishna.pujari

from_json在Apache Spark 3.0中返回null

from_json函數用於解析JSON字符串並返回值的結構。例如，如果你有一個JSON字符串[{"id":"001"，"name":"peter"}]，你可以用一個模式將它傳遞給from_json，並返回解析的結構值。%python from pyspark.sql.functions import col, from_json display(df.select(col('value')， from_json(c…

最後更新:2022年5月23日通過shanmugavel.chandrakasu

開啟AQE時出現間歇性NullPointerException

在保存數據時，你會得到一個間歇性的NullPointerException錯誤。Py4JJavaError:調用o2892.save時發生錯誤。: java.lang.NullPointerException at org.apache.spark.sql. execute . adaptive.optimizeskewedjoin .$anonfun$getMapSizesForReduceId$1(OptimizeSkewedJoin.scala:167) at org.apache.spark.sql. executive.adaptive ....

最後更新:2022年5月23日通過mathan.pillai

管理Delta表的大小

Delta表與傳統表不同。Delta表包括ACID事務和時間旅行特性，這意味著它們維護事務日誌和陳舊的數據文件。這些附加功能需要存儲空間。在本文中，我們將討論可以幫助您管理Delta表大小的建議。啟用文件係統ve…

最後更新:2022年5月23日通過何塞·岡薩雷斯

從Databricks Runtime 5.5升級後讀取外部JDBC表時遇到問題

嚐試通過JDBC讀取外部表在Databricks Runtime 5.5上工作正常，但在Databricks Runtime 6.0及以上版本上讀取相同的表失敗。你會看到一個類似如下的錯誤:com.databricks.backend.common.rpc.DatabricksExceptions$SQLExecutionException: java.util.concurrent.ExecutionException: org.apache.spark.sql.AnalysisExc…

最後更新:2022年5月23日通過穆罕默德。Haseeb

用Scala運行c++代碼

從Scala notebook中運行c++ ....

最後更新:2022年5月23日通過亞當Pavlacka

使用模式匹配選擇文件

在選擇文件時，一個常見的要求是隻從文件夾中讀取特定的文件。例如，如果您正在處理日誌，您可能希望讀取特定月份的文件。您可以使用glob模式用一個表達式匹配多個文件，而不是枚舉每個文件和文件夾來查找所需的文件。這篇文章用了例子…

最後更新:2022年5月23日通過mathan.pillai

多個Apache Spark JAR作業並發運行時失敗

如果您同時運行多個Apache Spark JAR作業，一些運行可能會失敗，錯誤如下:org.apache.spark.sql.AnalysisException: Table or view not found: xxxxxxx;第1行pos 48產生原因Scala存在錯誤。當一個對象擴展App時，它的val字段不再是不可變的，當main滿足時，它們可以被改變。

最後更新:2022年5月23日通過亞當Pavlacka

寫一個缺少列的數據幀到一個紅移表

當寫入紅移表時，如果目標表比源Apache Spark DataFrame有更多的列，你可能會得到一個複製錯誤。COPY failed with error: [Amazon][Amazon Redshift](1203)在嚐試執行查詢時發生錯誤:error: Load into table table-name failed。詳細信息請查看'stl_load_errors'係統表。“12…

最後更新:2022年5月23日通過何塞·岡薩雷斯

SQL與Apache Spark

廣播連接超過閾值，返回內存不足錯誤

您正在嚐試連接兩個大表，投影第一個表中的選定列和第二個表中的所有列。盡管總大小超過spark.sql設置的限製。autoBroadcastJoinThreshold, BroadcastHashJoin被使用，Apache Spark返回OutOfMemorySparkException錯誤。org.apache.spark.sql.execution.OutO……

最後更新:2022年5月23日通過sandeep.chandran

不能增加緩衝holder;超過尺寸限製

你的Apache Spark作業失敗，出現IllegalArgumentException: Cannot grow BufferHolder錯誤。java.lang.IllegalArgumentException:不能將BufferHolder按大小XXXXXXXXX增長，因為增長後的大小超過了大小限製2147483632原因BufferHolder的最大大小為2147483632字節(大約2 GB)。如果列值超過…

最後更新:2022年5月23日通過亞當Pavlacka

在Apache Spark 3.0中，Date函數隻接受int值

您試圖在Spark 3.0中使用date_add()或date_sub()函數，但它們返回一個Error in SQL statement: AnalysisException錯誤消息。在Spark 2.4及以下版本中，這兩個函數都正常工作。%sql select date_add(cast('1964-05-23' as date)， '12.34')原因您正在嚐試使用小數或字符串值作為…

最後更新:2022年5月23日通過亞當Pavlacka

當查詢計劃中有BroadcastNestedLoopJoin時禁用廣播

本文解釋了當查詢計劃在物理計劃中包含BroadcastNestedLoopJoin時如何禁用廣播。您希望通過將Spark .sql. autobroadcastjointhreshold設置為-1禁用廣播閾值後廣播停止，但是Apache Spark試圖廣播更大的表，並以廣播錯誤失敗。這種行為……

最後更新:2022年5月23日通過亞當Pavlacka

元數據中的列重複錯誤

問題您的Apache Spark作業正在處理Delta表時，作業失敗並報錯。在元數據更新中發現重複列:col1, col2…產生原因在Delta表中有重複的列名。僅大小寫不同的列名被認為是重複的。三角洲湖是目前的情況…

最後更新:2022年5月23日通過vikas.yadav

生成唯一的遞增數值

本文向您展示如何使用Apache Spark函數在列中生成唯一的遞增數值。我們回顧三種不同的使用方法。您應該選擇最適合您的用例的方法。zipWithIndex()函數僅在RDD中可用。你不能…

最後更新:2022年5月23日通過ram.sankarasubramanian

SQL語句錯誤:AnalysisException:表或視圖未找到

當你試圖查詢一個表或視圖時，你得到這個錯誤:AnalysisException:當你試圖查詢一個全局臨時視圖時，表或視圖沒有發現原因你通常創建全局臨時視圖，以便它們可以從不同的會話訪問，並保持活動，直到應用程序結束。您可以使用以下語句創建一個全局臨時視圖:%s…

最後更新:2022年5月23日通過亞當Pavlacka

加入後下載完整結果時出錯

你正在使用筆記本上的兩張表格。執行一個連接。您可以預覽輸出，但是當您嚐試下載完整結果時，會得到一個錯誤。SQL語句錯誤:AnalysisException: Found duplicate column(s) when inserts into dbfs:/ databicks -results/ reproduction Error創建兩個表。%python from pyspark.sql.functions

最後更新:2022年5月23日通過manjunath.swamy

並行運行MSCK REPAIR TABLE時出錯

您正在嚐試對同一個表並行運行MSCK REPAIR TABLE < TABLE -name>命令，並得到java.net.SocketTimeoutException:讀取超時或內存不足錯誤消息。當你試圖用MSCK REPAIR在一個表中並行添加大量的新分區時，Hive metastore成為一個限製因素，一個…

最後更新:2022年5月23日通過ashritha.laxminarayana

找出一個表的大小

本文解釋了如何查找表的大小。所使用的命令取決於您是試圖查找增量表還是非增量表的大小。delta表的大小可以使用Apache Spark SQL命令來查找delta表的大小。導入com. databicks .sql.transaction.tahoe。_ val deltaLog = deltaLog。forTable(火花,“dbf……

最後更新:2022年5月23日通過mathan.pillai

內部連接刪除結果記錄

問題:執行內部連接，但結果連接的表缺少數據。例如，假設您有兩個表，訂單和模型。%python df_orders = spark。createDataFrame(((“日產”,Altima,雙門車2.5年代車),(“日產”,Altima, 4-door 3.5 SE轎車),(“日產”,Altima,”)(“日產”,Altima, None)],[“公司”,“模型”,“信息”)……

最後更新:2022年5月23日通過siddharth.panchal

從雪花中讀取數據不正確

你有一個作業正在使用Apache Spark從雪花表中讀取數據，但在Dataframe中顯示的時間數據是不正確的。如果直接在雪花上運行相同的查詢，將返回正確的時間數據。產生原因時區設置不正確。Databricks集群的時區值與Snowf…

最後更新:2022年5月24日通過DD沙瑪

JDBC寫失敗，出現PrimaryKeyViolation錯誤

您正在使用JDBC寫入一個有主鍵約束的SQL表，作業失敗，出現一個PrimaryKeyViolation錯誤。或者，您正在使用JDBC寫入一個沒有主鍵約束的SQL表，並且在最近寫入的表中看到重複的條目。產生原因當Apache Spark執行JDBC寫時，一個par…

最後更新:2022年5月24日通過harikrishnan.kunhumveettil

查詢不跳過外部表上的標題行

你試圖查詢一個外部Hive表，但它一直未能跳過標題行，即使在HiveContext中設置了TBLPROPERTIES ('skip.header.line.count'='1')。您可以通過使用這個示例代碼創建一個表來重現這個問題。CREATE EXTERNAL TABLE school_test_score (' school ' varchar(254)， ' student_id ' varc…

最後更新:2022年5月24日通過manisha.jena

SHOW DATABASES命令返回意想不到的列名

您正在使用SHOW DATABASES命令，它返回一個意外的列名。產生原因在Databricks Runtime 7.0中，SHOW DATABASES命令返回的列名發生了變化。Databricks Runtime 6.4擴展支持及以下:SHOW DATABASES返回namespace作為列名。Databricks運行時7.0及以上版本:

最後更新:2022年5月24日通過何塞·岡薩雷斯

無法查看表SerDe屬性

你試圖在Apache Hive表上查看SerDe屬性，但是SHOW CREATE table隻是返回Apache Spark DDL。它沒有顯示SerDe屬性。例如，給出如下示例代碼:%sql SHOW CREATE TABLE < TABLE -identifier>您將得到一個不顯示SerDe屬性的結果:

最後更新:2022年7月1日通過saritha.shivakumar

使用to_timestamp()解析子午線後時間(PM)將返回null

你試圖用to_timestamp()解析一個12小時(AM/PM)的時間值，但不是返回一個24小時的時間值，而是返回null。例如，示例代碼:%sql SELECT to_timestamp('2016-12-31 10:12:00 PM'， 'yyyy-MM-dd HH:mm:ss a');運行時返回null:原因to_timestamp()要求小時格式為小寫。如果這個女人…

最後更新:2022年7月22日通過chetan.kardekar

to_json()導致Cannot use null as map key錯誤

你正在使用to_json()將數據轉換為JSON，你得到一個不能使用null作為映射鍵錯誤:RuntimeException:不能使用null作為映射鍵。原因分析to_json()函數不支持使用空值作為輸入映射鍵。此示例代碼在運行時導致“不能使用null作為映射鍵”錯誤，因為在…

最後更新:2022年7月22日通過gopal.goel

起程拓殖

使用Terraform進行憑據驗證檢查錯誤失敗

您正在使用Terraform在AWS中部署工作空間，並且您得到了一個失敗的憑據驗證檢查錯誤消息。│www.ramcatwww.databricks_mws_credentials: Failed credential validation checks:請使用一個有效的跨帳戶IAM角色，並設置正確的權限。這是關於跨賬戶角色的。Tf第29行，在…

最後更新:2022年10月4日通過塞德裏克法律

Terraform注冊表沒有提供程序錯誤

您正在安裝Databricks Terraform提供者(AWS | Azure | GCP)，並得到Databricks提供者注冊表錯誤。安裝hashicorp/databricks時出錯:提供程序注冊表registry.terraform.io沒有名為registry.terraform的提供程序。i /hashicorp/databricks產生原因required_providers塊不是…

最後更新:2022年8月16日通過prabakar.ammeappin

在Terraform中沒有定義部署名稱前綴

您正在使用Terraform在AWS中部署工作空間，並且在定義部署名稱前綴之前不能使用部署名稱。錯誤消息。│錯誤:失敗的參數驗證檢查:部署名稱不能使用，直到定義了部署名稱前綴。請聯係您的Databricks代表││…

最後更新:2022年8月16日通過塞德裏克法律

統一目錄

成員不支持SCIM配置失敗

當您獲得當前工作空間錯誤不支持的Members屬性時，您使用SCIM在Databricks工作空間上提供新用戶。StatusCode: BadRequest Message:處理HTTP請求導致異常。詳情請參閱此異常的' response '屬性返回的HTTP響應。網頁回應:…

最後更新:2022年8月18日通過prabakar.ammeappin

回購

Databricks知識庫

聯係我們

SSO服務器重定向到原始URL，而不是虛榮Databricks URL

PingFederate的SSO SAML身份驗證錯誤

如何發現誰在Azure門戶中刪除了集群

如何發現誰在Azure門戶中刪除了工作區

AWS服務失敗，提示“沒有區域提供錯誤”

解決亞馬遜紅移連接問題

漏洞掃描顯示Databricks EC2實例中的漏洞

使用dnsmasq配置自定義DNS設置

無法加載AWS憑據

向S3桶寫入日誌時拒絕訪問

S3部件號必須在1到10000之間(含10000)

如何分析用戶界麵性能問題

無法掛載Azure數據湖存儲Gen1帳戶

在Windows中配置帶代理的Simba ODBC驅動程序

解決JDBC和ODBC連接問題

啟用OpenJSSE和TLS 1.3

如何計算集群的核數

安裝一個私人PyPI回購

IP訪問列表更新返回INVALID_STATE

客戶端啟動失敗。InternalError

無法應用更新的集群策略

群集Apache Spark配置未應用

群集啟動失敗

自定義Docker映像需要root

由於集群管理器核心實例請求限製，作業失敗

Admin用戶不能重新啟動集群運行作業

集群啟動失敗，提示虛擬人不存在錯誤

由於Ganglia度量填充根分區導致集群減速

日誌含義創建帶有無效標簽值的集群失敗

事件解釋擴容EBS卷失敗

EBS數據泄露

日誌傳遞失敗

多部分上傳失敗

將Apache Spark CSV度量持久化到DBFS位置

在集群中重播Apache Spark事件

S3連接失敗，提示“沒有指定角色且沒有可用角色”

設置Apache Hadoop core-site.xml屬性

設置執行器日誌級別

使用集群策略將instance_profile_arn設置為可選

Apache Spark作業未啟動

在啟動作業集群時禁用自動終止

意外的集群終止

如何配置單核執行程序來運行JNI庫

如何在Databricks集群上覆蓋log4j配置

Apache Spark執行器內存分配

Apache Spark UI顯示的節點內存小於總內存

配置集群使用自定義NTP服務器

啟用GCM密碼套件

在初始化腳本中啟用重試

由於列重複，無法讀取審計日誌

不能設置自定義PYTHONPATH

附加到一個數據框架

如何提高性能與桶

如何處理XML文件中包含的blob數據

簡化鏈式轉換

如何轉儲表在CSV, JSON, XML，文本，或HTML格式

在筆記本中獲取和設置Apache Spark配置屬性

蜂巢udf

當連接兩個dataframe時，防止重複列

撤銷所有用戶權限

如何在數據庫中更快地列出和刪除文件

如何處理損壞的Parquet文件與不同的模式

對數據庫沒有USAGE權限

分區列中的空字符串和空字符串保存為空值

randomSplit方法的行為

使用Spark-Avro將十進製值寫入AWS Redshift時作業失敗

從案例類生成模式

如何在數據集和基於數據框架的連接命令中指定傾斜提示

如何更新嵌套列

某些文件中的模式不兼容

使用RDD寫入S3桶時拒絕訪問

將數據加載到Amazon Redshift時，時間戳無效

在JSON數據集上創建表

刪除底層S3桶時刪除表

掛載或訪問Azure Blob存儲時失敗

無法讀取WASB文件係統中的文件和列表目錄

優化JDBC數據源的讀取性能

疑難解答JDBC/ODBC訪問Azure數據湖存儲Gen2