更新5月25日,2022年由亞當Pavlacka

簡化鏈接轉換

有時你可能需要執行多個轉換DataFrame: % scala org.apache.spark.sql.functions進口。_進口org.apache.spark.sql。DataFrame val testDf = (1 - 10) .toDF (col) def func0 (Int x: = > Int y: Int) (: DataFrame): DataFrame = {。過濾器(' > x (y))} def func1上校(x: Int) (: DataFrame): DataFrame = {in.sele……

1分鍾的閱讀時間
2022年12月9日更新,亞當Pavlacka

當與Sparklyr ADLS Gen1讀取數據錯誤

問題在使用集群啟用了Azure廣告憑據透傳,命令你運行在集群能夠讀和寫你的數據在Azure數據存儲Gen1湖而不需要為訪問存儲配置服務主體的憑證。例如,您可以使用% python spark.read.csv直接訪問數據(“誹謗聯盟:/ /米婭……

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

故障排除JDBC / ODBC訪問Azure數據存儲Gen2湖

問題信息在一般情況下,您應該使用磚運行時5.2及以上,其中包括一個內置的Azure Blob文件係統(沛富)司機,當你想訪問Azure數據存儲Gen2湖(ADLS Gen2)。本文適用於用戶訪問ADLS Gen2存儲使用JDBC / ODBC。當您運行一個SQL查詢從JDBC、ODBC客戶端交流……

1分鍾的閱讀時間
2022年12月9日更新,亞當Pavlacka

ADLS和WASB寫道

問題當訪問數據存儲在Azure上數據存儲(ADLS) Windows Azure存儲斑點湖(WASB)請求超時。您可能會看到一條錯誤消息,指出存儲訪問速度過高。文件和文件夾被創建速度過高引起Azure存儲訂閱有限製多少文件和folde……

0分鍾的閱讀時間
2023年2月24日更新,亞當Pavlacka

如何執行組K-fold交叉驗證與Apache火花

交叉驗證隨機分割訓練數據到指定數量的折疊。為了防止數據泄漏,相同的數據出現在多個折疊可以使用組。scikit-learn支持組K-fold交叉驗證來確保折疊是獨特的和非重疊。火花spark-sklearn庫可以使用,分發……

0分鍾的閱讀時間
2022年7月22日更新,亞當Pavlacka

Apache火花UI顯示小於總節點內存

問題引發的執行人選項卡界麵顯示更少的內存比實際上是可用的節點上:AWS m4。超大實例(16 GB的ram, 4核心)司機節點,顯示了執行人4.5 GB內存選項卡。m4。大型實例(8 GB ram, 2芯)對於司機節點,顯示執行人選項卡上的710 MB內存:Azure f8實例(16 GB, 4核心)f……

1分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

從用例類生成模式

火花提供了一種簡便的方法來生成一個模式從一個Scala類。case類,使用方法ScalaReflection.schemaFor[一].dataType.asInstanceOf [StructType]。例如:% scala org.apache.spark.sql.types進口。StructType org.apache.spark.sql.catalyst進口。ScalaReflection case類(關鍵:字符串,時間:java.sql。時間戳,日期:java ....

0分鍾的閱讀時間
2022年12月7日更新,亞當Pavlacka

在工作區中工作沒有進展

就業問題在工作區中未能在任何集群上運行。因為這可能發生如果你有改變了現有的聯接工作區。改變現有的聯接Azure磚工作空間不支持。檢查部署Azure磚在Azure的虛擬網絡(VNet注射)更多的細節。集群解決方案打開司機登錄t…

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

δ緩存集群行為的自動定量多少

這篇文章是關於三角洲緩存(AWS | Azure | GCP)伸縮集群行為,根據需要添加或刪除的節點。當一個集群縮減規模和終止節點:三角洲緩存行為以同樣的方式作為一個抽樣緩存。當一個節點出現故障,所有緩存數據的特定節點。三角洲緩存數據不是搬fr…

0分鍾的閱讀時間
2022年12月9日更新,亞當Pavlacka

無法訪問Azure數據存儲(ADLS) Gen1當湖防火牆被啟用

問題當你啟用了防火牆在Azure虛擬網絡(聯接)和你試圖訪問ADLS使用ADLS Gen1連接器,它失敗的錯誤:328格式(target_id,“。”其他名稱),值)329:330提高Py4JError (Py4JJavaError:調用o196.parquet時發生一個錯誤。:. lang。RuntimeException:找不到ADLS牌……

0分鍾的閱讀時間
2022年7月22日更新,亞當Pavlacka

無法讀取審計日誌由於重複的列

問題你想讀udit日誌和得到一個AnalysisException:發現重複的列(s)錯誤。spark.read.format (json) .load (“dbfs: / / mnt / logs / < path-to-logs > /日期= 2021-12-07 ")/ / AnalysisException:發現重複的列數據模式(s): < some_column >的原因從2021年11月到2021年12月,數量有限的數據…

0分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

編寫日誌時拒絕訪問S3 bucket

問題,當你試著寫日誌文件到一個S3 bucket,你得到的錯誤:com.amazonaws.services.s3.model。AmazonS3Exception:拒絕訪問(服務:Amazon S3;狀態碼:403;錯誤代碼:AccessDenied;請求ID: 2 f8d8a07cd8817ea), S3擴展請求ID:導致DBFS山是S3存儲桶中假定的角色和使用sse-kms加密。Th……

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

Apache火花JDBC數據源查詢選項並不為Oracle數據庫工作

問題當你使用Apache火花JDBC數據源的查詢選擇連接Oracle數據庫,它失敗與錯誤:java.sql。SQLSyntaxErrorException: ora - 00911:無效的字符為例,如果你運行下麵的JDBC連接:% scala val df =火花。讀.format (jdbc) .option (“url”,“< url >”) .option (…

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何檢查如果火花屬性修改的筆記本嗎

您可以調整應用程序通過設置不同的配置問題。某些配置必須設置集群級別,而一些設置在筆記本或應用程序。解決方案,以檢查是否一個特定的火花配置可以設置在一個筆記本,筆記本電池運行以下命令:% scala spark.conf.isModifiable (“spark.databrick…

0分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

如何發現刪除集群在Azure門戶

如果一個集群在工作區中已經消失或被刪除,您可以確定哪些用戶刪除它通過運行一個查詢日誌分析工作區在Azure門戶服務。注意如果你沒有一個分析工作區設置,您必須配置診斷在Azure磚繼續之前的日誌。加載日誌分析工作區……

0分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

不兼容的模式在一些文件

問題引發的工作失敗讀取拚花時異常如下文件:在SQL語句錯誤:SparkException:工作階段失敗而終止:任務20階段11227.0失敗了4次,最近的失敗:在舞台上失去了任務20.3 11227.0 (TID 868031、10.111.245.219執行人31):. lang。UnsupportedOperationException:方式org.a……

1分鍾的閱讀時間
2022年7月22日更新,亞當Pavlacka

S3零件號必須在1到10000之間包容

問題,當你將一個大文件從本地文件係統複製到DBFS S3,以下異常可能發生:Amazon.S3。AmazonS3Exception:零件號必須是1到10000之間的一個整數,包容的原因這是一個S3限製段數。部分文件隻能編號從1到10000,包容性。解決阻止這個異常的職業…

0分鍾的閱讀時間
2023年5月2日更新,亞當Pavlacka

禁用集群級DBFS init腳本

2023年5月2日,磚宣布集群級init腳本存儲在DBFS棄用。集群級init腳本工作場所應該存儲為文件。你可以防止用戶啟動集群使用集群級init腳本存儲在DBFS通過設置一個集群政策。說明警告你必須是一個磚管理應用c…

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

未能擴大EBS卷

磚工作失敗的問題,由於缺乏空間在磁盤上,即使存儲啟用自動伸縮。當你回顧集群事件日誌,您將看到一條消息,指出實例未能擴大磁盤由於授權錯誤。實例i-xxxxxxxxx未能擴大磁盤,因為:你未被授權執行該操作。恩……

0分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

null和空字符串在分區列保存為null

問題如果你保存數據包含空字符串和null值在表的一列是分區的,後兩個值成為零寫作和閱讀。為了說明這一點,創建一個簡單的DataFrame: % scala org.apache.spark.sql.types進口。_進口org.apache.spark.sql.catalyst.encoders。RowEncoder val data = Seq(行(" ")……

0分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

不支持Apache DStream火花

問題你正試圖用一個火花離散流(DStream)磚流的工作,但是工作是失敗的。導致DStreams由磚和DStream API不支持。解決方案而不是使用火花DStream,你應該遷移到結構化流。檢查生產的磚結構的流(AWS | Azure |…

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

工作失敗由於集群管理器核心實例請求限製

問題一個磚筆記本或工作API返回下列錯誤:意想不到的失敗在創建集群。導致REQUEST_LIMIT_EXCEEDED:由於API速率限製你的請求被拒絕了。請重新嚐試後,或選擇一個更大的節點類型。導致錯誤表明服務核心集群管理器實例requ……

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

無法讀取文件和目錄列表WASB文件係統

問題,當你試著讀一個文件在WASB火花,得到以下例外:org.apache.spark。SparkException:工作階段失敗而終止:任務0階段1.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 1.0 (10.139.64.5 TID 19日,執行人0):shaded.databricks.org.apache.hadoop.fs.azure.AzureException: com.microsoft.a…

1分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

如何配置單核執行人JNI庫運行嗎

當您創建一個集群,人均磚發射一個Apache火花executor實例的節點,和執行程序使用的所有核心節點。在某些情況下,例如,如果你想運行非線程安全的JNI庫,您可能需要一個執行者,隻有一個核心或任務槽,和不會嚐試運行並發任務。在這個c…

1分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

如何指定斜在數據集和DataFrame-based加入命令提示嗎

當您執行一個連接命令DataFrame或數據集對象,如果你發現困在查詢完成少量的任務由於數據傾斜,您可以指定的斜提示提示(斜)方法:df.hint(“斜”)。傾斜連接優化(AWS | Azure | GCP)上執行指定的DataFrame斜提示。在…

0分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

當安裝或訪問Azure Blob存儲失敗

問題當你試圖訪問一個已經創建掛載點或創建一個新的掛載點,它失敗的錯誤:. lang WASB:失敗。NullPointerException造成這個錯誤可以發生在根山路徑(/ mnt /等)也安裝blob存儲。運行以下命令檢查如果根路徑也安裝:% python dbutils.f…

0分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

表創建失敗與安全例外

問題您試圖使用一個集群創建一個表,表啟用了acl,但出現以下錯誤:錯誤的SQL語句:SecurityException:允許用戶沒有選擇任何文件。造成這個錯誤發生在一個表ACL-enabled集群如果你不是管理員,您沒有足夠的權限來創建一個助教……

1分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

故障排除反應遲鈍的Python筆記本或取消命令

本文概述了故障排除步驟可以采取一個筆記本是反應遲鈍或取消命令。檢查metastore連接性問題簡單的命令在新附加筆記本失敗,但成功的筆記本電腦連接到相同的集群。故障排除步驟檢查metastore連接。無法……

0分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

如何處理損壞的鑲花的文件不同的模式嗎

假設你有一個大問題本質上是獨立的鑲花文件列表,與各種不同的模式。你要讀的隻有那些文件匹配一個特定的模式和跳過不匹配的文件。一個解決方案可以按順序讀取文件,識別模式和聯盟DataFrames在一起。然而,這種方法…

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

設置執行器日誌級別

警告本文描述的步驟與客戶使用Log4j 1。x在磚集群。Log4j 1。x是不再維護和有三個已知的cf (cve cve - 2021 - 4104 - 2020 - 9488,和cve - 2019 - 17571)。如果你的代碼使用一個類(JMSAppender或SocketServer)的影響,你的使用可能會影響這些vulnerabilitie……

0分鍾的閱讀時間
更新後的2022年12月8日,由亞當Pavlacka

如何在磚上覆蓋log4j配置集群

警告本文描述的步驟與客戶使用Log4j 1。x在磚集群。Log4j 1。x是不再維護和有三個已知的cf (cve cve - 2021 - 4104 - 2020 - 9488,和cve - 2019 - 17571)。如果你的代碼使用一個類(JMSAppender或SocketServer)的影響,你的使用可能會影響這些vulnerabilitie……

0分鍾的閱讀時間
2023年8月1日更新的亞當Pavlacka

如何解決幾個Apache蜂巢metastore問題

問題1:外部metastore表沒有檢查司機的日誌時,你看到一個堆棧跟蹤,包括所需的錯誤表缺失:警告查詢:查詢org.apache.hadoop.hive.metastore.model的候選人。MDatabase和子類導致不需要可能的候選人表缺失:“星展”目錄”“模式”。DataNu……

2分鍾的閱讀時間
更新5月23日,2022年由亞當Pavlacka

禁用當查詢計劃BroadcastNestedLoopJoin播出

這篇文章解釋了如何禁用廣播當查詢計劃BroadcastNestedLoopJoin物理計劃。你禁用後預計播放停止廣播閾值,通過設置spark.sql。autoBroadcastJoinThreshold 1,但是Apache火花試圖與廣播廣播大表和失敗錯誤。這種行為是……

1分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

集群未能啟動

本文描述了幾個場景集群未能啟動,並提供故障排除步驟為每個場景基於錯誤消息日誌中找到。集群超時錯誤消息:司機未能及時開始INTERNAL_ERROR:火花司機未能開始300秒內集群在200秒內未能健康標出……

2分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

randomSplit方法的行為

當使用randomSplit DataFrame,你可能會觀察到不一致的行為。這裏有一個例子:% python df = spark.read.format (inconsistent_data_source) .load () a, b = df.randomSplit ([0.5, 0.5]) a.join(廣播(b),在=“id”,如何=“內在”).count()通常這個查詢返回0。然而,根據基礎數據源或輸入…

0分鍾的閱讀時間
2022年8月15日更新由亞當Pavlacka

故障排除JDBC、ODBC連接

DBR版本:<列出所有適用的DBR版本>雲版本:AWS, Azure, GCP作者:<磚的電子郵件的作者>擁有團隊:<地區+平台/火花>票務URL: <鏈接到原始Salesforce或Jira票>最後審核日期:2021年5月05,本文提供了信息,以幫助您排除之間的聯係……Beplay体育安卓版本

2分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

數據太長列的錯誤

問題你想插入一個表結構,但你會得到一個java.sql。SQLException異常:數據太長列的錯誤。引起的:java.sql。SQLException異常:數據太長列“TYPE_NAME”在第一行查詢的方法是:插入COLUMNS_V2 (CD_ID,評論,“COLUMN_NAME”、TYPE_NAME INTEGER_IDX)值(?,?,?,?,?),參數(103182年,《零》,地址…

1分鍾的閱讀時間
更新5月18日,2022年由亞當Pavlacka

如何設置Apache卡夫卡磚嗎

本文解釋了如何設置Apache卡夫卡在AWS EC2機器上並連接磚。以下是所需的高水平的步驟創建一個卡夫卡集群,從磚筆記本連接。步驟1:創建一個新的VPC在AWS當創建新的VPC,設置新的VPC CIDR範圍不同的磚VPC CIDR範圍……

1分鍾的閱讀時間
更新6月1日,2023年由亞當Pavlacka

如何提高性能的三角洲湖並入查詢使用分區修剪

這篇文章解釋了如何觸發分區修剪在三角洲湖並入(GCP) AWS | Azure |查詢從磚。分區修剪是一種優化技術來限製分區的數量所檢查的一個查詢。討論合並成可以計算昂貴的如果處理效率低下。你應該分區底層…

3分鍾的閱讀時間
2022年12月7日更新,亞當Pavlacka

權力BI代理和SSL配置

驅動程序配置使用microsoft.sparkodbc可以設置驅動程序配置。ini文件,可以發現在ODBC驅動程序\辛巴火花ODBC驅動程序目錄。microsoft.sparkodbc的絕對路徑。ini目錄取決於您使用的是電力BI桌麵或本地電力BI網關:權力BI桌麵:C:\Program Files\Micro...

2分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

如何發現刪除工作區在Azure門戶

如果工作區已經消失或被刪除,您可以識別用戶刪除它通過檢查的活動日誌Azure門戶。Azure門戶的活動日誌。擴大時間關注在工作區中刪除。過濾日誌記錄的具體事件。單擊事件顯示的信息…

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

事務日誌中引用一個文件無法找到

問題你的工作失敗,並顯示一條消息:一個事務日誌中引用文件無法找到。堆棧跟蹤例子:錯誤的SQL語句:SparkException:工作階段失敗而終止:任務0階段6.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 6.0 (TID 106 XXX.XXX.XXX。XXX,遺囑執行人0):com.databricks.sql.io.FileRe…

1分鍾的閱讀時間
2022年12月7日更新,亞當Pavlacka

Azure的網絡配置數據存儲Gen1導致ADLException湖:錯誤信息文件

問題進入Azure數據存儲Gen1湖與ADLException (ADLS Gen1)失敗:錯誤獲得信息文件<文件名>當以下網絡配置到位:Azure磚工作區部署在自己的虛擬網絡(使用VNet注入)。允許流量通過Azure存儲憑證湖透傳數據。ADLS通用…

1分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

拒絕訪問當編寫一個使用抽樣S3 bucket

問題寫一個S3 bucket使用抽樣失敗。司機節點可以寫,但工人(執行者)節點返回一個拒絕訪問錯誤。寫作與DataFrame API,但是效果很好。例如,假設你運行以下代碼:% scala . io .進口java文件導入。進口org.apache.spark可序列化的。{SparkConf, SparkContext}小鬼……

1分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

EBS卷泄露

問題在AWS集群是終止之後,一些EBS卷不會自動地刪除。這些流浪,未婚EBS卷通常被稱為“泄露”卷。導致磚總是集DeletionOnTermination = true EBS卷時創建啟動集群。因此,無論何時終止集群實例,AWS應該……

0分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

不能掛載Azure存儲Gen1湖帳戶數據

問題當你試圖安裝一個湖Azure數據存儲(ADLS) Gen1帳戶磚,它失敗的錯誤:com.microsoft.azure.datalake.store。ADLException:創建目錄/錯誤錯誤獲取訪問令牌io操作零失敗的異常。IOException:服務器返回的HTTP響應代碼:401的URL: https://login.windows...。

0分鍾的閱讀時間
更新5月23日,2022年由亞當Pavlacka

在SQL語句錯誤:AnalysisException:表或視圖不發現

問題當你試圖查詢一個表或視圖,你得到這個錯誤:AnalysisException:表或視圖不發現當試圖查詢全球臨時視圖讓你通常創建全球臨時視圖,這樣他們可以訪問不同的會話和保留,直到程序結束。你可以用下麵的語句創建一個全球臨時視圖:% s…

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

流的XML文件使用一個裝載器

Apache火花不包括一個流API為XML文件。然而,您可以把自動裝載器的特征OSS的火花批API庫,Spark-XML流的XML文件。在本文中,我們提出一個基於Scala解析XML數據使用一個裝載器的解決方案。安裝Spark-XML庫必須安裝Spark-XML OSS庫……

1分鍾的閱讀時間
更新5月18日,2022年由亞當Pavlacka

卡夫卡的錯誤:沒有引導url解析

問題你想讀或寫數據到卡夫卡流,當你得到一個錯誤消息。kafkashaded.org.apache.kafka.common.KafkaException:未能構建卡夫卡消費造成的:kafkashaded.org.apache.kafka.common.config.ConfigException:沒有可解析引導url在引導。服務器,如果您正在運行一個筆記本,錯誤我……

0分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

無效的數據加載到亞馬遜紅移時的時間戳

問題當你使用spark-redshift寫操作時間戳數據保存到亞馬遜紅移,就可能發生以下錯誤,如果時間戳數據包括時區信息。錯誤(代碼1206),數據加載到紅移:“無效的時間戳格式或價值(YYYY-MM-DD HH24: MI: SSOF]”導致紅移表是使用飛機時間戳數據…

0分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

工作失敗當使用Spark-Avro十進製值寫入AWS紅移

問題5磚運行時版本。x和,當亞馬遜寫小數紅移使用Spark-Avro作為默認臨時文件格式,要麼寫操作失敗的例外:錯誤(代碼1207),數據加載到紅移:“無效的數字,值”,Pos 0,類型:小數”或寫操作寫null的……

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

檢查點文件不刪除當使用顯示()

問題你有使用顯示()來顯示DataFrames流工作。% scala val streamingDF = spark.readStream.schema(模式).parquet (< input_path >)顯示(streamingDF)檢查點文件被創建,但並沒有被刪除。您可以驗證問題,方法是導航到根目錄並查看/ local_disk0 / tmp /文件夾。Ch……

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

與AttributeError Python命令執行失敗

這篇文章可以幫助您解決場景AttributeError Python命令執行失敗。問題:“元組對象沒有屬性“類型”當您運行一個筆記本,Python命令執行失敗,並顯示以下錯誤和堆棧跟蹤:AttributeError: tuple的對象沒有屬性“類型”回溯(最近的電話最後):文件“/…

3分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

監控運行作業工作運行指示板

工作運行指示板是一個筆記本顯示所有正在運行的工作信息在你的工作區。配置儀表板,您必須允許把一個筆記本一個通用集群在工作區中您希望監視。如果不存在一個通用的集群,您必須創建一個許可。一旦d…

1分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

CosmosDB-Spark連接器圖書館衝突

這篇文章解釋了如何解決一個問題運行應用程序,使用磚CosmosDB-Spark連接器的環境。問題通常如果你添加一個Maven依賴火花集群,應用程序應該能夠使用所需的連接器庫。但目前,如果你簡單地指定CosmosDB-Spark連接器的Maven co-ord……

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

嵌套的JSON轉換為DataFrame夷為平地

本文向您展示如何平嵌套的JSON,隻使用$”列。*”和爆炸的方法。示例JSON文件示例JSON字符串傳遞給讀者。% scala val json = " " {" id ": " 0001 ",“類型”:“甜甜圈”、“名稱”:“蛋糕”、“ppu”: 0.55,“人次”:{“糊”:……

1分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

Python datetime對象轉換為字符串

有多種方法來顯示日期和時間值與Python,然而並不是所有的都容易閱讀。例如,當你收集的時間戳列DataFrame並保存它作為一個Python變量,該值存儲為一個datetime對象。如果你不熟悉datetime對象格式,它不是一樣容易閱讀常見Y……

1分鍾的閱讀時間
更新後的2022年12月8日,由亞當Pavlacka

添加一個配置設置覆蓋所有默認spark.executor。extraJavaOptions設置

問題當你添加一個配置設置通過輸入在Apache配置文本區域,新設置替換現有的設置,而不是附加。磚的運行時版本5.1及以下。重啟原因當集群,集群從配置文件中讀取設置在集群中創建UI,並覆蓋……

1分鍾的閱讀時間
更新後的2022年12月8日,由亞當Pavlacka

緩慢的集群節點發射和失蹤

集群問題需要很長時間才能啟動和顯示一個錯誤消息類似如下:集群運行但是X節點無法獲得事業提供一個Azure VM通常需要2 - 4分鍾,但如果集群中所有的虛擬機都不能同時供應,集群創建可以推遲。這是由於Azure磚……

0分鍾的閱讀時間
2022年12月7日更新,亞當Pavlacka

分配一個公共IP VNet-injected工作區使用Azure防火牆

您可以使用一個Azure防火牆創建VNet-injected工作區中所有集群有一個單一的IP出站地址。單一的IP地址可以作為一個額外的安全層與其他Azure服務和應用程序允許訪問基於特定的IP地址。1。建立一個Azure磚工作區在自己的虛擬網絡……

1分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

如何提高性能與用桶裝嗎

用桶裝在Apache火花SQL是一種優化技術。數據分配在指定數量的桶中,根據來自一個或多個用桶裝列值。用桶裝,從而改進了性能洗牌和排序數據表連接等下遊業務之前。是初始的權衡開銷洗牌和s…

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

管理員用戶不能重新啟動集群運行工作

問題,當一個用戶許可開始一個集群,如磚管理員用戶,提交的工作屬於一個不同的用戶,使用以下信息:工作失敗信息:運行現有集群上執行ID <集群ID >失敗由於權限不足。從集群管理器接收到的錯誤是:“你不…

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

磚的工作失敗因為庫沒有安裝

問題磚工作失敗,因為工作需要一個庫,還沒有安裝,導致導入錯誤。導致錯誤發生,因為工作需要庫安裝前開始運行。如果你在集群上運行工作在以下的情況下,集群可以體驗推遲安裝庫:當你開始一個……

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

更改版本的R (r-base)

這些指令描述如何安裝一個不同版本的R (r-base)集群。您可以檢查默認r-base版本,每個磚運行時版本安裝在每個磚運行時版本的係統環境部分注意(AWS | Azure | GCP)。列表可用r-base-core版本r-base-co的版本……

1分鍾的閱讀時間
更新後的2023年2月23日,由亞當Pavlacka

常見的錯誤使用Azure數據工廠

Azure數據工廠是一個托管服務,允許您使用Azure作者數據管道磚筆記本,罐子和Python腳本。本文介紹了常見問題和解決方案。不能創建集群,當你創建一個數據管道在Azure數據工廠使用Azure Databricks-related活動如筆記本活動,你ca……

2分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

如何並行化和spark.lapply R代碼嗎

並行R的代碼是很困難的,因為代碼運行在司機和R data.frames沒有分布。通常,有現有的R是本地運行的代碼轉換為運行在Apache火花。在其他情況下,一些SparkR函數用於先進的統計分析和機器學習技術可能不支持分布式com……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何提取特征信息基於樹的Apache SparkML管道模型

當你安裝一個基於樹模型,如決策樹,隨機森林,或梯度提高了樹,是很有幫助的,可以複習功能重要性水平隨著功能的名字。通常模型在SparkML符合管道的最後階段。從管道中提取相關特征信息樹莫…

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

Apache火花不開始工作

問題無火花工作開始,司機日誌包含以下錯誤:初始工作沒有接受任何資源;檢查集群的UI,以確保工人注冊和有足夠的資源導致這個錯誤可以發生在執行程序內存和火花的遺囑執行人核顯式地設置配置選項卡。這是一個桑普……

1分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

驗證集群的Log4j版本

磚最近發表的博客在Log4j 2脆弱性(cve - 2021 - 44228)的研究和評估。磚不直接使用Log4j版本已知受此影響的脆弱性在磚平台在某種程度上我們理解可能是脆弱的。Beplay体育安卓版本如果您正在使用Log4j集群內(例如,如果您正在處理…

2分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

意想不到的集群終止

有時一個集群是意外終止,而不是由於手動終止或配置自動終止。一個集群可以終止的原因很多。一些終端是由磚和其他由雲提供商。本文描述了終止的原因和補救措施。磚ini……

3分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

最佳實踐管理三角洲湖表

無論你如何刪除管理表,它可以花大量的時間,這取決於數據大小。三角洲湖管理表中特定的元數據包含許多事務日誌的形式,和它們可以包含重複數據文件。如果一個增量表已經使用了很長時間,這可以積累大量的數據…

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

在覆蓋模式下創建表失敗時中斷

問題當你嚐試重新運行Apache火花寫操作被取消當前運行工作,以下錯誤:錯誤:org.apache.spark.sql。AnalysisException:無法創建管理表(“testdb”。testtable”)。相關的位置(“dbfs: / user /蜂巢/倉庫/ testdb。db / metastore_cache_ testtable)已經存在。;因為……

0分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

禁止當訪問S3數據時發生錯誤

問題而試圖訪問S3數據中直接使用DBFS山或火花api,異常類似如下的命令失敗:com.amazonaws.services.s3.model。AmazonS3Exception:禁止;請求ID: XXXXXXXXXXXXX,擴展請求ID: XXXXXXXXXXXXXXXXXXX,雲提供商:AWS實例ID: XXXXXXXXXX(服務:Amazon S3;地位有限公司…

1分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

如何在磚和刪除文件列表更快

場景假設您需要刪除一個表分區的年,月,日,區域,和服務。然而,桌子上是巨大的,每個分區將會有大約1000的部分文件。你能列出在每個分區的所有文件,然後刪除它們使用Apache火花工作。例如,假設您有一個表分區的,b,…

3分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

故障排除亞馬遜紅移的連接問題

問題您創建了一個VPC對等連接和配置一個Amazon紅移集群在對等網絡。當您試圖訪問集群紅移,你會獲得如下錯誤:錯誤信息:OperationalError:無法連接到服務器:連接超時導致這個問題可能發生如果:VPC凝視是配置錯誤。相應的p…

2分鍾的閱讀時間
2022年3月2日更新,亞當Pavlacka

使OpenJSSE和TLS 1.3

查詢和轉換是加密之前發送給您的集群。默認情況下,勞動者在一個集群節點之間的數據交換是不加密的。如果您需要這些數據是加密的,您可以使用AES加密流量集群工作節點之間128通過TLS 1.2連接。在某些情況下,您可能希望使用TLS 1.3我…

0分鍾的閱讀時間
更新3月30日,2023年由亞當Pavlacka

全球遺產init腳本遷移筆記本

2023年9月1日,磚將禁用遺留全球所有工作區init腳本。這種類型的init腳本被棄用後,不會使用2020年9月1日,2023年。遺留2020年全球init腳本代替當前全球init腳本框架,更可靠的繼續支持。磚建議你…

1分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

Apache火花CSV指標保存到DBFS位置

引發了一個可配置的指標係統,支持下沉,包括CSV文件。在本文中,我們將向您展示如何配置一個磚集群使用CSV水槽和堅持這些指標DBFS位置。創建一個init腳本的所有配置在一個init腳本完成。init腳本做了以下3個…

1分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

Apache火花執行人內存分配

默認情況下,可用內存的數量為每個執行者Java虛擬機(JVM)中的分配內存堆。這是由spark.executor控製。記憶的財產。然而,一些意想不到的行為觀察實例分配大量的內存。jvm內存大小,規模問題與垃圾collecto…

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

如何確保冪等性工作

當你提交工作通過磚工作REST API,冪等性是沒有保證的。如果客戶機請求超時和客戶重新提交相同的請求,你可能最終得到重複的工作運行。確保工作冪等性當你提交工作通過API,您可以使用一個冪等性標記來定義一個獨特的價值specif……

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

修複R包的版本

當你使用install.packages()函數來安裝凹口包,你不能指定包的版本,因為預計你會安裝最新版本的包,它應該兼容最新版本的依賴關係。如果你安裝了一個過時的依賴,它將被更新。Som……

0分鍾的閱讀時間
2023年4月17日更新,亞當Pavlacka

火花與司機工作失敗是暫時不可用

問題在集群上運行筆記本或工作時,他們多次成功運行,但有時司機停止工作,將顯示錯誤消息,如:司機暫時不可用。意外引發司機已經停止並重新啟動。失去了連接到集群。筆記本可能是分離的。如果你檢查c…

1分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

實驗中使用自定義構件存儲位置時發出警告

問題,當你創建一個MLflow嚐試自定義工件位置,得到以下警告:引起MLflow實驗權限(AWS | Azure | GCP)執行構件在MLflow跟蹤,使您能夠輕鬆地控製訪問數據,模型,和其他文件。MLflow不能保證實施訪問控製的基於“增大化現實”技術的…

0分鍾的閱讀時間
更新後的2023年2月23日,由亞當Pavlacka

FileReadException當閱讀三角洲表

問題您試圖從掛載存儲和讀取三角洲表得到一個FileReadException錯誤。FileReadException:當abfss閱讀文件時發生錯誤:redacted@redacted.dfs.core.windows.net/redacted/redacted/redacted/redacted/partition=redacted/part - 00042 - 0725 - ec45 - 5 - c32 - 412 a - ab27 5 - bc88c058773.c000.snappy.parquet。事務日誌中引用一個文件…

2分鍾的閱讀時間
2022年3月2日更新,亞當Pavlacka

如何計算集群中核心的數量

您可以查看在工作區中磚集群的核心UI使用指標選項卡在集群上的細節頁麵。注意Azure磚集群節點必須安裝一個標準的服務。如果司機和執行人是相同的節點類型,您還可以確定集群中的可用內核的數量以編程方式,使用Sca……

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

附加到一個DataFrame

附加到一個DataFrame,使用歐盟方法。% scala val firstDF = spark.range (3) .toDF (“myCol”) val啟動= Seq (20) val附加= firstDF.union (newRow.toDF())顯示(附加)% python firstDF = spark.range (3) .toDF (“myCol”)啟動= spark.createDataFrame([[20]])附加= firstDF.union(啟動)顯示(附加)…

0分鍾的閱讀時間
更新7月17日,2023年由亞當Pavlacka

Cluster-named和集群級init腳本遷移筆記本

2023年9月1日,磚將禁用所有工作區cluster-named init腳本。這種類型的init腳本之前棄用,不會使用後9月1日,2023年。Cluster-named init腳本取而代之的是2018年8月集群級init腳本。集群級init腳本存儲為工作區文件繼續支持。噠……

2分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

如何更新嵌套列

火花不支持添加新的列或刪除現有列嵌套結構。特別是,withColumn放數據集類的方法不允許您指定一個列名不同於任何頂級列。例如,假設您有一個數據集與以下模式:% scala val模式=(新StructType)。…

0分鍾的閱讀時間
更新2022年10月13日,由亞當Pavlacka

當加入兩個DataFrames防止複製列

如果你執行加入火花和不正確地指定您加入你會得到重複的列名。這使它更難選擇列。本文和筆記本演示如何執行一個連接,這樣你就不會有重複的列。加入如果你加入列列上,得到複製列。Scala % Scala val llist……

0分鍾的閱讀時間
更新7月7日,2022年由亞當Pavlacka

在附加操作不支持

問題要追加數據到一個文件保存在外部存儲掛載點,並得到一個錯誤信息:OSError: [Errno 95]操作不受支持的。試圖添加一個文件時發生錯誤從Python和r造成不支持直接附加和隨機寫熔絲v2,可用在磚矮子…

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

不能修改Apache配置火花的價值

問題你想設置值的火花配置在筆記本裏,並得到一個不能修改的價值火花配置錯誤。例如:sql設置spark.serializer = org.apache.spark.serializer %。KryoSerializer錯誤的SQL語句:AnalysisException:不能修改引發的價值配置:spark.serializer;因為一組命令不會磨破…

0分鍾的閱讀時間
更新7月1日,2022年由亞當Pavlacka

Apache火花工作失敗與環境目錄沒有發現錯誤

問題在你安裝一個Python庫(通過集群UI或通過使用pip),您的Apache火花工作失敗的環境目錄未找到錯誤消息。org.apache.spark。SparkException:環境/ local_disk0 /目錄未找到。ephemeral_nfs cluster_libraries / python引起庫安裝在一個網絡文件係統(NFS) th…

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

工作失敗由於數據湖Azure存儲(ADLS)創建的限製

問題當您運行在Azure的工作涉及創建文件數據存儲(ADLS)湖,Gen1或者代,發生下列異常:由於:. io .IOException:創建失敗與錯誤0 x83090c25(文件和文件夾被創建的速度過高)。[745 c5836 - 264 - e - 470 - c - 9人私下偷偷收藏盒式c605f1c100f5]失敗與錯誤0 x83090c25(文件和fo…

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

在Python中c++代碼運行

從Python示例運行c++筆記本複習的c++運行Python筆記本學習如何編譯c++代碼和運行在集群....

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

工作失敗典型錯誤消息

問題你的工作運行失敗與壓製由於觀察典型錯誤錯誤消息。集群成為遙不可及的在運行原因:xxx-xxxxxx-xxxxxxx壓製是由於觀察典型錯誤導致工作在這個集群有過多大的結果返回到Apache火花司機節點。結果,司機服務耗盡m…

0分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

如何分析用戶界麵性能問題

問題似乎磚用戶界麵運行緩慢。導致用戶界麵的性能問題通常發生由於網絡延遲或數據庫查詢比預期更多的時間。為了解決這種類型的問題,您需要收集網絡日誌和分析他們看到網絡流量的影響。在大多數情況下,…

1分鍾的閱讀時間
2022年5月9日更新,亞當Pavlacka

如何排序S3文件修改時間在磚筆記本嗎

問題當你使用S3 dbutils工具列出文件位置,S3文件列表以隨機的順序。然而,dbutils沒有提供任何方法根據文件修改時間排序。dbutils不列表修改時間。解決方案使用Hadoop文件係統API S3文件,如下所示:% scala進口org ....

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

不能使用我的角色與表ACL

問題你想用我的角色當表啟用了acl,但你得到一個錯誤憑證說不能。NoCredentialsError:無法找到憑證導致當一個表啟用了ACL, EC2實例元數據服務的訪問。這是一個安全措施,防止用戶獲取我訪問憑證。索爾……

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

使用REST API如何刪除所有工作

運行以下命令來刪除所有工作在一個磚工作區。識別工作列表刪除和他們在一個文本文件:% sh curl - x - u得到“無記名:<標記>”https:// < databricks-instance > / api / 2.0 /工作/列表| grep - o - p”job_id。{0,6}“| awk - f”:“{打印$ 2}> > job_id。三種運行一個循環中的curlcommand刪除identif……

0分鍾的閱讀時間
更新5月25日,2022年由亞當Pavlacka

如何在CSV轉儲表、JSON、XML、文本或HTML格式

您想要發送你的磚磚以外的計算結果。您可以使用BI工具連接到您的集群通過JDBC和出口BI工具的結果,或保存您的表在DBFS或blob存儲和複製數據通過REST API。本文介紹JSpark,一個簡單的控製台工具執行SQL查詢使用JDBC火花…

0分鍾的閱讀時間
更新後的2023年2月28日,由亞當Pavlacka

日期函數隻接受int值在Apache 3.0火花

問題您正試圖使用date_add()或date_sub()函數在火花3.0中,但它們在SQL語句返回一個錯誤:AnalysisException錯誤消息。在火花2.4和下麵兩個函數都會正常工作。% sql select date_add (cast(“1964-05-23”日期),“12.34”)因為你試圖使用一個部分或字符串值作為…

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

從metastore下降與損壞的元數據表

問題有時你不能刪除一個表的數據磚UI。使用% sql或火花。sql drop table不起作用。使元數據(表模式)存儲在metastore損壞。運行Drop table命令時,火花檢查表是否存在或不刪除表之前。從表的元數據損壞火花c…

0分鍾的閱讀時間
更新7月18日,2023年由亞當Pavlacka

SSO服務器原始URL重定向到,不要虛榮磚URL

問題當你登錄到磚使用一個虛榮的URL(例如mycompany.cloud.www.eheci.com),你被重定向到一個單點登錄(SSO)服務器進行身份驗證。當服務器將您重定向回磚網站,虛榮的URL更改URL原始部署URL(例如dbc - XXXX.cloud.www.eheci.com)。這可以…

0分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

不支持添加輸出沒有水印

問題您正在執行一個聚合使用append模式和異常返回錯誤消息。添加輸出模式不支持當流聚合流DataFrames /數據集沒有水印導致您不能使用Append模式聚合DataFrame沒有水印。這是通過設計。解決方案必須施加一個……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

刪除Log4j 1。x JMSAppender SocketServer類從類路徑中

磚最近發表的博客在Log4j 2脆弱性(cve - 2021 - 44228)的研究和評估。磚不直接使用Log4j版本已知受此影響的脆弱性在磚平台在某種程度上我們理解可能是脆弱的。Beplay体育安卓版本磚也不影響使用Log4j 1類。x與已知vul……

2分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

達美航空合並不能解決嵌套的領域

問題你嚐試三角洲與自動模式演化合並,但它與達美航空合並失敗:無法解決“字段”由於數據類型不匹配的錯誤消息。因為這可能發生,如果你對嵌套列字段的更改。例如,假設我們有一個專欄叫地址字段streetName houseNumber,城市不…

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

實驗使用遺留工件存儲位置時發出警告

問題一個新的圖標出現在MLflow實驗頁麵下麵的開放獲取警告:引起MLflow實驗權限(AWS | Azure | GCP)執行在MLflow跟蹤工件,使您能夠輕鬆地控製訪問數據,模型,和其他文件。在MLflow 1.11及以上,新實驗構件存儲在一個MLflow-mana…

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

沛富客戶端掛如果使用不正確的客戶機ID或錯誤的路徑

問題您正在使用Azure數據存儲(ADLS)代湖。當你試圖訪問一個Azure Blob集群文件係統(沛富)路徑從一個磚,命令掛起。啟用調試日誌,你可以看到以下的堆棧跟蹤司機日誌:造成的:. io .IOException:服務器返回的HTTP響應代碼:400的URL: https://login.microso..。

1分鍾的閱讀時間
更新5月18日,2022年由亞當Pavlacka

如何啟動一個結構化流查詢從去年寫抵消嗎

場景中你有一個流,運行窗口的聚合查詢,讀來自Apache卡夫卡和寫文件追加模式。你想升級的應用程序並重新啟動查詢抵消等於最後寫抵消。你想丟棄所有狀態信息還沒有被寫入水槽,從最早開始處理…

1分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

漏洞掃描顯示漏洞在磚EC2實例

企業信息安全問題(CIS)脆弱性管理團隊識別漏洞在AWS實例追溯到EC2實例由磚(工人AMI)。導致磚安全團隊地址的所有關鍵的漏洞和更新核心和工人定期ami。然而,如果有long-r……

0分鍾的閱讀時間
更新5月18日,2022年由亞當Pavlacka

如何切換SNS流工作提升到一個新的SQS隊列

問題你有結構化流工作運行通過S3-SQS連接器。假設您想重現源SQS, SNS的支持數據,你想進行一個新的隊列處理同樣的工作,在同一輸出目錄。解決方案使用以下程序:創建新的SQS隊列和訂閱s3-events(從SNS)。在…

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

編寫三角洲湖表時拒絕訪問S3

問題寫DataFrame三角洲湖格式的內容到一個S3位置會導致一個錯誤:com.amazonaws.services.s3.model。AmazonS3Exception:禁止(服務:Amazon S3;狀態碼:403;錯誤代碼:403禁止;請求ID: C827672D85516BA9;S3擴展請求ID:導致寫操作涉及三角洲湖格式需要權限……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何設置嵌入式Apache蜂巢metastore嗎

您可以設置一個磚使用嵌入式metastore集群。您可以使用一個嵌入式metastore當你隻需要保留在集群的生命表的元數據。如果重新啟動集群,元數據丟失。如果你需要持久存儲表的元數據或其他數據在集群啟動之後,那麼你應該使用默認metastore啊……

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

三角洲湖更新查詢失敗IllegalState例外

問題當你執行一個三角洲湖更新、刪除,或合並查詢使用Python udf的任何轉換,不能用以下例外:AWS . lang。UnsupportedOperationException:方式錯誤的SQL語句:IllegalStateException:文件(s3a: / / xxx / table1)中被重寫未找到候選人文件:s3a: / / xxx /表/部分- 000…

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

用Conda創建一個集群

Conda是一個很受歡迎的開放源代碼蟒蛇回購的包管理係統。磚運行時對機器學習(磚運行時的ML)使用Conda管理Python庫依賴關係。如果你想使用Conda,您應該使用磚運行時毫升。試圖安裝蟒蛇或Conda使用磚不支持運行時。符合……

0分鍾的閱讀時間
更新後的2022年2月25日,由亞當Pavlacka

無法加載AWS憑證

AWS資源的問題當你試圖訪問S3, SQS或紅移,操作失敗,錯誤:com.amazonaws。SdkClientException:無法加載AWS憑證鏈中的任何提供者:[BasicAWSCredentialsProvider:訪問密鑰或密鑰為空,com.amazonaws.auth。InstanceProfileCredentialsProvider@a590007a:請求的metad…

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

如何正確更新Maven庫在磚嗎

問題你讓一個小更新庫存儲庫中,但是你不想改變版本號為測試目的,因為它是一個小變化。當你把圖書館集群,您的代碼變化不包括在圖書館。造成磚的一個優勢是能夠安裝第三方或自定義天秤座……

0分鍾的閱讀時間
更新5月18日,2022年由亞當Pavlacka

處理分區列值時使用一個SQS隊列作為流源

問題如果在S3中存儲的數據分區,分區列值用於源目錄結構中的文件夾名稱。然而,如果您使用一個SQS隊列作為流媒體來源,S3-SQS源不能檢測到分區列值。例如,如果您在JSON格式保存以下DataFrame S3: % scala val df = spark.range (1…

0分鍾的閱讀時間
更新5月23日,2022年由亞當Pavlacka

不能種植BufferHolder;超過大小限製

問題您的Apache火花工作卻是IllegalArgumentException失敗:無法成長BufferHolder錯誤。. lang。IllegalArgumentException:不能長按大小BufferHolder XXXXXXXXX因為規模增長超過大小限製2147483632後導致BufferHolder最大大小為2147483632字節(大約2 GB)。如果一個列值超過……

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

如何並行化和新聞出版總署R代碼嗎

並行R的代碼是很困難的,因為代碼運行在司機和R data.frames沒有分布。通常,有現有的R是本地運行的代碼轉換為運行在Apache火花。在其他情況下,一些SparkR函數用於先進的統計分析和機器學習技術可能不支持分布式com……

1分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

在RStudio如何保存和共享代碼嗎

問題與磚的筆記本內置的,版本控製,開發的代碼在RStudio丟失高並發性集群托管RStudio關閉。解決持續RStudio共享代碼,做以下之一:從RStudio,將代碼保存到一個文件夾可以從磚筆記本和RStudi DBFS……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何加快交叉驗證

Hyperparameter調優的Apache SparkML模型需要很長時間,這取決於網格的尺寸參數。你可以提高性能的交叉驗證步驟SparkML加快速度:緩存數據在運行任何功能轉換或建模步驟之前,包括交叉驗證。過程指的是數據多…

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

多部分上傳失敗

問題你觀察工作失敗除了:com.amazonaws。SdkClientException:無法完成多部分上傳。個人部分上傳失敗:無法執行HTTP請求:org.apache.http.conn超時等待連接池。ConnectionPoolTimeoutException:超時等待連接池……com.amazonaws.http.Ama……

1分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

不能卸載從UI庫

問題通常,圖書館可以卸載集群UI。如果禁用複選框選擇庫,那麼就無法卸載從UI庫。因為如果你使用REST API創建一個庫1.2版本,如果啟用了auto-attach,圖書館所有集群上安裝。在這個場景中,集群UI複選框……

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

Python 2日落狀態

Python.org正式Python 2進入生物(臨終)狀態1月1日,2020年。這對你來說意味著什麼呢?磚6.0運行時,以上數據磚6.0運行時,隻支持Python 3。你不能用Python 2使用這些運行時創建一個集群。這些運行時創建的任何集群使用Python 3被定義。磚俄文的……

1分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

錯誤當訪問MLflow工件不使用MLflow客戶機

MLflow實驗權限(AWS | Azure)正在執行工件MLflow跟蹤,使您能夠輕鬆地控製訪問您的數據,模型,和其他文件。無效的山異常問題當試圖訪問一個MLflow運行工件使用磚文件係統(DBFS)命令,比如dbutils。fs,得到以下錯誤:com ....

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

嵌套夷為平地DataFrame轉換為JSON

本文解釋了如何將一個扁平的DataFrame嵌套結構,通過嵌套類在另一個案件類。您可以使用這種技術來構建一個JSON文件,然後可以發送到外部API。我們首先定義嵌套模式DataFrame夷為平地。使用這個例子DataFrame,我們定義一個自定義的嵌套模式usi……

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

確定不使用工作

工作區有限製的數量可以在UI中顯示的工作。目前的工作極限是1000。如果你超過工作極限,你收到QUOTA_EXCEEDED錯誤消息。“error_code”:“QUOTA_EXCEEDED”、“消息”:“配額的數量的工作。當前的限額是1000。這個配額隻應用於崗位通過…

1分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

PERMISSION_DENIED錯誤當訪問MLflow實驗工件

問題你得到一個PERMISSION_DENIED錯誤當試圖訪問一個MLflow工件使用MLflow客戶端。RestException: PERMISSION_DENIED:用戶> <用戶沒有權限視圖的id < experiment-id >或RestException實驗:PERMISSION_DENIED:用戶> <用戶沒有權限編輯的實驗id <前女友…

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

刪除你流查詢檢查點和重啟

問題你的工作失敗<價值>δ表不存在。請刪除你的流媒體查詢檢查點和重啟。錯誤消息。導致兩種不同的流媒體資源配置使用相同的檢查點目錄。這是不受支持的。例如,假設流查詢流數據從三角洲表,並使用導演……

0分鍾的閱讀時間
更新後的2023年2月28日,由亞當Pavlacka

Apache引發多個並發運行時JAR工作失敗

問題如果你運行多個Apache火花JAR同時工作,一些運行可能會失敗的錯誤:org.apache.spark.sql。AnalysisException:表或視圖不發現:xxxxxxx;1號線pos 48由於一個錯誤引起這個錯誤發生在Scala中。當一個對象擴展應用,其val領域不再是不可變的,他們可以改變主相遇時……

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

優化從JDBC數據源讀取性能

問題從外部JDBC數據庫讀取數據是緩慢的。我該怎樣才能提高讀取性能?解決方案見磚文檔中詳細討論如何優化性能時讀取數據(AWS | Azure | GCP)從外部JDBC數據庫....

0分鍾的閱讀時間
更新後的2023年2月23日,由亞當Pavlacka

任務反序列化時間很高

問題你的任務正在運行慢於預期。你審查階段細節引發UI集群,看到任務反序列化時間高。導致Cluster-installed庫(AWS | Azure GCP) |隻安裝在司機在集群啟動時。這些庫隻安裝在執行器當第一個任務……

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

集群取消Python命令執行後安裝散景

問題在Python筆記本集群返回取消。檢查驅動程序(std.err)登錄集群配置頁麵一個堆棧跟蹤和錯誤消息類似如下:log4j:警告沒有輸出源可以發現記錄器(com.databricks.conf.trusted.ProjectConf $)。log4j:警告請初始化log4j係統正常。log4j:警告年代…

1分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

AnalysisException當刪除表Azure-backed metastore

問題當你試圖在一個外部表蜂巢2.0或2.1版本metastore部署到Azure SQL數據庫,數據磚扔以下例外:com.databricks.backend.common.rpc.DatabricksExceptions SQLExecutionException美元:org.apache.spark.sql。AnalysisException: org.apache.hadoop.hive.ql.metadata。HiveException: MetaException (…

0分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

流與文件水槽:複蘇的問題如果你改變檢查點或輸出目錄

當你流數據到一個文件中,你應該總是一起改變檢查點和輸出目錄。否則,你可以得到故障或意外的輸出。Apache火花輸出目錄內創建一個文件夾命名為_spark_metadata。這個文件夾包含寫前每批次運行日誌。這就是火花就隻有一次guarant……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

日本在外部metastore字符支持

問題你想在你的表中使用日文字符,但越來越錯誤。創建一個表的選項關鍵字選項提供了額外的元數據表。你試著創建表選項和utf8mb4指定字符集。% sql創建表默認。JPN_COLUMN_NAMES(“作成年月”字符串,“計上年月”字符串,“所屬コード”字符串,“生保代理店コード_8……

1分鍾的閱讀時間
更新後的2022年3月8日,由亞當Pavlacka

不能從外部訪問對象由磚磚

問題當您試圖訪問一個對象在一個S3位置由磚使用AWS CLI,以下錯誤發生:ubuntu@0213 - 174944 - clean111 - 10 - 93 - 15 - 150: ~ $ AWS S3 cp S3: / / <桶> / <位置> / 0 /δ/沙盒/ deileringDemo__m2 / _delta_log / 00000000000000000000。json。致命錯誤:發生錯誤(403)當調用H……

1分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何使用Apache火花指標嗎

本文給出一個示例如何監視Apache使用火花引發組件可配置的指標體係。具體地說,它顯示了如何設置一個新的源和使一個水槽。火花的詳細信息組件可用於度量收集,包括水槽開箱即用的支持,遵循上麵的文檔鏈接。正……

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

檢查點文件不刪除當使用foreachBatch ()

問題你有流工作使用foreachBatch DataFrames()的過程。% scala streamingDF.writeStream.outputMode(“追加”)。foreachBatch {(batchDF: DataFrame batchId:長)= > batchDF.write.format .mode(“鋪”)(“覆蓋”).save (output_directory)} .start()被創建檢查點文件,但未被刪除。您可以驗證th……

0分鍾的閱讀時間
更新5月17日,2022年由亞當Pavlacka

如何發送電子郵件或短信從磚筆記本

你可能需要發送一個通知從磚一組接收者筆記本。例如,您可能想要發送電子郵件匹配基於業務規則或基於命令的成功或失敗。本文描述了兩種方法來發送電子郵件或短信從一個筆記本。這兩個示例使用Python筆記本:發送電子郵件或短信重新…

1分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

故障檢測在JSON編碼

問題引發工作不包含消息的一個例外:無效的utf - 32字符0 x1414141 char # 1(以上10飛行符),在org.apache.spark.sql.catalyst.json.JacksonParser字節# 7)。解析導致JSON數據源讀者能夠自動檢測輸入使用BOM JSON文件的編碼文件的開始。然而,BOM並不是……

0分鍾的閱讀時間
2022年5月9日更新,亞當Pavlacka

無效的錯誤與氣流運行作業時訪問令牌

運行計劃時氣流磚的工作問題,你得到這個錯誤:無效的訪問令牌:403年禁止運行錯誤原因通過氣流或安排磚工作,您需要配置使用氣流web UI磚的連接。下列不正確的設置會導致錯誤:設置主機字段數據磚我們…

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何創建表ddl導入外部metastore嗎

磚支持使用外部metastores而不是默認的蜂巢metastore。您可以導出所有表元數據從外部metastore蜂巢。使用Apache目錄火花API列表中包含的數據庫中的表metastore。使用顯示創建TABLE語句生成ddl並將它們存儲在一個文件中。使用文件……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

如何探索Apache火花引發聽眾指標

Apache火花提供了一些有用的內部聽眾跟蹤指標任務和工作。在開發周期中,例如,這些指標可以幫助你理解何時和為什麼需要很長時間才能完成的任務。當然,你可以利用火花或曆史UI中看到的信息為每個任務和階段,但也有一些道……

2分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

Null列值顯示為南

你的表有問題在一些列null值。當你查詢的表在磚使用select語句,null值顯示為null。當你查詢的表使用相同的磚的SQL select語句,null值表現為南。%的sql select * from違約。<表名稱>,<列名>是零Databric……

0分鍾的閱讀時間
更新5月23日,2022年由亞當Pavlacka

運行Scala中的c++代碼

c++從Scala筆記本複習跑c++從Scala筆記本....

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

庫不可用導致工作失敗

問題你正在啟動工作,導入外部庫,導入錯誤。工作原因節點重新啟動時,工作失敗,並顯示以下錯誤消息:ImportError:沒有模塊名為XXX導致集群管理器是磚的一部分服務管理客戶Apache火花集群。它發送命令來安裝Python和R……

1分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

由於圖書館集群取消Python命令執行衝突

問題在Python筆記本集群返回取消。筆記本電腦在所有其他語言相同的集群上執行成功。原因當你安裝一個衝突版本的庫,比如ipython, ipywidgets, numpy, scipy,或者熊貓到PYTHONPATH, Python REPL可以打破,使所有命令返回取消後30秒……

1分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

閱讀大型DBFS-mounted文件使用Python api

本文解釋了如何解決一個錯誤發生在你讀大DBFS-mounted文件使用本地Python api。問題如果你掛載一個文件夾dbfs: / /和讀取一個文件大於2 gb在Python API和熊貓一樣,您將看到以下錯誤:/磚/ Python /地方/ lib / python2.7 /網站/熊貓/解析器。所以在pandas.parser.TextRead……

0分鍾的閱讀時間
更新3月4日,2022年由亞當Pavlacka

如何處理blob數據包含在一個XML文件嗎

如果你日誌事件的XML格式,那麼每個XML事件記錄為base64字符串。為了運行使用Apache火花,對這些數據的分析需要使用spark_xml庫和BASE64DECODER API將數據進行分析。問題需要分析base64編碼字符串使用火花從xml格式的日誌文件。例如……

1分鍾的閱讀時間
更新5月31日,2022年由亞當Pavlacka

蜂巢udf

本文將展示如何創建一個蜂巢UDF,注冊在火花,火花SQL查詢並使用它。這裏有一個蜂巢UDF將長作為參數,並返回它的十六進製表示。% scala org.apache.hadoop.hive.ql.exec進口。進口org.apache.hadoop.io UDF。LongWritable / /這個UDF需要很長整數,並將其轉換為十六進製…

0分鍾的閱讀時間
更新5月18日,2022年由亞當Pavlacka

得到文件的路徑被自動加載程序

當你處理流媒體文件自動加載程序(AWS | Azure | GCP),事件記錄基於底層存儲中創建的文件。本文向您展示如何添加每個文件名的文件路徑的新列DataFrame輸出。一個用例是審計。當文件被吸收到分區的文件夾結構我…

0分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

呈現一個R減價文件包含sparklyr代碼失敗

問題在你安裝和配置RStudio在磚環境中,當您啟動RStudio並單擊針織按鈕針織減價文件包含代碼來初始化一個sparklyr上下文,渲染失敗有以下錯誤:沒有開始sparklyr端:對象“DATABRICKS_GUID”沒有找到電話:<匿名>…tryCatch……

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

增加每階段的任務

當使用spark-xml包,您可以增加任務的數量每階段spark.hadoop.mapred.max.split通過更改配置設置。集群中的大小到一個較低的值的火花配置(AWS | Azure)。這個配置設置控製輸入塊大小。當數據從DBFS讀取,它分為輸入模塊,然後……

0分鍾的閱讀時間
更新後的2022年12月22日,由亞當Pavlacka

安裝rJava和RJDBC庫

本文解釋如何安裝rJava和RJBDC庫。問題當你安裝rJava和RJDBC庫在筆記本電池使用下麵的命令:% r安裝。包(c (“rJava”、“RJDBC”))你看到以下錯誤:錯誤:配置失敗包rJava導致rJava和RJDBC包檢查Java依賴和…

0分鍾的閱讀時間
更新3月15日,2023年由亞當Pavlacka

序列化任務太大

如果你看到下錯誤消息,你可以修複這個錯誤通過改變引發配置(AWS | Azure)當你開始集群。序列化任務XXX: XXX是XXX字節,超過最大允許:spark.rpc.message。最大尺寸(XXX字節)。考慮增加spark.rpc.message。最大尺寸或使用廣播變量為大值。改變……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

常見的錯誤在筆記本

有一些使用筆記本電腦時出現的常見問題。本節概述了一些常見問題和最佳實踐,您應該遵循。. lang火花工作失敗。NoClassDefFoundError有時候你可能會遇到一個錯誤:% scala . lang。行..... NoClassDefFoundError:無法初始化類讀這個c美元……

0分鍾的閱讀時間
更新後的2022年3月8日,由亞當Pavlacka

如何計算磚文件係統(DBFS) S3 API調用成本

DBFS S3 bucket的成本主要是由API調用的數量,其次,存儲的成本。您可以使用AWS CloudTrail日誌創建一個表,計算API調用的數量,從而計算出準確的成本API請求。獲得以下信息。您可能需要聯係您的AWS管理員獲得…

1分鍾的閱讀時間
更新5月20日,2022年由亞當Pavlacka

解決方案或命名空間加載錯誤

本文解釋如何解決一個包或命名空間加載錯誤。問題當你安裝和加載一些圖書館在筆記本電池,如:% r圖書館(BreakoutDetection)你可能得到一個包或命名空間的錯誤:加載所需的包:BreakoutDetection:錯誤:包或名稱空間加載失敗“BreakoutDetection”loadNamespace(我,…

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

區分活躍和死的工作

問題有太多的集群並行工作,你經常看到一些工作停留在火花UI沒有任何進展。這複雜識別活動工作/階段與死者的工作階段。導致每當有太多並發工作一個集群上運行,有可能引發內部eventListenerBus…

0分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

列出所有工作區對象

您可以使用磚工作區API (AWS | Azure | GCP)遞歸地列出所有工作區對象在給定的路徑。常見用例包括:索引所有筆記本的工作區中所有用戶的名稱和類型。使用輸出,結合其他API調用,刪除未使用的工作區或管理筆記本。動態地得到t…

1分鍾的閱讀時間
更新後的2022年12月8日,由亞當Pavlacka

CPU核心限製防止創建集群

問題集群創建失敗一個雲提供商的消息錯誤當你徘徊在集群的狀態。雲提供商發射失敗:雲提供商設置集群時遇到錯誤。當你查看集群事件日誌來獲得更多的細節,您將看到一條消息對核心配額限製。操作結果超過配額限製。

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

由於文件大小限製筆記本自動保存失敗

問題筆記本自動保存失敗,並顯示以下錯誤消息:未能保存修訂:筆記本大小超過限製。這是最常見的引起的細胞與大的結果。刪除一些細胞或把筆記本。導致最大筆記本大小允許自動保存8 MB。先解決方案,使用你的br檢查你的筆記本大小的文件……

0分鍾的閱讀時間
更新後的2023年2月25日,由亞當Pavlacka

RocksDB未能獲得一個鎖

問題你想使用RocksDB作為結構化的流媒體應用程序的存儲狀態,當你得到一個錯誤消息說實例不能被收購。引起的:. lang。IllegalStateException: RocksDB實例不能被[ThreadId: 742,任務:140.3在3152年階段,TID 553193]不是[ThreadI公布的…

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

在一個集群上安裝pyodbc時錯誤

問題的錯誤發生在您使用pip安裝pyodbc庫。. lang。RuntimeException:安裝失敗,信息:收集pyodbc”庫安裝失敗是因為缺少的依賴關係。sasl和thrift_sasl是可選依賴sasl或Kerberos支持”導致盡管sasl和thrift_sasl啊……

1分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

安裝和編譯Cython

本文解釋了如何運行火花代碼編譯Cython代碼。的步驟如下:創建一個示例Cython DBFS (AWS | Azure)模塊。將文件添加到火花會話。創建一個包裝器方法來加載模塊的執行人。樣本數據集的映射器運行。產生更大的數據集,比較性能與nat…

2分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

如何填充或更新現有的三角洲表中列

現有的差值表的問題,有一些空的列。你需要用數據填充或更新這些列原始文件拚花。解決方案在這個例子中,有一個客戶表,這是一個現有的差值表。beplay体育app下载地址它有一個地址列用缺失值。更新後的數據存在於鋪格式。創建一個從th DataFrame…

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

安裝一個Apache SparkML模型拋出錯誤

問題磚時拋出一個錯誤的配件SparkML模型或管道:org.apache.spark。SparkException:工作階段失敗而終止:任務0階段162.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 162.0 (TID 168、10.205.250.130執行人1):org.apache.spark。SparkException:未能執行用戶定義函數($ anonfu……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

OSError當訪問MLflow實驗工件

問題你得到一個OSError:沒有這樣的文件或目錄錯誤消息當試圖下載或日誌構件使用下列之一:MlflowClient.download_artifacts () mlflow。(味道).log_model () mlflow。(味道).load_model () mlflow.log_artifacts () OSError:沒有這樣的文件或目錄:/ dbfs /磚/ mlflow-tracking / < experiment-id > / <運行-…

0分鍾的閱讀時間
更新後的2022年3月8日,由亞當Pavlacka

不能讀取數據磚對象存儲在DBFS根目錄

問題一個拒絕訪問錯誤回報當你試圖閱讀磚對象存儲在DBFS在blob存儲根目錄外磚集群。因為這是正常的行為DBFS根目錄。磚家的對象庫和其他臨時DBFS係統文件的根目錄。磚是唯一的……

0分鍾的閱讀時間
更新5月16日,2022年由亞當Pavlacka

清單表名

問題獲取的所有表名metastore您可以使用spark.catalog.listTables()或% sql顯示表。如果你觀察期間獲取的細節你可以看到spark.catalog.listTables()通常花費的時間超過% sql顯示表。導致spark.catalog.listTables()試圖獲取每個表的元數據,然後顯示reque……

0分鍾的閱讀時間
更新5月11日,2022年由亞當Pavlacka

Apache火花工作失敗maxResultSize例外

maxResultSize異常問題引發工作失敗:org.apache.spark。SparkException:工作階段失敗而終止:XXXX任務的序列化結果的總大小(X.0 GB)比spark.driver大。maxResultSize (X.0 GB)導致這個錯誤是因為配置的大小限製是超過。大小限製適用於總連載……

0分鍾的閱讀時間
2023年4月17日更新,亞當Pavlacka

由於工作速率限製工作失敗

問題磚筆記本或工作的API請求返回下列錯誤:錯誤:{“error_code”:“INVALID_STATE”、“消息”:“已經有1000個工作崗位創造了在過去的3600秒,超過速度限製:每3600秒創造1000個工作崗位。”}你不能運行作業QUOTA_EXCEEDED錯誤信息:“error_code”:“QUOTA_EXCEEDED”、“mes……

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

三角洲湖寫工作與java.lang.UnsupportedOperationException失敗

問題三角洲湖寫工作有時失敗有以下例外:. lang。UnsupportedOperationException:方式com.databricks.backend.daemon.data.client.DBFSV1。putIfAbsent(路徑:路徑、內容:InputStream)。DBFS v1不支持事務從多個集群寫道。請升級到DBFS v2。或者你可以禁用多集群寫道……

0分鍾的閱讀時間
2022年5月10日更新由亞當Pavlacka

Apache火花工作掛由於不確定的自定義UDF

問題有時Apache火花崗位掛無限期的不確定性行為引發用戶定義函數(UDF)。下麵是這個函數的一個例子:% scala val convertorUDF = (commentCol: String) = > {# UDF定義}val translateColumn = UDF (convertorUDF)如果你調用這個UDF使用withColumn ()…

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

訪問紅移與NullPointerException失敗

問題有時當你讀一個紅移表:% scala val original_df = spark.read。格式(“com.databricks.spark.redshift”)。選項(“url”, url)。用戶選項(“用戶”)。選項(“密碼”,密碼)。選項(“查詢”,查詢)。選項(“forward_spark_s3_credentials”,真正的)。選項(“tempdir”、“路徑”)。load ()……

1分鍾的閱讀時間
更新5月19日,2022年由亞當Pavlacka

如何保存繪圖文件從DBFS和顯示嗎

你可以節省一個圖表生成與情節司機節點jpg和png文件。然後,您可以顯示在一個筆記本使用displayHTML()方法。默認情況下,您保存繪製圖表/磚/司機司機在集群節點/目錄。使用以下過程來顯示圖表在稍後的時間。生成一個樣本…

0分鍾的閱讀時間
更新6月1日,2022年由亞當Pavlacka

紅移JDBC驅動程序的衝突問題

問題如果您附加多個紅移JDBC驅動程序到一個集群,並使用紅移連接器,筆記本REPL SQLDriverWrapper錯誤消息可能會掛起或崩潰。19/11/14 01:01:44錯誤SQLDriverWrapper:致命的非用戶錯誤扔進ReplId-9d455-9b970-b2042 . lang。NoSuchFieldError: PG_SUBPROTOCOL_NAMES com.amazon.redshi……

0分鍾的閱讀時間
加載更多