2022年5月10日由何塞·岡薩雷斯更新

作業集群限製筆記本電腦的輸出

問題:您正在作業集群上運行一個筆記本電腦,收到一條錯誤消息,提示輸出過大。筆記本電腦的輸出容量太大。原因:rpc response (of 20975548 bytes) exceeds limit of 20971520 bytes產生原因當筆記本輸出大於20mb時,在作業集群中會出現此錯誤消息。

0分鍾閱讀時間
2022年4月1日由何塞·岡薩雷斯更新

Apache Spark會話在DBConnect中為空

你試圖運行您的代碼使用Databricks連接(AWS | Azure | GCP),當你得到sparkSession是空錯誤消息。java.lang.AssertionError: assertion failed: sparkSession is null while trying executeCollectResult at scala.Predef$.assert(Predef.scala:170) at org.apache.spark.sql.execution.SparkPlan.executeCollectResult(…

1分鍾閱讀時間
2022年5月19日由何塞·岡薩雷斯更新

流作業在寫入檢查點時會卡住

您正在監視一個流作業,注意到它在處理數據時似乎卡住了。在查看日誌時,您發現在向檢查點寫入數據時作業卡住了。INFO hdfsbackkedstatestoreprovider: Deleted files older than 381160 for HDFSStateStoreProvider[id = (op=0,part=89),dir = dbfs:/FileStore/R_CHECKPOINT5/st…

0分鍾閱讀時間
2022年10月12日由何塞·岡薩雷斯更新

數據的顯式路徑或自動加載器所需的已定義模式

本文適用於Databricks Runtime 9.1 LTS及以上版本。問題:當你得到一個IllegalArgumentException時,你正在使用自動加載器為你的ELT管道攝取數據:請提供源目錄路徑選項' path '錯誤消息。當您啟動一個Auto Loader作業時,如果數據的路徑或數據…

1分鍾閱讀時間
2022年5月24日由何塞·岡薩雷斯更新

SHOW DATABASES命令返回意外的列名

您正在使用SHOW DATABASES命令,它返回一個意外的列名。產生原因在Databricks Runtime 7.0中執行SHOW DATABASES命令返回的列名被修改。Databricks Runtime 6.4擴展支持及以下版本:SHOW DATABASES返回名稱空間作為列名。Databricks運行時7.0及以上版本:SHOW DATABASES返回dat…

0分鍾閱讀時間
2022年5月23日由何塞·岡薩雷斯更新

向Redshift表中寫入一個缺少列的數據幀

當寫入Redshift表時,如果目標表比源Apache Spark DataFrame有更多的列,你可能會得到一個複製錯誤。COPY failed with error: [Amazon][Amazon Redshift](1203)當試圖執行查詢時發生錯誤:error: Load into table table-name failed。查看'stl_load_errors'係統表了解詳細信息。“12…

0分鍾閱讀時間
2022年5月10日由何塞·岡薩雷斯更新

從拚花轉換到三角洲湖失敗

您正在嚐試將Parquet文件轉換為Delta Lake文件。包含Parquet文件的目錄包含一個或多個子目錄。轉換失敗,錯誤消息:期望0分區列:[],但發現1分區列:[]從解析文件名:

0分鍾閱讀時間
2022年5月31日由何塞·岡薩雷斯更新

刪除S3底層桶時刪除表

當您試圖刪除或修改一個表時,您得到一個錯誤。Error in SQL statement: IOException: Bucket_name…does not exist可以使用DROP TABLE或ALTER TABLE命令重現該錯誤。sql DROP TABLE SET LOCATION "<文件係統位置>";

0分鍾閱讀時間
2022年5月23日由何塞·岡薩雷斯更新

管理Delta表的大小

Delta表與傳統表不同。Delta表包括ACID事務和時間旅行功能,這意味著它們維護事務日誌和過時的數據文件。這些附加功能需要存儲空間。在本文中,我們將討論可以幫助您管理Delta表大小的建議。啟用文件係統ve…

1分鍾閱讀時間
加載更多