這些文章可以幫助您在Apache Spark中使用SQL。
本類別22篇文章
如果您仍有疑問或希望直接從中介處獲得幫助,請提交請求。我們會盡快給您答複的。
請輸入您的請求的詳細信息。我們的一名支持人員會盡快做出回應。
您試圖連接兩個大表,投影第一個表中的選定列和第二個表中的所有列。盡管總大小超過了spark.sql設置的限製。autoBroadcastJoinThreshold, BroadcastHashJoin, Apache Spark返回一個OutOfMemorySparkException錯誤。org.apache.spark.sql.execution.OutO……
最後更新:2022年5月23日,通過sandeep.chandran
問題:Apache Spark作業失敗,出現IllegalArgumentException: Cannot grow BufferHolder錯誤。java.lang.IllegalArgumentException: Cannot grow BufferHolder by size XXXXXXXXX,因為增長後的大小超過了大小限製2147483632原因:BufferHolder的最大大小是2147483632字節(大約2gb)。如果列值超過…
最後更新:2022年5月23日,通過亞當Pavlacka
您試圖使用Spark 3.0中的date_add()或date_sub()函數,但它們返回SQL語句中的Error: AnalysisException錯誤消息。在Spark 2.4及以下版本中,這兩個功能都可以正常工作。%sql select date_add(cast('1964-05-23' as date), '12.34')因為您試圖使用小數或字符串值作為…
本文解釋了當查詢計劃在物理計劃中包含BroadcastNestedLoopJoin時如何禁用廣播。通過將Spark .sql. autobroadcastjointhreshold設置為-1,您希望在禁用廣播閾值後停止廣播,但Apache Spark試圖廣播更大的表,並失敗並出現廣播錯誤。這種行為是……
您的Apache Spark作業正在處理一個Delta表時,作業失敗並提示錯誤消息。在元數據更新中發現重複列:col1, col2…產生原因Delta表中有重複的列名。僅大小寫不同的列名被認為是重複的。三角洲湖是…
最後更新:2022年5月23日,通過vikas.yadav
本文向您展示如何使用Apache Spark函數在列中生成惟一遞增的數值。我們將回顧三種不同的使用方法。您應該選擇最適合您的用例的方法。zipWithIndex()函數隻在RDD中可用。你不能…
最後更新:2022年5月23日,通過ram.sankarasubramanian
問題:當你試圖查詢一個表或視圖時,你得到這個錯誤:AnalysisException:表或視圖沒有找到當試圖查詢全局臨時視圖原因:你通常創建全局臨時視圖,以便它們可以從不同的會話訪問,並保持活躍,直到應用程序結束。您可以使用以下語句創建全局臨時視圖:%s…
問題:你正在筆記本上處理兩個表格。您執行一個連接。您可以預覽輸出,但是當您嚐試下載完整的結果時,會得到一個錯誤。SQL語句錯誤:AnalysisException: Found duplicate column(s) when insert into dbfs:/ databicks -results/ reproduction Error創建兩個表。%python from pyspark.sql.functions
最後更新:2022年5月23日,通過manjunath.swamy
問題:您試圖並行地為同一個表運行MSCK REPAIR TABLE < TABLE -name>命令,並得到java.net.SocketTimeoutException: Read timed out or out of memory錯誤消息。當你試圖用MSCK REPAIR並行增加一個表的大量新分區時,Hive metastore成為一個限製因素,一個…
最後更新:2022年5月23日,通過ashritha.laxminarayana
本文解釋如何查找表的大小。使用的命令取決於您是試圖查找增量表還是非增量表的大小。delta表的大小要查找delta表的大小,可以使用Apache Spark SQL命令。% scala com.databricks.sql.transaction.tahoe進口。_ val deltaLog = deltaLog。forTable(火花,“dbf……
最後更新:2022年5月23日,通過mathan.pillai
您執行了一個內部連接,但結果連接表缺少數據。例如,假設您有兩個表,訂單和模型。%python df_orders = spark。createDataFrame(((“日產”,Altima,雙門車2.5年代車),(“日產”,Altima, 4-door 3.5 SE轎車),(“日產”,Altima,”)(“日產”,Altima, None)],[“公司”,“模型”,“信息”)……
最後更新:2022年5月23日,通過siddharth.panchal
您有一個作業正在使用Apache Spark從Snowflake表中讀取數據,但是數據幀中顯示的時間數據是錯誤的。如果您直接在Snowflake上運行相同的查詢,則會返回正確的時間數據。產生原因時區值設置不正確。Databricks集群和Snowf集群的時區值不匹配…
最後更新:2022年5月24日,通過DD沙瑪
問題:您正在使用JDBC寫入一個有主鍵約束的SQL表,作業失敗,出現一個primarykeybreach錯誤。或者,您正在使用JDBC寫入一個沒有主鍵約束的SQL表,並且在最近寫入的表中看到重複的條目。當Apache Spark執行JDBC寫操作時,一個par…
最後更新:2022年5月24日,通過harikrishnan.kunhumveettil
你試圖查詢一個外部Hive表,但它一直無法跳過標題行,即使TBLPROPERTIES ('skip.header.line.count'='1')在HiveContext中設置。您可以通過使用此示例代碼創建一個表來再現該問題。創建外部表school_test_score (' school ' varchar(254), ' student_id ' varc…
最後更新:2022年5月24日,通過manisha.jena
您正在使用SHOW DATABASES命令,它返回一個意外的列名。產生原因在Databricks Runtime 7.0中執行SHOW DATABASES命令返回的列名被修改。Databricks Runtime 6.4擴展支持及以下版本:SHOW DATABASES返回名稱空間作為列名。Databricks運行時7.0及以上版本:SHOW DATABASES返回dat…
最後更新:2022年5月24日,通過何塞·岡薩雷斯
您試圖查看Apache Hive表上的SerDe屬性,但是SHOW CREATE table隻返回Apache Spark DDL。它不顯示SerDe屬性。例如,給定下麵的示例代碼:%sql SHOW CREATE TABLE < TABLE -identifier>你得到的結果不顯示SerDe屬性:
最後更新:2022年7月1日通過saritha.shivakumar
您試圖用to_timestamp()解析12小時(AM/PM)的時間值,但它返回的不是24小時的時間值,而是null。例如,下麵的示例代碼:%sql SELECT to_timestamp('2016-12-31 10:12:00 PM', 'yyyy-MM-dd HH:mm:ss a');運行時返回null:原因to_timestamp()要求小時格式為小寫。如果哦…
最後更新:2022年7月22日,通過chetan.kardekar
你正在使用to_json()將數據轉換為JSON,你得到一個不能使用null作為映射鍵錯誤:RuntimeException:不能使用null作為映射鍵。原因to_json()函數不支持使用空值作為輸入映射鍵。此示例代碼在運行時會導致“不能使用null作為映射鍵”錯誤,因為null值在…
最後更新:2022年7月22日,通過gopal.goel
在使用saveAsTable創建Delta表時,列的可空性默認為true(列可以包含空值)。這是預期的行為。在某些情況下,您可能希望創建一個Delta表,將列的可空性設置為false(列不能包含空值)。使用CREATE TABLE命令創建表…
最後更新:2022年10月14日,通過anshuman.sahu
統計函數covar_samp, kurtosis, skewness, std, stddev, stddev_samp, variance,和var_samp,在Databricks Runtime 7.3 LTS中,當表達式求值過程中發生除零時返回NaN。同樣的函數在Databricks Runtime 9.1 LTS及以上版本中返回null,當除零發生時,Databricks SQL端點也返回null…
最後更新:2022年10月14日,通過chetan.kardekar
問題:您正在將作業從運行Databricks Runtime 6.6及以下的不受支持的集群遷移到運行當前版本Databricks Runtime的集群。如果您的作業和/或筆記本處理日期轉換,在升級的集群. ...上運行它們後,它們可能會失敗並出現SparkUpgradeException錯誤消息
最後更新:2022年10月26日,通過deepak.bhutada
您試圖將一個或更大的值轉換為DECIMAL,使用相同的精度和比例值。返回一個空值而不是期望的值。DECIMAL類型(AWS | Azure | GCP)被聲明為DECIMAL(precision, scale),其中precision和s…
最後更新:2022年10月29日,通過saritha.shivakumar