磚筆記本昨天失敗了由於時間戳的格式問題。
錯誤:
“SparkUpgradeException:你可能得到不同的結果由於火花的升級3.0:無法解析“2022-08-10 00:00:14.2760000”在新的解析器。你可以設置spark.sql.legacy。timeParserPolicy遺留恢複行為引發3.0之前,或一組糾正和治療是一個無效的datetime字符串。
”
筆記本已經運行很好。例如我們有“2022 - 08年- 07 - t23:59:57.9740000”ts列中的時間戳值。
我們使用顯式timestampformat yyyy-MM-dd HH: mm: ss。瑞士“當rreading csv文件。
然而,我們開始在時間戳值零值不能夠被轉換。
所以我改變了格式的yyyy-MM-dd HH: mm: ss。嘶嘶’,它曾為一個對象。但是這個問題仍然為另一個對象。
然而,
當我完全刪除timestampFormat選項為這最後的工作對象。
我想知道改變磚集群啟動失敗。文件的時間戳值在相同的格式。
這是沒有timestampFormat選項的功能。
def ReadRawCSV (filesToProcess、標題分隔符,schema_struct): delta_df = spark.read.options(標題=標題分隔符=分隔符). schema (schema_struct) . csv (filesToProcess)返回delta_df