三角洲生活表-磚- 10121自動裝卸機問題

Jfoxyyc · ‎02-02-2023

使用自動裝卸機,我每天閱讀分區的數據。數據都有一個特定的模式,但如果沒有值一列不出現在json。為一個特定的列在一個特定的表我得到一個錯誤:

不能長類型轉換為雙類型合並。

如果我指定的負載模式dlt函數,為什麼會把這個?如果我讀整個分區使用df.read.json(路徑)效果很好,如果我讀它使用df.read.format (cloudfiles) .load(路徑)失敗,由於合並問題。

整個列有0和1的整數和小數1.23456。我想發生的事情是我有一些井返回一個文件的分區完全整數數字。仍然難住了為什麼它可能推斷模式是否要指定模式。即使是推斷模式,應該讀第一個1000文件或50 gb的數據,不會有很多隻有長類型。

Murthy1 · ‎02-07-2023

你好!

您可以重寫推斷模式通過提供提示。

.option (“cloudFiles。schemaHints”、“名稱字符串,年齡int”)

對於你的情況,我想下麵應該工作

.option (“cloudFiles。schemaHints”、“<列名>長”)

Jfoxyyc · ‎02-10-2023

列是一個雙,有一些渴望,所以我希望schemaHints column_name雙重工作。我將測試它在樣本數據集,我認為它應該失敗。

Vidula_Khanna · ‎04-08-2023

嗨@Jordan福克斯

希望一切進行得很順利。

隻是想檢查如果你能解決你的問題。如果是的,你會很高興的答案標記為最好,其他成員可以找到解決方案更快嗎?如果不是,請告訴我們,我們可以幫助你。

幹杯!

磚