Unicode字段分隔符創建unamanged表……-磚- 24810

RajibRajib_Mand · ‎03-24-2022

我們得到了

\ u318a(ㆊ)

csv文件分開。我們想創建非托管表在磚,這是表創建腳本。

如果不存在db_test_raw.t_data_otc_poc創建表

(“caseidt”字符串,

“worktype”字符串,

“doctyp”字符串,

“品牌”字符串,

“reqemailid”字符串,

“子流程”字符串,

帳號名稱的字符串,

“位置”的字符串,

lineitem的字符串,

“emailsubject”字符串,

“createddate”字符串,

“過程”的字符串,

“archivalbatchid”字符串,

“createddt”字符串,

“customername”字符串,

“invoicetype”字符串,

“月”字符串,

“payernumber”字符串,

使用“sapaccountnumber”字符串,SOURCE_BUSINESS_DATE日期)

CSV選項(頭‘真正的’,編碼“utf - 8”,引用”,逃避”,分隔符“\ u318a”,路徑

“abfss: / /(電子郵件保護)/生/操作/ businessservice / * * * / xx_DATA_OTC”)

分區通過(SOURCE_BUSINESS_DATE)

在磚成功創建的表。

雖然檢查(

描述表擴展db_test_raw.t_data_otc_poc

),我們發現存儲屬性(utf - 8編碼= " =”,逃避= ",頭= true,分隔符= ?]。分隔符得到改變。

你能請讓我們知道哪裏出了問題呢?

數據也會加載到第一列和其他列的值是null

RajibRajib_Mand · ‎03-24-2022

所有的數據加載到單個coumn。其他列的值存儲為null

Hubert_Dudek1 · ‎03-24-2022

9月“\ u318a”

字段名“\ x318a”

9月“\ x318a”

嚐試使用9月相反或/和x。

RajibRajib_Mand · ‎03-24-2022

由於@Hubert杜德克的響應。我試著用這些選項。不幸的是它沒有工作

jose_gonzalez · ‎04-25-2022

你嚐試使用“多行”嗎?也嚐試使用CSV驗證閱讀它,你可以創建表,驗證後的數據是正確的。

例如:

df = spark.read

.option(“標題”,真的)

.option(“多行”,真的)

.option(“逃離”、“_especial_value_”)

. csv (“path_to_CSV_data”)

磚