我們得到了
\ u318a(ㆊ)
csv文件分開。我們想創建非托管表在磚,這是表創建腳本。
如果不存在db_test_raw.t_data_otc_poc創建表
(“caseidt”字符串,
“worktype”字符串,
“doctyp”字符串,
“品牌”字符串,
“reqemailid”字符串,
“子流程”字符串,
帳號名稱的字符串,
“位置”的字符串,
lineitem的字符串,
“emailsubject”字符串,
“createddate”字符串,
“過程”的字符串,
“archivalbatchid”字符串,
“createddt”字符串,
“customername”字符串,
“invoicetype”字符串,
“月”字符串,
“payernumber”字符串,
使用“sapaccountnumber”字符串,SOURCE_BUSINESS_DATE日期)
CSV選項(頭‘真正的’,編碼“utf - 8”,引用”,逃避”,分隔符“\ u318a”,路徑
“abfss: / /(電子郵件保護)/生/操作/ businessservice / * * * / xx_DATA_OTC”)
分區通過(SOURCE_BUSINESS_DATE)
在磚成功創建的表。
雖然檢查(
描述表擴展db_test_raw.t_data_otc_poc
),我們發現存儲屬性(utf - 8編碼= " =”,逃避= ",頭= true,分隔符= ?]。分隔符得到改變。
你能請讓我們知道哪裏出了問題呢?
數據也會加載到第一列和其他列的值是null
由於@Hubert杜德克的響應。我試著用這些選項。不幸的是它沒有工作
你嚐試使用“多行”嗎?也嚐試使用CSV驗證閱讀它,你可以創建表,驗證後的數據是正確的。
例如:
df = spark.read
.option(“標題”,真的)
.option(“多行”,真的)
.option(“逃離”、“_especial_value_”)
. csv (“path_to_CSV_data”)