我已經創建了一個外部表代湖Azure數據存儲。
容器有大約200 k Json文件。
創建json文件的結構
' ' '
如果不存在dbo.table創建外部表(
ComponentInfo STRUCT < ComponentHost:字符串,ComponentId:字符串,ComponentName:字符串,ComponentVersion:字符串,子係統:STRING >,
CorrelationId字符串,
事件結構<類別:字符串,EventName:字符串、消息id:字符串,PublishTime:字符串,子類:STRING >,
引用結構體< CorrelationId: STRING >)
使用org.apache.spark.sql。json選項(“多行”=“真正的”)
位置“dbfs: / mnt / mnt”
' ' '
計算需要這麼長時間運行,仍在階段62與754的任務。裝載200強是好事,但有一個不正確的設置需要解決。我用過的火花在AWS和減少插入覆蓋查詢1/2時間所以我想知道是否有更好的方法來設置。
它應該分區嗎?
同時,磚的工作區就是在美國東部和存儲賬戶在美國西部2 -這是罪魁禍首嗎?
' ' '
從dbo.table select count (*)
' ' '