取消
顯示的結果
而不是尋找
你的意思是:

依靠外部表Azure數據存儲在太長了

enavuio
新的貢獻者二世

我已經創建了一個外部表代湖Azure數據存儲。

容器有大約200 k Json文件。

創建json文件的結構

' ' '

如果不存在dbo.table創建外部表(

ComponentInfo STRUCT < ComponentHost:字符串,ComponentId:字符串,ComponentName:字符串,ComponentVersion:字符串,子係統:STRING >,

CorrelationId字符串,

事件結構<類別:字符串,EventName:字符串、消息id:字符串,PublishTime:字符串,子類:STRING >,

引用結構體< CorrelationId: STRING >)

使用org.apache.spark.sql。json選項(“多行”=“真正的”)

位置“dbfs: / mnt / mnt”

' ' '

計算需要這麼長時間運行,仍在階段62與754的任務。裝載200強是好事,但有一個不正確的設置需要解決。我用過的火花在AWS和減少插入覆蓋查詢1/2時間所以我想知道是否有更好的方法來設置。

它應該分區嗎?

同時,磚的工作區就是在美國東部和存儲賬戶在美國西部2 -這是罪魁禍首嗎?

' ' '

從dbo.table select count (*)

' ' '

2回答2

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,瞬態網絡問題可能是一個問題。您可以參考https://learn.microsoft.com/en-us/azure/azure-sql/database/troubleshoot-common-errors-issues?view=az..。。此外,這將是更好的提高azure支持案例的背景網絡活動可以檢查如果整個環境設置在azure。

Vidula_Khanna
主持人
主持人

嗨@Ena Vu

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

Baidu
map