再保險:預期的延遲/批處理時間為一個簡單的…-磚- 27584

埃裏克 · ‎02-20-2022

什麼是“合理的”/“正常”批處理時間方便(沒有真正處理,隻是添加一些簡單的字段)流工作到/從三角洲湖嗎?我們已經建立了一個簡單的測試情況,我們從azure事件中心生成新的消息流每2秒到一個增量表(稱為青銅),我們發現,如果這個獨自運行Standard_E8ds_v4(8個核心,64 gb) outputMode(“追加”)得到批時間約3 - 4秒。這是一組典型的指標:

“durationMs”: {“addBatch”: 3366年,“getBatch”: 12日“getOffset”: 74年,“queryPlanning”: 16日,“triggerExecution”: 3904年,“walCommit”: 330},

如果我添加一個銀級流(差值表的差值表)這張照片是大致相同的。

我的問題:這是像預期的那樣嗎?火花文檔中;②持續當我讀到關於處理[1]有談論~ 100毫秒為默認微配料(不是連續處理)。但這可能是內存之間的源/彙嗎?有技巧的延遲?

1:https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html continuous-processi……

Kaniz · ‎02-20-2022

嗨@Erik Parmann !我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

Kaniz · ‎02-23-2022

嗨@Erik Parmann,

在流處理,我們處理數據在存儲層,隻要它的到來——這也常常是非常接近的時間生成(但不總是這樣)。

這通常是在次秒級時間為最終用戶實時的處理。

這些操作通常不會有狀態,或者隻能存儲一個“小”的狀態,所以通常會涉及到一個相對簡單的轉換或計算。

埃裏克 · ‎02-26-2022

我理解你的問題回答的處理時間* *δ湖。但是延遲多久應該期望一個流,兩個* *和* *三角洲湖嗎?在我看來,寫信給一個三角洲湖總是至少3 - 4秒,我想知道,在預料之中嗎?

Kaniz · ‎03-02-2022

嗨@Erik Parmann,如果你不斷寫數據到表δ,它會隨著時間的推移積累大量的文件,特別是如果你在小批量添加數據。這可以在表讀取的效率有不利影響,它也會影響您的文件係統的性能。

理想情況下,大量的小文件應該改寫成一個小數量的大文件定期。這就是所謂的壓實。

你可以壓縮表通過實現一個小數量的文件。此外,您可以指定選項

dataChange是假表明操作不會改變的數據,隻將數據布局。這將確保其他並發操作是由於壓實操作的影響最小。

源

磚

預計延遲/批處理時間為一個簡單的流媒體工作嗎?