結構化流工作看到吞吐量被帽……-磚- 33328

databricksuser2 · ‎08-27-2022

工作(用PySpark)使用azure eventhub水槽一樣源和使用磚三角洲的表。工作在Azure托管數據磚。

轉換部分很簡單,消息體從字節轉換為json字符串,然後添加json字符串作為一個新列,類似:

df = spark.readStream.format (eventhubs) .load () df = df。withColumn (“stringBody坳(身體).cast (stringType()))查詢= df.writeStream.format .outputMode(“δ”)(“追加”)。選項(“checkpointLocation”、“someLocation”) .toTable (“somedeltatable”)

運行的工作是好的在最初的幾天裏,我觀察eventhub的度量,入站和出站的流量是一樣的。然後我看到出站流量似乎封頂,類似圖中:

起初我以為也許火花集群是強調,我檢查指標,cpu和內存使用量都低於50%,集群不是超載。

然後我以為eventhub限製出站流量出於某些原因,所以我eventhub單位吞吐量的增加,但它並沒有產生任何影響。

我在想,如果作業前幾天跑好,然後不應該有任何重大問題代碼明智的。如果集群工作沒有壓力,那不是可伸縮性問題。

我該如何解決這個問題?任何指針或方向,我們將不勝感激。

Noopur_Nigam · ‎09-29-2022

嗨@Databricks User10293847你可以嚐試使用auto-inflate,讓你自動增加。然後特征尺度自動摘要需要最大限度的,取決於你的流量的增加。你可以檢查以下文檔:

https://learn.microsoft.com/en-us/azure/event-hubs/event-hubs-auto-inflate

磚

結構化流工作看到吞吐量正常運行幾天後被限製