工作(用PySpark)使用azure eventhub水槽一樣源和使用磚三角洲的表。工作在Azure托管數據磚。
轉換部分很簡單,消息體從字節轉換為json字符串,然後添加json字符串作為一個新列,類似:
df = spark.readStream.format (eventhubs) .load () df = df。withColumn (“stringBody坳(身體).cast (stringType()))查詢= df.writeStream.format .outputMode(“δ”)(“追加”)。選項(“checkpointLocation”、“someLocation”) .toTable (“somedeltatable”)
運行的工作是好的在最初的幾天裏,我觀察eventhub的度量,入站和出站的流量是一樣的。然後我看到出站流量似乎封頂,類似圖中:
起初我以為也許火花集群是強調,我檢查指標,cpu和內存使用量都低於50%,集群不是超載。
然後我以為eventhub限製出站流量出於某些原因,所以我eventhub單位吞吐量的增加,但它並沒有產生任何影響。
我在想,如果作業前幾天跑好,然後不應該有任何重大問題代碼明智的。如果集群工作沒有壓力,那不是可伸縮性問題。
我該如何解決這個問題?任何指針或方向,我們將不勝感激。
嗨@Databricks User10293847你可以嚐試使用auto-inflate,讓你自動增加。然後特征尺度自動摘要需要最大限度的,取決於你的流量的增加。你可以檢查以下文檔:
https://learn.microsoft.com/en-us/azure/event-hubs/event-hubs-auto-inflate