取消
顯示的結果
而不是尋找
你的意思是:

結構化流工作看到吞吐量正常運行幾天後被限製

databricksuser2
新的貢獻者二世

工作(用PySpark)使用azure eventhub水槽一樣源和使用磚三角洲的表。工作在Azure托管數據磚。

轉換部分很簡單,消息體從字節轉換為json字符串,然後添加json字符串作為一個新列,類似:

df = spark.readStream.format (eventhubs) .load () df = df。withColumn (“stringBody坳(身體).cast (stringType()))查詢= df.writeStream.format .outputMode(“δ”)(“追加”)。選項(“checkpointLocation”、“someLocation”) .toTable (“somedeltatable”)

運行的工作是好的在最初的幾天裏,我觀察eventhub的度量,入站和出站的流量是一樣的。然後我看到出站流量似乎封頂,類似圖中:

圖1起初我以為也許火花集群是強調,我檢查指標,cpu和內存使用量都低於50%,集群不是超載。

然後我以為eventhub限製出站流量出於某些原因,所以我eventhub單位吞吐量的增加,但它並沒有產生任何影響。

我在想,如果作業前幾天跑好,然後不應該有任何重大問題代碼明智的。如果集群工作沒有壓力,那不是可伸縮性問題。

我該如何解決這個問題?任何指針或方向,我們將不勝感激。

1回複1

Noopur_Nigam
重視貢獻二世

嗨@Databricks User10293847你可以嚐試使用auto-inflate,讓你自動增加。然後特征尺度自動摘要需要最大限度的,取決於你的流量的增加。你可以檢查以下文檔:

https://learn.microsoft.com/en-us/azure/event-hubs/event-hubs-auto-inflate

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map