高成本的存儲在使用結構化streami……-磚- 9706

lnights · ‎02-08-2023

你好,

我從Azure事件中心和讀取數據操作與數據後我寫dataframe回到事件中心(我使用這個連接器的):

#讀取數據df =(火花。readStream .format (eventhubs) .options (* * ehConf) .load()) #一些數據操作# ds = df \ .select寫入數據(“身體”、“partitionKey”) \ .writeStream \ .format (eventhubs) \ .options (* * output_ehConf) \ .option (“checkpointLocation”、“checkpoin / eventhub-to-eventhub / savestate.txt”) \ .trigger (processingTime =“1秒”)\ .start ()

在這種情況下,我得到了存儲成本高,遠遠超過我計算成本(4次)。交易費用是由大量的存儲:

我試圖減少交易的數量通過processingTime觸發,但並沒有帶來任何顯著的結果(對我來說,一個最小的延遲)是至關重要的。

問題:我正確使用結構化流,如果是這樣,我怎麼能優化存儲成本?

謝謝你的時間!

Debayan · ‎02-09-2023

你好,請您參考//www.eheci.com/blog/2022/10/18/best-practices-cost-management-databricks.html讓我們知道如果這可以幫助嗎?

lnights · ‎02-10-2023

Debayan,謝謝你的建議,我閱讀這篇文章,但這並沒有回答我的問題。

我隻是學習如何使用磚,也許這些成本結構化流處理是正常的嗎?

Vidula_Khanna · ‎02-12-2023

嗨@Serhii Dovhanich

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

磚

高成本的存儲在使用結構化的流