你好,
我從Azure事件中心和讀取數據操作與數據後我寫dataframe回到事件中心(我使用這個連接器的):
#讀取數據df =(火花。readStream .format (eventhubs) .options (* * ehConf) .load()) #一些數據操作# ds = df \ .select寫入數據(“身體”、“partitionKey”) \ .writeStream \ .format (eventhubs) \ .options (* * output_ehConf) \ .option (“checkpointLocation”、“checkpoin / eventhub-to-eventhub / savestate.txt”) \ .trigger (processingTime =“1秒”)\ .start ()
在這種情況下,我得到了存儲成本高,遠遠超過我計算成本(4次)。交易費用是由大量的存儲:
我試圖減少交易的數量通過processingTime觸發,但並沒有帶來任何顯著的結果(對我來說,一個最小的延遲)是至關重要的。
問題:我正確使用結構化流,如果是這樣,我怎麼能優化存儲成本?
謝謝你的時間!