解決:Re:如何限製在每一批數量的文件……-磚- 6831

桑傑 · ‎03-29-2023

你好,

我運行批處理作業流程的文件。我試圖限製在每個批處理文件數量所以添加maxFilesPerTrigger選項。但它不工作。它處理所有輸入文件。

(spark.readStream.format(“δ”).load (silver_path)

.writeStream

gold_checkpoint_path .option (“checkpointLocation”)

.option (“maxFilesPerTrigger”, 200年)

.trigger(一旦= True)

.foreachBatch (foreachBatchFunction)

.start ()

.awaitTermination ()

)

請建議。

問候,

桑傑

Sandeep · ‎04-03-2023

@Sanjay Jain抱歉錯過了一件事。.trigger(一旦= True)不支持速率限製器。您可以使用.trigger (availableNow = True)。

spark.readStream.format(“δ”)

.option (“maxFilesPerTrigger”, 200年)

.load (silver_path)

.writeStream

gold_checkpoint_path .option (“checkpointLocation”)

.trigger (availableNow = True)

.foreachBatch (foreachBatchFunction)

.start ()

werners1 · ‎03-30-2023

你可以嚐試與觸發= availablenow

桑傑 · ‎03-30-2023

現在嚐試可用,但它還處理所有數據進行處理。我想在批處理過程,最大200個文件我每一批雖然我有1000個文件的過程。

werners1 · ‎03-30-2023

好吧,你怎麼知道1000個文件被選中?

我問,因為三角洲湖(源代碼)也將舊版本的數據存儲,這將不會被發送到流中。身體三角洲湖可能有1000個文件但當前狀態也許隻有150個文件- > 1 microbatch。

這有可能嗎?

桑傑 · ‎03-30-2023

我已經發送1000個文件處理前層和我不想處理所有。我可以看到所有1000收到了在當前批

磚