配置構建流媒體批大小磚

限製輸入率為結構化流查詢有助於保持一致的批量大小和防止大批量導致泄漏和層疊micro-batch處理延遲。

磚結構提供了相同的選項來控製流批處理大小為三角洲湖和自動加載程序。

限製輸入與maxFilesPerTrigger率

設置maxFilesPerTrigger(或cloudFiles.maxFilesPerTrigger自動加載程序)指定一個上限的數量在每個micro-batch文件處理。三角洲湖和自動加載器默認是1000。(注意,這個選項也出現在Apache引發其他文件來源,沒有默認馬克斯。)

限製輸入與maxBytesPerTrigger率

設置maxBytesPerTrigger(或cloudFiles.maxBytesPerTrigger自動加載程序)集的“軟馬克斯”在每個micro-batch處理的數據量。這意味著一批過程大約這個過程的數據量,可能超過極限為了使流查詢前進情況下的最小輸入單位超過這個極限。沒有默認的設置。

例如,如果您指定一個字節字符串等10克限製每個microbatch 10 GB 3 GB的數據和文件,磚過程microbatch 12 GB。

設置多個輸入率

如果你使用maxBytesPerTrigger結合maxFilesPerTrigger,micro-batch過程數據,直到達到的下限maxFilesPerTriggermaxBytesPerTrigger

限製輸入率其他結構化流源

流源如Apache卡夫卡都有自定義輸入限製,如maxOffsetsPerTrigger。更多細節,請參閱在磚處理流數據來源