解決:觸發器。可用Now does not support maxOffsetsPe... - Databricks - 24566

買賣聖職 · ‎03-25-2022

你好,

我跑一個火花流Trigger.AvailableNow工作從卡夫卡攝取數據測試。

環境工作運行是什麼?

1:磚10.3運行時

2:Azure雲

3:1驅動節點+ 3工作節點(14 gb, 4芯)

val maxOffsetsPerTrigger = " 500 "

spark.conf.set (“spark.databricks.delta.autoCompact.enabled”、“汽車”)

…

val rdf =火花

.readStream

.format(“卡夫卡”)

.option (“kafka.security。協議”、“SASL_PLAINTEXT”)

.option (“kafka.sasl。機製”、“安全- sha - 512”)

.option (“kafka.sasl.jaas。配置”、“< >”)

.option (“kafka.bootstrap。服務器,服務器)

.option(“訂閱”,主題)

.option (“startingOffsets”、“最早”)

maxOffsetsPerTrigger .option (“maxOffsetsPerTrigger”)

.load ()

rdf.writeStream

.format(“δ”)

.outputMode(“追加”)

.option (“mergeSchema”,“真正的”)

ckpPath .option (“checkpointLocation”)

.trigger (Trigger.AvailableNow)

.start (tabPath)

.awaitTermination ()

我希望看到:

1:火花流從卡夫卡工作可以讀取所有數據,然後退出

2:火花流將為每個微批maxOffsetsPerTrigger

我所看到的:

卡夫卡的話題有四個分區,需要5個小時生成4大數據文件。

- 00000 - 89 -一部分afacf1 f2e6 - 4904 b313 - 080 - d48034859 c000.snappy.parquet

3/25/2022,9:50:48點

熱(推斷)

塊團

14.39直布羅陀海峽

可用

部分- 00001 cf932ee2 - 8535 - 4 - dd6 9 - dab - e94b9292a438 c000.snappy.parquet

3/25/2022,6:15:36點

熱(推斷)

塊團

14.38直布羅陀海峽

可用

部分- 00002 - 7 - d481793 10 - dc - 4739 - 8甜2 - 972 - cb6f18fd6 c000.snappy.parquet

3/25/2022,6:15:22點

熱(推斷)

塊團

14.41直布羅陀海峽

可用

部分- 00003 - 17 - c88f26 f152 - 4 - b27 - 80 - cf - 5 - ae372662950 c000.snappy.parquet

3/25/2022,9:48:14點

熱(推斷)

塊團

14.43直布羅陀海峽

可用

買賣聖職 · ‎03-28-2022

@Karli Watsica,謝謝幫助。這個問題已經被修複在磚10.4和3.3火花。

(火花- 36649)[SQL]支持觸發。可用Now on Kafka data source

https://docs.www.eheci.com/release-notes/runtime/10.4.html

在原帖子查看解決方案

Eulaliasw · ‎03-27-2022

我們正在堅持不懈地工作以提高我們的特性基於這樣的反饋,所以我一定要分享你的請求API產品團隊。

美國郵政總局liteblue

買賣聖職 · ‎03-28-2022

@Karli Watsica,謝謝幫助。這個問題已經被修複在磚10.4和3.3火花。

(火花- 36649)[SQL]支持觸發。可用Now on Kafka data source

https://docs.www.eheci.com/release-notes/runtime/10.4.html

匿名 · ‎03-29-2022

你最好與1個節點12比3核心節點4。你打亂會更好一個1的機器。

磚

Trigger.AvailableNowdoes not support maxOffsetsPerTrigger in Databricks runtime 10.3