你好,
我跑一個火花流Trigger.AvailableNow工作從卡夫卡攝取數據測試。
環境工作運行是什麼?
1:磚10.3運行時
2:Azure雲
3:1驅動節點+ 3工作節點(14 gb, 4芯)
val maxOffsetsPerTrigger = " 500 "
spark.conf.set (“spark.databricks.delta.autoCompact.enabled”、“汽車”)
…
val rdf =火花
.readStream
.format(“卡夫卡”)
.option (“kafka.security。協議”、“SASL_PLAINTEXT”)
.option (“kafka.sasl。機製”、“安全- sha - 512”)
.option (“kafka.sasl.jaas。配置”、“< >”)
.option (“kafka.bootstrap。服務器,服務器)
.option(“訂閱”,主題)
.option (“startingOffsets”、“最早”)
maxOffsetsPerTrigger .option (“maxOffsetsPerTrigger”)
.load ()
rdf.writeStream
.format(“δ”)
.outputMode(“追加”)
.option (“mergeSchema”,“真正的”)
ckpPath .option (“checkpointLocation”)
.trigger (Trigger.AvailableNow)
.start (tabPath)
.awaitTermination ()
我希望看到:
1:火花流從卡夫卡工作可以讀取所有數據,然後退出
2:火花流將為每個微批maxOffsetsPerTrigger
我所看到的:
卡夫卡的話題有四個分區,需要5個小時生成4大數據文件。
- 00000 - 89 -一部分afacf1 f2e6 - 4904 b313 - 080 - d48034859 c000.snappy.parquet
3/25/2022,9:50:48點
熱(推斷)
塊團
14.39直布羅陀海峽
可用
部分- 00001 cf932ee2 - 8535 - 4 - dd6 9 - dab - e94b9292a438 c000.snappy.parquet
3/25/2022,6:15:36點
熱(推斷)
塊團
14.38直布羅陀海峽
可用
部分- 00002 - 7 - d481793 10 - dc - 4739 - 8甜2 - 972 - cb6f18fd6 c000.snappy.parquet
3/25/2022,6:15:22點
熱(推斷)
塊團
14.41直布羅陀海峽
可用
部分- 00003 - 17 - c88f26 f152 - 4 - b27 - 80 - cf - 5 - ae372662950 c000.snappy.parquet
3/25/2022,9:48:14點
熱(推斷)
塊團
14.43直布羅陀海峽
可用
@Karli Watsica,謝謝幫助。這個問題已經被修複在磚10.4和3.3火花。
(火花- 36649)[SQL]支持觸發。可用Now on Kafka data source