再保險:Avro反序列化從事件中心捕獲一個…-磚- 16974

GilGonong · ‎12-13-2022

你好,

我得到來自Avro事件中心捕獲的數據格式和使用自動加載程序來處理它。

我進入的地方我可以閱讀Avro鑄造成一個字符串。

現在我想反序列化身體列在表的格式。設法通過構建一個使用StructType json_schema()和使用中的json_schema from_json()函數然後我做writeStream三角洲表。

的問題。有一種我可以反序列化Avro數據沒有構建一個模式?事件注冊中心模式是一種選擇,我看但不確定怎麼做,在使用PySpark自動裝卸機。

歡呼,

吉爾

UmaMahesh1 · ‎12-13-2022

你的注冊表服務集群模式嗎?如果是,您不需要提供顯式模式。

UmaMahesh1 · ‎12-13-2022

如果你仍然想要使用上麵的方法,不想提供手動模式,然後你可以拿一小批1記錄和模式構建到一個變量使用. schema選項。一旦完成,您可以添加一個新的身體列在前麵的變量通過提供模式from_json使用相同的方式。現在由於這是json格式的,無論如何可以使用爆炸功能和做的東西。

GilGonong · ‎12-14-2022

嗨@Uma Maheswara Rao Desula。

. schema甚至如果我做小批量。它隻會得到原始Avro的模式。即係統列加上身體生成的列包含實際的數據。

UmaMahesh1 · ‎12-14-2022

你可以建立你的模式……

模式= spark.read.json (capture_tmp.rdd。地圖(λ行:行。columnNamewithValue). schema

然後,df。withColumn (new_col, from_json(坳('yourcolumnname”)、模式)

磚