你好,
我得到來自Avro事件中心捕獲的數據格式和使用自動加載程序來處理它。
我進入的地方我可以閱讀Avro鑄造成一個字符串。
現在我想反序列化身體列在表的格式。設法通過構建一個使用StructType json_schema()和使用中的json_schema from_json()函數然後我做writeStream三角洲表。
的問題。有一種我可以反序列化Avro數據沒有構建一個模式?事件注冊中心模式是一種選擇,我看但不確定怎麼做,在使用PySpark自動裝卸機。
歡呼,
吉爾
你可以建立你的模式……
模式= spark.read.json (capture_tmp.rdd。地圖(λ行:行。columnNamewithValue). schema
然後,df。withColumn (new_col, from_json(坳('yourcolumnname”)、模式)