取消
顯示的結果
而不是尋找
你的意思是:

Avro反序列化從事件捕獲和自動裝卸機中心

GilGonong
新的貢獻者三世

你好,

我得到來自Avro事件中心捕獲的數據格式和使用自動加載程序來處理它。

我進入的地方我可以閱讀Avro鑄造成一個字符串。

圖像現在我想反序列化身體列在表的格式。設法通過構建一個使用StructType json_schema()和使用中的json_schema from_json()函數然後我做writeStream三角洲表。

圖像

的問題。有一種我可以反序列化Avro數據沒有構建一個模式?事件注冊中心模式是一種選擇,我看但不確定怎麼做,在使用PySpark自動裝卸機。

歡呼,

吉爾

5回複5

UmaMahesh1
尊敬的貢獻者三世

你的注冊表服務集群模式嗎?如果是,您不需要提供顯式模式。

UmaMahesh1
尊敬的貢獻者三世

如果你仍然想要使用上麵的方法,不想提供手動模式,然後你可以拿一小批1記錄和模式構建到一個變量使用. schema選項。一旦完成,您可以添加一個新的身體列在前麵的變量通過提供模式from_json使用相同的方式。現在由於這是json格式的,無論如何可以使用爆炸功能和做的東西。

GilGonong
新的貢獻者三世

嗨@Uma Maheswara Rao Desula。

. schema甚至如果我做小批量。它隻會得到原始Avro的模式。即係統列加上身體生成的列包含實際的數據。

圖像

UmaMahesh1
尊敬的貢獻者三世

你可以建立你的模式……

模式= spark.read.json (capture_tmp.rdd。地圖(λ行:行。columnNamewithValue). schema

然後,df。withColumn (new_col, from_json(坳('yourcolumnname”)、模式)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map