嗨@Fiona
使用Protobuf描述符文件,您可以引用文件,可用於計算集群。這裏是這樣做的步驟:
1。進口所需的功能:
從pyspark.sql.protobuf。函數導入to_protobuf from_protobuf
2。指定的路徑描述符文件:
descriptor_file = " /路徑/ / proto_descriptor.desc "
3所示。使用from_protobuf()將一個二進製列結構:
proto_events_df = input_df.select (from_protobuf (input_df。價值,“BasicMessage”, descFilePath = descriptor_file) .alias(“原型”))
4所示。使用to_protobuf()將一個結構體列二元:
proto_binary_df = proto_events_df.select (to_protobuf (proto_events_df。原型,“BasicMessage”, descriptor_file) .alias(“字節”))
來源:
- - - - - -https://docs.www.eheci.com/structured-streaming/protocol-buffers.html