閱讀protobuf文件在磚筆記本-磚- 38295

霏歐納 · 兩個星期前

我有原型文件(離線數據存儲),我想讀一個磚筆記本。我發現這個文檔(https://docs.www.eheci.com/structured-streaming/protocol-buffers.html),但它隻涵蓋了如何閱讀protobuf數據一旦二進製DataFrame已經。我怎麼在首先讀取二進製數據嗎?

Priyanka_Biswas · 兩個星期前

嗨@Fiona
使用Protobuf描述符文件,您可以引用文件,可用於計算集群。這裏是這樣做的步驟:

1。進口所需的功能:

從pyspark.sql.protobuf。函數導入to_protobuf from_protobuf

2。指定的路徑描述符文件:

descriptor_file = " /路徑/ / proto_descriptor.desc "

3所示。使用from_protobuf()將一個二進製列結構:

proto_events_df = input_df.select (from_protobuf (input_df。價值,“BasicMessage”, descFilePath = descriptor_file) .alias(“原型”))

4所示。使用to_protobuf()將一個結構體列二元:

proto_binary_df = proto_events_df.select (to_protobuf (proto_events_df。原型,“BasicMessage”, descriptor_file) .alias(“字節”))

來源:
- - - - - -https://docs.www.eheci.com/structured-streaming/protocol-buffers.html

霏歐納 · 兩個星期前

這就跟你問聲好！是的,我認為我明白了一切,但我不知道如何創建“input_df”一個文件的多個protobuf記錄,如果這是有意義的

磚

在一個磚筆記本讀protobuf文件