你好,每個人。
現在我試著實現與Pyspark火花結構化流。我想在單行合並多個行數組和水槽為另一個服務使用下遊消息隊列。相關示例可以遵循:
*之前
| col1 |
| {“a”: 1、“b”: 2} |
| {“b”,“a”: 2: 3} |
*後
| col1 |
| ({“a”: 1、“b”: 2}, {“b”,“a”: 2: 3}] |
我調查後,可以稱之為“collect_list()的過程。但這個函數將收集數據來驅動,所以有一些導致司機節點伯父的風險。特別是,我也觀察了火花結構化流媒體應用在磚的工作指標。確實有駕駛內存使用量不斷增加和伯父發生錯誤。
基於這種情況,我們可以有一個更好的解決方案來解決這個問題,避免司機節點同時伯父嗎?如果你有任何想法,請分享它。我將很感激。