pyspark.sql.functions.collect_set

pyspark.sql.functions。 collect_set ( 上校:ColumnOrName )→pyspark.sql.column.Column

聚合函數:返回一組對象和消除重複的元素。

筆記

函數是不確定的,因為訂單收集的結果取決於訂單的行洗牌後可能是不確定的。

例子

> > >df2=火花createDataFrame(((2),(5),(5),(“年齡”,))> > >df2gg(array_sort(collect_set(“年齡”))別名(“c”))收集()(行(c = (2、5)))