pyspark.sql.DataFrame.repartition¶

DataFrame。 重新分區 ( numPartitions:聯盟(int,ColumnOrName],*關口:ColumnOrName )→DataFrame¶

返回一個新的DataFrame分區的分區表達式。由此產生的DataFrame散列分區。

參數

numPartitions int: 可以一個int指定目標分區或一列的數量。如果它是一個列,它將被用作第一個分區列。如果沒有指定,默認使用分區數量。
關口 str或列: 分區列。

添加可選參數指定分區列。也使得numPartitions如果分區列指定可選的。

例子

           > > >df。重新分區(10)。抽樣。getNumPartitions()10> > >數據=df。聯盟(df)。重新分區(“年齡”)> > >數據。顯示()+ - - - + - - - +| | |年齡的名字+ - - - + - - - +| | 2 |愛麗絲鮑勃| 5 | || | 2 |愛麗絲鮑勃| 5 | |+ - - - + - - - +> > >數據=數據。重新分區(7,“年齡”)> > >數據。顯示()+ - - - + - - - +| | |年齡的名字+ - - - + - - - +| | 2 |愛麗絲鮑勃| 5 | || | 2 |愛麗絲鮑勃| 5 | |+ - - - + - - - +> > >數據。抽樣。getNumPartitions()7> > >數據=數據。重新分區(3,“名稱”,“年齡”)> > >數據。顯示()+ - - - + - - - +| | |年齡的名字+ - - - + - - - +鮑勃| 5 | |鮑勃| 5 | || | 2 |愛麗絲| | 2 |愛麗絲+ - - - + - - - +
          

以前的

pyspark.sql.DataFrame.registerTempTable

下一個

pyspark.sql.DataFrame.repartitionByRange