pyspark.sql.DataFrameWriter.bucketBy¶
-
DataFrameWriter。
bucketBy
( numBuckets:int,上校:聯盟(str、列表(str)元組(str,…)),*關口:可選(str] )→pyspark.sql.readwriter.DataFrameWriter¶ -
桶的輸出給定的列。如果指定,文件係統上的輸出布局類似於蜂巢的用桶裝計劃,但不同的桶散列函數和蜂巢用桶裝的不兼容。
- 參數
-
- numBuckets int
-
桶的數量
- 上校 str,列表或元組
-
一個列的名稱,或名稱的列表。
- 關口 str
-
額外的名稱(可選)。如果上校是一個列表應該是空的。
筆記
適用於基於文件的數據源結合
DataFrameWriter.saveAsTable ()
。例子
> > >(df。寫。格式(“鋪”)…。bucketBy(One hundred.,“年”,“月”)…。模式(“覆蓋”)…。saveAsTable(“bucketed_table”))