pyspark.sql.DataFrameWriter.bucketBy

DataFrameWriter。 bucketBy ( numBuckets:int,上校:聯盟(str、列表(str)元組(str,…)),*關口:可選(str] )→pyspark.sql.readwriter.DataFrameWriter

桶的輸出給定的列。如果指定,文件係統上的輸出布局類似於蜂巢的用桶裝計劃,但不同的桶散列函數和蜂巢用桶裝的不兼容。

參數
numBuckets int

桶的數量

上校 str,列表或元組

一個列的名稱,或名稱的列表。

關口 str

額外的名稱(可選)。如果上校是一個列表應該是空的。

筆記

適用於基於文件的數據源結合DataFrameWriter.saveAsTable ()

例子

> > >(df格式(“鋪”)bucketBy(One hundred.,“年”,“月”)模式(“覆蓋”)saveAsTable(“bucketed_table”))