pyspark.sql.DataFrame.withColumn

DataFrame。 withColumn ( colName:str,上校:pyspark.sql.column.Column )→pyspark.sql.dataframe.DataFrame

返回一個新的DataFrame通過添加一個列或替換現有的列有相同的名字。

列表達式必須是一個表達式DataFrame;從其他試圖添加一個列DataFrame將提高一個錯誤。

參數
colName str

字符串,新列的名稱。

上校

一個新列的表達式。

筆記

該方法引入了一個投影在內部。因此,多次調用它,例如,通過循環以增加多個列可以產生大的計劃,甚至可能導致性能問題StackOverflowException。為了避免這種情況,使用select ()與多個列。

例子

> > >dfwithColumn(“age2”,df年齡+2)收集()行(年齡= 2,name =“愛麗絲”,age2 = 4)、行(= 5歲name =“鮑勃”,age2 = 7))