pyspark.sql.DataFrame.withColumn¶
-
DataFrame。
withColumn
( colName:str,上校:pyspark.sql.column.Column )→pyspark.sql.dataframe.DataFrame¶ -
返回一個新的
DataFrame
通過添加一個列或替換現有的列有相同的名字。列表達式必須是一個表達式
DataFrame
;從其他試圖添加一個列DataFrame
將提高一個錯誤。筆記
該方法引入了一個投影在內部。因此,多次調用它,例如,通過循環以增加多個列可以產生大的計劃,甚至可能導致性能問題StackOverflowException。為了避免這種情況,使用
select ()
與多個列。例子
> > >df。withColumn(“age2”,df。年齡+2)。收集()行(年齡= 2,name =“愛麗絲”,age2 = 4)、行(= 5歲name =“鮑勃”,age2 = 7))