pyspark.pandas.DataFrame.update

DataFrame。 更新 ( 其他:pyspark.pandas.frame.DataFrame,加入:str=“左”,覆蓋:bool=真正的 )→沒有

從另一個DataFrame使用non-NA值修改到位。將指數。沒有返回值。

參數
其他 DataFrame或係列
加入 “左”,默認“左”

隻剩下加入實現,保持原始對象的索引和列。

覆蓋 bool,默認的真

如何處理non-NA重疊的鍵值:

  • 事實:覆蓋原始DataFrame與值的值其他

  • 假:隻有原始DataFrame NA的更新值。

返回
沒有一個 方法直接改變調用對象

另請參閱

DataFrame.merge

列(s)列上(s)操作。

DataFrame.join

另一個DataFrame的連接列。

DataFrame.hint

指定當前DataFrame一些提示。

廣播

標誌著DataFrame作為使用廣播加入足夠小。

例子

> > >df=psDataFrame({“一個”:(1,2,3),“B”:(400年,500年,600年)},=(“一個”,“B”])> > >new_df=psDataFrame({“B”:(4,5,6),“C”:(7,8,9)},=(“B”,“C”])> > >df更新(new_df)> > >dfsort_index()一個B0 1 41 2 52 3 6

DataFrame的長度不會增加的結果更新,隻值匹配索引/列標簽更新。

> > >df=psDataFrame({“一個”:(“一個”,“b”,“c”),“B”:(“x”,“y”,“z”)},=(“一個”,“B”])> > >new_df=psDataFrame({“B”:(' d ',“e”,“f”,‘g’,“h”,“我”)},=(“B”])> > >df更新(new_df)> > >dfsort_index()一個B0 d1 b e2 c f

係列,它的名字屬性必須設置。

> > >df=psDataFrame({“一個”:(“一個”,“b”,“c”),“B”:(“x”,“y”,“z”)},=(“一個”,“B”])> > >new_column=ps係列([' d ',“e”),的名字=“B”,指數=(0,2])> > >df更新(new_column)> > >dfsort_index()一個B0 d1 b y2 c e

如果其他包含沒有相應的值不是原始dataframe更新。

> > >df=psDataFrame({“一個”:(1,2,3),“B”:(400年,500年,600年)},=(“一個”,“B”])> > >new_df=psDataFrame({“B”:(4,沒有一個,6)},=(“B”])> > >df更新(new_df)> > >dfsort_index()一個B0 1 4.01 2 500.02 3 6.0