pyspark.pandas.DataFrame.fillna¶

DataFrame。 fillna ( 價值:(任何工會,Dict[聯盟[任何元組[,…]],任何),沒有一個)=沒有一個,方法:可選(str]=沒有一個,軸:聯盟(int, str,沒有)=沒有一個,原地:bool=假,限製:可選(int]=沒有一個 )→可選(pyspark.pandas.frame.DataFrame] ¶

填補NA / NaN值。

請注意

當前的實現方法的參數在fillna使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數

價值標量、dict係列: 值用來填補。時而dict /一係列值為每一列指定使用哪一個值。不支持DataFrame。
方法 {“回填”、“bfill”,“墊”,“ffill”,沒有},默認沒有: 方法用於填補重建索引係列墊/ ffill:傳播持續有效的觀察期待明年有效回填/ bfill:使用下一個有效的觀察來填補缺口
軸 {0或指數}: 1,列不受支持。
原地布爾,默認的錯誤: 填寫的地方(不創建一個新的對象)
限製 int,默認沒有: 如果指定方法,這是最大數量的連續向前/向後填補NaN值。換句話說,如果有差距超過這個數字的連續nan,隻有部分填滿。如果沒有指定方法,這是沿著整個軸的最大條目數,nan將填滿。必須大於0如果不是沒有

返回

DataFrame: DataFrame NA條目了。

例子

           > > >df=ps。DataFrame({…“一個”:(沒有一個,3,沒有一個,沒有一個),…“B”:(2,4,沒有一個,3),…“C”:(沒有一個,沒有一個,沒有一個,1),…' D ':(0,1,5,4]…},…列=(“一個”,“B”,“C”,' D '])> > >dfA B C D0南南2.0 01 3.0 - 4.0南12南南南53南3.0 - 1.0 4
          

南所有元素替換為0。

           > > >df。fillna(0)A B C D0 0.0 2.0 0.0 01 3.0 4.0 0.0 12 0.0 0.0 0.0 53 0.0 3.0 1.0 4
          

我們也可以向前或向後傳播非空值。

           > > >df。fillna(方法=“ffill”)A B C D0南南2.0 01 3.0 - 4.0南12 3.0 - 4.0南53 3.0 3.0 1.0 4
          

替換所有南元素列' A ', ' B ', ' C ',和' D ', 0、1、2和3分別。

           > > >值={“一個”:0,“B”:1,“C”:2,' D ':3}> > >df。fillna(價值=值)A B C D0 0.0 2.0 2.0 01 3.0 4.0 2.0 12 0.0 1.0 2.0 53 0.0 3.0 1.0 4
          

以前的

pyspark.pandas.DataFrame.dropna

下一個

pyspark.pandas.DataFrame.replace