pyspark.pandas.DataFrame.interpolate¶

DataFrame。 插入 ( 方法:str=“線性”,限製:可選(int]=沒有一個,limit_direction:可選(str]=沒有一個,limit_area:可選(str]=沒有一個 )→pyspark.pandas.frame.DataFrame¶

填補NaN值使用插值法。

請注意

當前實現插入使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數

方法 str,默認“線性”

插值技術來使用。之一:

“線性”:忽略指數和治療的值是等距的。

限製 int,可選

最大數量的連續nan來填補。必須大於0。

limit_direction str,默認沒有

連續nan將在這個方向。之一{{‘前進’,‘落後’,‘都’}}。

limit_area str,默認沒有

如果指定的限製,連續nan將充滿了這個限製。之一:

沒有:沒有限製。
“內部”:隻有填補nan包圍有效值(插入)。
“外麵”:隻有填補nan有效值外(推斷)。

返回

係列DataFrame或沒有: 調用者返回相同的對象類型,插值部分或全部NA值。

另請參閱

fillna: 使用不同方法填補缺失值。

例子

通過線性插值填充NA。

           > > >年代=ps。係列([0,1,np。南,3])> > >年代0 0.01 1.02南3 3.0dtype: float64> > >年代。插入()0 0.01 1.02 2.03 3.0dtype: float64
          

填補DataFrame向前(向下)每一列使用線性插值。

注意最後一個條目列a插值不同,因為沒有條目後用於插值。注意第一項列b仍然NA,之前因為沒有條目用於插值。

           > > >df=ps。DataFrame(((0.0,np。南,- - - - - -1.0,1.0),…(np。南,2.0,np。南,np。南),…(2.0,3.0,np。南,9.0),…(np。南,4.0,- - - - - -4.0,16.0)),…列=列表(“abcd”))> > >dfa b c d0 0.0南-1.0 - 1.01 2.0南南南2.0 - 3.0南至9.0點3南4.0 -4.0 16.0> > >df。插入(方法=“線性”)a b c d0 0.0南-1.0 - 1.01 1.0 2.0 -2.0 5.02 2.0 - 3.0 -3.0 - 9.03所示。2.0 4.0 -4.0 16.0
          

以前的

pyspark.pandas.DataFrame.ffill

下一個

pyspark.pandas.DataFrame.pivot_table