pyspark.pandas.DataFrame.interpolate

DataFrame。 插入 ( 方法:str=“線性”,限製:可選(int]=沒有一個,limit_direction:可選(str]=沒有一個,limit_area:可選(str]=沒有一個 )→pyspark.pandas.frame.DataFrame

填補NaN值使用插值法。

請注意

當前實現插入使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數
方法 str,默認“線性”

插值技術來使用。之一:

  • “線性”:忽略指數和治療的值是等距的。

限製 int,可選

最大數量的連續nan來填補。必須大於0。

limit_direction str,默認沒有

連續nan將在這個方向。之一{{‘前進’,‘落後’,‘都’}}。

limit_area str,默認沒有

如果指定的限製,連續nan將充滿了這個限製。之一:

  • 沒有:沒有限製。

  • “內部”:隻有填補nan包圍有效值(插入)。

  • “外麵”:隻有填補nan有效值外(推斷)。

返回
係列DataFrame或沒有

調用者返回相同的對象類型,插值部分或全部NA值。

另請參閱

fillna

使用不同方法填補缺失值。

例子

通過線性插值填充NA。

> > >年代=ps係列([0,1,np,3])> > >年代0 0.01 1.02南3 3.0dtype: float64> > >年代插入()0 0.01 1.02 2.03 3.0dtype: float64

填補DataFrame向前(向下)每一列使用線性插值。

注意最後一個條目列a插值不同,因為沒有條目後用於插值。注意第一項列b仍然NA,之前因為沒有條目用於插值。

> > >df=psDataFrame(((0.0,np,- - - - - -1.0,1.0),(np,2.0,np,np),(2.0,3.0,np,9.0),(np,4.0,- - - - - -4.0,16.0)),=列表(“abcd”))> > >dfa b c d0 0.0南-1.0 - 1.01 2.0南南南2.0 - 3.0南至9.0點3南4.0 -4.0 16.0> > >df插入(方法=“線性”)a b c d0 0.0南-1.0 - 1.01 1.0 2.0 -2.0 5.02 2.0 - 3.0 -3.0 - 9.03所示。2.0 4.0 -4.0 16.0