pyspark.pandas.DataFrame.interpolate¶
-
DataFrame。
插入
( 方法:str=“線性”,限製:可選(int]=沒有一個,limit_direction:可選(str]=沒有一個,limit_area:可選(str]=沒有一個 )→pyspark.pandas.frame.DataFrame¶ -
填補NaN值使用插值法。
請注意
當前實現插入使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。
- 參數
-
- 方法 str,默認“線性”
-
插值技術來使用。之一:
“線性”:忽略指數和治療的值是等距的。
- 限製 int,可選
-
最大數量的連續nan來填補。必須大於0。
- limit_direction str,默認沒有
-
連續nan將在這個方向。之一{{‘前進’,‘落後’,‘都’}}。
- limit_area str,默認沒有
-
如果指定的限製,連續nan將充滿了這個限製。之一:
沒有:沒有限製。
“內部”:隻有填補nan包圍有效值(插入)。
“外麵”:隻有填補nan有效值外(推斷)。
- 返回
-
- 係列DataFrame或沒有
-
調用者返回相同的對象類型,插值部分或全部NA值。
另請參閱
-
fillna
-
使用不同方法填補缺失值。
例子
通過線性插值填充NA。
> > >年代=ps。係列([0,1,np。南,3])> > >年代0 0.01 1.02南3 3.0dtype: float64> > >年代。插入()0 0.01 1.02 2.03 3.0dtype: float64
填補DataFrame向前(向下)每一列使用線性插值。
注意最後一個條目列a插值不同,因為沒有條目後用於插值。注意第一項列b仍然NA,之前因為沒有條目用於插值。
> > >df=ps。DataFrame(((0.0,np。南,- - - - - -1.0,1.0),…(np。南,2.0,np。南,np。南),…(2.0,3.0,np。南,9.0),…(np。南,4.0,- - - - - -4.0,16.0)),…列=列表(“abcd”))> > >dfa b c d0 0.0南-1.0 - 1.01 2.0南南南2.0 - 3.0南至9.0點3南4.0 -4.0 16.0> > >df。插入(方法=“線性”)a b c d0 0.0南-1.0 - 1.01 1.0 2.0 -2.0 5.02 2.0 - 3.0 -3.0 - 9.03所示。2.0 4.0 -4.0 16.0