pyspark.pandas.Series.diff

係列。 diff ( :int=1 )→pyspark.pandas.series.Series

第一個離散元素的差異。

計算一係列元素的不同而DataFrame中的另一個元素的元素在同一列(默認是前一行)。

請注意

當前實現diff使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數
int,默認1

時期轉變為計算差異,接受負值。

返回
dif 係列

例子

> > >df=psDataFrame({“一個”:(1,2,3,4,5,6),“b”:(1,1,2,3,5,8),“c”:(1,4,9,16,25,36)},=(“一個”,“b”,“c”])> > >dfa b c0 1 1 11 2 1 42 3 2 93 4 3 164 5 5 255 6 8 36
> > >dfbdiff()0南1 0.02 1.03 1.04 2.05 3.0名稱:b, dtype: float64

與前一個值的差異

> > >dfcdiff(=3)0南1南2南3 15.04 21.05 27.0名稱:c, dtype: float64

與下麵的差異值

> > >dfcdiff(= -1)0 -3.01 -5.02 -7.03 -9.04 -11.05南名稱:c, dtype: float64