pyspark.pandas.DataFrame.diff¶

DataFrame。 diff ( 期:int=1,軸:聯盟(int,str]=0 )→pyspark.pandas.frame.DataFrame¶

第一個離散元素的差異。

計算的差異DataFrame DataFrame中的元素與另一個元素(默認是元素在同一列的行)。

請注意

當前實現diff使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數

期 int,默認1: 時期轉變為計算差異,接受負值。
軸 int,默認0或“指數”: 目前隻能設置為0。

返回

dif DataFrame

例子

           > > >df=ps。DataFrame({“一個”:(1,2,3,4,5,6),…“b”:(1,1,2,3,5,8),…“c”:(1,4,9,16,25,36)},列=(“一個”,“b”,“c”])> > >dfa b c0 1 1 11 2 1 42 3 2 93 4 3 164 5 5 255 6 8 36
          

           > > >df。diff()a b c0南南南1 1.0 0.0 3.02 1.0 1.0 5.03 1.0 1.0 7.04 1.0 2.0 9.05 1.0 3.0 11.0
          

與前一列的差異

           > > >df。diff(期=3)a b c0南南南1南南南2南南南3 3.0 2.0 15.04 3.0 4.0 21.05 3.0 6.0 27.0
          

不同之處在於以下行

           > > >df。diff(期= -1)a b c0 -1.0 0.0 -3.01 -1.0 -1.0 -5.02 -1.0 -1.0 -7.03 -1.0 -2.0 -9.04 -1.0 -3.0 -11.05南南南
          

以前的

pyspark.pandas.DataFrame.round

下一個

pyspark.pandas.DataFrame.eval