pyspark.pandas.DataFrame.rank¶

DataFrame。 排名 ( 方法:str=“平均”,提升:bool=真正的,numeric_only:可選(bool]=沒有一個 )→pyspark.pandas.frame.DataFrame¶

計算數值數據(1到n)沿軸。相等的值被分配一個排名的平均值的值。

請注意

排名使用火花的窗口的當前實現不指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數

方法 {‘平均’,‘敏’,‘麥克斯’,‘第一次’,“密集”}

平均:平均等級的組
分鍾:最低等級
馬克斯:集團的最高等級
第一:排名分配順序出現在數組中
密度:像“分鍾”,但等級之間總是增加1組

提升布爾,默認的真

假的排名高(1)到低(N)

numeric_only bool,可選

對於DataFrame對象,隻有數字列設置為True。

返回

排名相同類型作為調用者

例子

           > > >df=ps。DataFrame({“一個”:(1,2,2,3),“B”:(4,3,2,1)},列=(“一個”,“B”])> > >df一個B0 1 41 2 32 2 23 3 1
          

           > > >df。排名()。sort_index()一個B0 1.0 4.01)2.5 - 3.02 2.5 - 2.03 4.0 - 1.0
          

如果方法設置為“最小值”,它使用最低級別組。

           > > >df。排名(方法=“最小值”)。sort_index()一個B0 1.0 4.01)2.0 - 3.02 2.0 - 2.03 4.0 - 1.0
          

如果方法設置為‘麥克斯’,它使用集團的最高等級。

           > > >df。排名(方法=“馬克斯”)。sort_index()一個B0 1.0 4.01)3.0 - 3.02 3.0 - 2.03 4.0 - 1.0
          

如果方法設置為“密集”,它沒有空白組。

           > > >df。排名(方法=“密集”)。sort_index()一個B0 1.0 4.01)2.0 - 3.02 2.0 - 2.03 3.0 - 1.0
          

如果numeric_only設置為“真正的”,隻有數字列排序。

           > > >df=ps。DataFrame({“一個”:(1,2,2,3),“B”:(“一個”,“b”,' d ',“c”)},列=(“一個”,“B”])> > >df一個B0 11 2 b2二維3 3 c> > >df。排名(numeric_only=真正的)一個0 1.01 2.52 2.53 4.0
          

以前的

pyspark.pandas.DataFrame.reindex_like

下一個

pyspark.pandas.DataFrame.append