pyspark.pandas.Series.rank

係列。 排名 ( 方法:str=“平均”,提升:bool=真正的,numeric_only:可選(bool]=沒有一個 )→pyspark.pandas.series.Series

計算數值數據(1到n)沿軸。相等的值被分配一個排名的平均值的值。

請注意

排名使用火花的窗口的當前實現不指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。

參數
方法 {‘平均’,‘敏’,‘麥克斯’,‘第一次’,“密集”}
  • 平均:平均等級的組

  • 分鍾:最低等級

  • 馬克斯:集團的最高等級

  • 第一:排名分配順序出現在數組中

  • 密度:像“分鍾”,但等級之間總是增加1組

提升 布爾,默認的真

假的排名高(1)到低(N)

numeric_only bool,可選

如果設置為True,等級數字係列,或返回一個空係列非數字係列

返回
排名 相同類型作為調用者

例子

> > >年代=ps係列([1,2,2,3),的名字=“一個”)> > >年代0 11 22 - 23個3名稱:dtype: int64
> > >年代排名()0 1.01 2.52 2.53 4.0名稱:dtype: float64

如果方法設置為“最小值”,它使用最低級別組。

> > >年代排名(方法=“最小值”)0 1.01 2.02 2.03 4.0名稱:dtype: float64

如果方法設置為‘麥克斯’,它使用集團的最高等級。

> > >年代排名(方法=“馬克斯”)0 1.01 3.02 3.03 4.0名稱:dtype: float64

如果方法設置為‘第一次’,它分配等級沒有組。

> > >年代排名(方法=“第一”)0 1.01 2.02 3.03 4.0名稱:dtype: float64

如果方法設置為“密集”,它沒有空白組。

> > >年代排名(方法=“密集”)0 1.01 2.02 2.03 3.0名稱:dtype: float64

如果numeric_only設置為“真”,排名僅數字係列,否則返回一個空序列。

> > >年代=ps係列([“一個”,“b”,“c”),的名字=“一個”,指數=(“x”,“y”,“z”])> > >年代x一個y bz c名稱:dtype:對象
> > >年代排名(numeric_only=真正的)係列([],名字:dtype: float64)