pyspark.pandas.DataFrame.corr

DataFrame。 相關係數 ( 方法:str=皮爾森的 )→pyspark.pandas.frame.DataFrame

計算兩兩相關的列,不包括NA / null值。

參數
方法 {“皮爾森”、“槍兵”}
  • 皮爾森:標準的相關係數

  • 斯皮爾曼:斯皮爾曼等級相關

返回
y DataFrame

另請參閱

Series.corr

筆記

有行為差異pandas-on-Spark和熊貓。

  • 方法參數隻接受“培生”,“槍兵”

  • 數據不應該包含nan。pandas-on-Spark將返回一個錯誤。

  • pandas-on-Spark不支持以下參數(s)。

    • min_periods的觀點是不支持

例子

> > >df=psDataFrame(((2,3),(比上年,6),(6,比上年),(2,1。)),=(“狗”,“貓”])> > >df相關係數(皮爾森的)狗貓狗1.000000 - -0.851064貓-0.851064 - 1.000000
> > >df相關係數(“槍兵”)狗貓狗1.000000 - -0.948683貓-0.948683 - 1.000000