pyspark.pandas.DataFrame.corr¶
-
DataFrame。
相關係數
( 方法:str=皮爾森的 )→pyspark.pandas.frame.DataFrame¶ -
計算兩兩相關的列,不包括NA / null值。
- 參數
-
- 方法 {“皮爾森”、“槍兵”}
-
皮爾森:標準的相關係數
斯皮爾曼:斯皮爾曼等級相關
- 返回
-
- y DataFrame
另請參閱
筆記
有行為差異pandas-on-Spark和熊貓。
的方法參數隻接受“培生”,“槍兵”
數據不應該包含nan。pandas-on-Spark將返回一個錯誤。
pandas-on-Spark不支持以下參數(s)。
min_periods的觀點是不支持
例子
> > >df=ps。DataFrame(((2,3),(比上年,6),(6,比上年),(2,1。)),…列=(“狗”,“貓”])> > >df。相關係數(皮爾森的)狗貓狗1.000000 - -0.851064貓-0.851064 - 1.000000
> > >df。相關係數(“槍兵”)狗貓狗1.000000 - -0.948683貓-0.948683 - 1.000000