相關¶
-
類
pyspark.ml.stat。
相關
¶ -
計算的輸入數據集的相關矩陣向量使用指定的方法。目前支持方法:皮爾森(默認),斯皮爾曼。
筆記
的斯皮爾曼等級相關,我們需要創建一個抽樣(雙)對於每一列,它為了檢索中,然後加入列回一個抽樣(向量),這是相當昂貴的。在調用corr緩存輸入數據集方法=“槍兵”為了避免再計算常見的血統。
方法
相關係數
(數據集,列[方法])使用數據集計算相關矩陣與指定的方法。
方法的文檔
-
靜態
相關係數
( 數據集:pyspark.sql.dataframe.DataFrame,列:str,方法:str=皮爾森的 )→pyspark.sql.dataframe.DataFrame¶ -
使用數據集計算相關矩陣與指定的方法。
- 參數
-
-
數據集
pyspark.sql.DataFrame
-
DataFrame。
- 列 str
-
的名稱的列向量的相關係數需要計算。這一定是一個列的數據集,它必須包含向量對象。
- 方法 str,可選
-
字符串指定方法用於計算相關性。支持:皮爾森(默認),斯皮爾曼。
-
數據集
- 返回
-
- 一個DataFrame包含相關矩陣的列向量。這
- DataFrame包含一行和一列的名稱METHODNAME(列)。
例子
> > >從pyspark.ml.linalg進口DenseMatrix,向量> > >從pyspark.ml.stat進口相關> > >數據集=[[向量。密集的([1,0,0,- - - - - -2])),…(向量。密集的([4,5,0,3])),…(向量。密集的([6,7,0,8])),…(向量。密集的([9,0,0,1))))> > >數據集=火花。createDataFrame(數據集,(“特性”])> > >pearsonCorr=相關。相關係數(數據集,“特性”,皮爾森的)。收集()(0][0]> > >打印(str(pearsonCorr)。取代(“南”,“南”))DenseMatrix ([[1。,0.0556……,NaN, 0.4004...],[0.0556……1。、南、0.9135……](南南,1。南),[0.4004……,0.9135……南1。]])> > >spearmanCorr=相關。相關係數(數據集,“特性”,方法=“槍兵”)。收集()(0][0]> > >打印(str(spearmanCorr)。取代(“南”,“南”))DenseMatrix ([[1。,0.1054……,NaN, 0.4 ],[0.1054……1。、南、0.9486……),(南南,1。南),[0.4,0.9486……南1。]])
-
靜態