相關

pyspark.ml.stat。 相關

計算的輸入數據集的相關矩陣向量使用指定的方法。目前支持方法:皮爾森(默認),斯皮爾曼

筆記

的斯皮爾曼等級相關,我們需要創建一個抽樣(雙)對於每一列,它為了檢索中,然後加入列回一個抽樣(向量),這是相當昂貴的。在調用corr緩存輸入數據集方法=“槍兵”為了避免再計算常見的血統。

方法

相關係數(數據集,列[方法])

使用數據集計算相關矩陣與指定的方法。

方法的文檔

靜態 相關係數 ( 數據集:pyspark.sql.dataframe.DataFrame,:str,方法:str=皮爾森的 )→pyspark.sql.dataframe.DataFrame

使用數據集計算相關矩陣與指定的方法。

參數
數據集 pyspark.sql.DataFrame

DataFrame。

str

的名稱的列向量的相關係數需要計算。這一定是一個列的數據集,它必須包含向量對象。

方法 str,可選

字符串指定方法用於計算相關性。支持:皮爾森(默認),斯皮爾曼

返回
一個DataFrame包含相關矩陣的列向量。這
DataFrame包含一行和一列的名稱METHODNAME(列)

例子

> > >pyspark.ml.linalg進口DenseMatrix,向量> > >pyspark.ml.stat進口相關> > >數據集=[[向量密集的([1,0,0,- - - - - -2])),(向量密集的([4,5,0,3])),(向量密集的([6,7,0,8])),(向量密集的([9,0,0,1))))> > >數據集=火花createDataFrame(數據集,(“特性”])> > >pearsonCorr=相關相關係數(數據集,“特性”,皮爾森的)收集()(0][0]> > >打印(str(pearsonCorr)取代(“南”,“南”))DenseMatrix ([[1。,0.0556……,NaN, 0.4004...],[0.0556……1。、南、0.9135……](南南,1。南),[0.4004……,0.9135……南1。]])> > >spearmanCorr=相關相關係數(數據集,“特性”,方法=“槍兵”)收集()(0][0]> > >打印(str(spearmanCorr)取代(“南”,“南”))DenseMatrix ([[1。,0.1054……,NaN, 0.4 ],[0.1054……1。、南、0.9486……),(南南,1。南),[0.4,0.9486……南1。]])