pyspark.pandas.DataFrame.cov

DataFrame。 ( min_periods:可選(int]=沒有一個 )→pyspark.pandas.frame.DataFrame

協方差計算兩兩列,不包括NA / null值。

計算兩兩之間的協方差DataFrame係列。返回的數據幀協方差矩陣DataFrame的列。

NA和null值都是自動排除在計算。(請參見下麵的說明關於偏見從缺失值)。可以設置一個閾值的最小數量的觀察每個創造的價值。比較觀察低於這個閾值將被返回

這種方法通常用於時間序列數據的分析來理解不同措施的時間之間的關係。

參數
min_periods int,可選

最小數量的觀察要求每條列有一個有效的結果。

返回
DataFrame

的協方差矩陣DataFrame係列。

另請參閱

Series.cov

計算協方差與另一個係列。

例子

> > >df=psDataFrame(((1,2),(0,3),(2,0),(1,1)),=(“狗”,“貓”])> > >df()狗貓狗0.666667 - -1.000000貓-1.000000 - 1.666667
> > >np隨機種子(42)> > >df=psDataFrame(np隨機randn(1000年,5),=(“一個”,“b”,“c”,' d ',“e”])> > >df()a b c d e0.998438 -0.020161 0.059277 -0.008943 0.014144b -0.020161 1.059352 - -0.008543 -0.024738 - 0.009826c 0.059277 -0.008543 - 1.010670 -0.001486 - -0.000271d -0.008943 -0.024738 - -0.001486 0.921297 - -0.0136920.014144 0.009826 -0.000271 -0.013692 0.977795

最小數量的時期

該方法也支持一個可選的min_periods關鍵字指定所需的最小數量的non-NA觀察每一列對為了有一個有效的結果:

> > >np隨機種子(42)> > >df=pdDataFrame(np隨機randn(20.,3),=(“一個”,“b”,“c”])> > >df瘋狂的(df指數[:5),“一個”]=np> > >df瘋狂的(df指數(5:10),“b”]=np> > >自衛隊=psfrom_pandas(df)> > >自衛隊(min_periods=12)a b c0.316741南-0.150812b南1.248003 - 0.191417c -0.150812 0.191417 0.895202