統計數據¶
-
類
pyspark.mllib.stat。
統計數據
¶ -
方法
chiSqTest
(觀察[,])如果觀察到的向量,進行皮爾遜卡方擬合優度試驗觀測數據對預期的分布,或對均勻分布(默認情況下),每個類別都有一個預期的頻率1 / len(觀察)。
colStats
(抽樣)計算列的彙總統計數據輸入抽樣(向量)。
相關係數
(x, y)方法)計算輸入抽樣的相關性(矩陣)(s)使用指定的方法。
kolmogorovSmirnovTest
(數據(,distName))執行Kolmogorov-Smirnov (KS)測試數據從一個連續分布采樣。
方法的文檔
-
靜態
chiSqTest
( 觀察到的:聯盟(pyspark.mllib.linalg.Matrix,pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint],pyspark.mllib.linalg.Vector],預期:可選(pyspark.mllib.linalg.Vector]=沒有一個 )→聯盟(pyspark.mllib.stat.test.ChiSqTestResult,列表(pyspark.mllib.stat.test.ChiSqTestResult] ] ¶ -
如果觀察到的向量,進行皮爾遜卡方擬合優度試驗觀測數據對預期的分布,或對均勻分布(默認情況下),每個類別都有一個預期的頻率1 / len(觀察)。
如果觀察到的是矩陣,進行皮爾遜的獨立測試輸入應變矩陣,它不能包含消極的條目或列或行總結為0。
如果觀察到的是LabeledPoint的抽樣,進行皮爾遜的獨立測試每一個特性對整個輸入抽樣的標簽。對於每一個功能,(功能,標簽)對轉換為應急矩陣卡方統計量的計算。所有的標簽必須分類和特征值。
- 參數
-
-
觀察到的
pyspark.mllib.linalg.Vector
或pyspark.mllib.linalg.Matrix
-
可以是一個向量包含觀察分類計數/相對頻率,或應急矩陣(包含數量或相對頻率),或一個抽樣LabeledPoint包含標記數據集的分類特征。實值特性將被視為分類為每一個不同的值。
-
預期
pyspark.mllib.linalg.Vector
-
向量包含預期的分類計數/相對頻率。預期是新如果預期和不同於觀察到的求和。
-
觀察到的
- 返回
-
-
pyspark.mllib.stat.ChiSqTestResult
-
對象包含檢驗統計量,自由度,假定值,方法和零假設。
-
筆記
觀察到的不能包含負值
例子
> > >從pyspark.mllib.linalg進口向量,矩陣> > >觀察到的=向量。密集的([4,6,5])> > >皮爾森=統計數據。chiSqTest(觀察到的)> > >打印(皮爾森。統計)0.4> > >皮爾森。degreesOfFreedom2> > >打印(輪(皮爾森。pValue,4))0.8187> > >皮爾森。方法皮爾森的> > >皮爾森。nullHypothesis“觀察遵循相同的分布。”
> > >觀察到的=向量。密集的([21,38,43,80年])> > >預期=向量。密集的([3,5,7,20.])> > >皮爾森=統計數據。chiSqTest(觀察到的,預期)> > >打印(輪(皮爾森。pValue,4))0.0027
> > >數據=(40.0,24.0,29.0,56.0,32.0,42.0,31.0,10.0,0.0,30.0,15.0,12.0]> > >氣=統計數據。chiSqTest(矩陣。密集的(3,4,數據))> > >打印(輪(氣。統計,4))21.9958
> > >數據=(LabeledPoint(0.0,向量。密集的([0.5,10.0))),…LabeledPoint(0.0,向量。密集的([1.5,20.0))),…LabeledPoint(1.0,向量。密集的([1.5,30.0))),…LabeledPoint(0.0,向量。密集的([3.5,30.0))),…LabeledPoint(0.0,向量。密集的([3.5,40.0))),…LabeledPoint(1.0,向量。密集的([3.5,40.0))))> > >抽樣=sc。並行化(數據,4)> > >氣=統計數據。chiSqTest(抽樣)> > >打印(氣(0]。統計)0.75> > >打印(氣(1]。統計)1.5
-
靜態
colStats
( 抽樣:pyspark.rdd.RDD(pyspark.mllib.linalg.Vector] )→pyspark.mllib.stat._statistics.MultivariateStatisticalSummary¶ -
計算列的彙總統計數據輸入抽樣(向量)。
- 參數
-
-
抽樣
pyspark.RDD
-
一個抽樣(向量)的列彙總統計計算。
-
抽樣
- 返回
-
-
MultivariateStatisticalSummary
-
對象包含列彙總統計。
-
例子
> > >從pyspark.mllib.linalg進口向量> > >抽樣=sc。並行化([向量。密集的([2,0,0,- - - - - -2]),…向量。密集的([4,5,0,3]),…向量。密集的([6,7,0,8))))> > >cStats=統計數據。colStats(抽樣)> > >cStats。的意思是()數組([4。4。,0。,3。])> > >cStats。方差()數組([4。,13歲。,0。,25。])> > >cStats。數()3> > >cStats。numNonzeros()數組([3。2。,0。,3。])> > >cStats。馬克斯()數組([6。7。,0。,8。])> > >cStats。最小值()數組([2。,0。,0。,- - - - - -2。])
-
靜態
相關係數
( x:聯盟(pyspark.rdd.RDD(pyspark.mllib.linalg.Vector],pyspark.rdd.RDD(浮動]],y:可選(pyspark.rdd.RDD(浮動]]=沒有一個,方法:可選(CorrMethodType]=沒有一個 )→聯盟(浮動, pyspark.mllib.linalg.Matrix ] ¶ -
計算輸入抽樣的相關性(矩陣)(s)使用指定的方法。目前支持方法:皮爾森(默認),槍兵。
如果傳入一個向量的抽樣,相關矩陣比較列將返回在輸入抽樣。使用方法指定用於單一抽樣inout的方法。如果兩個抽樣花車傳遞,將返回一個浮動。
- 參數
-
-
x
pyspark.RDD
-
向量的一個抽樣的相關矩陣計算,或一個浮動的抽樣基數一樣當y都是確定的。
-
y
pyspark.RDD
、可選 -
浮動的抽樣基數一樣x。
- 方法 str,可選
-
字符串指定方法用於計算相關性。支持:皮爾森(默認),斯皮爾曼
-
x
- 返回
-
-
pyspark.mllib.linalg.Matrix
-
相關矩陣比較列x。
-
例子
> > >x=sc。並行化([1.0,0.0,- - - - - -2.0),2)> > >y=sc。並行化([4.0,5.0,3.0),2)> > >0=sc。並行化([0.0,0.0,0.0),2)> > >腹肌(統計數據。相關係數(x,y)- - - - - -0.6546537)<1 e -真正的> > >統計數據。相關係數(x,y)= =統計數據。相關係數(x,y,“皮爾森”)真正的> > >統計數據。相關係數(x,y,“槍兵”)0.5> > >從數學進口isnan> > >isnan(統計數據。相關係數(x,0))真正的> > >從pyspark.mllib.linalg進口向量> > >抽樣=sc。並行化([向量。密集的([1,0,0,- - - - - -2]),向量。密集的([4,5,0,3]),…向量。密集的([6,7,0,8]),向量。密集的([9,0,0,1))))> > >pearsonCorr=統計數據。相關係數(抽樣)> > >打印(str(pearsonCorr)。取代(“南”,“南”))[[1。0.05564149南0.40047142)(0.05564149 - 1。南0.91359586](南南1。南)(0.40047142 - 0.91359586南1。]]> > >spearmanCorr=統計數據。相關係數(抽樣,方法=“槍兵”)> > >打印(str(spearmanCorr)。取代(“南”,“南”))[[1。0.10540926南0.4)(0.10540926 - 1。南0.9486833](南南1。南)(0.4 - 0.9486833南1。]]> > >試一試:…統計數據。相關係數(抽樣,“槍兵”)…打印(“方法名稱作為第二個參數沒有方法=不應該允許的。”)…除了TypeError:…通過
-
靜態
kolmogorovSmirnovTest
( 數據:pyspark.rdd.RDD(浮動],distName:KolmogorovSmirnovTestDistNameType=“規範”,*參數個數:浮動 )→pyspark.mllib.stat.test.KolmogorovSmirnovTestResult¶ -
執行Kolmogorov-Smirnov (KS)測試數據從一個連續分布采樣。它測試數據的零假設是來自一個特定的分布。
給定的數據進行排序和經驗累積分布函數(ECDF)計算,對於一個給定的點是點有一個提供值較小的數量比它除以總數量的點。
由於數據進行排序,這是一個上升的階躍函數(1 /數據)的長度為每個命令。
KS統計給我們之間的最大距離ECDF和運作。憑直覺如果這個統計量很大,零假設是正確的可能性變得很小。實現的具體細節,請看看Scala文檔。
- 參數
-
-
數據
pyspark.RDD
-
抽樣,樣本數據
- distName str,可選
-
字符串,目前隻支持“常態”。(正態分布)來計算數據的理論分布。
- 參數個數
-
額外的值,需要提供一定的分布。如果沒有提供,使用默認值。
-
數據
- 返回
-
-
pyspark.mllib.stat.KolmogorovSmirnovTestResult
-
對象包含檢驗統計量,自由度,假定值,方法和零假設。
-
例子
> > >鍵糟=統計數據。kolmogorovSmirnovTest> > >數據=sc。並行化([- - - - - -1.0,0.0,1.0])> > >ksmodel=鍵糟(數據,“規範”)> > >打印(輪(ksmodel。pValue,3))1.0> > >打印(輪(ksmodel。統計,3))0.175> > >ksmodel。nullHypothesis示例遵循理論分布的
> > >數據=sc。並行化([2.0,3.0,4.0])> > >ksmodel=鍵糟(數據,“規範”,3.0,1.0)> > >打印(輪(ksmodel。pValue,3))1.0> > >打印(輪(ksmodel。統計,3))0.175
-
靜態