pyspark.sql.DataFrame.summary

DataFrame。 總結 ( *統計數據:str )→pyspark.sql.dataframe.DataFrame

計算指定的統計數字和字符串列。可用的統計信息:-數-意味著stddev -最小-最大任意近似百分位數指定為一個百分比(例如,75%)

如果沒有統計數據,這個函數計算統計,意思是,stddev,分鍾,大約四分位數(百分位數為25%,50%,75%),和馬克斯。

另請參閱

DataFrame.display

筆記

這個函數是用於探索性數據分析,我們不能保證向後兼容的模式產生的DataFrame

例子

> > >df=火花createDataFrame(((“Bob”,13,40.3,150.5),(“愛麗絲”,12,37.8,142.3),(“湯姆”,11,44.1,142.2)),(“名稱”,“年齡”,“重量”,“高度”),)> > >df選擇(“年齡”,“重量”,“高度”)總結()顯示()+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +| |摘要年齡身高體重| | |+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +| | 3 | 3 | 3 ||是| 12.0 | 40.73333333333333 | 145.0 || stddev | 1.0 | 3.1722757341273704 | 4.763402145525822 || 11分鍾| | 37.8 | 142.2 || | 11 25% | 37.8 | 142.2 || | | 40.3 | 142.3 | 12 50%| | 13 75% | 44.1 | 150.5 |馬克斯| | 13 | 44.1 | 150.5 |+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
> > >df選擇(“年齡”,“重量”,“高度”)總結(“數”,“最小值”,“25%”,“75%”,“馬克斯”)顯示()+ - - - - - - - + - - - + - - - - - - - - - - - - + +| |摘要年齡身高體重| | |+ - - - - - - - + - - - + - - - - - - - - - - - - + +| | 3 | 3 | 3 || 11分鍾| | 37.8 | 142.2 || | 11 25% | 37.8 | 142.2 || | 13 75% | 44.1 | 150.5 |馬克斯| | 13 | 44.1 | 150.5 |+ - - - - - - - + - - - + - - - - - - - - - - - - + +