pyspark.sql.DataFrame.summary¶
-
DataFrame。
總結
( *統計數據:str )→pyspark.sql.dataframe.DataFrame¶ -
計算指定的統計數字和字符串列。可用的統計信息:-數-意味著stddev -最小-最大任意近似百分位數指定為一個百分比(例如,75%)
如果沒有統計數據,這個函數計算統計,意思是,stddev,分鍾,大約四分位數(百分位數為25%,50%,75%),和馬克斯。
另請參閱
-
DataFrame.display
筆記
這個函數是用於探索性數據分析,我們不能保證向後兼容的模式產生的
DataFrame
。例子
> > >df=火花。createDataFrame(…((“Bob”,13,40.3,150.5),(“愛麗絲”,12,37.8,142.3),(“湯姆”,11,44.1,142.2)),…(“名稱”,“年齡”,“重量”,“高度”),…)> > >df。選擇(“年齡”,“重量”,“高度”)。總結()。顯示()+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +| |摘要年齡身高體重| | |+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +| | 3 | 3 | 3 ||是| 12.0 | 40.73333333333333 | 145.0 || stddev | 1.0 | 3.1722757341273704 | 4.763402145525822 || 11分鍾| | 37.8 | 142.2 || | 11 25% | 37.8 | 142.2 || | | 40.3 | 142.3 | 12 50%| | 13 75% | 44.1 | 150.5 |馬克斯| | 13 | 44.1 | 150.5 |+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +
> > >df。選擇(“年齡”,“重量”,“高度”)。總結(“數”,“最小值”,“25%”,“75%”,“馬克斯”)。顯示()+ - - - - - - - + - - - + - - - - - - - - - - - - + +| |摘要年齡身高體重| | |+ - - - - - - - + - - - + - - - - - - - - - - - - + +| | 3 | 3 | 3 || 11分鍾| | 37.8 | 142.2 || | 11 25% | 37.8 | 142.2 || | 13 75% | 44.1 | 150.5 |馬克斯| | 13 | 44.1 | 150.5 |+ - - - - - - - + - - - + - - - - - - - - - - - - + +
-