pyspark.sql.DataFrame.describe

DataFrame。 描述 ( *關口:聯盟(str,列表(str]] )→pyspark.sql.dataframe.DataFrame

計算基本統計數字和字符串列。

這包括計數,意味著stddev,最小值和最大值。如果沒有列,這個函數計算統計數值或字符串列。

另請參閱

DataFrame.summary

筆記

這個函數是用於探索性數據分析,我們不能保證向後兼容的模式產生的DataFrame

使用擴展統計彙總統計計算和控製。

例子

> > >df=火花createDataFrame(((“Bob”,13,40.3,150.5),(“愛麗絲”,12,37.8,142.3),(“湯姆”,11,44.1,142.2)),(“名稱”,“年齡”,“重量”,“高度”),)> > >df描述([“年齡”])顯示()+ - - - - - - - + - - - +| | |總結時代+ - - - - - - - + - - - +| | 3 || | 12.0 || stddev | 1.0 || 11分鍾| |馬克斯| | 13 |+ - - - - - - - + - - - +
> > >df描述([“年齡”,“重量”,“高度”])顯示()+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +| |摘要年齡身高體重| | |+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +| | 3 | 3 | 3 ||是| 12.0 | 40.73333333333333 | 145.0 || stddev | 1.0 | 3.1722757341273704 | 4.763402145525822 || 11分鍾| | 37.8 | 142.2 |馬克斯| | 13 | 44.1 | 150.5 |+ - - - - - - - + - - - + - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - +