pyspark.pandas.DataFrame.info¶
-
DataFrame。
信息
( 詳細的:可選(bool]=沒有一個,緩衝區:可選(IO(str]]=沒有一個,max_cols:可選(int]=沒有一個,null_counts:可選(bool]=沒有一個 )→沒有¶ -
打印一個簡明的總結DataFrame。
這種方法打印信息DataFrame包括指數dtype和列dtypes,非空值和內存使用。
- 參數
-
- 詳細的 bool,可選
-
是否打印完整的總結。
- 緩衝區 可寫緩衝區,默認為sys.stdout
-
在哪裏發送輸出。默認情況下,sys.stdout打印輸出。通過一個可寫緩衝區如果需要進一步處理輸出。
- max_cols int,可選
-
什麼時候從詳細的截斷輸出開關。如果DataFrame多max_cols列,截斷輸出使用。
- null_counts bool,可選
-
是否顯示非空項。
- 返回
-
- 沒有一個
-
這種方法打印的摘要DataFrame並返回None。
另請參閱
-
DataFrame.describe
-
產生DataFrame列的描述性統計。
例子
> > >int_values=(1,2,3,4,5]> > >text_values=(“α”,“β”,“伽馬”,“δ”,‘ε’]> > >float_values=(0.0,0.25,0.5,0.75,1.0]> > >df=ps。DataFrame(…{“int_col”:int_values,“text_col”:text_values,“float_col”:float_values},…列=(“int_col”,“text_col”,“float_col”])> > >dfint_col text_col float_col0.00 0 1α1β2 0.252 3伽馬0.503 4δ0.754 5ε1.00
打印所有列的信息:
> > >df。信息(詳細的=真正的)<類“pyspark.pandas.frame.DataFrame”>指數:5項,0到4數據列(總共3列):非空數Dtype #列推薦- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -5非空int64 int_col 01 text_col 5非空對象2 float_col 5非空float64dtypes: float64 (1) int64(1)、對象(1)
打印的摘要列數及其dtypes但不是每列信息:
> > >df。信息(詳細的=假)<類“pyspark.pandas.frame.DataFrame”>指數:5項,0到4列:3項,int_col float_coldtypes: float64 (1) int64(1)、對象(1)
管DataFrame.info緩衝區,而不是係統的輸出。stdout,緩衝區的內容寫入一個文本文件:
> > >進口io> > >緩衝=io。StringIO()> > >df。信息(緩衝區=緩衝)> > >年代=緩衝。getvalue()> > >與開放(”% s/ info.txt '%路徑,“w”,…編碼=“utf - 8”)作為f:…_=f。寫(年代)> > >與開放(”% s/ info.txt '%路徑)作為f:…f。readline()[" <類的pyspark.pandas.frame.DataFrame > \ n”,“指數:5項,0到4 \ n”,的數據列(總3列):\ n”,“#列非空數Dtype \ n”,”- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \ n ',“0 int_col 5非空int64 \ n”,“1 text_col 5非空對象\ n”,“2 float_col 5非空float64 \ n”,“dtypes: float64 (1) int64(1),對象(1)”)