一個簡單的方法來得到一個良好格式化的表從熊貓dataframe:
displayHTML (df.to_html ())
to_html有一些參數可以控製輸出。如果你想要更少的基本的東西,嚐試這個我寫的代碼,添加滾動和一些控製列寬(包括索引列,不像to_html)。YMMV,這可能會停止工作如果大熊貓to_html的輸出變化。
def display_pd (df、身高= 300,column_widths = None, column_units =“px”):““”顯示大熊貓dataframe磚@param df:大熊貓dataframe顯示@param高度:高像素的表格來顯示@param column_widths:指定單獨的列寬為一個列表。如果未指定,則列大小的比例在每列數據的最大長度可以短於總列數,其餘列將reamining空間比例混合CSS指定單位,通過一個字符串列表寬度與CSS單位包括和column_units設置為空字符串@param column_units: CSS單位寬度在“通過”的大熊貓作為pd如果不是column_widths導入:#比例寬度進口numpy np len_v = np.vectorize (len)長度= len_v (df.reset_index () .values.astype (str)) .max(軸= 0)=總np.sum(長度)column_widths = np.trunc(長度* 100 /總)column_units =‘%’寬度=[]我,c列舉(column_widths): widths.append (f”。display_pd_table thead th: nth-child ({i + 1}){{寬度:{c} {column_units}}}”) html = f”<時尚> .display_pd_container{{高度:{高度}px;寬度:100%;溢出:汽車;}}.display_pd_table{{:粘性;上圖:0;寬度:100%;}}.display_pd_table td{{溢出:隱藏;}}.display_pd_table th{{溢出:隱藏;vertical-align:最高;}}{杆(10). join(寬度)}.display_pd_table thead {{: -webkit-sticky;位置:粘性;上圖:0 px;z - index: 100; background-color: rgb(255, 255, 255);}} {df.to_html(classes='display_pd_table')}''' displayHTML(html)
然後簡單地調用:
display_pd (df)
性能:
我不推薦調用這個巨大的dataframe。
顯示器(spark.createDataFrame (df))
花了4.64分鍾顯示74行(大量的開銷將數據傳遞給工人節點然後再收集它們,隻是為了顯示)。