pyspark.pandas.read_html

pyspark.pandas。 read_html ( io:聯盟(str,任何],匹配:str=“+”。,味道:可選(str]=沒有一個,:聯盟(int, int[]列表,沒有)=沒有一個,index_col:聯盟(int, int[]列表,沒有)=沒有一個,skiprows:聯盟[int、列表(int)片,沒有)=沒有一個,attrs:可選(Dict(str,str]]=沒有一個,parse_dates:bool=,成千上萬的人:str=”、“,編碼:可選(str]=沒有一個,小數:str=“。”,轉換器:可選(Dict]=沒有一個,na_values:可選(任何]=沒有一個,keep_default_na:bool=真正的,displayed_only:bool=真正的 )→列表(pyspark.pandas.frame.DataFrame]

讀到一個HTML表列表DataFrame對象。

參數
io str或類似文件

一個URL、一個類文件對象或一個包含HTML原始字符串。注意,lxml隻接受http、ftp和文件的url協議。如果你有一個開頭的URL“https”你可能試著刪除“年代”

匹配 str或編譯正則表達式,可選的

組表包含文本匹配regex或將返回字符串。除非極其簡單的HTML你可能需要傳遞一個空字符串。默認為”。+’ (match any non-empty string). The default value will return all tables contained on a page. This value is converted to a regular expression so that there is consistent behavior between Beautiful Soup and lxml.

味道 的字符串str或沒有,容器

要使用的解析引擎。“bs4”和“html5lib”是同義的,他們都是向後兼容。默認的沒有一個嚐試使用lxml解析如果失敗回落bs4+html5lib

int或類似或沒有,可選的

行(或列表的行MultiIndex)使用的列標題。

index_col int或類似或沒有,可選的

列的列(或列表)用於創建索引。

skiprows int或類似或片或沒有,可選的

基於0。跳過的行數解析後列整數。如果一個整數序列或一片,將跳過的行索引的順序。注意單個元素序列意味著“跳過第n行”而一個整數意味著“跳過n行”。

attrs dict或沒有可選的

這是一個字典的屬性,您可以通過使用識別的HTML表。這些都不是檢查有效性之前被傳遞給lxml或美麗的湯。然而,這些屬性必須是有效的HTML表屬性來正確工作。例如,

attrs={“id”:“表”}

是一個有效的屬性字典,因為“id”HTML標簽屬性是一個有效的HTML屬性任何HTML標簽按這個文檔

attrs={“asdf”:“表”}

有效的屬性字典,因為“asdf”不是一個有效的HTML屬性,即使它是一個有效的XML屬性。可以找到有效的HTML 4.01表的屬性在這裏。HTML 5規範的工作草案在這裏。它包含了最新的信息在現代web表屬性上。

parse_dates bool,可選

看到read_csv ()為更多的細節。

成千上萬的人 str,可選

分離器使用解析數以千計。默認為”、“

編碼 str或沒有可選的

所使用的編碼解碼的web頁麵。默認為沒有一個。”“沒有”“保留前麵的編碼行為,取決於底層的解析器庫(例如,解析器庫將嚐試使用提供的編碼文檔)。

小數 str,違約”。

字符識別作為小數點(例如:使用”、“歐洲數據)。

轉換器 dict類型,默認沒有

Dict轉換特定列中的值的函數。鍵可以是整數或列標簽,值函數,將一個輸入參數,細胞(列)的內容,並返回轉換後的內容。

na_values iterable,默認沒有

自定義NA值

keep_default_na bool,默認的真

如果指定na_values keep_default_na是假的默認NaN值覆蓋,否則它們附加到

displayed_only bool,默認的真

元素是否顯示:沒有“應該解析

返回
dfs DataFrames列表