pyspark.pandas.read_excel

pyspark.pandas。 read_excel ( io:聯盟(str,任何],sheet_name:聯盟(str、int、列表(聯盟[str, int]],沒有)=0,:聯盟(int,列表(int]]=0,的名字:可選(列表]=沒有一個,index_col:可選(列表(int]]=沒有一個,usecols:聯盟[int, str,列出[聯盟(str, int)],可調用的((str), bool),沒有一個)=沒有一個,擠壓:bool=,dtype:可選(Dict(str,聯盟(str,numpy.dtype,pandas.core.dtypes.base.ExtensionDtype]]]=沒有一個,引擎:可選(str]=沒有一個,轉換器:可選(Dict]=沒有一個,true_values:可選(任何]=沒有一個,false_values:可選(任何]=沒有一個,skiprows:聯盟(int, int[]列表,沒有)=沒有一個,nrows:可選(int]=沒有一個,na_values:可選(任何]=沒有一個,keep_default_na:bool=真正的,詳細的:bool=,parse_dates:聯盟(bool,列表,Dict]=,date_parser:可選(可調用的]=沒有一個,成千上萬的人:可選(str]=沒有一個,評論:可選(str]=沒有一個,skipfooter:int=0,convert_float:bool=真正的,mangle_dupe_cols:bool=真正的,* *kwds:任何 )→聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series,Dict(str,聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series] ] ]

Excel文件讀入pandas-on-Spark DataFrame或係列。

同時支持xlsxlsx從本地文件係統的文件擴展名或URL。支持一個選項來讀取單個表或表的列表。

參數
io 文件描述符,str pathlib。路徑,ExcelFile或xlrd.Book

字符串可以是一個URL。URL的值必須在火花DataFrameReader可用。

請注意

如果低於3.0底層的火花,不支持參數為字符串。您可以使用ps.from_pandas (pd.read_excel (…)作為一個解決方案。

sheet_name str, int,列表,或沒有,默認為0

字符串用於表的名字。使用整數0板的位置。/整數的字符串列表是用於請求多個表。指定沒有得到所有表。

可用的情況下:

  • 默認為0:1表作為一個DataFrame

  • 1:2號表DataFrame

  • “Sheet1”“Sheet1”:負載表名稱

  • [0,1,“Sheet5”):加載第一,第二和表名為“Sheet5”的東西DataFrame

  • 沒有:所有表。

int, int列表,默認為0

行(也就是)使用的列標簽的DataFrame進行解析。如果一個整數列表傳遞這些行位置將組合成一個MultiIndex。使用沒有如果沒有頭。

的名字 數組類,默認沒有

列表的列名稱使用。如果文件不包含標題行,那麼你應該明確通過頭=沒有。

index_col int, int列表,默認沒有

列(也就是)作為DataFrame的行標簽。通過這些如果沒有這樣的列。如果通過列表,這些列將組合成一個MultiIndex。如果選擇數據的一個子集usecols,index_col基於子集。

usecols int, str,類似,或可調用的默認

返回列的一個子集。

  • 如果沒有,那麼解析所有列。

  • 如果str,那麼顯示的逗號分隔列表Excel列字母和列範圍(例如“E”或“A, C, E, F”)。範圍是雙方的包容。

  • 如果列表int,那麼顯示的列表列數字被解析。

  • 如果字符串列表,顯示列名列表解析。

  • 如果調用,那麼評估每一列名稱反對和解析列如果調用返回真正的

擠壓 bool,默認的錯誤

如果解析數據隻包含一列然後返回一個係列。

dtype 類型名稱或dict列- >類型,默認沒有

數據類型數據或列。例如{a: np。浮動64, ‘b’: np.int32} Use對象保存數據存儲在Excel中,而不是解釋dtype。如果轉換器指定,他們將被應用,而不是dtype轉換。

引擎 str,默認沒有

如果io不是一個緩衝區或路徑,這必須設置為確定io。可接受的值是沒有或xlrd。

轉換器 dict類型,默認沒有

Dict轉換特定列中的值的函數。鍵可以是整數或列標簽,值函數,將一個輸入參數,Excel單元內容,並返回轉換後的內容。

true_values 列表,默認沒有

值來考慮是真實的。

false_values 列表,默認沒有

值來考慮是錯誤的。

skiprows 類似

行跳過開頭(也就是)。

nrows int,默認沒有

解析的行數。

na_values 標量,str、類似或dict類型,默認沒有

附加字符串識別為NA /南。如果dict通過,具體每列的NA值。默認情況下以下值解釋為南。

keep_default_na bool,默認的真

如果指定na_values keep_default_na是假的默認NaN值覆蓋,否則它們附加到。

詳細的 bool,默認的錯誤

表明NA值的數量放在非數字列。

parse_dates bool、類似或dict類型,默認的錯誤

的行為如下:

  • 布爾值。如果這是真的- >嚐試解析指數。

  • int或名稱的列表。例如如果[1,2,3]- >嚐試解析列1,2,3每一列作為一個單獨的日期。

  • 列表的列表。例如如果[[1,3]]- >結合列1和3和解析為一個單一的日期列。

  • dict。{{“foo”:[1,3]}} - >解析列1,3結果日期和電話“foo”

如果一個列或索引包含unparseable日期,整個列將返回或索引的對象數據類型。對於非標準的datetime解析,使用pd.to_datetimepd.read_csv

注意:一個快速路徑存在iso8601-formatted日期。

date_parser 功能,可選

函數用於將一個字符串序列列一個datetime實例數組。默認使用dateutil.parser.parser做轉換。pandas-on-Spark將嚐試調用date_parser在三種不同的方式,推進到下一個如果發生異常:1)通過定義的一個或多個數組parse_dates)作為參數;2)連接的一點(行操作)定義的列的字符串值parse_dates成一個數組,通過;和3)調用date_parser一次使用一個或多個字符串(每一行對應的列定義parse_dates)作為參數。

成千上萬的人 str,默認沒有

成千上萬的分離器解析字符串列數字。注意,這個參數是隻有必要的列存儲為文本在Excel中,任何數字列將自動解析,無論顯示格式。

評論 str,默認沒有

評論線的剩餘部分。經過一個字符或字符參數表明輸入文件中的注釋。注釋字符串之間的任何數據和當前行結束時將被忽略。

skipfooter int,默認0

行結束時跳過(也就是)。

convert_float bool,默認的真

積分浮點數轉換成int(即。,1。0–> 1). If False, all numeric data will be read in as floats: Excel stores all numbers as floats internally.

mangle_dupe_cols bool,默認的真

重複的列將被指定為“X”,“X。1 ',…的X。N ',而不是' X '…' X '。傳入錯誤將導致數據被覆蓋,如果有重複的名字列。

* * kwds 可選

可選關鍵字參數可以傳遞TextFileReader

返回
DataFrame或DataFrames dict類型

DataFrame傳入的Excel文件。有關更多信息,請參見在sheet_name參數當dict DataFrames返回。

另請參閱

DataFrame.to_excel

寫DataFrame Excel文件。

DataFrame.to_csv

寫DataFrame逗號分隔值(csv)文件。

read_csv

逗號分隔值(csv)文件讀入DataFrame。

例子

文件可以使用文件名作為讀取字符串或一個打開文件對象:

> > >psread_excel(“tmp.xlsx”,index_col=0)名義價值0 string1 11 string2相等22 #評論3
> > >psread_excel(開放(“tmp.xlsx”,rb的),sheet_name=“Sheet3”)姓名:0名稱的值0 0 string1 11 1 string2相等22 2 #評論3

指數和標題可以通過指定index_col參數

> > >psread_excel(“tmp.xlsx”,index_col=沒有一個,=沒有一個)0 1 20南名稱值1 0.0 string1 12 1.0 string2相等23 2.0 #評論3

列類型推斷,但可以顯式地指定

> > >psread_excel(“tmp.xlsx”,index_col=0,dtype={“名字”:str,“價值”:浮動})名義價值0 string1 1.01 string2相等2.02 #評論3.0

真的,假的,和NA值,和成千上萬的分隔符有違約,但也可以顯式地指定。提供的值作為字符串或字符串列表!

> > >psread_excel(“tmp.xlsx”,index_col=0,na_values=(“string1”,“string2相等”])名義價值0沒有11一22 #評論3

注釋行在excel可以跳過輸入文件使用評論kwarg

> > >psread_excel(“tmp.xlsx”,index_col=0,評論=“#”)名義價值0 string1 1.01 string2相等2.02沒有南