pyspark.pandas.DataFrame

pyspark.pandas。 DataFrame ( 數據=沒有一個,指數=沒有一個,=沒有一個,dtype=沒有一個,複製= )

pandas-on-Spark DataFrame對應於熊貓DataFrame邏輯。這是引發DataFrame內部。

變量

_internal——一個內部不變的框架來管理元數據。

參數
數據 numpy ndarray(結構化或均勻)、dict大熊貓DataFrame,引發DataFrame或pandas-on-Spark係列

Dict類型可以包含係列、數組常量,注意,如果或類似的對象數據是一個熊貓DataFrame,火花DataFrame pandas-on-Spark係列,其他參數不應使用。

指數 指數或類數組

索引用於生成的框架。將默認RangeIndex如果沒有索引信息提供輸入數據和沒有索引的一部分嗎

指數或類數組

列標簽用於生成的框架。將默認為RangeIndex (0, 1, 2,…, n)如果沒有列標簽提供

dtype dtype,默認沒有

數據類型的力量。隻有一個dtype是被允許的。如果沒有,推斷出

複製 布爾,默認的錯誤

複製的數據輸入。隻會影響DataFrame / 2 d ndarray輸入

例子

構建DataFrame從一個字典。

> > >d={“col1”:(1,2),“col2”:(3,4]}> > >df=psDataFrame(數據=d,=(“col1”,“col2”])> > >dfcol1 col20 1 31 2 4

從熊貓DataFrame DataFrame建設

> > >df=psDataFrame(pdDataFrame(數據=d,=(“col1”,“col2”)))> > >dfcol1 col20 1 31 2 4

請注意,推斷dtype int64。

> > >dfdtypescol1 int64col2 int64dtype:對象

執行一個dtype:

> > >df=psDataFrame(數據=d,dtype=npint8)> > >dfdtypescol1 int8col2 int8dtype:對象

構建從numpy DataFrame ndarray:

> > >df2=psDataFrame(np隨機randint(=0,=10,大小=(5,5)),=(“一個”,“b”,“c”,' d ',“e”])> > >df2a b c d e4 0 3 1 9 81 4 8 4 8 42 7 6 5 6 73 8 7 9 1 04 2 5 4 3 9

方法

腹肌()

返回一個係列/ DataFrame與每個元素的絕對數值。

添加(其他)

除了dataframe和其他,element-wise(二元運算符+)。

add_prefix(前綴)

前綴標簽用繩子前綴

add_suffix(後綴)

後綴標簽用繩子後綴

gg(函數)

總軸指定使用一個或多個操作。

(函數)

總軸指定使用一個或多個操作。

對齊(其他[加入,軸,複製))

使兩個物體的軸與指定的連接方法。

所有([軸,bool_only skipna])

返回所有元素是否正確。

任何([軸,bool_only])

返回任何元素是否為真。

附加(其他[ignore_index,…)

行其他附加到調用者,返回一個新對象。

應用(func(軸,args))

應用一個函數DataFrame沿著一個軸。

applymap(函數)

一個函數應用於Dataframe elementwise。

分配(* * kwargs)

DataFrame分配新列。

astype(dtype)

把指定dtype pandas-on-Spark對象dtype

at_time(時間(asof,軸))

選擇在一天中的特定時間值(例如:)早上九時三十分。

回填([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' bfill '

between_time(start_time end_time […])

選擇在一天的特定時間之間的值(例如:9:00-9:30點)。

bfill([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' bfill '

bool()

返回布爾值的單個元素在當前對象。

箱線圖(* * kwds)

做一個係列的箱線圖列。

剪輯([低,上層])

調整值在輸入閾值(s)。

combine_first(其他)

更新null元素值在同一位置其他

複製((深))

複製這個對象的指標和數據。

相關係數([方法])

計算兩兩相關的列,不包括NA / null值。

corrwith(其他[下降,方法])

計算兩兩相關。

([軸,numeric_only])

對每一列數non-NA細胞。

([min_periods])

協方差計算兩兩列,不包括NA / null值。

cummax([skipna])

返回在DataFrame累積最大或係列軸。

孜然芹([skipna])

返回累積在DataFrame最低或係列軸。

cumprod([skipna])

返回在DataFrame累積產品或係列軸。

cumsum([skipna])

返回累積求和DataFrame或係列軸。

描述((百分位數))

產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除值。

diff([時期,軸])

第一個離散元素的差異。

div(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

(其他)

計算DataFrame和其他之間的矩陣乘法。

下降([標簽、軸、索引列])

從列指定的標簽。

drop_duplicates([子集,保持原地,…))

返回DataFrame刪除重複的行,選擇隻考慮某些列。

droplevel(水平軸])

返回所請求DataFrame與索引/列級(s)移除。

dropna([軸,如何打,子集,原地])

刪除缺失值。

複製([子集,保持])

返回布爾係列表示重複的行,選擇隻考慮某些列。

情商(其他)

比較如果當前值等於另一個。

=(其他)

比較如果當前值等於另一個。

eval(expr[,原地])

評估一個字符串描述DataFrame列的操作。

ewm([com、跨度、半衰期、α…))

提供指數加權窗口轉換。

擴大([min_periods])

提供擴展轉換。

爆炸(列[,ignore_index])

行變換的每個元素類似,複製索引值。

ffill([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' ffill '

fillna([值,方法,軸,原地,限製))

填補NA / NaN值。

過濾器([項目,正則表達式,軸])

行或列的子集dataframe根據標簽指定的索引。

第一個(抵消)

選擇第一個基於日期的時間序列數據偏移量。

first_valid_index()

檢索第一個有效的索引值。

floordiv(其他)

得到整數dataframe分工和其他,element-wise(二元運算符/ /)。

from_dict(數據[,東方dtype列])

構建DataFrame dict的數組類或字典。

from_records(數據、索引、排除…))

結構化或記錄ndarray DataFrame進行轉換。

通用電氣(其他)

比較當前值是否大於或等於另一個。

得到(關鍵(違約))

獲取項目從對象給定鍵(DataFrame列,板片等)。

get_dtype_counts()

返回數的獨特dtypes對象。

groupby(由軸、as_index dropna])

使用一係列列組DataFrame或係列。

gt(其他)

比較如果當前值大於另一個。

([n])

返回第一個n行。

((箱))

畫一個直方圖DataFrame的列。

idxmax((軸))

回報指數首次出現的最大要求軸。

idxmin((軸))

回報指數首次出現的最低要求的軸。

信息([冗長,但,max_cols null_counts])

打印一個簡明的總結DataFrame。

插入(代碼行、列值[,allow_duplicates])

在指定位置插入列DataFrame。

插入((方法、限製…))

填補NaN值使用插值法。

型號(值)

DataFrame中的每個元素是否包含在價值觀。

並網發電()

檢測項目在當前Dataframe缺失值。

isnull()

檢測項目在當前Dataframe缺失值。

項目()

這是一個別名iteritems

iteritems()

迭代器/(列名,係列)對。

iterrows()

遍曆DataFrame行(指數係列)對。

itertuples([指數名稱])

遍曆DataFrame namedtuples行。

加入(右(,,,lsuffix, rsuffix))

另一個DataFrame的連接列。

kde([bw_method,印第安納州])

使用高斯內核生成核密度估計的陰謀。

()

返回列的別名。

庫爾特([軸,skipna numeric_only])

返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。

峰度([軸,skipna numeric_only])

返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。

去年(抵消)

選擇最終的時間序列數據基於日期抵消。

last_valid_index()

回報指數去年non-NA /空值。

(其他)

比較如果當前值小於或等於另一個。

lt(其他)

比較如果當前值小於另一個。

瘋了((軸))

返回值的平均絕對偏差。

麵具(氣孔導度[其他])

更換條件為真值。

馬克斯([軸,skipna numeric_only])

返回值的最大。

的意思是([軸,skipna numeric_only])

返回值的均值。

中位數([軸、skipna numeric_only、準確性))

返回所請求的軸的值的中值。

融化([id_vars、value_vars var_name value_name])

透視的DataFrame寬格式長格式,選擇離開標識符變量集。

合並(右[,,,left_on right_on,…))

合並DataFrame對象數據庫樣式加入。

最小值([軸,skipna numeric_only])

返回的最小值。

國防部(其他)

dataframe模等,element-wise(二元運算符%)。

mul(其他)

乘法dataframe和其他,element-wise(二元運算符*)。

(其他)

乘法dataframe和其他,element-wise(二元運算符*)。

(其他)

比較,如果當前值不等於另一個。

nlargest(n,列[,])

返回第一個n行命令在降序排列。

notna()

檢測項目在當前Dataframe non-missing值。

notnull()

檢測項目在當前Dataframe non-missing值。

nsmallest(n,列[,])

返回第一個n行命令以升序排序。

nunique([軸,dropna,大約,rsd])

返回對象的獨特的元素數量。

([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' ffill '

pct_change([時間])

當前和前一個元素之間的百分比變化。

(* args func * * kwargs)

應用函數(自我,* args, * * kwargs)。

((指數、列值))

返回重塑DataFrame由給定的索引/列值。

pivot_table((價值觀、索引列,…))

創建一個spreadsheet-style DataFrame數據透視表。

流行(項)

返回項目,從框架。

戰俘(其他)

得到指數dataframe係列和其他的力量,element-wise(二元運算符* *)。

刺激([軸、skipna numeric_only min_count])

返回值的乘積。

產品([軸、skipna numeric_only min_count])

返回值的乘積。

分位數([q,軸,numeric_only、準確性])

返回值在給定的分位數。

查詢(expr[,原地])

查詢的列DataFrame布爾表達式。

列地址(其他)

除了dataframe和其他,element-wise(二元運算符+)。

排名([方法、提升numeric_only])

計算數值數據(1到n)沿軸。

rdiv(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

重建索引([標簽、索引列,軸,…))

符合DataFrame與可選填新索引邏輯,把NA /南在前麵的位置沒有價值指數。

reindex_like(其他(複製))

像其他對象返回一個DataFrame與匹配指數。

重命名([映射器、索引列,軸,…))

改變軸標簽。

rename_axis([映射器、索引列,軸,…))

設置軸為索引或列的名稱。

取代([to_replace,價值,原地,極限,…))

返回一個新的DataFrame值替換為另一個值。

重新取樣(規則(關於),關閉,標簽,)

重新取樣時間序列數據。

reset_index([水平下降,原地,…)

重置指數水平。

rfloordiv(其他)

得到整數dataframe分工和其他,element-wise(二元運算符/ /)。

rmod(其他)

dataframe模等,element-wise(二元運算符%)。

rmul(其他)

乘法dataframe和其他,element-wise(二元運算符*)。

滾動(窗口[min_periods])

提供軋製轉換。

((小數))

圓一個DataFrame數量可變的位小數。

rpow(其他)

得到指數dataframe和其他的力量,element-wise(二元運算符* *)。

rsub(其他)

減法dataframe和其他,element-wise(二元運算符- - - - - -)。

rtruediv(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

樣本([n,壓裂、替換random_state,…))

返回一個隨機樣本的物品從一個軸的對象。

select_dtypes([包括,排除])

返回的一個子集DataFrame dtypes基於列的列。

掃描電鏡([軸、skipna ddof numeric_only])

返回所請求無偏平均數標準誤差在軸。

set_index(鍵[,下降,添加,原地])

設置DataFrame指數(行標簽)使用一個或多個現有的列。

轉變([時期,fill_value])

轉變DataFrame所需數量的時期。

([軸,skipna numeric_only])

返回無偏斜規範化的n - 1。

sort_index([軸水平、提升、…))

類對象的標簽(沿著一個軸)

sort_values(由[、提升、原地…))

通過值沿軸。

擠壓((軸))

擠壓1維軸標量對象。

堆棧()

堆棧(s)規定的級別從列索引。

性病([軸、skipna ddof numeric_only])

返回樣本標準差。

(其他)

減法dataframe和其他,element-wise(二元運算符- - - - - -)。

減去(其他)

減法dataframe和其他,element-wise(二元運算符- - - - - -)。

總和([軸、skipna numeric_only min_count])

返回值的總和。

swapaxes(i, j[,複製)

適當的交換和交換值軸軸。

swaplevel((i, j,軸))

交換水平i和j在特定MultiIndex軸。

尾巴([n])

返回最後一個n行。

(指數[,軸)

返回給定的元素位置指數沿著一個軸。

to_clipboard([excel, 9])

將對象複製到係統剪貼板。

to_csv([路徑、sep na_rep、列標題,…))

對象寫入一個逗號分隔值(csv)文件。

to_delta(路徑、模式、partition_cols index_col])

寫DataFrame三角洲湖表。

to_dict([東方,])

DataFrame轉換為一本字典。

to_excel(excel_writer [, na_rep sheet_name…))

對象寫入一個Excel表。

to_html([col_space buf、列,標題,…))

呈現一個DataFrame作為HTML表。

to_json([路徑、壓縮、num_files…))

將對象轉換為一個JSON字符串。

to_latex([col_space buf、列,標題,…))

呈現一個對象乳膠表格環境表。

to_markdown([buf模式])

打印係列或DataFrame Markdown-friendly格式。

to_numpy()

一個NumPy ndarray DataFrame或係列的代表值。

to_orc(路徑、模式、partition_cols index_col])

寫DataFrame獸人文件或目錄。

to_pandas()

返回一個熊貓DataFrame。

to_parquet(路徑、模式、partition_cols…))

寫DataFrame拚花文件或目錄。

to_records([索引、column_dtypes index_dtypes])

DataFrame轉換為NumPy記錄數組中。

to_spark([index_col])

引發相關功能。

to_spark_io([路徑、格式、模式、…))

寫DataFrame火花數據源。

to_string([col_space buf、列,標題,…))

呈現一個友好的控製台DataFrame表格輸出。

to_table(名稱、格式、模式,…))

寫DataFrame火花表。

變換(func(軸))

調用函數與改變了價值觀和自我生產一係列具有相同的長度作為它的輸入。

轉置()

轉置索引和列。

truediv(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

截斷([之前,之後,軸,複製])

截斷或一係列DataFrame之前和之後的一些索引值。

unstack()

主(一定層次)索引標簽。

更新(其他[,加入,覆蓋])

從另一個DataFrame使用non-NA值修改到位。

var([軸,ddof numeric_only])

均方差的回報。

在哪裏(氣孔導度、其他軸)

替換值的條件是錯誤的。

xs(關鍵、軸、水平)

返回從DataFrame截麵。

屬性

T

轉置索引和列。

獲取一個值,一雙行/列標簽。

返回一個列表代表DataFrame的軸。

DataFrame的列標簽。

dtypes

返回dtypes DataFrame。

返回true,如果當前DataFrame是空的。

iat

獲取一個值為一對行/列整數位置。

iloc

純粹基於integer-location索引選擇的位置。

指數

該指數DataFrame(行標簽)列。

瘋狂的

訪問一組行和列的標簽(s)或一個布爾係列。

ndim

返回一個int數組維數代表的數量。

形狀

返回一個元組代表DataFrame的維度。

大小

返回一個int代表該對象的元素數量。

風格

屬性返回一個斯泰勒對象包含的方法構建一個風格DataFrame HTML表示。

返回一個Numpy DataFrame或係列的代表。