DataFrame

構造函數

DataFrame([數據、索引、列dtype,複製))

pandas-on-Spark DataFrame對應於熊貓DataFrame邏輯。

屬性和基礎數據

DataFrame.index

該指數DataFrame(行標簽)列。

DataFrame.columns

DataFrame的列標簽。

DataFrame.empty

返回true,如果當前DataFrame是空的。

DataFrame.dtypes

返回dtypes DataFrame。

DataFrame.shape

返回一個元組代表DataFrame的維度。

DataFrame.axes

返回一個列表代表DataFrame的軸。

DataFrame.ndim

返回一個int數組維數代表的數量。

DataFrame.size

返回一個int代表該對象的元素數量。

DataFrame.select_dtypes([包括,排除])

返回的一個子集DataFrame dtypes基於列的列。

DataFrame.values

返回一個Numpy DataFrame或係列的代表。

轉換

DataFrame.copy((深))

複製這個對象的指標和數據。

DataFrame.isna()

檢測項目在當前Dataframe缺失值。

DataFrame.astype(dtype)

把指定dtype pandas-on-Spark對象dtype

DataFrame.isnull()

檢測項目在當前Dataframe缺失值。

DataFrame.notna()

檢測項目在當前Dataframe non-missing值。

DataFrame.notnull()

檢測項目在當前Dataframe non-missing值。

DataFrame.pad([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' ffill '

DataFrame.bool()

返回布爾值的單個元素在當前對象。

索引、迭代

DataFrame.at

獲取一個值,一雙行/列標簽。

DataFrame.iat

獲取一個值為一對行/列整數位置。

DataFrame.head([n])

返回第一個n行。

DataFrame.idxmax((軸))

回報指數首次出現的最大要求軸。

DataFrame.idxmin((軸))

回報指數首次出現的最低要求的軸。

DataFrame.loc

訪問一組行和列的標簽(s)或一個布爾係列。

DataFrame.iloc

純粹基於integer-location索引選擇的位置。

DataFrame.items()

這是一個別名iteritems

DataFrame.iteritems()

迭代器/(列名,係列)對。

DataFrame.iterrows()

遍曆DataFrame行(指數係列)對。

DataFrame.itertuples([指數名稱])

遍曆DataFrame namedtuples行。

DataFrame.keys()

返回列的別名。

DataFrame.pop(項)

返回項目,從框架。

DataFrame.tail([n])

返回最後一個n行。

DataFrame.xs(關鍵、軸、水平)

返回從DataFrame截麵。

DataFrame.get(關鍵(違約))

獲取項目從對象給定鍵(DataFrame列,板片等)。

DataFrame.where(氣孔導度、其他軸)

替換值的條件是錯誤的。

DataFrame.mask(氣孔導度[其他])

更換條件為真值。

DataFrame.query(expr[,原地])

查詢的列DataFrame布爾表達式。

二元運算符函數

DataFrame.add(其他)

除了dataframe和其他,element-wise(二元運算符+)。

DataFrame.radd(其他)

除了dataframe和其他,element-wise(二元運算符+)。

DataFrame.div(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

DataFrame.rdiv(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

DataFrame.truediv(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

DataFrame.rtruediv(其他)

獲得浮動dataframe分工和其他element-wise(二元運算符/)。

DataFrame.mul(其他)

乘法dataframe和其他,element-wise(二元運算符*)。

DataFrame.rmul(其他)

乘法dataframe和其他,element-wise(二元運算符*)。

DataFrame.sub(其他)

減法dataframe和其他,element-wise(二元運算符- - - - - -)。

DataFrame.rsub(其他)

減法dataframe和其他,element-wise(二元運算符- - - - - -)。

DataFrame.pow(其他)

得到指數dataframe係列和其他的力量,element-wise(二元運算符* *)。

DataFrame.rpow(其他)

得到指數dataframe和其他的力量,element-wise(二元運算符* *)。

DataFrame.mod(其他)

dataframe模等,element-wise(二元運算符%)。

DataFrame.rmod(其他)

dataframe模等,element-wise(二元運算符%)。

DataFrame.floordiv(其他)

得到整數dataframe分工和其他,element-wise(二元運算符/ /)。

DataFrame.rfloordiv(其他)

得到整數dataframe分工和其他,element-wise(二元運算符/ /)。

DataFrame.lt(其他)

比較如果當前值小於另一個。

DataFrame.gt(其他)

比較如果當前值大於另一個。

DataFrame.le(其他)

比較如果當前值小於或等於另一個。

DataFrame.ge(其他)

比較當前值是否大於或等於另一個。

DataFrame.ne(其他)

比較,如果當前值不等於另一個。

DataFrame.eq(其他)

比較如果當前值等於另一個。

DataFrame.dot(其他)

計算DataFrame和其他之間的矩陣乘法。

DataFrame.combine_first(其他)

更新null元素值在同一位置其他

函數的應用程序,GroupBy &窗口

DataFrame.apply(func(軸,args))

應用一個函數DataFrame沿著一個軸。

DataFrame.applymap(函數)

一個函數應用於Dataframe elementwise。

DataFrame.pipe(* args func * * kwargs)

應用函數(自我,* args, * * kwargs)。

DataFrame.agg(函數)

總軸指定使用一個或多個操作。

DataFrame.aggregate(函數)

總軸指定使用一個或多個操作。

DataFrame.groupby(由軸、as_index dropna])

使用一係列列組DataFrame或係列。

DataFrame.rolling(窗口[min_periods])

提供軋製轉換。

DataFrame.expanding([min_periods])

提供擴展轉換。

DataFrame.transform(func(軸))

調用函數與改變了價值觀和自我生產一係列具有相同的長度作為它的輸入。

計算/描述性統計

DataFrame.abs()

返回一個係列/ DataFrame與每個元素的絕對數值。

DataFrame.all([軸,bool_only skipna])

返回所有元素是否正確。

DataFrame.any([軸,bool_only])

返回任何元素是否為真。

DataFrame.clip([低,上層])

調整值在輸入閾值(s)。

DataFrame.corr([方法])

計算兩兩相關的列,不包括NA / null值。

DataFrame.corrwith(其他[下降,方法])

計算兩兩相關。

DataFrame.count([軸,numeric_only])

對每一列數non-NA細胞。

DataFrame.cov([min_periods])

協方差計算兩兩列,不包括NA / null值。

DataFrame.describe((百分位數))

產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除值。

DataFrame.kurt([軸,skipna numeric_only])

返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。

DataFrame.kurtosis([軸,skipna numeric_only])

返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。

DataFrame.mad((軸))

返回值的平均絕對偏差。

DataFrame.max([軸,skipna numeric_only])

返回值的最大。

DataFrame.mean([軸,skipna numeric_only])

返回值的均值。

DataFrame.min([軸,skipna numeric_only])

返回的最小值。

DataFrame.median([軸、skipna…)

返回所請求的軸的值的中值。

DataFrame.pct_change([時間])

當前和前一個元素之間的百分比變化。

DataFrame.prod([軸,skipna、numeric_only…))

返回值的乘積。

DataFrame.product([軸、skipna…)

返回值的乘積。

DataFrame.quantile([q,軸,numeric_only,…)

返回值在給定的分位數。

DataFrame.nunique([軸,dropna,大約,rsd])

返回對象的獨特的元素數量。

DataFrame.sem([軸、skipna ddof numeric_only])

返回所請求無偏平均數標準誤差在軸。

DataFrame.skew([軸,skipna numeric_only])

返回無偏斜規範化的n - 1。

DataFrame.sum([軸,skipna、numeric_only…))

返回值的總和。

DataFrame.std([軸、skipna ddof numeric_only])

返回樣本標準差。

DataFrame.var([軸,ddof numeric_only])

均方差的回報。

DataFrame.cummin([skipna])

返回累積在DataFrame最低或係列軸。

DataFrame.cummax([skipna])

返回在DataFrame累積最大或係列軸。

DataFrame.cumsum([skipna])

返回累積求和DataFrame或係列軸。

DataFrame.cumprod([skipna])

返回在DataFrame累積產品或係列軸。

DataFrame.round((小數))

圓一個DataFrame數量可變的位小數。

DataFrame.diff([時期,軸])

第一個離散元素的差異。

DataFrame.eval(expr[,原地])

評估一個字符串描述DataFrame列的操作。

重建索引/選擇/標簽操作

DataFrame.add_prefix(前綴)

前綴標簽用繩子前綴

DataFrame.add_suffix(後綴)

後綴標簽用繩子後綴

DataFrame.align(其他[加入,軸,複製))

使兩個物體的軸與指定的連接方法。

DataFrame.at_time(時間(asof,軸))

選擇在一天中的特定時間值(例如:)早上九時三十分。

DataFrame.between_time(start_time end_time)

選擇在一天的特定時間之間的值(例如:9:00-9:30點)。

DataFrame.drop([標簽、軸、索引列])

從列指定的標簽。

DataFrame.droplevel(水平軸])

返回所請求DataFrame與索引/列級(s)移除。

DataFrame.drop_duplicates([子集,保持,…)

返回DataFrame刪除重複的行,選擇隻考慮某些列。

DataFrame.duplicated([子集,保持])

返回布爾係列表示重複的行,選擇隻考慮某些列。

DataFrame.equals(其他)

比較如果當前值等於另一個。

DataFrame.filter([項目,正則表達式,軸])

行或列的子集dataframe根據標簽指定的索引。

DataFrame.first(抵消)

選擇第一個基於日期的時間序列數據偏移量。

DataFrame.head([n])

返回第一個n行。

DataFrame.last(抵消)

選擇最終的時間序列數據基於日期抵消。

DataFrame.rename([映射器、索引列,…))

改變軸標簽。

DataFrame.rename_axis([映射器、索引…])

設置軸為索引或列的名稱。

DataFrame.reset_index([水平下降,…)

重置指數水平。

DataFrame.set_index(鍵(,下降,添加,…))

設置DataFrame指數(行標簽)使用一個或多個現有的列。

DataFrame.swapaxes(i, j[,複製)

適當的交換和交換值軸軸。

DataFrame.swaplevel((i, j,軸))

交換水平i和j在特定MultiIndex軸。

DataFrame.take(指數[,軸)

返回給定的元素位置指數沿著一個軸。

DataFrame.isin(值)

DataFrame中的每個元素是否包含在價值觀。

DataFrame.sample([n,壓裂、替換…])

返回一個隨機樣本的物品從一個軸的對象。

DataFrame.truncate([之前,之後,軸,複製])

截斷或一係列DataFrame之前和之後的一些索引值。

缺失的數據處理

DataFrame.backfill([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' bfill '

DataFrame.dropna([軸,如何打,…)

刪除缺失值。

DataFrame.fillna([值,方法,軸,…))

填補NA / NaN值。

DataFrame.replace([to_replace、價值…])

返回一個新的DataFrame值替換為另一個值。

DataFrame.bfill([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' bfill '

DataFrame.ffill([軸,原地,限製])

的同義詞DataFrame.fillna ()Series.fillna ()方法= ' ffill '

DataFrame.interpolate((方法、限製…))

填補NaN值使用插值法。

重塑、排序置換

DataFrame.pivot_table((價值觀、索引…))

創建一個spreadsheet-style DataFrame數據透視表。

DataFrame.pivot((指數、列值))

返回重塑DataFrame由給定的索引/列值。

DataFrame.sort_index((軸,水平,…))

類對象的標簽(沿著一個軸)

DataFrame.sort_values(通過(提升,…))

通過值沿軸。

DataFrame.nlargest(n,列[,])

返回第一個n行命令在降序排列。

DataFrame.nsmallest(n,列[,])

返回第一個n行命令以升序排序。

DataFrame.stack()

堆棧(s)規定的級別從列索引。

DataFrame.unstack()

主(一定層次)索引標簽。

DataFrame.melt([id_vars value_vars,…)

透視的DataFrame寬格式長格式,選擇離開標識符變量集。

DataFrame.explode(列[,ignore_index])

行變換的每個元素類似,複製索引值。

DataFrame.squeeze((軸))

擠壓1維軸標量對象。

DataFrame.T

轉置索引和列。

DataFrame.transpose()

轉置索引和列。

DataFrame.reindex((標簽、索引列,…))

符合DataFrame與可選填新索引邏輯,把NA /南在前麵的位置沒有價值指數。

DataFrame.reindex_like(其他(複製))

像其他對象返回一個DataFrame與匹配指數。

DataFrame.rank([方法、提升numeric_only])

計算數值數據(1到n)沿軸。

結合/加入/合並

DataFrame.append(其他[ignore_index,…)

行其他附加到調用者,返回一個新對象。

DataFrame.assign(* * kwargs)

DataFrame分配新列。

DataFrame.merge(右[,,,left_on…))

合並DataFrame對象數據庫樣式加入。

DataFrame.join(右(,,,lsuffix,…))

另一個DataFrame的連接列。

DataFrame.update(其他[,加入,覆蓋])

從另一個DataFrame使用non-NA值修改到位。

DataFrame.insert(代碼行、列值[…])

在指定位置插入列DataFrame。

序列化/ IO /轉換

DataFrame.from_records(數據、索引、…)

結構化或記錄ndarray DataFrame進行轉換。

DataFrame.info([冗長,但,max_cols…))

打印一個簡明的總結DataFrame。

DataFrame.to_table(名稱、格式、模式,…))

寫DataFrame火花表。

DataFrame.to_delta(路徑、模式、…)

寫DataFrame三角洲湖表。

DataFrame.to_parquet(路徑、模式、…)

寫DataFrame拚花文件或目錄。

DataFrame.to_spark_io([路徑、格式、模式、…))

寫DataFrame火花數據源。

DataFrame.to_csv([路徑,9月,na_rep…))

對象寫入一個逗號分隔值(csv)文件。

DataFrame.to_pandas()

返回一個熊貓DataFrame。

DataFrame.to_html([buf、列col_space,…)

呈現一個DataFrame作為HTML表。

DataFrame.to_numpy()

一個NumPy ndarray DataFrame或係列的代表值。

DataFrame.to_spark([index_col])

引發相關功能。

DataFrame.to_string((buf、列…))

呈現一個友好的控製台DataFrame表格輸出。

DataFrame.to_json([路徑、壓縮、…)

將對象轉換為一個JSON字符串。

DataFrame.to_dict([東方,])

DataFrame轉換為一本字典。

DataFrame.to_excel(excel_writer […])

對象寫入一個Excel表。

DataFrame.to_clipboard([excel, 9])

將對象複製到係統剪貼板。

DataFrame.to_markdown([buf模式])

打印係列或DataFrame Markdown-friendly格式。

DataFrame.to_records((索引、column_dtypes…))

DataFrame轉換為NumPy記錄數組中。

DataFrame.to_latex((buf、列…))

呈現一個對象乳膠表格環境表。

DataFrame.style

屬性返回一個斯泰勒對象包含的方法構建一個風格DataFrame HTML表示。

策劃

DataFrame.plot既是一個可調用的方法和一個名稱空間屬性為特定形式的策劃方法DataFrame.plot。<一>

DataFrame.plot

的別名pyspark.pandas.plot.core.PandasOnSparkPlotAccessor

DataFrame.plot.area((x, y))

畫一個堆放區域的。

DataFrame.plot.barh((x, y))

單杠的陰謀。

DataFrame.plot.bar((x, y))

豎線陰謀。

DataFrame.plot.hist((箱))

畫一個直方圖DataFrame的列。

DataFrame.plot.box(* * kwds)

做一個係列的箱線圖列。

DataFrame.plot.line((x, y))

情節DataFrame /係列。

DataFrame.plot.pie(* * kwds)

生成餅圖。

DataFrame.plot.scatter(x, y, * * kwds)

創建一個散點圖不同大小和顏色標記點。

DataFrame.plot.density([bw_method,印第安納州])

使用高斯內核生成核密度估計的陰謀。

DataFrame.hist((箱))

畫一個直方圖DataFrame的列。

DataFrame.boxplot(* * kwds)

做一個係列的箱線圖列。

DataFrame.kde([bw_method,印第安納州])

使用高斯內核生成核密度估計的陰謀。

Pandas-on-Spark特定

DataFrame.pandas_on_spark提供pandas-on-Spark特定功能,隻存在於熊貓API火花。這些可以訪問DataFrame.pandas_on_spark。<函數/屬性>

DataFrame.pandas_on_spark.apply_batch(函數)

應用一個函數需要熊貓熊貓DataFrame DataFrame和輸出。

DataFrame.pandas_on_spark.transform_batch(…)

變換塊的功能需要熊貓熊貓DataFrame DataFrame和輸出。