DataFrame¶

構造函數¶

DataFrame([數據、索引、列dtype,複製))

pandas-on-Spark DataFrame對應於熊貓DataFrame邏輯。

屬性和基礎數據¶

`DataFrame.index`	該指數DataFrame(行標簽)列。
`DataFrame.columns`	DataFrame的列標簽。
`DataFrame.empty`	返回true,如果當前DataFrame是空的。

`DataFrame.dtypes`	返回dtypes DataFrame。
`DataFrame.shape`	返回一個元組代表DataFrame的維度。
`DataFrame.axes`	返回一個列表代表DataFrame的軸。
`DataFrame.ndim`	返回一個int數組維數代表的數量。
`DataFrame.size`	返回一個int代表該對象的元素數量。
`DataFrame.select_dtypes`([包括,排除])	返回的一個子集DataFrame dtypes基於列的列。
`DataFrame.values`	返回一個Numpy DataFrame或係列的代表。

轉換¶

`DataFrame.copy`((深))	複製這個對象的指標和數據。
`DataFrame.isna`()	檢測項目在當前Dataframe缺失值。
`DataFrame.astype`(dtype)	把指定dtype pandas-on-Spark對象`dtype`。
`DataFrame.isnull`()	檢測項目在當前Dataframe缺失值。
`DataFrame.notna`()	檢測項目在當前Dataframe non-missing值。
`DataFrame.notnull`()	檢測項目在當前Dataframe non-missing值。
`DataFrame.pad`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' ffill '`。
`DataFrame.bool`()	返回布爾值的單個元素在當前對象。

索引、迭代¶

`DataFrame.at`	獲取一個值,一雙行/列標簽。
`DataFrame.iat`	獲取一個值為一對行/列整數位置。
`DataFrame.head`([n])	返回第一個n行。
`DataFrame.idxmax`((軸))	回報指數首次出現的最大要求軸。
`DataFrame.idxmin`((軸))	回報指數首次出現的最低要求的軸。
`DataFrame.loc`	訪問一組行和列的標簽(s)或一個布爾係列。
`DataFrame.iloc`	純粹基於integer-location索引選擇的位置。
`DataFrame.items`()	這是一個別名`iteritems`。
`DataFrame.iteritems`()	迭代器/(列名,係列)對。
`DataFrame.iterrows`()	遍曆DataFrame行(指數係列)對。
`DataFrame.itertuples`([指數名稱])	遍曆DataFrame namedtuples行。
`DataFrame.keys`()	返回列的別名。
`DataFrame.pop`(項)	返回項目,從框架。
`DataFrame.tail`([n])	返回最後一個n行。
`DataFrame.xs`(關鍵、軸、水平)	返回從DataFrame截麵。
`DataFrame.get`(關鍵(違約))	獲取項目從對象給定鍵(DataFrame列,板片等)。
`DataFrame.where`(氣孔導度、其他軸)	替換值的條件是錯誤的。
`DataFrame.mask`(氣孔導度[其他])	更換條件為真值。
`DataFrame.query`(expr[,原地])	查詢的列DataFrame布爾表達式。

二元運算符函數¶

`DataFrame.add`(其他)	除了dataframe和其他,element-wise(二元運算符+)。
`DataFrame.radd`(其他)	除了dataframe和其他,element-wise(二元運算符+)。
`DataFrame.div`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`DataFrame.rdiv`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`DataFrame.truediv`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`DataFrame.rtruediv`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`DataFrame.mul`(其他)	乘法dataframe和其他,element-wise(二元運算符*)。
`DataFrame.rmul`(其他)	乘法dataframe和其他,element-wise(二元運算符*)。
`DataFrame.sub`(其他)	減法dataframe和其他,element-wise(二元運算符- - - - - -)。
`DataFrame.rsub`(其他)	減法dataframe和其他,element-wise(二元運算符- - - - - -)。
`DataFrame.pow`(其他)	得到指數dataframe係列和其他的力量,element-wise(二元運算符* *)。
`DataFrame.rpow`(其他)	得到指數dataframe和其他的力量,element-wise(二元運算符* *)。
`DataFrame.mod`(其他)	dataframe模等,element-wise(二元運算符%)。
`DataFrame.rmod`(其他)	dataframe模等,element-wise(二元運算符%)。
`DataFrame.floordiv`(其他)	得到整數dataframe分工和其他,element-wise(二元運算符/ /)。
`DataFrame.rfloordiv`(其他)	得到整數dataframe分工和其他,element-wise(二元運算符/ /)。
`DataFrame.lt`(其他)	比較如果當前值小於另一個。
`DataFrame.gt`(其他)	比較如果當前值大於另一個。
`DataFrame.le`(其他)	比較如果當前值小於或等於另一個。
`DataFrame.ge`(其他)	比較當前值是否大於或等於另一個。
`DataFrame.ne`(其他)	比較,如果當前值不等於另一個。
`DataFrame.eq`(其他)	比較如果當前值等於另一個。
`DataFrame.dot`(其他)	計算DataFrame和其他之間的矩陣乘法。
`DataFrame.combine_first`(其他)	更新null元素值在同一位置其他。

函數的應用程序,GroupBy &窗口¶

`DataFrame.apply`(func(軸,args))	應用一個函數DataFrame沿著一個軸。
`DataFrame.applymap`(函數)	一個函數應用於Dataframe elementwise。
`DataFrame.pipe`(* args func * * kwargs)	應用函數(自我,* args, * * kwargs)。
`DataFrame.agg`(函數)	總軸指定使用一個或多個操作。
`DataFrame.aggregate`(函數)	總軸指定使用一個或多個操作。
`DataFrame.groupby`(由軸、as_index dropna])	使用一係列列組DataFrame或係列。
`DataFrame.rolling`(窗口[min_periods])	提供軋製轉換。
`DataFrame.expanding`([min_periods])	提供擴展轉換。
`DataFrame.transform`(func(軸))	調用`函數`與改變了價值觀和自我生產一係列具有相同的長度作為它的輸入。

計算/描述性統計¶

`DataFrame.abs`()	返回一個係列/ DataFrame與每個元素的絕對數值。
`DataFrame.all`([軸,bool_only skipna])	返回所有元素是否正確。
`DataFrame.any`([軸,bool_only])	返回任何元素是否為真。
`DataFrame.clip`([低,上層])	調整值在輸入閾值(s)。
`DataFrame.corr`([方法])	計算兩兩相關的列,不包括NA / null值。
`DataFrame.corrwith`(其他[下降,方法])	計算兩兩相關。
`DataFrame.count`([軸,numeric_only])	對每一列數non-NA細胞。
`DataFrame.cov`([min_periods])	協方差計算兩兩列,不包括NA / null值。
`DataFrame.describe`((百分位數))	產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除`南`值。
`DataFrame.kurt`([軸,skipna numeric_only])	返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。
`DataFrame.kurtosis`([軸,skipna numeric_only])	返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。
`DataFrame.mad`((軸))	返回值的平均絕對偏差。
`DataFrame.max`([軸,skipna numeric_only])	返回值的最大。
`DataFrame.mean`([軸,skipna numeric_only])	返回值的均值。
`DataFrame.min`([軸,skipna numeric_only])	返回的最小值。
`DataFrame.median`([軸、skipna…)	返回所請求的軸的值的中值。
`DataFrame.pct_change`([時間])	當前和前一個元素之間的百分比變化。
`DataFrame.prod`([軸,skipna、numeric_only…))	返回值的乘積。
`DataFrame.product`([軸、skipna…)	返回值的乘積。
`DataFrame.quantile`([q,軸,numeric_only,…)	返回值在給定的分位數。
`DataFrame.nunique`([軸,dropna,大約,rsd])	返回對象的獨特的元素數量。
`DataFrame.sem`([軸、skipna ddof numeric_only])	返回所請求無偏平均數標準誤差在軸。
`DataFrame.skew`([軸,skipna numeric_only])	返回無偏斜規範化的n - 1。
`DataFrame.sum`([軸,skipna、numeric_only…))	返回值的總和。
`DataFrame.std`([軸、skipna ddof numeric_only])	返回樣本標準差。
`DataFrame.var`([軸,ddof numeric_only])	均方差的回報。
`DataFrame.cummin`([skipna])	返回累積在DataFrame最低或係列軸。
`DataFrame.cummax`([skipna])	返回在DataFrame累積最大或係列軸。
`DataFrame.cumsum`([skipna])	返回累積求和DataFrame或係列軸。
`DataFrame.cumprod`([skipna])	返回在DataFrame累積產品或係列軸。
`DataFrame.round`((小數))	圓一個DataFrame數量可變的位小數。
`DataFrame.diff`([時期,軸])	第一個離散元素的差異。
`DataFrame.eval`(expr[,原地])	評估一個字符串描述DataFrame列的操作。

重建索引/選擇/標簽操作¶

`DataFrame.add_prefix`(前綴)	前綴標簽用繩子前綴。
`DataFrame.add_suffix`(後綴)	後綴標簽用繩子後綴。
`DataFrame.align`(其他[加入,軸,複製))	使兩個物體的軸與指定的連接方法。
`DataFrame.at_time`(時間(asof,軸))	選擇在一天中的特定時間值(例如:)早上九時三十分。
`DataFrame.between_time`(start_time end_time)	選擇在一天的特定時間之間的值(例如:9:00-9:30點)。
`DataFrame.drop`([標簽、軸、索引列])	從列指定的標簽。
`DataFrame.droplevel`(水平軸])	返回所請求DataFrame與索引/列級(s)移除。
`DataFrame.drop_duplicates`([子集,保持,…)	返回DataFrame刪除重複的行,選擇隻考慮某些列。
`DataFrame.duplicated`([子集,保持])	返回布爾係列表示重複的行,選擇隻考慮某些列。
`DataFrame.equals`(其他)	比較如果當前值等於另一個。
`DataFrame.filter`([項目,正則表達式,軸])	行或列的子集dataframe根據標簽指定的索引。
`DataFrame.first`(抵消)	選擇第一個基於日期的時間序列數據偏移量。
`DataFrame.head`([n])	返回第一個n行。
`DataFrame.last`(抵消)	選擇最終的時間序列數據基於日期抵消。
`DataFrame.rename`([映射器、索引列,…))	改變軸標簽。
`DataFrame.rename_axis`([映射器、索引…])	設置軸為索引或列的名稱。
`DataFrame.reset_index`([水平下降,…)	重置指數水平。
`DataFrame.set_index`(鍵(,下降,添加,…))	設置DataFrame指數(行標簽)使用一個或多個現有的列。
`DataFrame.swapaxes`(i, j[,複製)	適當的交換和交換值軸軸。
`DataFrame.swaplevel`((i, j,軸))	交換水平i和j在特定MultiIndex軸。
`DataFrame.take`(指數[,軸)	返回給定的元素位置指數沿著一個軸。
`DataFrame.isin`(值)	DataFrame中的每個元素是否包含在價值觀。
`DataFrame.sample`([n,壓裂、替換…])	返回一個隨機樣本的物品從一個軸的對象。
`DataFrame.truncate`([之前,之後,軸,複製])	截斷或一係列DataFrame之前和之後的一些索引值。

缺失的數據處理¶

`DataFrame.backfill`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' bfill '`。
`DataFrame.dropna`([軸,如何打,…)	刪除缺失值。
`DataFrame.fillna`([值,方法,軸,…))	填補NA / NaN值。
`DataFrame.replace`([to_replace、價值…])	返回一個新的DataFrame值替換為另一個值。
`DataFrame.bfill`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' bfill '`。
`DataFrame.ffill`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' ffill '`。
`DataFrame.interpolate`((方法、限製…))	填補NaN值使用插值法。

重塑、排序置換¶

`DataFrame.pivot_table`((價值觀、索引…))	創建一個spreadsheet-style DataFrame數據透視表。
`DataFrame.pivot`((指數、列值))	返回重塑DataFrame由給定的索引/列值。
`DataFrame.sort_index`((軸,水平,…))	類對象的標簽(沿著一個軸)
`DataFrame.sort_values`(通過(提升,…))	通過值沿軸。
`DataFrame.nlargest`(n,列[,])	返回第一個n行命令列在降序排列。
`DataFrame.nsmallest`(n,列[,])	返回第一個n行命令列以升序排序。
`DataFrame.stack`()	堆棧(s)規定的級別從列索引。
`DataFrame.unstack`()	主(一定層次)索引標簽。
`DataFrame.melt`([id_vars value_vars,…)	透視的DataFrame寬格式長格式,選擇離開標識符變量集。
`DataFrame.explode`(列[,ignore_index])	行變換的每個元素類似,複製索引值。
`DataFrame.squeeze`((軸))	擠壓1維軸標量對象。
`DataFrame.T`	轉置索引和列。
`DataFrame.transpose`()	轉置索引和列。
`DataFrame.reindex`((標簽、索引列,…))	符合DataFrame與可選填新索引邏輯,把NA /南在前麵的位置沒有價值指數。
`DataFrame.reindex_like`(其他(複製))	像其他對象返回一個DataFrame與匹配指數。
`DataFrame.rank`([方法、提升numeric_only])	計算數值數據(1到n)沿軸。

結合/加入/合並¶

`DataFrame.append`(其他[ignore_index,…)	行其他附加到調用者,返回一個新對象。
`DataFrame.assign`(* * kwargs)	DataFrame分配新列。
`DataFrame.merge`(右[,,,left_on…))	合並DataFrame對象數據庫樣式加入。
`DataFrame.join`(右(,,,lsuffix,…))	另一個DataFrame的連接列。
`DataFrame.update`(其他[,加入,覆蓋])	從另一個DataFrame使用non-NA值修改到位。
`DataFrame.insert`(代碼行、列值[…])	在指定位置插入列DataFrame。

序列化/ IO /轉換¶

`DataFrame.from_records`(數據、索引、…)	結構化或記錄ndarray DataFrame進行轉換。
`DataFrame.info`([冗長,但,max_cols…))	打印一個簡明的總結DataFrame。
`DataFrame.to_table`(名稱、格式、模式,…))	寫DataFrame火花表。
`DataFrame.to_delta`(路徑、模式、…)	寫DataFrame三角洲湖表。
`DataFrame.to_parquet`(路徑、模式、…)	寫DataFrame拚花文件或目錄。
`DataFrame.to_spark_io`([路徑、格式、模式、…))	寫DataFrame火花數據源。
`DataFrame.to_csv`([路徑,9月,na_rep…))	對象寫入一個逗號分隔值(csv)文件。
`DataFrame.to_pandas`()	返回一個熊貓DataFrame。
`DataFrame.to_html`([buf、列col_space,…)	呈現一個DataFrame作為HTML表。
`DataFrame.to_numpy`()	一個NumPy ndarray DataFrame或係列的代表值。
`DataFrame.to_spark`([index_col])	引發相關功能。
`DataFrame.to_string`((buf、列…))	呈現一個友好的控製台DataFrame表格輸出。
`DataFrame.to_json`([路徑、壓縮、…)	將對象轉換為一個JSON字符串。
`DataFrame.to_dict`([東方,])	DataFrame轉換為一本字典。
`DataFrame.to_excel`(excel_writer […])	對象寫入一個Excel表。
`DataFrame.to_clipboard`([excel, 9])	將對象複製到係統剪貼板。
`DataFrame.to_markdown`([buf模式])	打印係列或DataFrame Markdown-friendly格式。
`DataFrame.to_records`((索引、column_dtypes…))	DataFrame轉換為NumPy記錄數組中。
`DataFrame.to_latex`((buf、列…))	呈現一個對象乳膠表格環境表。
`DataFrame.style`	屬性返回一個斯泰勒對象包含的方法構建一個風格DataFrame HTML表示。

策劃¶

DataFrame.plot既是一個可調用的方法和一個名稱空間屬性為特定形式的策劃方法DataFrame.plot。<一>。

`DataFrame.plot`	的別名`pyspark.pandas.plot.core.PandasOnSparkPlotAccessor`
`DataFrame.plot.area`((x, y))	畫一個堆放區域的。
`DataFrame.plot.barh`((x, y))	單杠的陰謀。
`DataFrame.plot.bar`((x, y))	豎線陰謀。
`DataFrame.plot.hist`((箱))	畫一個直方圖DataFrame的列。
`DataFrame.plot.box`(* * kwds)	做一個係列的箱線圖列。
`DataFrame.plot.line`((x, y))	情節DataFrame /係列。
`DataFrame.plot.pie`(* * kwds)	生成餅圖。
`DataFrame.plot.scatter`(x, y, * * kwds)	創建一個散點圖不同大小和顏色標記點。
`DataFrame.plot.density`([bw_method,印第安納州])	使用高斯內核生成核密度估計的陰謀。
`DataFrame.hist`((箱))	畫一個直方圖DataFrame的列。
`DataFrame.boxplot`(* * kwds)	做一個係列的箱線圖列。
`DataFrame.kde`([bw_method,印第安納州])	使用高斯內核生成核密度估計的陰謀。

Pandas-on-Spark特定¶

DataFrame.pandas_on_spark提供pandas-on-Spark特定功能,隻存在於熊貓API火花。這些可以訪問DataFrame.pandas_on_spark。<函數/屬性>。

`DataFrame.pandas_on_spark.apply_batch`(函數)	應用一個函數需要熊貓熊貓DataFrame DataFrame和輸出。
`DataFrame.pandas_on_spark.transform_batch`(…)	變換塊的功能需要熊貓熊貓DataFrame DataFrame和輸出。

以前的

pyspark.pandas.Series.pandas_on_spark.transform_batch

下一個

pyspark.pandas.DataFrame

`DataFrame.resample`(規則(關於),關閉,標簽,)	重新取樣時間序列數據。
`DataFrame.shift`([時期,fill_value])	轉變DataFrame所需數量的時期。
`DataFrame.first_valid_index`()	檢索第一個有效的索引值。
`DataFrame.last_valid_index`()	回報指數去年non-NA /空值。

`DataFrame.spark.frame`([index_col])	返回當前DataFrame DataFrame火花。
`DataFrame.spark.cache`()	當前DataFrame收益率和緩存。
`DataFrame.spark.persist`([storage_level])	產量和當前具有特定StorageLevel DataFrame緩存。
`DataFrame.spark.hint`(名稱、*參數)	指定當前DataFrame一些提示。
`DataFrame.spark.to_table`(名稱、格式、…)	寫DataFrame火花表。
`DataFrame.spark.to_spark_io`([路徑、格式、…)	寫DataFrame火花數據源。
`DataFrame.spark.apply`(函數[index_col])	適用於一個函數,並返回一個火花DataFrame。
`DataFrame.spark.repartition`(num_partitions)	返回一個新的DataFrame分區的分區表達式。
`DataFrame.spark.coalesce`(num_partitions)	返回一個新的DataFrame到底num_partitions分區。