pyspark.pandas.DataFrame¶

類 pyspark.pandas。 DataFrame ( 數據=沒有一個,指數=沒有一個,列=沒有一個,dtype=沒有一個,複製=假 ) ¶

pandas-on-Spark DataFrame對應於熊貓DataFrame邏輯。這是引發DataFrame內部。

變量

_internal——一個內部不變的框架來管理元數據。

參數

數據 numpy ndarray(結構化或均勻)、dict大熊貓DataFrame,引發DataFrame或pandas-on-Spark係列: Dict類型可以包含係列、數組常量,注意,如果或類似的對象數據是一個熊貓DataFrame,火花DataFrame pandas-on-Spark係列,其他參數不應使用。
指數指數或類數組: 索引用於生成的框架。將默認RangeIndex如果沒有索引信息提供輸入數據和沒有索引的一部分嗎
列指數或類數組: 列標簽用於生成的框架。將默認為RangeIndex (0, 1, 2,…, n)如果沒有列標簽提供
dtype dtype,默認沒有: 數據類型的力量。隻有一個dtype是被允許的。如果沒有,推斷出
複製布爾,默認的錯誤: 複製的數據輸入。隻會影響DataFrame / 2 d ndarray輸入

例子

構建DataFrame從一個字典。

           > > >d={“col1”:(1,2),“col2”:(3,4]}> > >df=ps。DataFrame(數據=d,列=(“col1”,“col2”])> > >dfcol1 col20 1 31 2 4
          

從熊貓DataFrame DataFrame建設

           > > >df=ps。DataFrame(pd。DataFrame(數據=d,列=(“col1”,“col2”)))> > >dfcol1 col20 1 31 2 4
          

請注意,推斷dtype int64。

           > > >df。dtypescol1 int64col2 int64dtype:對象
          

執行一個dtype:

           > > >df=ps。DataFrame(數據=d,dtype=np。int8)> > >df。dtypescol1 int8col2 int8dtype:對象
          

構建從numpy DataFrame ndarray:

           > > >df2=ps。DataFrame(np。隨機。randint(低=0,高=10,大小=(5,5)),…列=(“一個”,“b”,“c”,' d ',“e”])> > >df2a b c d e4 0 3 1 9 81 4 8 4 8 42 7 6 5 6 73 8 7 9 1 04 2 5 4 3 9
          

方法

`腹肌`()	返回一個係列/ DataFrame與每個元素的絕對數值。
`添加`(其他)	除了dataframe和其他,element-wise(二元運算符+)。
`add_prefix`(前綴)	前綴標簽用繩子前綴。
`add_suffix`(後綴)	後綴標簽用繩子後綴。
`gg`(函數)	總軸指定使用一個或多個操作。
`總`(函數)	總軸指定使用一個或多個操作。
`對齊`(其他[加入,軸,複製))	使兩個物體的軸與指定的連接方法。
`所有`([軸,bool_only skipna])	返回所有元素是否正確。
`任何`([軸,bool_only])	返回任何元素是否為真。
`附加`(其他[ignore_index,…)	行其他附加到調用者,返回一個新對象。
`應用`(func(軸,args))	應用一個函數DataFrame沿著一個軸。
`applymap`(函數)	一個函數應用於Dataframe elementwise。
`分配`(* * kwargs)	DataFrame分配新列。
`astype`(dtype)	把指定dtype pandas-on-Spark對象`dtype`。
`at_time`(時間(asof,軸))	選擇在一天中的特定時間值(例如:)早上九時三十分。
`回填`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' bfill '`。
`between_time`(start_time end_time […])	選擇在一天的特定時間之間的值(例如:9:00-9:30點)。
`bfill`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' bfill '`。
`bool`()	返回布爾值的單個元素在當前對象。
`箱線圖`(* * kwds)	做一個係列的箱線圖列。
`剪輯`([低,上層])	調整值在輸入閾值(s)。
`combine_first`(其他)	更新null元素值在同一位置其他。
`複製`((深))	複製這個對象的指標和數據。
`相關係數`([方法])	計算兩兩相關的列,不包括NA / null值。
`corrwith`(其他[下降,方法])	計算兩兩相關。
`數`([軸,numeric_only])	對每一列數non-NA細胞。
`浸`([min_periods])	協方差計算兩兩列,不包括NA / null值。
`cummax`([skipna])	返回在DataFrame累積最大或係列軸。
`孜然芹`([skipna])	返回累積在DataFrame最低或係列軸。
`cumprod`([skipna])	返回在DataFrame累積產品或係列軸。
`cumsum`([skipna])	返回累積求和DataFrame或係列軸。
`描述`((百分位數))	產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除`南`值。
`diff`([時期,軸])	第一個離散元素的差異。
`div`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`分`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`點`(其他)	計算DataFrame和其他之間的矩陣乘法。
`下降`([標簽、軸、索引列])	從列指定的標簽。
`drop_duplicates`([子集,保持原地,…))	返回DataFrame刪除重複的行,選擇隻考慮某些列。
`droplevel`(水平軸])	返回所請求DataFrame與索引/列級(s)移除。
`dropna`([軸,如何打,子集,原地])	刪除缺失值。
`複製`([子集,保持])	返回布爾係列表示重複的行,選擇隻考慮某些列。
`情商`(其他)	比較如果當前值等於另一個。
`=`(其他)	比較如果當前值等於另一個。
`eval`(expr[,原地])	評估一個字符串描述DataFrame列的操作。
`ewm`([com、跨度、半衰期、α…))	提供指數加權窗口轉換。
`擴大`([min_periods])	提供擴展轉換。
`爆炸`(列[,ignore_index])	行變換的每個元素類似,複製索引值。
`ffill`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' ffill '`。
`fillna`([值,方法,軸,原地,限製))	填補NA / NaN值。
`過濾器`([項目,正則表達式,軸])	行或列的子集dataframe根據標簽指定的索引。
`第一個`(抵消)	選擇第一個基於日期的時間序列數據偏移量。
`first_valid_index`()	檢索第一個有效的索引值。
`floordiv`(其他)	得到整數dataframe分工和其他,element-wise(二元運算符/ /)。
`from_dict`(數據[,東方dtype列])	構建DataFrame dict的數組類或字典。
`from_records`(數據、索引、排除…))	結構化或記錄ndarray DataFrame進行轉換。
`通用電氣`(其他)	比較當前值是否大於或等於另一個。
`得到`(關鍵(違約))	獲取項目從對象給定鍵(DataFrame列,板片等)。
`get_dtype_counts`()	返回數的獨特dtypes對象。
`groupby`(由軸、as_index dropna])	使用一係列列組DataFrame或係列。
`gt`(其他)	比較如果當前值大於另一個。
`頭`([n])	返回第一個n行。
`噓`((箱))	畫一個直方圖DataFrame的列。
`idxmax`((軸))	回報指數首次出現的最大要求軸。
`idxmin`((軸))	回報指數首次出現的最低要求的軸。
`信息`([冗長,但,max_cols null_counts])	打印一個簡明的總結DataFrame。
`插入`(代碼行、列值[,allow_duplicates])	在指定位置插入列DataFrame。
`插入`((方法、限製…))	填補NaN值使用插值法。
`型號`(值)	DataFrame中的每個元素是否包含在價值觀。
`並網發電`()	檢測項目在當前Dataframe缺失值。
`isnull`()	檢測項目在當前Dataframe缺失值。
`項目`()	這是一個別名`iteritems`。
`iteritems`()	迭代器/(列名,係列)對。
`iterrows`()	遍曆DataFrame行(指數係列)對。
`itertuples`([指數名稱])	遍曆DataFrame namedtuples行。
`加入`(右(,,,lsuffix, rsuffix))	另一個DataFrame的連接列。
`kde`([bw_method,印第安納州])	使用高斯內核生成核密度估計的陰謀。
`鍵`()	返回列的別名。
`庫爾特`([軸,skipna numeric_only])	返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。
`峰度`([軸,skipna numeric_only])	返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。
`去年`(抵消)	選擇最終的時間序列數據基於日期抵消。
`last_valid_index`()	回報指數去年non-NA /空值。
`勒`(其他)	比較如果當前值小於或等於另一個。
`lt`(其他)	比較如果當前值小於另一個。
`瘋了`((軸))	返回值的平均絕對偏差。
`麵具`(氣孔導度[其他])	更換條件為真值。
`馬克斯`([軸,skipna numeric_only])	返回值的最大。
`的意思是`([軸,skipna numeric_only])	返回值的均值。
`中位數`([軸、skipna numeric_only、準確性))	返回所請求的軸的值的中值。
`融化`([id_vars、value_vars var_name value_name])	透視的DataFrame寬格式長格式,選擇離開標識符變量集。
`合並`(右[,,,left_on right_on,…))	合並DataFrame對象數據庫樣式加入。
`最小值`([軸,skipna numeric_only])	返回的最小值。
`國防部`(其他)	dataframe模等,element-wise(二元運算符%)。
`mul`(其他)	乘法dataframe和其他,element-wise(二元運算符*)。
`乘`(其他)	乘法dataframe和其他,element-wise(二元運算符*)。
`不`(其他)	比較,如果當前值不等於另一個。
`nlargest`(n,列[,])	返回第一個n行命令列在降序排列。
`notna`()	檢測項目在當前Dataframe non-missing值。
`notnull`()	檢測項目在當前Dataframe non-missing值。
`nsmallest`(n,列[,])	返回第一個n行命令列以升序排序。
`nunique`([軸,dropna,大約,rsd])	返回對象的獨特的元素數量。
`墊`([軸,原地,限製])	的同義詞DataFrame.fillna ()或Series.fillna ()與`方法= ' ffill '`。
`pct_change`([時間])	當前和前一個元素之間的百分比變化。
`管`(* args func * * kwargs)	應用函數(自我,* args, * * kwargs)。
`主`((指數、列值))	返回重塑DataFrame由給定的索引/列值。
`pivot_table`((價值觀、索引列,…))	創建一個spreadsheet-style DataFrame數據透視表。
`流行`(項)	返回項目,從框架。
`戰俘`(其他)	得到指數dataframe係列和其他的力量,element-wise(二元運算符* *)。
`刺激`([軸、skipna numeric_only min_count])	返回值的乘積。
`產品`([軸、skipna numeric_only min_count])	返回值的乘積。
`分位數`([q,軸,numeric_only、準確性])	返回值在給定的分位數。
`查詢`(expr[,原地])	查詢的列DataFrame布爾表達式。
`列地址`(其他)	除了dataframe和其他,element-wise(二元運算符+)。
`排名`([方法、提升numeric_only])	計算數值數據(1到n)沿軸。
`rdiv`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`重建索引`([標簽、索引列,軸,…))	符合DataFrame與可選填新索引邏輯,把NA /南在前麵的位置沒有價值指數。
`reindex_like`(其他(複製))	像其他對象返回一個DataFrame與匹配指數。
`重命名`([映射器、索引列,軸,…))	改變軸標簽。
`rename_axis`([映射器、索引列,軸,…))	設置軸為索引或列的名稱。
`取代`([to_replace,價值,原地,極限,…))	返回一個新的DataFrame值替換為另一個值。
`重新取樣`(規則(關於),關閉,標簽,)	重新取樣時間序列數據。
`reset_index`([水平下降,原地,…)	重置指數水平。
`rfloordiv`(其他)	得到整數dataframe分工和其他,element-wise(二元運算符/ /)。
`rmod`(其他)	dataframe模等,element-wise(二元運算符%)。
`rmul`(其他)	乘法dataframe和其他,element-wise(二元運算符*)。
`滾動`(窗口[min_periods])	提供軋製轉換。
`輪`((小數))	圓一個DataFrame數量可變的位小數。
`rpow`(其他)	得到指數dataframe和其他的力量,element-wise(二元運算符* *)。
`rsub`(其他)	減法dataframe和其他,element-wise(二元運算符- - - - - -)。
`rtruediv`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`樣本`([n,壓裂、替換random_state,…))	返回一個隨機樣本的物品從一個軸的對象。
`select_dtypes`([包括,排除])	返回的一個子集DataFrame dtypes基於列的列。
`掃描電鏡`([軸、skipna ddof numeric_only])	返回所請求無偏平均數標準誤差在軸。
`set_index`(鍵[,下降,添加,原地])	設置DataFrame指數(行標簽)使用一個或多個現有的列。
`轉變`([時期,fill_value])	轉變DataFrame所需數量的時期。
`斜`([軸,skipna numeric_only])	返回無偏斜規範化的n - 1。
`sort_index`([軸水平、提升、…))	類對象的標簽(沿著一個軸)
`sort_values`(由[、提升、原地…))	通過值沿軸。
`擠壓`((軸))	擠壓1維軸標量對象。
`堆棧`()	堆棧(s)規定的級別從列索引。
`性病`([軸、skipna ddof numeric_only])	返回樣本標準差。
`子`(其他)	減法dataframe和其他,element-wise(二元運算符- - - - - -)。
`減去`(其他)	減法dataframe和其他,element-wise(二元運算符- - - - - -)。
`總和`([軸、skipna numeric_only min_count])	返回值的總和。
`swapaxes`(i, j[,複製)	適當的交換和交換值軸軸。
`swaplevel`((i, j,軸))	交換水平i和j在特定MultiIndex軸。
`尾巴`([n])	返回最後一個n行。
`取`(指數[,軸)	返回給定的元素位置指數沿著一個軸。
`to_clipboard`([excel, 9])	將對象複製到係統剪貼板。
`to_csv`([路徑、sep na_rep、列標題,…))	對象寫入一個逗號分隔值(csv)文件。
`to_delta`(路徑、模式、partition_cols index_col])	寫DataFrame三角洲湖表。
`to_dict`([東方,])	DataFrame轉換為一本字典。
`to_excel`(excel_writer [, na_rep sheet_name…))	對象寫入一個Excel表。
`to_html`([col_space buf、列,標題,…))	呈現一個DataFrame作為HTML表。
`to_json`([路徑、壓縮、num_files…))	將對象轉換為一個JSON字符串。
`to_latex`([col_space buf、列,標題,…))	呈現一個對象乳膠表格環境表。
`to_markdown`([buf模式])	打印係列或DataFrame Markdown-friendly格式。
`to_numpy`()	一個NumPy ndarray DataFrame或係列的代表值。
`to_orc`(路徑、模式、partition_cols index_col])	寫DataFrame獸人文件或目錄。
`to_pandas`()	返回一個熊貓DataFrame。
`to_parquet`(路徑、模式、partition_cols…))	寫DataFrame拚花文件或目錄。
`to_records`([索引、column_dtypes index_dtypes])	DataFrame轉換為NumPy記錄數組中。
`to_spark`([index_col])	引發相關功能。
`to_spark_io`([路徑、格式、模式、…))	寫DataFrame火花數據源。
`to_string`([col_space buf、列,標題,…))	呈現一個友好的控製台DataFrame表格輸出。
`to_table`(名稱、格式、模式,…))	寫DataFrame火花表。
`變換`(func(軸))	調用`函數`與改變了價值觀和自我生產一係列具有相同的長度作為它的輸入。
`轉置`()	轉置索引和列。
`truediv`(其他)	獲得浮動dataframe分工和其他element-wise(二元運算符/)。
`截斷`([之前,之後,軸,複製])	截斷或一係列DataFrame之前和之後的一些索引值。
`unstack`()	主(一定層次)索引標簽。
`更新`(其他[,加入,覆蓋])	從另一個DataFrame使用non-NA值修改到位。
`var`([軸,ddof numeric_only])	均方差的回報。
`在哪裏`(氣孔導度、其他軸)	替換值的條件是錯誤的。
`xs`(關鍵、軸、水平)	返回從DataFrame截麵。

屬性

`T`	轉置索引和列。
`在`	獲取一個值,一雙行/列標簽。
`軸`	返回一個列表代表DataFrame的軸。
`列`	DataFrame的列標簽。
`dtypes`	返回dtypes DataFrame。
`空`	返回true,如果當前DataFrame是空的。
`iat`	獲取一個值為一對行/列整數位置。
`iloc`	純粹基於integer-location索引選擇的位置。
`指數`	該指數DataFrame(行標簽)列。
`瘋狂的`	訪問一組行和列的標簽(s)或一個布爾係列。
`ndim`	返回一個int數組維數代表的數量。
`形狀`	返回一個元組代表DataFrame的維度。
`大小`	返回一個int代表該對象的元素數量。
`風格`	屬性返回一個斯泰勒對象包含的方法構建一個風格DataFrame HTML表示。
`值`	返回一個Numpy DataFrame或係列的代表。

以前的

DataFrame

下一個

pyspark.pandas.DataFrame.index