pyspark.pandas.DataFrame¶
-
類
pyspark.pandas。
DataFrame
( 數據=沒有一個,指數=沒有一個,列=沒有一個,dtype=沒有一個,複製=假 ) ¶ -
pandas-on-Spark DataFrame對應於熊貓DataFrame邏輯。這是引發DataFrame內部。
- 變量
-
_internal——一個內部不變的框架來管理元數據。
- 參數
-
- 數據 numpy ndarray(結構化或均勻)、dict大熊貓DataFrame,引發DataFrame或pandas-on-Spark係列
-
Dict類型可以包含係列、數組常量,注意,如果或類似的對象數據是一個熊貓DataFrame,火花DataFrame pandas-on-Spark係列,其他參數不應使用。
- 指數 指數或類數組
-
索引用於生成的框架。將默認RangeIndex如果沒有索引信息提供輸入數據和沒有索引的一部分嗎
- 列 指數或類數組
-
列標簽用於生成的框架。將默認為RangeIndex (0, 1, 2,…, n)如果沒有列標簽提供
- dtype dtype,默認沒有
-
數據類型的力量。隻有一個dtype是被允許的。如果沒有,推斷出
- 複製 布爾,默認的錯誤
-
複製的數據輸入。隻會影響DataFrame / 2 d ndarray輸入
例子
構建DataFrame從一個字典。
> > >d={“col1”:(1,2),“col2”:(3,4]}> > >df=ps。DataFrame(數據=d,列=(“col1”,“col2”])> > >dfcol1 col20 1 31 2 4
從熊貓DataFrame DataFrame建設
> > >df=ps。DataFrame(pd。DataFrame(數據=d,列=(“col1”,“col2”)))> > >dfcol1 col20 1 31 2 4
請注意,推斷dtype int64。
> > >df。dtypescol1 int64col2 int64dtype:對象
執行一個dtype:
> > >df=ps。DataFrame(數據=d,dtype=np。int8)> > >df。dtypescol1 int8col2 int8dtype:對象
構建從numpy DataFrame ndarray:
> > >df2=ps。DataFrame(np。隨機。randint(低=0,高=10,大小=(5,5)),…列=(“一個”,“b”,“c”,' d ',“e”])> > >df2a b c d e4 0 3 1 9 81 4 8 4 8 42 7 6 5 6 73 8 7 9 1 04 2 5 4 3 9
方法
腹肌
()返回一個係列/ DataFrame與每個元素的絕對數值。
添加
(其他)除了dataframe和其他,element-wise(二元運算符+)。
add_prefix
(前綴)前綴標簽用繩子前綴。
add_suffix
(後綴)後綴標簽用繩子後綴。
gg
(函數)總軸指定使用一個或多個操作。
總
(函數)總軸指定使用一個或多個操作。
對齊
(其他[加入,軸,複製))使兩個物體的軸與指定的連接方法。
所有
([軸,bool_only skipna])返回所有元素是否正確。
任何
([軸,bool_only])返回任何元素是否為真。
附加
(其他[ignore_index,…)行其他附加到調用者,返回一個新對象。
應用
(func(軸,args))應用一個函數DataFrame沿著一個軸。
applymap
(函數)一個函數應用於Dataframe elementwise。
分配
(* * kwargs)DataFrame分配新列。
astype
(dtype)把指定dtype pandas-on-Spark對象
dtype
。at_time
(時間(asof,軸))選擇在一天中的特定時間值(例如:)早上九時三十分。
回填
([軸,原地,限製])的同義詞DataFrame.fillna ()或Series.fillna ()與
方法= ' bfill '
。between_time
(start_time end_time […])選擇在一天的特定時間之間的值(例如:9:00-9:30點)。
bfill
([軸,原地,限製])的同義詞DataFrame.fillna ()或Series.fillna ()與
方法= ' bfill '
。bool
()返回布爾值的單個元素在當前對象。
箱線圖
(* * kwds)做一個係列的箱線圖列。
剪輯
([低,上層])調整值在輸入閾值(s)。
combine_first
(其他)更新null元素值在同一位置其他。
複製
((深))複製這個對象的指標和數據。
相關係數
([方法])計算兩兩相關的列,不包括NA / null值。
corrwith
(其他[下降,方法])計算兩兩相關。
數
([軸,numeric_only])對每一列數non-NA細胞。
浸
([min_periods])協方差計算兩兩列,不包括NA / null值。
cummax
([skipna])返回在DataFrame累積最大或係列軸。
孜然芹
([skipna])返回累積在DataFrame最低或係列軸。
cumprod
([skipna])返回在DataFrame累積產品或係列軸。
cumsum
([skipna])返回累積求和DataFrame或係列軸。
描述
((百分位數))產生描述性統計,總結集中趨勢,分散和形狀數據集的分布、排除
南
值。diff
([時期,軸])第一個離散元素的差異。
div
(其他)獲得浮動dataframe分工和其他element-wise(二元運算符/)。
分
(其他)獲得浮動dataframe分工和其他element-wise(二元運算符/)。
點
(其他)計算DataFrame和其他之間的矩陣乘法。
下降
([標簽、軸、索引列])從列指定的標簽。
drop_duplicates
([子集,保持原地,…))返回DataFrame刪除重複的行,選擇隻考慮某些列。
droplevel
(水平軸])返回所請求DataFrame與索引/列級(s)移除。
dropna
([軸,如何打,子集,原地])刪除缺失值。
複製
([子集,保持])返回布爾係列表示重複的行,選擇隻考慮某些列。
情商
(其他)比較如果當前值等於另一個。
=
(其他)比較如果當前值等於另一個。
eval
(expr[,原地])評估一個字符串描述DataFrame列的操作。
ewm
([com、跨度、半衰期、α…))提供指數加權窗口轉換。
擴大
([min_periods])提供擴展轉換。
爆炸
(列[,ignore_index])行變換的每個元素類似,複製索引值。
ffill
([軸,原地,限製])的同義詞DataFrame.fillna ()或Series.fillna ()與
方法= ' ffill '
。fillna
([值,方法,軸,原地,限製))填補NA / NaN值。
過濾器
([項目,正則表達式,軸])行或列的子集dataframe根據標簽指定的索引。
第一個
(抵消)選擇第一個基於日期的時間序列數據偏移量。
檢索第一個有效的索引值。
floordiv
(其他)得到整數dataframe分工和其他,element-wise(二元運算符/ /)。
from_dict
(數據[,東方dtype列])構建DataFrame dict的數組類或字典。
from_records
(數據、索引、排除…))結構化或記錄ndarray DataFrame進行轉換。
通用電氣
(其他)比較當前值是否大於或等於另一個。
得到
(關鍵(違約))獲取項目從對象給定鍵(DataFrame列,板片等)。
get_dtype_counts
()返回數的獨特dtypes對象。
groupby
(由軸、as_index dropna])使用一係列列組DataFrame或係列。
gt
(其他)比較如果當前值大於另一個。
頭
([n])返回第一個n行。
噓
((箱))畫一個直方圖DataFrame的列。
idxmax
((軸))回報指數首次出現的最大要求軸。
idxmin
((軸))回報指數首次出現的最低要求的軸。
信息
([冗長,但,max_cols null_counts])打印一個簡明的總結DataFrame。
插入
(代碼行、列值[,allow_duplicates])在指定位置插入列DataFrame。
插入
((方法、限製…))填補NaN值使用插值法。
型號
(值)DataFrame中的每個元素是否包含在價值觀。
並網發電
()檢測項目在當前Dataframe缺失值。
isnull
()檢測項目在當前Dataframe缺失值。
項目
()這是一個別名
iteritems
。迭代器/(列名,係列)對。
iterrows
()遍曆DataFrame行(指數係列)對。
itertuples
([指數名稱])遍曆DataFrame namedtuples行。
加入
(右(,,,lsuffix, rsuffix))另一個DataFrame的連接列。
kde
([bw_method,印第安納州])使用高斯內核生成核密度估計的陰謀。
鍵
()返回列的別名。
庫爾特
([軸,skipna numeric_only])返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。
峰度
([軸,skipna numeric_only])返回不偏峰度使用費舍爾峰度的定義(峰度正常= = 0.0)。
去年
(抵消)選擇最終的時間序列數據基於日期抵消。
回報指數去年non-NA /空值。
勒
(其他)比較如果當前值小於或等於另一個。
lt
(其他)比較如果當前值小於另一個。
瘋了
((軸))返回值的平均絕對偏差。
麵具
(氣孔導度[其他])更換條件為真值。
馬克斯
([軸,skipna numeric_only])返回值的最大。
的意思是
([軸,skipna numeric_only])返回值的均值。
中位數
([軸、skipna numeric_only、準確性))返回所請求的軸的值的中值。
融化
([id_vars、value_vars var_name value_name])透視的DataFrame寬格式長格式,選擇離開標識符變量集。
合並
(右[,,,left_on right_on,…))合並DataFrame對象數據庫樣式加入。
最小值
([軸,skipna numeric_only])返回的最小值。
國防部
(其他)dataframe模等,element-wise(二元運算符%)。
mul
(其他)乘法dataframe和其他,element-wise(二元運算符*)。
乘
(其他)乘法dataframe和其他,element-wise(二元運算符*)。
不
(其他)比較,如果當前值不等於另一個。
nlargest
(n,列[,])返回第一個n行命令列在降序排列。
notna
()檢測項目在當前Dataframe non-missing值。
notnull
()檢測項目在當前Dataframe non-missing值。
nsmallest
(n,列[,])返回第一個n行命令列以升序排序。
nunique
([軸,dropna,大約,rsd])返回對象的獨特的元素數量。
墊
([軸,原地,限製])的同義詞DataFrame.fillna ()或Series.fillna ()與
方法= ' ffill '
。pct_change
([時間])當前和前一個元素之間的百分比變化。
管
(* args func * * kwargs)應用函數(自我,* args, * * kwargs)。
主
((指數、列值))返回重塑DataFrame由給定的索引/列值。
pivot_table
((價值觀、索引列,…))創建一個spreadsheet-style DataFrame數據透視表。
流行
(項)返回項目,從框架。
戰俘
(其他)得到指數dataframe係列和其他的力量,element-wise(二元運算符* *)。
刺激
([軸、skipna numeric_only min_count])返回值的乘積。
產品
([軸、skipna numeric_only min_count])返回值的乘積。
分位數
([q,軸,numeric_only、準確性])返回值在給定的分位數。
查詢
(expr[,原地])查詢的列DataFrame布爾表達式。
列地址
(其他)除了dataframe和其他,element-wise(二元運算符+)。
排名
([方法、提升numeric_only])計算數值數據(1到n)沿軸。
rdiv
(其他)獲得浮動dataframe分工和其他element-wise(二元運算符/)。
重建索引
([標簽、索引列,軸,…))符合DataFrame與可選填新索引邏輯,把NA /南在前麵的位置沒有價值指數。
reindex_like
(其他(複製))像其他對象返回一個DataFrame與匹配指數。
重命名
([映射器、索引列,軸,…))改變軸標簽。
rename_axis
([映射器、索引列,軸,…))設置軸為索引或列的名稱。
取代
([to_replace,價值,原地,極限,…))返回一個新的DataFrame值替換為另一個值。
重新取樣
(規則(關於),關閉,標簽,)重新取樣時間序列數據。
reset_index
([水平下降,原地,…)重置指數水平。
rfloordiv
(其他)得到整數dataframe分工和其他,element-wise(二元運算符/ /)。
rmod
(其他)dataframe模等,element-wise(二元運算符%)。
rmul
(其他)乘法dataframe和其他,element-wise(二元運算符*)。
滾動
(窗口[min_periods])提供軋製轉換。
輪
((小數))圓一個DataFrame數量可變的位小數。
rpow
(其他)得到指數dataframe和其他的力量,element-wise(二元運算符* *)。
rsub
(其他)減法dataframe和其他,element-wise(二元運算符- - - - - -)。
rtruediv
(其他)獲得浮動dataframe分工和其他element-wise(二元運算符/)。
樣本
([n,壓裂、替換random_state,…))返回一個隨機樣本的物品從一個軸的對象。
select_dtypes
([包括,排除])返回的一個子集DataFrame dtypes基於列的列。
掃描電鏡
([軸、skipna ddof numeric_only])返回所請求無偏平均數標準誤差在軸。
set_index
(鍵[,下降,添加,原地])設置DataFrame指數(行標簽)使用一個或多個現有的列。
轉變
([時期,fill_value])轉變DataFrame所需數量的時期。
斜
([軸,skipna numeric_only])返回無偏斜規範化的n - 1。
sort_index
([軸水平、提升、…))類對象的標簽(沿著一個軸)
sort_values
(由[、提升、原地…))通過值沿軸。
擠壓
((軸))擠壓1維軸標量對象。
堆棧
()堆棧(s)規定的級別從列索引。
性病
([軸、skipna ddof numeric_only])返回樣本標準差。
子
(其他)減法dataframe和其他,element-wise(二元運算符- - - - - -)。
減去
(其他)減法dataframe和其他,element-wise(二元運算符- - - - - -)。
總和
([軸、skipna numeric_only min_count])返回值的總和。
swapaxes
(i, j[,複製)適當的交換和交換值軸軸。
swaplevel
((i, j,軸))交換水平i和j在特定MultiIndex軸。
尾巴
([n])返回最後一個n行。
取
(指數[,軸)返回給定的元素位置指數沿著一個軸。
to_clipboard
([excel, 9])將對象複製到係統剪貼板。
to_csv
([路徑、sep na_rep、列標題,…))對象寫入一個逗號分隔值(csv)文件。
to_delta
(路徑、模式、partition_cols index_col])寫DataFrame三角洲湖表。
to_dict
([東方,])DataFrame轉換為一本字典。
to_excel
(excel_writer [, na_rep sheet_name…))對象寫入一個Excel表。
to_html
([col_space buf、列,標題,…))呈現一個DataFrame作為HTML表。
to_json
([路徑、壓縮、num_files…))將對象轉換為一個JSON字符串。
to_latex
([col_space buf、列,標題,…))呈現一個對象乳膠表格環境表。
to_markdown
([buf模式])打印係列或DataFrame Markdown-friendly格式。
to_numpy
()一個NumPy ndarray DataFrame或係列的代表值。
to_orc
(路徑、模式、partition_cols index_col])寫DataFrame獸人文件或目錄。
返回一個熊貓DataFrame。
to_parquet
(路徑、模式、partition_cols…))寫DataFrame拚花文件或目錄。
to_records
([索引、column_dtypes index_dtypes])DataFrame轉換為NumPy記錄數組中。
to_spark
([index_col])引發相關功能。
to_spark_io
([路徑、格式、模式、…))寫DataFrame火花數據源。
to_string
([col_space buf、列,標題,…))呈現一個友好的控製台DataFrame表格輸出。
to_table
(名稱、格式、模式,…))寫DataFrame火花表。
變換
(func(軸))調用
函數
與改變了價值觀和自我生產一係列具有相同的長度作為它的輸入。轉置
()轉置索引和列。
truediv
(其他)獲得浮動dataframe分工和其他element-wise(二元運算符/)。
截斷
([之前,之後,軸,複製])截斷或一係列DataFrame之前和之後的一些索引值。
unstack
()主(一定層次)索引標簽。
更新
(其他[,加入,覆蓋])從另一個DataFrame使用non-NA值修改到位。
var
([軸,ddof numeric_only])均方差的回報。
在哪裏
(氣孔導度、其他軸)替換值的條件是錯誤的。
xs
(關鍵、軸、水平)返回從DataFrame截麵。
屬性
轉置索引和列。
獲取一個值,一雙行/列標簽。
返回一個列表代表DataFrame的軸。
DataFrame的列標簽。
返回dtypes DataFrame。
返回true,如果當前DataFrame是空的。
獲取一個值為一對行/列整數位置。
純粹基於integer-location索引選擇的位置。
該指數DataFrame(行標簽)列。
訪問一組行和列的標簽(s)或一個布爾係列。
返回一個int數組維數代表的數量。
返回一個元組代表DataFrame的維度。
返回一個int代表該對象的元素數量。
屬性返回一個斯泰勒對象包含的方法構建一個風格DataFrame HTML表示。
返回一個Numpy DataFrame或係列的代表。