pyspark.pandas.DataFrame.filter

DataFrame。 過濾器 ( 項目:可選(序列(任何]]=沒有一個,就像:可選(str]=沒有一個,正則表達式:可選(str]=沒有一個,:聯盟(int, str,沒有)=沒有一個 )→pyspark.pandas.frame.DataFrame

行或列的子集dataframe根據標簽指定的索引。

注意,這個例程不過濾dataframe其內容。過濾器應用於索引的標簽。

參數
項目 類似

防止標簽軸的物品。

就像 字符串

防止標簽軸,“就像在標簽= = True”。

正則表達式 字符串(正則表達式)

防止標簽的軸re.search(正則表達式,標簽)= = True。

整數或字符串軸的名字

過濾的軸。在默認情況下這是信息軸,“索引”係列,“列”DataFrame。

返回
相同類型對象作為輸入

另請參閱

DataFrame.loc

筆記

項目,就像,正則表達式參數執行是互斥的。

默認為info軸時使用索引[]

例子

> > >df=psDataFrame(np數組(((1,2,3),(4,5,6))),指數=(“鼠標”,“兔子”),=(“一個”,“兩個”,“三”])
> > >#選擇列的名字> > >df過濾器(項目=(“一個”,“三”])一個三老鼠1 3兔子4 6
> > >#選擇通過正則表達式列> > >df過濾器(正則表達式=“e美元”,=1)一個三老鼠1 3兔子4 6
> > >#選擇行包含“bbi”> > >df過濾器(就像=“bbi”,=0)一百二十三兔子4 5 6

對於一個係列,

> > >#選擇行的名字> > >df一個過濾器(項目=(“兔子”])兔子4名稱:1、dtype: int64
> > >由正則表達式#選擇行> > >df一個過濾器(正則表達式=“e美元”)老鼠1名稱:1、dtype: int64
> > >#選擇行包含“bbi”> > >df一個過濾器(就像=“bbi”)兔子4名稱:1、dtype: int64