pyspark.pandas.CategoricalIndex

pyspark.pandas。 CategoricalIndex

基於一個潛在的指數分類

CategoricalIndex隻能承擔有限,通常是固定的,一些可能的值(類別)。也可能有一個訂單,但是數值操作(添加、分歧…)是不可能的。

參數
數據 類數組(維)

定的值。如果類別,值不類別將南所取代。

類別 將注釋,可選

分類的類別。項目需要是唯一的。如果這裏不給定類別(也不是dtype),他們將推斷的數據

命令 bool,可選

這個分類是否被視為一個有序分類。如果不是或者在dtype,得到的分類將無序。

dtype CategoricalDtype或“類別”,可選的

如果CategoricalDtype,不能一起使用類別命令

複製 bool,默認的錯誤

輸入ndarray複製。

的名字 對象,可選

名稱存儲在索引中。

另請參閱

指數

基地pandas-on-Spark索引類型。

例子

> > >psCategoricalIndex([“一個”,“b”,“c”,“一個”,“b”,“c”])CategoricalIndex ([a, b, c, ' ', ' b ', ' c '],類別= [' a ', ' b ', ' c '],下令= False, dtype =“類別”)

CategoricalIndex也可以從一個實例化分類:

> > >c=pd分類([“一個”,“b”,“c”,“一個”,“b”,“c”])> > >psCategoricalIndex(c)CategoricalIndex ([a, b, c, ' ', ' b ', ' c '],類別= [' a ', ' b ', ' c '],下令= False, dtype =“類別”)

命令CategoricalIndex可以有一個最小和最大價值。

> > >ci=psCategoricalIndex((“一個”,“b”,“c”,“一個”,“b”,“c”),命令=真正的,類別=(“c”,“b”,“一個”])> > >ciCategoricalIndex ([a, b, c, ' ', ' b ', ' c '],類別= [' c ', ' b ', ' '],下令= True, dtype =“類別”)

從一個係列:

> > >年代=ps係列([“一個”,“b”,“c”,“一個”,“b”,“c”),指數=(10,20.,30.,40,50,60])> > >psCategoricalIndex(年代)CategoricalIndex ([a, b, c, ' ', ' b ', ' c '],類別= [' a ', ' b ', ' c '],下令= False, dtype =“類別”)

從一個指數:

> > >idx=ps指數([“一個”,“b”,“c”,“一個”,“b”,“c”])> > >psCategoricalIndex(idx)CategoricalIndex ([a, b, c, ' ', ' b ', ' c '],類別= [' a ', ' b ', ' c '],下令= False, dtype =“類別”)

方法

add_categories(new_categories[,原地])

添加新類別。

所有(* * kwargs * args)

返回所有元素是否正確。

任何((軸))

返回任何元素是否為真。

附加(其他)

添加索引選項的集合在一起。

argmax()

返回一個最大參數索引器。

argmin()

返回一個最小參數索引器。

as_ordered([原地])

設置分類有序。

as_unordered([原地])

設置分類是無序的。

asof(標簽)

返回標簽從索引中,或者,如果不存在,那麼前一個。

astype(dtype)

把指定dtype pandas-on-Spark對象dtype

複製((姓名、深))

這個對象的一個副本。

刪除(loc)

與通過新索引位置(- s)刪除。

區別(其他[,])

返回一個新的索引的元素索引不其他

下降(標簽)

與通過新索引標簽列表刪除。

drop_duplicates([繼續])

返回索引刪除了重複的值。

droplevel(高度)

返回索引刪除請求級別(s)。

dropna([如何])

返回索引或MultiIndex NA /南值

=(其他)

確定兩個索引對象包含相同的元素。

因式分解([,na_sentinel])

編碼對象為枚舉類型或類別變量。

fillna(值)

NA / NaN值填充指定的值。

get_level_values(高度)

回報指數如果一個有效的水平。

holds_integer()

是否類型是整數類型。

相同的(其他)

類似於等於,但檢查其他類似的屬性也相等。

插入(loc項)

使新索引插入新項的位置。

十字路口(其他)

形成兩個索引對象的交集。

is_boolean()

返回如果當前索引類型是一個布爾類型。

is_categorical()

返回如果當前索引類型分類類型。

is_floating()

返回如果當前索引類型是一個浮動的類型。

is_integer()

返回如果當前指數類型是整數類型。

is_interval()

返回如果當前指數類型是一個間隔類型。

is_numeric()

返回如果當前索引類型是數字類型。

is_object()

返回如果當前指數類型是對象類型。

is_type_compatible(一)

索引類型是否與所提供的類型兼容。

型號(值)

檢查是否包含在係列或索引。

並網發電()

檢測現有(non-missing)值。

isnull()

檢測現有(non-missing)值。

()

返回第一個元素的底層數據作為一個python標量。

地圖(映射)

映射值使用輸入對應(dict係列,或函數)。

馬克斯()

返回索引的最大價值。

最小值()

返回索引的最小值。

notna()

檢測現有(non-missing)值。

notnull()

檢測現有(non-missing)值。

nunique([dropna,大約,rsd])

返回對象的獨特的元素數量。

remove_categories(刪除,原地)

刪除指定的類別。

remove_unused_categories([原地])

刪除未使用的類別。

重命名(名稱[,原地])

改變指數或MultiIndex名稱。

rename_categories(new_categories[,原地])

重命名類別。

reorder_categories(new_categories […])

重新排序類別new_categories中指定。

重複(重複)

重複的元素索引/ MultiIndex。

set_categories(new_categories[命令,…)

將類別設置為指定的new_categories。

set_names(名稱、級別,原地)

設置索引或MultiIndex名字。

轉變([時期,fill_value])

轉變係列/索引所需數量的時期。

排序(* * kwargs * args)

使用sort_values代替。

sort_values([return_indexer,提升])

返回一個分類指數的副本,並可選地返回排序索引本身的指標。

symmetric_difference(其他,result_name])

計算兩個索引對象的對稱差分。

(指標)

返回給定的元素位置指數沿著一個軸。

to_frame([指數名稱])

創建一個DataFrame包含索引的列。

to_list()

返回的列表值。

to_numpy([dtype,複製])

一個NumPy ndarray指數或MultiIndex代表值。

to_pandas()

返回一個熊貓指數。

to_series([名字])

創建一係列索引和索引鍵值等於有用地圖返回一個基於索引的索引器。

tolist()

返回的列表值。

轉置()

返回轉置為索引,索引本身。

聯盟(其他[,])

兩個索引對象的結合形式。

獨特的((水平))

返回索引中惟一值。

value_counts([正常化,排序,提升,…))

返回包含項係列獨特的價值觀。

視圖()

這是定義為一個複製相同的身份

屬性

T

返回轉置為索引,索引本身。

asi8

整數表示的值。

類別

這個分類的類別。

代碼

這個分類的分類碼。

dtype

返回dtype底層數據的對象。

返回true,如果當前對象是空的。

has_duplicates

如果指數有重複,返回True,否則錯誤的。

hasnans

如果有任何遺漏值返回True。

inferred_type

返回一個字符串的類型推斷值。

is_all_dates

返回如果所有索引的數據類型是datetime。

is_monotonic

返回布爾值的對象是單調遞增的。

is_monotonic_decreasing

返回布爾值的對象是否單調下降。

is_monotonic_increasing

返回布爾值的對象是單調遞增的。

is_unique

返回如果指數具有獨特的價值。

的名字

返回索引的名稱。

的名字

返回索引的名稱。

ndim

返回一個int數組維數代表的數量。

nlevels

的水平指數和MultiIndex。

命令

類別是否有序的關係。

形狀

返回一個元組的底層數據的形狀。

大小

返回一個int代表該對象的元素數量。

返回一個數組代表數據的索引。