功能

正常的功能

上校(col)

返回一個基於給定的列名稱。

(col)

返回一個基於給定的列名稱。

create_map(*峽路)

創建一個新的映射列。

點燃(col)

創建一個文字值。

數組(*峽路)

創建一個新的數組列。

map_from_arrays(col1 col2)

從兩個數組創建一個新的地圖。

廣播(df)

標誌著DataFrame作為使用廣播加入足夠小。

合並(*峽路)

返回第一列,不是零。

input_file_name()

創建一個字符串列當前文件名的火花的任務。

isnan(col)

一個表達式,返回true敵我識別列是南。

isnull(col)

一個表達式,返回true敵我識別列是空的。

monotonically_increasing_id()

一個生成的列單調遞增64位整數。

nanvl(col1 col2)

返回col1如果不是南、col2 col1是否NaN。

蘭德((種子))

生成一個隨機的列與獨立同分布(先驗知識)樣品均勻分布在[0.0,1.0)。

randn((種子))

生成一個列與獨立同分布(先驗知識)樣本的標準正態分布。

spark_partition_id()

分區ID列。

結構體(*峽路)

創建一個新的結構列。

(條件、價值)

評估條件的列表並返回多個可能的結果表達式之一。

bitwise_not(col)

計算位。

bitwiseNOT(col)

計算位。

expr(str)

解析表達式字符串到它所代表的列

最大的(*峽路)

返回的列名列表的最大價值,跳過null值。

至少(*峽路)

返回最小值列表的列名稱,跳過null值。

數學函數

√6(col)

計算指定的浮動值的平方根。

腹肌(col)

計算絕對值。

這些“可信賴醫療組織”(col)

計算逆輸入列的餘弦。

作用是(col)

計算反雙曲餘弦的輸入列。

印度曆的7月(col)

計算反正弦輸入的列。

的作用(col)

計算反雙曲正弦輸入的列。

:(col)

計算逆切的輸入列。

atanh(col)

計算輸入列的反雙曲正切值。

量化(col1 col2)

參數

(col)

返回的字符串表示二進製值給定的列。

cbrt(col)

計算給定的值的立方根。

裝天花板(col)

計算給定的值的上限。

conv(fromBase坳toBase)

將數字的字符串列到另一個從一個基地。

因為(col)

計算輸入列的餘弦。

cosh(col)

計算雙曲餘弦的輸入列。

(col)

計算輸入列的餘切。

csc(col)

計算csc的輸入列。

經驗值(col)

計算給定的值的指數。

expm1(col)

計算給定值的指數- 1。

的階乘(col)

計算階乘的給定值。

地板上(col)

計算給定值的地板。

十六進製(col)

計算給定列的十六進製值,這可能是pyspark.sql.types.StringType,pyspark.sql.types.BinaryType,pyspark.sql.types.IntegerTypepyspark.sql.types.LongType

unhex(col)

逆的十六進製。

函數的(col1 col2)

計算√^ 2+b ^ 2)沒有中間溢出或下溢的。

日誌(__arg1[)最長])

返回第一個argument-based對數的第二個參數。

log10(col)

計算以10為底的對數的給定值。

log1p(col)

計算自然對數的給定值+ 1。

log2(col)

返回以2為底的對數的論點。

戰俘(col1 col2)

返回第一個參數的值的第二個參數。

無線電偵察(col)

返回最近的雙值價值參數,等於一個數學整數。

(坳、規模)

在給定值規模如果小數點後使用HALF_UP舍入模式規模> = 0,或者當一部分規模< 0。

bround(坳、規模)

在給定值規模如果小數點後使用HALF_EVEN舍入模式規模> = 0,或者當一部分規模< 0。

證券交易委員會(col)

計算sec的輸入列。

shiftleft(col numBits)

改變給定值numBits離開了。

shiftright(col numBits)

(簽署)給定值numBits右移。

shiftrightunsigned(col numBits)

無符號改變給定值numBits正確。

(col)

計算給定的值的正負號。

(col)

計算正弦輸入的列。

sinh(col)

計算雙曲正弦輸入的列。

棕褐色(col)

計算切線的輸入列。

雙曲正切(col)

計算雙曲正切的輸入列。

toDegrees(col)

使用度()代替。

(col)

轉換一個角度以弧度大約相當於角測量度。

toRadians(col)

使用弧度()代替。

弧度(col)

轉換一個角度以度一個大約相當於角以弧度。

Datetime函數

add_months(開始,個月)

返回的日期個月個月後開始

當前日期()

返回當前日期的查詢評估作為一個DateType列。

current_timestamp()

返回當前的時間戳開始查詢計算的TimestampType列。

date_add(開始,天)

返回的日期幾天後開始

date_format(日期,格式)

將一個日期/時間戳字符串轉換為值的字符串格式指定的日期格式給出的第二個參數。

date_sub(開始,天)

返回的日期前幾天開始

date_trunc(格式、時間戳)

返回時間戳截斷為單位指定的格式。

datediff(開始結束)

返回的天數開始結束

dayofmonth(col)

提取給定日期的日整數。

dayofweek(col)

提取給定日期的星期整數。

dayofyear(col)

提取的一個給定的日期作為整數。

第二個(col)

提取給定日期作為整數秒的。

weekofyear(col)

提取給定日期的星期數為整數。

一年(col)

提取的一個給定的日期作為整數。

季度(col)

提取給定日期的季度整數。

(col)

提取給定日期的月整數。

last_day(日期)

返回給定日期的月的最後一天屬於。

一分鍾(col)

提取給定日期的分鍾整數。

months_between(date1 date2[,湊整))

返回日期date1和date2之間幾個月。

next_day(日期、dayOfWeek)

返回後的第一次約會的日期列的值。

小時(col)

提取時間給定日期的整數。

make_date(年、月、日)

返回一個列和一個日期由一年,月,日列。

from_unixtime(時間戳格式])

轉換由unix紀元以來的秒數(1970-01-01就是UTC)字符串代表那一刻在當前係統時間戳的時區在給定的格式。

unix_timestamp([時間戳、格式])

轉換時間字符串給定模式(“yyyy-MM-dd HH: mm: ss”,默認情況下)到Unix時間戳(以秒為單位),使用默認時區和默認語言環境,如果失敗返回null。

to_timestamp(坳、格式)

轉換pyspark.sql.types.TimestampType使用指定的可選格式。

to_date(坳、格式)

轉換pyspark.sql.types.DateType使用指定的可選格式。

trunc(日期,格式)

返回日期截斷為單位指定的格式。

from_utc_timestamp(時間戳,tz)

這是一種常見的函數數據庫支持沒有時區的時間戳。

to_utc_timestamp(時間戳,tz)

這是一種常見的函數數據庫支持沒有時區的時間戳。

窗口(timeColumn windowDuration […])

Bucketize行成一個或更多的時間窗口指定時間戳列。

session_window(timeColumn gapDuration)

給定一個時間戳列指定生成會話窗口。

timestamp_seconds(col)

轉換從Unix新紀元的秒數(1970 - 01 - 01 - t00:00:00z)到一個時間戳。

集合函數

array_contains(坳,值)

收藏功能:返回null如果數組為空,如果數組包含給定的值,否則,則返回false。

arrays_overlap(a1, a2)

收藏功能:返回true,如果數組包含任何常見的非空元素;如果沒有,返回null如果數組非空和其中任何一個包含null元素;否則返回false。

(x,開始,長度)

收藏功能:返回一個數組,其中包含所有的元素x從指數開始(數組索引從1開始,或如果結束開始與指定的是負的)長度

array_join(坳,分隔符[null_replacement])

連接的元素使用分隔符

concat(*峽路)

連接多個輸入列成一個列。

array_position(坳,值)

收藏功能:定位第一次出現的位置給定的值的數組。

element_at(坳,提取)

收藏功能:在給定索引返回的元素數組提取如果坳數組。

array_sort(col)

收藏功能:輸入數組按升序排序。

array_remove(col元素)

收藏功能:刪除所有元素等於從給定的數組元素。

array_distinct(col)

收藏功能:數組中重複的值。

array_intersect(col1 col2)

集合功能:返回一個數組的元素在col1和col2的交集,沒有重複。

array_union(col1 col2)

收藏功能:返回一個數組元素的col1和col2的聯盟,沒有重複。

array_except(col1 col2)

收藏功能:返回一個數組元素的col1但不是col2,沒有重複。

變換(col)

返回一個數組的元素應用轉換後輸入數組中的每個元素。

存在(col)

返回一個謂詞是否適用於一個或多個數組中的元素。

原則,(col)

返回一個謂詞是否適用於數組中的每個元素。

過濾器(col)

返回一個數組的元素一個謂詞適用於一個給定的數組。

(initialValue坳合並[完成])

二進製運算符適用於初始狀態和所有元素的數組,並減少這一狀態。

zip_with(左,右,f)

合並兩個數組,element-wise,到一個數組中使用一個函數。

transform_keys(col)

一個函數適用於每一個鍵-值對的地圖,並返回一個地圖應用程序的結果的新密鑰對。

transform_values(col)

一個函數適用於每一個鍵-值對的地圖,並返回一個地圖應用程序的結果作為對新值。

map_filter(col)

返回一個映射的鍵-值對滿足謂詞。

map_zip_with(col1 col2 f)

合並兩個給定的地圖,key-wise成一個單一的地圖使用一個函數。

爆炸(col)

返回一個新行中為每個元素數組或地圖。

explode_outer(col)

返回一個新行中為每個元素數組或地圖。

posexplode(col)

返回一個新行中每一個元素位置給定數組或地圖。

posexplode_outer(col)

返回一個新行中每一個元素位置給定數組或地圖。

get_json_object(坳,路徑)

從一個json字符串提取json對象指定基於json的路徑,並返回的json字符串提取的json對象。

json_tuple(坳,*字段)

為一個json列創建一個新行根據給定的字段名稱。

from_json(坳,模式[選項])

解析一個列包含一個JSON字符串MapTypeStringType作為鍵類型,StructTypeArrayType與指定的模式。

schema_of_json(json[選項])

解析JSON字符串並推斷其在DDL格式模式。

to_json(col[選項])

將一個列包含一個StructType,ArrayType或者一個MapType成一個JSON字符串。

大小(col)

收藏功能:返回數組的長度或地圖存儲在列。

sort_array(坳(asc))

收藏功能:輸入數組按升序或降序排序根據自然排序數組的元素。

array_max(col)

收藏功能:返回數組的最大值。

array_min(col)

收藏功能:返回數組的最小值。

洗牌(col)

收藏功能:生成一個隨機排列的給定的數組。

反向(col)

收藏功能:返回一個逆轉倒序的字符串或一個數組元素。

(col)

收藏功能:從一個數組創建一個數組的數組。

序列(啟動、停止、步驟)

生成一個整數序列開始停止遞增的一步

array_repeat(坳,計數)

收藏功能:創建一個數組包含一列重複數遍。

map_keys(col)

收藏功能:返回一個無序數組,其中包含的鍵映射。

map_values(col)

收藏功能:返回一個無序數組,其中包含的值映射。

map_entries(col)

收藏功能:返回一個無序數組中所有記錄的映射。

map_from_entries(col)

收藏功能:返回一個給定數組的地圖創建條目。

arrays_zip(*峽路)

收藏功能:返回一個合並的結構體數組的第n個結構體包含所有n值的輸入數組。

map_concat(*峽路)

返回所有給定的地圖的結合。

from_csv(坳,模式[選項])

解析一個列包含一個CSV指定字符串的行模式。

schema_of_csv(csv[選項])

解析CSV格式字符串並推斷其模式DDL。

to_csv(col[選項])

將一個列包含一個StructType成一個CSV字符串。

分區轉換功能

(col)

分區轉換功能:轉換時間戳和日期將數據劃分到年。

個月(col)

分區轉換功能:轉換為時間戳數據分割成幾個月和日期。

(col)

分區轉換功能:轉換時間戳和日期將數據劃分到天。

小時(col)

分區轉換功能:時間戳數據分割成小時的變換。

(numBuckets坳)

分區轉換功能:轉換為任何類型的一個哈希分區輸入列。

聚合函數

approxCountDistinct(col [, rsd])

使用approx_count_distinct ()代替。

approx_count_distinct(col [, rsd])

聚合函數:返回一個新的近似不同的列數上校

avg(col)

聚合函數:返回一組中的值的平均值。

collect_list(col)

聚合函數:返回一個列表的對象副本。

collect_set(col)

聚合函數:返回一組對象和消除重複的元素。

相關係數(col1 col2)

返回一個新的皮爾遜相關係數的col1col2

(col)

聚合函數:返回條目的數量在一個組。

count_distinct(*關口坳)

返回一個新的對於不同的數上校關口

countDistinct(*關口坳)

返回一個新的對於不同的數上校關口

covar_pop(col1 col2)

返回一個新的的總體協方差col1col2

covar_samp(col1 col2)

返回一個新的樣本協方差col1col2

第一個(col [ignorenulls])

聚合函數,返回一組中的第一個值。

分組(col)

聚合函數:表示一組的列表中指定的列是否聚合,返回1聚合或0不聚合的結果集。

grouping_id(*峽路)

聚合函數:返回的水平分組,等於

峰度(col)

聚合函數:返回的峰度值在一組。

去年(col [ignorenulls])

聚合函數:返回最後一個值在一個組。

馬克斯(col)

聚合函數:返回表達式的最大值在一組。

max_by(坳,奧德)

返回值與奧德的最大值。

的意思是(col)

聚合函數:返回一組中的值的平均值。

最小值(col)

聚合函數:返回表達式的最小值在一個組。

min_by(坳,奧德)

返回值與奧德的最小值。

percentile_approx(col百分比(、準確性))

返回近似百分位數字的列上校這是命令的最小值上校值(排序從最小到最大),這樣不超過百分比上校的值小於或等於這個值。

產品(col)

聚合函數:返回一組中的值的乘積。

偏態(col)

聚合函數:返回值的偏態在一組。

stddev(col)

聚合函數:stddev_samp別名。

stddev_pop(col)

聚合函數:返回表達式的總體標準偏差在一個組。

stddev_samp(col)

聚合函數:返回表達式的無偏樣本標準差在一組。

總和(col)

聚合函數:返回表達式中所有值的總和。

sum_distinct(col)

聚合函數:返回表達式的不同值的總和。

sumDistinct(col)

聚合函數:返回表達式的不同值的總和。

var_pop(col)

聚合函數:返回在一組的總體方差值。

var_samp(col)

聚合函數:返回的值的無偏樣本方差。

方差(col)

聚合函數:var_samp別名

窗口函數

cume_dist()

窗口功能:返回值的累積分布在一個窗口分區,即。

dense_rank()

窗口功能:返回行窗口內的等級分區,沒有任何差異。

滯後(坳、抵消、默認)

窗口功能:返回的值抵消在當前行的行,默認的如果有不足抵消行之前,當前行。

(坳、抵消、默認)

窗口功能:返回的值抵消在當前行的行,默認的如果有不足抵消行後當前行。

nth_value(坳,抵消[ignoreNulls])

窗口功能:返回的值抵消窗框的th行(從1數)如果窗口框架的大小小於抵消行。

ntile(n)

窗口功能:返回ntile組id(從1到n包容性)在一個命令窗口分區。

percent_rank()

窗口功能:返回相對等級(即。

排名()

窗口功能:返回行窗口內的等級分區。

row_number()

窗口功能:返回一個連續的數字從1開始在一個窗口分區。

排序功能

asc(col)

返回一個類表達式基於給定的列名稱的升序排序。

asc_nulls_first(col)

返回一個類表達式基於給定的列的升序的名字,之前和null值返回空值。

asc_nulls_last(col)

返回一個類表達式基於給定的列的升序的名字,和null值出現在非空值。

desc(col)

返回一個類表達式基於給定的列名稱的降序排列。

desc_nulls_first(col)

返回一個類表達式基於給定的列名稱的降序排列,和null值出現在非空值。

desc_nulls_last(col)

返回一個類表達式基於給定的列名稱的降序排列,和null值出現在非空值。

字符串函數

美國信息交換標準代碼(col)

計算字符串的第一個字符的數值列。

base64(col)

計算的BASE64編碼二進製列並將其作為字符串返回列。

bit_length(col)

計算列指定字符串的長度。

concat_ws(9月,*峽路)

連接多個輸入字符串列成一個字符串列,使用給定的分隔符。

解碼(col字符集)

計算第一個參數為一個字符串從一個二進製使用提供的字符集(us - ascii”之一,“iso - 8859 - 1”、“utf - 8”,“UTF-16BE”、“UTF-16LE”,“utf - 16”)。

編碼(col字符集)

計算第一個參數為一個二進製字符串使用提供的字符集(us - ascii”之一,“iso - 8859 - 1”、“utf - 8”,“UTF-16BE”、“UTF-16LE”,“utf - 16”)。

format_number(坳,d)

格式X數格式像' #,#,#。——“,圓形到小數點後d HALF_EVEN輪模式,並將結果返回一個字符串。

format_string(格式、*峽路)

格式printf-style參數和返回結果為字符串列。

initcap(col)

每個單詞的第一個字母轉換成大寫的句子。

instr(str, substr)

定位字符串的子串列的第一次出現的位置在給定的字符串。

長度(col)

計算字符串數據的字符或二進製數據的字節數。

較低的(col)

將一個字符串表達式轉換為小寫。

levenshtein(左,右)

計算的Levenshtein距離兩個給定的字符串。

定位(字符串的子串,str (pos))

定位字符串的子串在一個字符串中第一次出現的列,pos後位置。

lpad(len坳墊)

Left-pad字符串列的寬度len

ltrim(col)

修剪空間從左端為指定的字符串值。

octet_length(col)

計算指定字符串的字節長度列。

regexp_extract(idx str,模式)

提取一個特定群體由一個Java正則表達式匹配,從指定字符串列。

regexp_replace(str、模式、更換)

替換所有匹配正則表達式字符串中指定的字符串值與代表。

unbase64(col)

解碼BASE64編碼的字符串列,並返回它作為二進製列。

rpad(len坳墊)

Right-pad字符串列的寬度len

重複(坳,n)

重複一個字符串列n次,並返回一個新的字符串列。

空白(col)

修剪空間從右端為指定的字符串值。

探測法(col)

返回SoundEx編碼為一個字符串

分裂(str、模式(限製)

分裂str在給定模式的匹配。

子字符串(str、pos、蘭)

子字符串從pos和的長度len當str字符串類型或返回片開始的字節數組pos在字節的長度len當str二進製類型。

substring_index(delim str統計)

返回字符串的子字符串str之前delim計數的分隔符。

覆蓋(src,取代,pos (len])

覆蓋的指定部分src取代,從字節的位置possrc和程序len字節。

句子(string[,語言,國家])

將一個字符串數組的句子,每個句子單詞是一個數組。

翻譯(匹配,srcCol取代)

翻譯中的任何字符的函數srcCol一個角色在匹配

修剪(col)

削減從兩端指定字符串的空間列。

(col)

將一個字符串表達式轉換為大寫。

UDF

pandas_udf([f returnType functionType])

創建一個熊貓用戶定義函數(或稱。

udf([f, returnType])

創建一個用戶定義函數(UDF)。

unwrap_udt(col)

打開UDT數據類型列到其基本類型。

Misc功能

md5(col)

計算MD5摘要並返回值為32個字符的十六進製字符串。

sha1(col)

返回十六進製字符串sha - 1的結果。

sha2(col numBits)

返回十六進製字符串SHA-2家庭的結果哈希函數(sha - 224、sha - 256、sha - 384,和sha - 512)。

crc32(col)

計算循環冗餘校驗值(一個二進製的CRC32)列作為一個長整型數字並返回值。

哈希(*峽路)

計算給定的散列碼列,並將結果返回一個int列。

xxhash64(*峽路)

計算給定的列使用的散列碼的64位變體xxHash算法,並返回結果一長列。

assert_true(col [errMsg])

返回null如果輸入列是正確的;拋出一個異常,否則所提供的錯誤消息。

raise_error(errMsg)

拋出一個異常,提供錯誤消息。