核心類

SparkSession(sparkContext [jsparkSession,…)

入口點和數據集和DataFrame API編程火花。

目錄(sparkSession)

麵向用戶的目錄的API,可以通過SparkSession.catalog

DataFrame(jdf sql_ctx)

一個分布式數據分為命名列的集合。

(jc)

在DataFrame一列。

觀察([名字])

類來觀察(命名)指標DataFrame

一行在DataFrame

GroupedData(jgd df)

一組的聚合方法DataFrame,由DataFrame.groupBy ()

PandasCogroupedOps(阻止gd2 gd1)

一兩的邏輯分組GroupedData,由GroupedData.cogroup ()

DataFrameNaFunctions(df)

處理缺失數據的功能DataFrame

DataFrameStatFunctions(df)

功能和統計功能DataFrame

窗口

在DataFrames效用函數定義窗口。

DataFrameReader(火花)

接口用於負載DataFrame從外部存儲係統(如。

DataFrameWriter(df)

接口用於編寫一個DataFrame(如外部存儲係統。