pyspark.sql.SparkSession

pyspark.sql。 SparkSession ( sparkContext:pyspark.context.SparkContext,jsparkSession:可選(py4j.java_gateway.JavaObject]=沒有一個,選項:Dict(str,任何]={} )

入口點和數據集和DataFrame API編程火花。

可以使用SparkSession創造DataFrame,注冊DataFrame表,對表執行SQL,緩存表,和讀取鋪文件。創建一個SparkSession,使用下麵的建造者模式:

構建器

例子

> > >火花=SparkSession構建器\(“本地”)\瀏覽器名稱(“字數統計”)\配置(“spark.some.config.option”,“有價值”)\getOrCreate()
> > >datetime進口datetime> > >pyspark.sql進口> > >火花=SparkSession(sc)> > >allTypes=sc並行化([(=1,年代=“字符串”,d=1.0,l=1,b=真正的,列表=(1,2,3),dict={“s”:0},=(一個=1),時間=datetime(2014年,8,1,14,1,5))))> > >df=allTypestoDF()> > >dfcreateOrReplaceTempView(“allTypes”)> > >火花sql(選擇i + 1, d + 1, b,列表[1],dict (“s”),時間,行。一個““我從allTypes b > 0”)收集()[行((i + 1) = 2, (d + 1) = 2.0 (b) = False,名單[1]= 2,dict [s] = 0,時間= datetime。datetime(1 1 2014人,8日,14日,5),a = 1)> > >df抽樣地圖(λx:(x,x年代,xd,xl,xb,x時間,x一個,x列表))收集()[(1 '字符串' 1.0,1,真的,datetime。datetime(2014, 8, 1, 14, 1, 5), 1, [1, 2, 3])]

方法

createDataFrame(數據、模式…)

創建一個DataFrame從一個抽樣一個列表,pandas.DataFrame或者一個numpy.ndarray

getActiveSession()

返回活動SparkSession當前線程返回的建設者

newSession()

返回一個新的SparkSession新會話,有單獨的SQLConf注冊臨時視圖和udf,但共享SparkContext和表緩存。

範圍(開始、結束步驟,numPartitions])

創建一個DataFrame與單pyspark.sql.types.LongType列命名id,包含元素的範圍從開始結束(獨家)值一步

sql(* * kwargs sqlQuery)

返回一個DataFrame代表給定查詢的結果。

停止()

阻止潛在的SparkContext

(表)

返回指定表的DataFrame

屬性

構建器

目錄

界麵,通過它,用戶可以創建、刪除、更改或查詢底層數據庫、表、函數等。

相依

為引發運行時配置界麵。

返回一個DataFrameReader可以用來作為一個讀取數據DataFrame

readStream

返回一個DataStreamReader可以用於讀取數據流流DataFrame

sparkContext

返回底層SparkContext

返回一個StreamingQueryManager讓所有的管理StreamingQuery實例的活躍上下文。

udf

返回一個UDFRegistrationUDF登記。

版本

火花的版本運行該應用程序。