pyspark.sql.SparkSession¶
-
類
pyspark.sql。
SparkSession
( sparkContext:pyspark.context.SparkContext,jsparkSession:可選(py4j.java_gateway.JavaObject]=沒有一個,選項:Dict(str,任何]={} ) ¶ -
入口點和數據集和DataFrame API編程火花。
可以使用SparkSession創造
DataFrame
,注冊DataFrame
表,對表執行SQL,緩存表,和讀取鋪文件。創建一個SparkSession
,使用下麵的建造者模式:-
構建器
¶
例子
> > >火花=SparkSession。構建器\…。主(“本地”)\…。瀏覽器名稱(“字數統計”)\…。配置(“spark.some.config.option”,“有價值”)\…。getOrCreate()
> > >從datetime進口datetime> > >從pyspark.sql進口行> > >火花=SparkSession(sc)> > >allTypes=sc。並行化([行(我=1,年代=“字符串”,d=1.0,l=1,…b=真正的,列表=(1,2,3),dict={“s”:0},行=行(一個=1),…時間=datetime(2014年,8,1,14,1,5))))> > >df=allTypes。toDF()> > >df。createOrReplaceTempView(“allTypes”)> > >火花。sql(選擇i + 1, d + 1, b,列表[1],dict (“s”),時間,行。一個“…“我從allTypes b > 0”)。收集()[行((i + 1) = 2, (d + 1) = 2.0 (b) = False,名單[1]= 2,dict [s] = 0,時間= datetime。datetime(1 1 2014人,8日,14日,5),a = 1)> > >df。抽樣。地圖(λx:(x。我,x。年代,x。d,x。l,x。b,x。時間,x。行。一個,x。列表))。收集()[(1 '字符串' 1.0,1,真的,datetime。datetime(2014, 8, 1, 14, 1, 5), 1, [1, 2, 3])]
方法
createDataFrame
(數據、模式…)創建一個
DataFrame
從一個抽樣
一個列表,pandas.DataFrame
或者一個numpy.ndarray
。返回活動
SparkSession
當前線程返回的建設者返回一個新的
SparkSession
新會話,有單獨的SQLConf注冊臨時視圖和udf,但共享SparkContext
和表緩存。範圍
(開始、結束步驟,numPartitions])創建一個
DataFrame
與單pyspark.sql.types.LongType
列命名id
,包含元素的範圍從開始
來結束
(獨家)值一步
。sql
(* * kwargs sqlQuery)返回一個
DataFrame
代表給定查詢的結果。停止
()阻止潛在的
SparkContext
。表
(表)返回指定表的
DataFrame
。屬性
界麵,通過它,用戶可以創建、刪除、更改或查詢底層數據庫、表、函數等。
為引發運行時配置界麵。
返回一個
DataFrameReader
可以用來作為一個讀取數據DataFrame
。返回一個
DataStreamReader
可以用於讀取數據流流DataFrame
。返回底層
SparkContext
。返回一個
StreamingQueryManager
讓所有的管理StreamingQuery
實例的活躍這上下文。返回一個
UDFRegistration
UDF登記。火花的版本運行該應用程序。
-