pyspark.pandas.sql
pyspark.pandas。 sql ( 查詢:str,index_col:聯盟(str,列表(str),沒有一個)=沒有一個,* *kwargs:任何 )→pyspark.pandas.frame.DataFrame
  • pandas-on-Spark DataFrame

  • pandas-on-Spark係列

  • 熊貓DataFrame

  • 熊貓係列

  • 字符串

  • 參數
    查詢 str

    SQL查詢

    index_col str和str列表,可選的

    列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。

    請注意

    如果你想保留指數,顯式地使用DataFrame.reset_index (),並將其傳遞給sql語句index_col參數。

    例如,

    > > >psdf=psDataFrame({“一個”:(1,2,3),“B”:【4,5,6)},指數=(“一個”,“b”,“c”])> > >new_psdf=psdfreset_index()> > >pssql(“SELECT *{new_psdf},index_col=“指數”,new_psdf=new_psdf)一個B指數1 4b 2 5c 3 6

    MultiIndex,

    > > >psdf=psDataFrame({“一個”:(1,2,3),“B”:(4,5,6)},指數=pdMultiIndexfrom_tuples(((“一個”,“b”),(“c”,“d”),(“e”,“f”)),的名字=(“index1”,“index2”]),)> > >new_psdf=psdfreset_index()> > >pssql(“SELECT *{new_psdf},index_col=(“index1”,“index2”),new_psdf=new_psdf)一個Bindex1 index2一個b 1 4c d 2 5e f 3 6

    還注意到索引名稱(s)應與現有的名字。

    kwargs

    其他變量,用戶需要設置,可以在查詢中引用

    返回
    pandas-on-Spark DataFrame

    例子

    調用內置的SQL函數。

    > > >pssql(“SELECT * FROM範圍(10)id > 7”)id0 81 9
    > > >pssql(“SELECT * FROM範圍(10)id >{bound1}和id <{bound2},bound1=7,bound2=9)id0 8
    > > >mydf=ps範圍(10)> > >x=元組(範圍(4))> > >pssql(“選擇{ser}{mydf}在id{x},爵士=mydfid,mydf=mydf,x=x)id0 012 - 23個3

    混合pandas-on-Spark和熊貓DataFrames連接操作。注意,指數下降。

    > > >pssql(“‘選擇m1。,m2.b{table1}m1內連接{表}平方米m1。關鍵= m2.keyORDER BY m1。,m2.b”,表1=psDataFrame({“一個”:(1,2),“關鍵”:(“一個”,“b”}),表二=pdDataFrame({“b”:(3,4,5),“關鍵”:(“一個”,“b”,“b”]}))一個b0 1 31 2 42 2 5

    同時,可以查詢使用係列。

    > > >psdf=psDataFrame({“一個”:(1,2,3),“B”:【4,5,6)},指數=(“一個”,“b”,“c”])> > >pssql(“選擇{mydf.A}{mydf},mydf=psdf)一個0 11 22 3