熊貓我還有些遺留代碼,我想遷移到火花leaverage parellelization磚。
我看到datadricks發起了一個包裝包的熊貓它使用熊貓命名但在後台使用火花引擎。
我舒服地能夠把我的熊貓代碼引發版本代替我的導入聲明”熊貓作為pd導入”到“進口pyspark。熊貓作為pd”。
但我麵臨的挑戰是,熊貓依靠numpy條件和pyspark時包的情況。大熊貓是目前不支持numpy一起工作。
我隻是想知道是否有火花pyspark numpy的版本。熊貓一起工作嗎?
或者有什麼更好的替代方法,我失蹤
我想要的方式工作:
tab_tl [' Loan_Type '] = np。在哪裏(tab_tl [' Loan_Type '] = =“汽車貸款(個人)”,“汽車貸款”,tab_tl [' Loan_Type '])
我的工作:
tab_tl = tab_tl.to_spark ()#把我包裝df本機數據幀火花
tab_tl = tab_tl。withColumn (“Loan_type”,當(tab_tl [' Loan_type '] = =“汽車貸款(個人)”,“汽車貸款”).otherwise (tab_tl [' Loan_type ']))
tab_tl = pd.DataFrame (tab_tl)#本地火花數據幀轉換回包裝df傳給下一個階段。
@mahesh vardhan甘地:
沒有火花版NumPy PySpark熊貓與目前的工作。PySpark熊貓是一個新的圖書館,還在開發中,所以它可能沒有所有的熊貓熊貓或其他庫的功能取決於。一些選項
選項1:你為什麼不把你的代碼引發SQL執行條件類似下麵時你的案子
從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #注冊DataFrame作為臨時視圖可以查詢使用火花SQL spark_df.createOrReplaceTempView (my_table) #執行你的案子當條件使用火花SQL結果=火花。sql (“SELECT *,當Loan_Type =“汽車貸款(個人)”然後“汽車貸款”其他Loan_Type從my_table Loan_Type”) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()
選項2:你為什麼不試試PySpark的內置功能,比如當NumPy的哪裏
從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #執行你的案子當條件使用PySpark = spark_df當函數的結果。withColumn (“Loan_Type”,當(spark_df [' Loan_Type '] = =“汽車貸款(個人)”,“汽車貸款”).otherwise (spark_df [' Loan_Type '])) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()
@mahesh vardhan甘地:
沒有火花版NumPy PySpark熊貓與目前的工作。PySpark熊貓是一個新的圖書館,還在開發中,所以它可能沒有所有的熊貓熊貓或其他庫的功能取決於。一些選項
選項1:你為什麼不把你的代碼引發SQL執行條件類似下麵時你的案子
從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #注冊DataFrame作為臨時視圖可以查詢使用火花SQL spark_df.createOrReplaceTempView (my_table) #執行你的案子當條件使用火花SQL結果=火花。sql (“SELECT *,當Loan_Type =“汽車貸款(個人)”然後“汽車貸款”其他Loan_Type從my_table Loan_Type”) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()
選項2:你為什麼不試試PySpark的內置功能,比如當NumPy的哪裏
從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #執行你的案子當條件使用PySpark = spark_df當函數的結果。withColumn (“Loan_Type”,當(spark_df [' Loan_Type '] = =“汽車貸款(個人)”,“汽車貸款”).otherwise (spark_df [' Loan_Type '])) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()