取消
顯示的結果
而不是尋找
你的意思是:

我如何使用numpy pyspark.pandas情況條件?

mahesh_vardhan_
新的因素

熊貓我還有些遺留代碼,我想遷移到火花leaverage parellelization磚。

我看到datadricks發起了一個包裝包的熊貓它使用熊貓命名但在後台使用火花引擎。

我舒服地能夠把我的熊貓代碼引發版本代替我的導入聲明”熊貓作為pd導入”到“進口pyspark。熊貓作為pd”。

但我麵臨的挑戰是,熊貓依靠numpy條件和pyspark時包的情況。大熊貓是目前不支持numpy一起工作。

我隻是想知道是否有火花pyspark numpy的版本。熊貓一起工作嗎?

或者有什麼更好的替代方法,我失蹤

我想要的方式工作:

tab_tl [' Loan_Type '] = np。在哪裏(tab_tl [' Loan_Type '] = =“汽車貸款(個人)”,“汽車貸款”,tab_tl [' Loan_Type '])

我的工作:

tab_tl = tab_tl.to_spark ()#把我包裝df本機數據幀火花

tab_tl = tab_tl。withColumn (“Loan_type”,當(tab_tl [' Loan_type '] = =“汽車貸款(個人)”,“汽車貸款”).otherwise (tab_tl [' Loan_type ']))

tab_tl = pd.DataFrame (tab_tl)#本地火花數據幀轉換回包裝df傳給下一個階段。

1接受解決方案

接受的解決方案

匿名
不適用

@mahesh vardhan甘地:

沒有火花版NumPy PySpark熊貓與目前的工作。PySpark熊貓是一個新的圖書館,還在開發中,所以它可能沒有所有的熊貓熊貓或其他庫的功能取決於。一些選項

選項1:你為什麼不把你的代碼引發SQL執行條件類似下麵時你的案子

從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #注冊DataFrame作為臨時視圖可以查詢使用火花SQL spark_df.createOrReplaceTempView (my_table) #執行你的案子當條件使用火花SQL結果=火花。sql (“SELECT *,當Loan_Type =“汽車貸款(個人)”然後“汽車貸款”其他Loan_Type從my_table Loan_Type”) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()

選項2:你為什麼不試試PySpark的內置功能,比如當NumPy的哪裏

從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #執行你的案子當條件使用PySpark = spark_df當函數的結果。withColumn (“Loan_Type”,當(spark_df [' Loan_Type '] = =“汽車貸款(個人)”,“汽車貸款”).otherwise (spark_df [' Loan_Type '])) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()

在原帖子查看解決方案

2回答2

匿名
不適用

@mahesh vardhan甘地:

沒有火花版NumPy PySpark熊貓與目前的工作。PySpark熊貓是一個新的圖書館,還在開發中,所以它可能沒有所有的熊貓熊貓或其他庫的功能取決於。一些選項

選項1:你為什麼不把你的代碼引發SQL執行條件類似下麵時你的案子

從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #注冊DataFrame作為臨時視圖可以查詢使用火花SQL spark_df.createOrReplaceTempView (my_table) #執行你的案子當條件使用火花SQL結果=火花。sql (“SELECT *,當Loan_Type =“汽車貸款(個人)”然後“汽車貸款”其他Loan_Type從my_table Loan_Type”) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()

選項2:你為什麼不試試PySpark的內置功能,比如當NumPy的哪裏

從pyspark.sql。功能導入時#熊貓DataFrame轉換為一個火花DataFrame spark_df = spark.createDataFrame (pandas_df) #執行你的案子當條件使用PySpark = spark_df當函數的結果。withColumn (“Loan_Type”,當(spark_df [' Loan_Type '] = =“汽車貸款(個人)”,“汽車貸款”).otherwise (spark_df [' Loan_Type '])) #產生的火花DataFrame轉換回一個熊貓DataFrame result_pandas = result.toPandas ()

Vidula_Khanna
主持人
主持人

嗨@mahesh vardhan甘地

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map