取消
顯示的結果
而不是尋找
你的意思是:

udf必要申請從ML圖書館規模模型?

鐵砧
新的貢獻者二世

你好,

我最近完成了“與apache火花可擴展的機器學習”課程,看到快SKLearn模型可以應用在一個分布式的方式與mapInPandas熊貓udf或使用()方法。

火花MLlib模型不需要這種重構,因為它們是由分布式執行,但我想知道這種UDF是必要TensorFlow等其他庫,PyTorch,寬大的,Keras等等。

謝謝你!

3回複3

Hubert_Dudek1
尊敬的貢獻者三世

MlLib是在維護模型。目前,火花ML主要使用。創建模型在大多數情況下沒有使用udf//www.eheci.com/spark/getting-started-with-apache-spark/machine-learning,但無論如何,UDF通常是運行在一個分布式的方式。例如,當你添加數據表,您可以使用注冊使用UDF運行預測模型(即使在一個實時流):

進口mlflow預測= mlflow.pyfunc。spark_udf(火花,model_uri = f“運行:/ {run_id} /模式”)predDF = testDF。withColumn(“預測”,預測(* testDF.columns))

Devarsh
貢獻者

udf並不一定需要申請從ML圖書館規模模型,但他們可以提供一些好處的性能和易用性。

當使用其他庫,如TensorFlow PyTorch,寬大的,Keras,等等,他們不默認為分布式處理優化。在這種情況下,使用udf或mapInPandas()方法可以提供一個規模模型的有效途徑,通過並行處理跨集群的火花。

無論如何,它最終取決於項目的特定需求。

Manoj12421
重視貢獻二世

MlLib在維護模型和不使用udf創建模型在大多數情況下

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map