再保險:mlflow如何確定pyfunc模型我們……-磚- 20174

jonathan-dufaul · ‎11-28-2022

我已經得到這個錯誤很經常與mlflow工作時:

“看來你是試圖從廣播引用SparkContext變量,行動,或轉換。SparkContext隻能用於驅動程序,而不是在代碼上運行工人。有關更多信息,請參見火花- 5063。”

我有一個類,它擴展了mlflow.pyfunc.PythonModel。它有一個方法,用於訓練數據(不用於預測),火花dataframe和一些過濾器適用於訓練數據集。隻有當我刪除這個函數模型保存。

我隻是想知道mlflow決定一個類訪問火花上下文。

編輯:這是真的很令人沮喪。感覺mlflow設計處理機器人時間意識到數據建模。

匿名 · ‎11-28-2022

我查看了一下頁麵,它看起來像沒有集成Datarobot Datarobot不為mlflow作出貢獻。https://mlflow.org/列出的所有集成

jonathan-dufaul · ‎11-28-2022

哦對不起我的意思的方式datarobot時間的預測api接受數據並返回數據建模。它需要行數據作為輸入,吐出來不同的行數據(也許60行全麵的功能隨著時間的推移,它預計14天)。每個工具mlflow似乎周圍的“一行= >一個預測基於價值隻在那一行”

我覺得自己格格不入試圖調和這兩個工作。

jonathan-dufaul · ‎11-29-2022

好的@Joseph Kambourakis我想我找到了一個辦法來解決以上問題。預測本身並不壞,因為我總是可以使用模型。預測功能就好了訪問特性存儲我的數據結構,和模型注冊中心樣板代碼不工作結構。

我有最大的問題是數據獲取過程是精確(比如五條件和幾個連接)。我做了一個字段密鑰的過濾器。不是很好,但它確實減少頭發在預測方麵的複雜性。

我仍然尋找答案如何磚決定如果一個模型的訪問引發上下文。

磚