取消
顯示的結果
而不是尋找
你的意思是:

使用Databricks-Connect和Petastorm問題

YSF
新的貢獻者三世

有人成功應用Petastorm + Databricks-Connect +δ湖?

用例是能夠使用DeltaLake作為數據存儲無論我想使用磚工作區或不是我的訓練任務。

我使用一個雲端的jupyterlab環境(在Paperspace),並試圖使用Petastorm +磚連接。

我想做的事:

  • 通過databricks-connect連接到集群
  • 從三角洲湖讀入數據使用磚火花的集群
  • 使用Petastorm dataframe轉換為pytorch準備好對象

相同的代碼,在相同的集群當使用磚筆記本的工作環境。但當運行“make_spark_converter()的函數在我主持jupyterlab環境我拋出一個錯誤“無法推斷模式”。雖然如果我檢查”。模式”的屬性dataframe我給它,它向我展示了一個火花兼容模式。

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

我絕對不會用Databricks-Connect生產。

在原帖子查看解決方案

3回複3

Hubert_Dudek1
尊敬的貢獻者三世

我絕對不會用Databricks-Connect生產。

YSF
新的貢獻者三世

因為它janky還是為什麼?我不需要麵向客戶生產。所以如果我使用我自己的HPC或本地工作站,但我想從三角洲湖訪問數據。認為這是更容易/更好的建立自己的火花在本地環境。我支付磚不妨得到運行時的好處。

你能詳細說明你的答案嗎?

Kaniz
社區經理
社區經理

嗨@Yusuf汗,請通過鏈接在這裏

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map