最佳實踐是什麼組織簡單以及…著-磚- 8027

jmill · ‎03-09-2023

軟的問題提前道歉,但是我真的努力了。

我們是一個小的數據科學單元設置在磚。當我們做運行一些密集的ETL和分析工作,一個非平凡的團隊的部分就在於探索桌麵分析。例如,這可能包括被其他組織發送電子表格,或從網上下載隨機比特的數據做臨時,小塊的分析在python或R。

什麼是推薦的方式組織和存儲文件這樣的工作流?使用DBFS從對象存儲文件係統的讀寫似乎顯而易見的解決方案,但磚文檔似乎給混合信息。如。th文檔(e後兩篇資料1,article2前麵)狀態相當明確:

“磚建議反對使用DBFS和安裝雲對象存儲對於大多數用例在統一Catalog-enabled Azure磚工作區。

和

“安裝數據不使用統一目錄,並使用坐騎磚建議遷移的遠離和管理與統一編目數據治理”。

所以,最佳實踐的工作流程是什麼?

werners1 · ‎03-09-2023

你提到的文章是特定的使用統一目錄(一個功能可以使用磚但不需要)。說如果你使用統一,dbfs坐騎將不會工作。

如果你不使用統一,你可以完全在dbfs掛載您的雲存儲。

除此之外:你總是可以訪問雲存儲掛載。而不是使用一個文件路徑“/ mnt / datalake /…你使用S3: / /……”或“abfss: / /……”

如果你需要團結與否是另一個討論,因為它有優點但是也有局限。

匿名 · ‎03-09-2023

你也可以在UI中上傳數據

我不會擔心做某事最好的方法,隻是將完成工作的方式。我們還沒有把它所以你可以犯巨大的錯誤,你總是可以改變未來的事情。

Data總結和AutoML應該幫助在開始項目。

pvignesh92 · ‎03-09-2023

你好,

這就是我通常遵循。看看這有助於

當我有一個小樣本數據在我的本地磁盤或任何數據共享的上遊同事在csv格式的電子郵件,我隻是使用“導入和導出數據”選項的磚UI和上傳我的文件到DBFS路徑和使用該路徑加載引起數據幀
如果我的文件創建另一個上遊磚的工作,無論如何會在磚的路徑訪問集群。所以我閱讀。

我們的集群是托管在AWS但我不認為它是不同的Azure

Vartika · ‎03-31-2023

嗨@Jason米爾伯恩

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

磚