軟的問題提前道歉,但是我真的努力了。
我們是一個小的數據科學單元設置在磚。當我們做運行一些密集的ETL和分析工作,一個非平凡的團隊的部分就在於探索桌麵分析。例如,這可能包括被其他組織發送電子表格,或從網上下載隨機比特的數據做臨時,小塊的分析在python或R。
什麼是推薦的方式組織和存儲文件這樣的工作流?使用DBFS從對象存儲文件係統的讀寫似乎顯而易見的解決方案,但磚文檔似乎給混合信息。如。th文檔(e後兩篇資料1,article2前麵)狀態相當明確:
“磚建議反對使用DBFS和安裝雲對象存儲對於大多數用例在統一Catalog-enabled Azure磚工作區。
和
“安裝數據不使用統一目錄,並使用坐騎磚建議遷移的遠離和管理與統一編目數據治理”。
所以,最佳實踐的工作流程是什麼?