我們的小團隊剛剛完成我們的項目的數據準備階段,開始在磚數據分析。隨著我們深入這個領域,我們試圖理解的區別和適當的使用特性的存儲和統一目錄。表麵上看,在我看來,兩者都是管理和使用的數據表的方法。
例如,讓我們考慮一個生產預測。我們需要創建一個表(或多個)生產預測和加入後,這將包括多個功能,可能會影響用戶的流失的可能性。在我看來,我們可以創建一個新表在一個統一的目錄信息。然而,我不知道這是正確的方法或者特性存儲可能更合適。
這是我的問題
在什麼情況下我們會更喜歡使用一個特性存儲在一個統一的目錄,反之亦然?
如果我們要使用一個特性存儲在這個場景中,那會是個什麼樣子的設置和工作流?
非常感謝所有的幫助,理想情況下,任何的例子就好了。我很新手使用磚和現實世界的方法是非常有用的。
嗨@Northp美好的一天!
1)。功能存儲是一個集中的存儲庫,支持數據科學家發現和分享功能,確保相同的代碼用來計算特征值用於培訓和推理模型。這是特別有用的在機器學習工作流程,工程特性是一個至關重要的一步。磚特性存儲提供了許多好處,如發現,血統,得分和服務集成模型,時間點查找。
另一方麵,統一編目是一個metastore服務,提供了一個統一的、安全的,並完全管理所有磚metastore工作區在一個帳戶。它支持各種數據格式、SQL函數和結構化流工作負載。它還允許metastore生命周期管理和資源從賬戶控製台。然而,它不支持Scala等局限性,R,使用機器學習和工作負載集群使用共享訪問模式運行時,不支持用桶裝,統一編目表。
總之,如果你的用例涉及機器學習,需要一個集中的存儲庫功能,磚特性存儲將是首選。然而,如果你需要一個統一的、安全的、並充分管理metastore支持各種數據格式和SQL函數,統一目錄會更合適。
2)。我附加的官方文檔,你可以調查了解特性存儲設置和工作流程:
//www.eheci.com/p/ebook/the-comprehensive-guide-to-feature-stores
https://docs.www.eheci.com/machine-learning/feature-store/index.html
3)。此時,特色商店不支持寫入目錄metastore統一。團結Catalog-enabled工作空間,您可以編寫功能隻有默認的蜂巢metastore表。
最好的問候,
Vinay M R
嗨@Northp美好的一天!
1)。功能存儲是一個集中的存儲庫,支持數據科學家發現和分享功能,確保相同的代碼用來計算特征值用於培訓和推理模型。這是特別有用的在機器學習工作流程,工程特性是一個至關重要的一步。磚特性存儲提供了許多好處,如發現,血統,得分和服務集成模型,時間點查找。
另一方麵,統一編目是一個metastore服務,提供了一個統一的、安全的,並完全管理所有磚metastore工作區在一個帳戶。它支持各種數據格式、SQL函數和結構化流工作負載。它還允許metastore生命周期管理和資源從賬戶控製台。然而,它不支持Scala等局限性,R,使用機器學習和工作負載集群使用共享訪問模式運行時,不支持用桶裝,統一編目表。
總之,如果你的用例涉及機器學習,需要一個集中的存儲庫功能,磚特性存儲將是首選。然而,如果你需要一個統一的、安全的、並充分管理metastore支持各種數據格式和SQL函數,統一目錄會更合適。
2)。我附加的官方文檔,你可以調查了解特性存儲設置和工作流程:
//www.eheci.com/p/ebook/the-comprehensive-guide-to-feature-stores
https://docs.www.eheci.com/machine-learning/feature-store/index.html
3)。此時,特色商店不支持寫入目錄metastore統一。團結Catalog-enabled工作空間,您可以編寫功能隻有默認的蜂巢metastore表。
最好的問候,
Vinay M R