lakehouse互操作性和可用性的數據
本文涵蓋了建築的原則互操作性和可用性指的支柱,lakehouse與用戶和其他係統的交互。lakehouse的基本理念之一是提供一個良好的用戶體驗的所有角色的工作,並且能夠與多種生態係統的外部係統交互。
互操作性係統的處理能力和與其他係統集成。這意味著不同的組件和產品之間的相互作用,可能來自多個供應商,以及過去和未來之間相同版本的產品。
可用性是一個係統的特點,為用戶提供最好的體驗來執行任務安全、有效和高效。
這個支柱的原則有助於:
實現一個一致的和協作的用戶體驗。beplay娱乐ios
利用協同效應在雲。
從和lakehouse簡化集成。
減少培訓和支持成本。
並最終導致更快的時效性。
互操作性和實用性的原則
定義標準的集成
集成有不同的方麵,可以通過許多不同的方式。為了避免擴散工具和方法、最佳實踐需要和一個支持列表定義應提供和首選的工具和連接器。
的一個關鍵架構原則而不是緊密集成模塊化和鬆散耦合。這降低了組件之間的依賴關係和工作負載,有助於消除副作用,並允許獨立的發展在不同的時間尺度。使用數據集及其模式作為一個合同。單獨工作負載如數據爭論工作(如加載和將數據轉換為數據湖)增值工作(例如報告、儀表板和數據科學特性工程)。定義一個中央數據目錄與指南的數據格式、數據質量和數據生命周期。
喜歡開放的接口和開放的數據格式
通常,開發解決方案,數據隻能通過一個特定的係統。這可能導致供應商鎖定,但是它也可以成為一個巨大的成本動因,如果通過這個係統數據訪問許可費用。使用開放數據格式和接口有助於避免這種情況。他們也簡化與現有係統的集成和開放的生態係統合作夥伴已經與lakehouse平台集成的工具。Beplay体育安卓版本
如果您使用開源生態係統如Python或R數據科學、火花或ANSI SQL數據訪問和訪問權限控製,你就會有一段輕鬆的時間尋找項目的人員。它還將簡化潛在的遷移,從一個平台。Beplay体育安卓版本
降低貿易壁壘實現的用例
獲得的數據在數據湖,用戶需要能夠輕鬆地部署在該平台上他們的用例。Beplay体育安卓版本這始於精益流程平台訪問和數據管理。Beplay体育安卓版本例如,自助服務訪問平台有助於防止中心團隊成為一個瓶頸。Beplay体育安卓版本共享環境和預定義的藍圖快速部署新環境確保平台可用於任何商業用戶。Beplay体育安卓版本
確保數據一致性和可用性
兩個重要的活動在一個數據平台Beplay体育安卓版本數據發布和數據消費。從出版的角度來看,數據應該提供作為一個產品。出版商需要遵循定義生命周期與消費者,需要明確定義和數據管理模式,描述,等等。
同樣重要的是提供數據的語義一致性,這樣消費者可以很容易地理解和正確地結合不同的數據集。此外,所有的數據必須很容易發現和訪問的消費者通過與妥善策劃的核心目錄元數據和數據血統。