跳轉到主要內容
工程的博客

建立地理空間Lakehouse,第1部分

一個係統,統一的架構設計,功能團隊,不同的用例
分享這篇文章

地理空間數據的一個公開的秘密是它包含了無價的信息行為,流動性,商務活動、自然資源的興趣點和更多。地理空間數據可以變成非常有價值的見解,為任何組織創造顯著的競爭優勢。看看穀歌,亞馬遜,Facebook的必要性增加一個維度的物理和空間環境組織的數字數據策略,影響商業和金融決策的幾乎每一個方麵。例如:

  • 零售:顯示所有星巴克咖啡館在這附近和附近步行模式,這樣我們才能更好地理解投資回報的新商店
  • 營銷:品牌知名度、有多少人/汽車每天路過一個廣告牌嗎?這些廣告我們應該在這個區域嗎?
  • 電信:在哪些地區手機用戶遇到網絡問題嗎?當容量規劃需要為了保持競爭優勢?
  • 操作:多少時間才能提供食物/服務地點在紐約嗎?我們怎樣才能優化路由策略,提高送貨效率嗎?

盡管它的巨大價值,地理空間數據在大多數企業仍然很少使用的各個行業。隻有少數公司——主要是科技巨頭如穀歌、Facebook、亞馬遜、世界各地,已成功破譯了密碼”地理空間數據。通過整合地理空間數據在他們的核心業務流程考慮位置用於推動亞馬遜的供應鏈和物流,或路由和規劃的擁有權抓住這樣的公司,或者支持約翰迪爾農業計劃規模。這些公司能夠係統地利用地理空間數據所提供的見解,不斷推動商業價值實現。

這種差異的根源是缺乏一個有效的數據係統與地理空間技術進步發展。隨著移動和物聯網設備,有效的傳感器陣列,成本效益和無處不在的定位技術,高分辨率成像和越來越多的開源技術改變了地理空間數據分析的場景。數據規模巨大——10 s TBs的數據可以每天生成;複雜結構的各種格式和計算密集型geospatial-specific轉換和查詢需要長時間的計算。傳統的數據倉庫和數據湖工具並不對這些數據進行有效管理,和缺乏支持尖端地理空間分析和分析。

幫助公平競爭,這個博客提供了一個新的地理空間Lakehouse架構通用設計模式。根據我們的經驗,成功的關鍵因素是建立正確的地理空間數據係統的體係結構,簡化了剩餘的實現選擇,如圖書館、可視化工具等,使開界麵設計原則允許用戶有目的的選擇關於部署。在這個博客中,我們提出我們的見解地理空間數據管理的複雜性和現實的挑戰,關鍵優勢的地理空間Lakehouse架構和步行通過關鍵步驟如何從頭構建,與最佳實踐指導一個組織如何建立一個具有成本效益和可伸縮的地理空間分析能力。

的挑戰

隨著組織競相縮小差距在他們位置的情報,他們積極尋求商業和公共地理空間數據集評估和內化。當考慮這些數據通過傳統ETL過程目標係統數據倉庫等組織的挑戰與要求是獨一無二的地理空間數據,而不是由其他企業共享業務數據。因此,組織被迫重新考慮的許多方麵他們的地理空間數據係統的設計和實現。

直到最近,數據倉庫管理和查詢大量數據的選擇。然而空間數據的用例已經迅速擴大到包括先進的機器學習和圖像分析與複雜的地理空間數據可視化。因此,企業需要地理空間數據係統支持一個更加多樣化的數據應用包括基於sql的分析,實時監控,數據科學和機器學習。大多數人工智能的最新進展及其應用程序更好的框架模型中空間分析的非結構化數據(文本、圖像、視頻、音頻),但恰恰是這些類型的數據,數據倉庫是沒有優化。

直到現在,一個常見的方法是有力地拚湊幾個係統——數據湖,一些數據倉庫,和其他專業係統,如流,時間序列,圖形和圖像數據庫。在眾多的係統增加了複雜性和更重要的是,介紹延遲數據專業人員總是需要在每個係統之間移動或複製數據。數據工程師被要求做出權衡和踢踏舞實現靈活性、可伸縮性和性能,同時節省了成本,所有在同一時間。

數據科學家和ML工程師,努力在決策空間地理空間數據和用例,其中化合物數據挑戰固有的:

  • 攝取中無數格式,從多個數據源,包括GPS衛星圖像,視頻,傳感器數據,激光雷達,超光譜以及不同的坐標係統。
  • 準備、存儲和索引空間數據(光柵和矢量),
  • 管理幾何類抽象的空間數據,運行各種空間謂詞和功能。
  • 可視化空間操作GIS(地理信息係統)的環境。
  • 整合空間數據等數據優化平台的磚與其他的GIS工具。Beplay体育安卓版本
  • 上下文切換之間純GIS操作和混合數據操作參與DS和AI /毫升。

這一維度的功能複雜性是加上過量的:

  • 工具,解決方案,所有與特定的使用模型和體係結構的多元化,有時失敗最大化並行性和規模;每個創建解決地理空間分析和建模問題的一個子集,由許多新的支持和維護組織和開源項目。
  • 豐富的爆炸數據推動下,新的大規模數據采集成本有效的解決方案,包括物聯網、衛星、飛機、無人機、汽車以及智能手機。
  • 不斷發展的數據實體,有第三方收集、加工、維護和服務地理空間數據,有效地具有挑戰性的方法組織和分析這些數據。
  • 困難從數據中提取價值尺度,由於無法找到清晰,非平凡的例子占所需的地理空間數據工程和計算能力,使數據科學家或工程師沒有驗證指導企業分析和機器學習能力,過於簡單化的用例覆蓋最多的廣告技術,工作很好地“玩具”筆記本電腦的例子,然而忽略了基本問題的數據。

磚的地理空間Lakehouse

事實證明,很多地理空間領域麵臨的挑戰可以解決的磚LakehouseBeplay体育安卓版本平台。設計為簡單的,開放beplay娱乐ios,磚Lakehouse結合最好的湖泊和數據倉庫的數據元素。它可以簡化和標準化數據工程管道相同的設計模式,它始於原始數據不同類型的“單一來源的真相”,逐步增加了通過“數據流結構和濃縮。“結構化、半結構化和非結構化數據可以在一個采購係統,有效地消除了需要從其他數據豎井地理空間數據。隨後轉換和聚合可以執行端到端不斷改進和優化。因此,數據科學家獲得新功能規模先進的地理空間分析和ML的用例。他們現在提供上下文相關的元數據與其餘的完全集成的企業數據資產和多樣化而完整的工具箱開發新特性和模型驅動業務的見解。

額外的細節Lakehouse可以發現的的論文磚的創始人,和相關的磚博客

體係結構概述

在本節中,我們提出了磚地理空間Lakehouse,突出關鍵設計原則和實際考慮實現。

整體設計定位一個係統,統一設計,所有職能團隊,不同的用例;基於這些設計目標包括:

  • 清潔和目錄你所有的數據在一個係統中三角洲湖:批處理,流媒體,結構化或非結構化,並使其發現您的整個組織通過一個集中的數據存儲。
  • 統一和簡化數據工程管道的設計,這樣可以很容易地應用最佳實踐模式優化成本和性能,同時減少DevOps的努力。管道由最小的組(青銅/銀/金)三個階段。自然數據流經的管道應用定製轉換和適當的優化。
  • 自助服務與一鍵訪問預配置的集群計算很容易對所有組織中的職能團隊可用。團隊可以把他們自己的環境中(s)和多語言支持(Python, Java, Scala, SQL)最大的靈活性。遷移或執行當前的解決方案和代碼遠程pre-configurable和可定製的集群。
  • 實施各種各樣的地理空間數據用例——空間查詢,高級分析和大規模毫升。簡化縮放在磚可以幫助你從小型到大型數據,從查詢到可視化,毫不費力地從模型原型到生產。你不必被限製有多少數據符合你的筆記本電腦或者你當地環境的性能瓶頸。

lakehouse的基本組件包括:

  • 三角洲湖的種攝入層:
    • 銅表:優化原始數據攝入
    • ETL銀表:優化性能和成本效益
    • 黃金表:優化的快速查詢和跨職能協作加快提取業務的見解
  • 磚SQL供電服務+表示層:GIS可視化由磚SQL數據服務,支持廣泛的工具(GIS工具,筆記本,PowerBI)
  • 機器學習運行時的ML /人工智能層:內置,最好的現成的框架和ML-specific優化簡化端到端數據科學工作流數據準備建模觀點分享。管理MLflow服務自動化模型生命周期管理和繁殖的結果

磚地理空間Lakehouse架構

設計的主要好處

地理空間Lakehouse結合最好的數據元素的湖泊和時空數據的數據倉庫:

  • 單一來源的真理成本數據,保證數據的有效性,有效的數據插入操作本機支持SCD1 SCD2,組織可以可靠的基本決策
  • 簡單的可擴展性對各種工程處理方法和GIS功能
  • 簡單的可伸縮性方麵的存儲計算通過解耦,利用不同的資源
  • 分布式協作,因為所有數據集,應用凸數據標準,直接可以從一個對象存儲,而無需在用戶相同的計算資源,這樣就可以方便地共享數據不管團隊生產和消費它,並保證團隊最完整和up-to-data數據可用
  • 靈活性在選擇的索引策略模式定義以及治理機製來控製這些,這樣的數據集可以改變用途專門為各種地理空間和優化用例,同時保持數據完整性和健壯的審計跟蹤機製
  • 簡化數據管道使用種體係結構支持上述所有

設計原則

總的來說,一個地理空間Lakehouse架構遵循的主要原則Lakehouse——開放、簡單和協作。beplay娱乐ios它增加了額外的設計考慮,以適應特定的地理空間數據和用例的需求。我們描述如下:

開放的接口:

的核心技術是基於開源項目(Apache火花,三角洲湖,MLflow)。它是設計來處理任何可分配的地理空間數據處理庫或算法,並與常見的部署工具或語言。它是建立在磚的REST api;簡單,標準化的地理空間數據格式;和容易理解的,證明模式,所有這些都可以使用,由多種組件和工具,而不是隻提供少量的內置功能。你可以從一個最容易選擇,推薦的地理空間數據格式,標準和技術,因此很容易添加一個地理空間Lakehouse現有管道立即所以你可以從中受益,並共享代碼使用任何技術,別人在你的組織中可以運行。

簡單性:

我們簡單定義為沒有不必要的添加或修改。地理空間信息本身已經是複雜、高頻的和多元化的格式。擴展的分析和建模這樣的分布式係統的數據意味著可以有任意數量的原因一些不工作你期望它的方式。成功最簡單的途徑就是理解和確定最小可行的數據集,粒度,和處理步驟;你的邏輯劃分為最小可行的處理單元;合並這些組件;驗證代碼單元的單元,那麼組件的組件;每個組件集成(然後,集成測試)後遇到了出處。

正確的工具,正確的工作:

處理地理空間數據的挑戰意味著沒有一體化的技術,可以解決每一個問題來解決性能和可伸縮性的方式。一些圖書館執行和規模對地理空間數據攝入;其他幾何變換;然而別人點包容和多邊形查詢。

例如,庫如GeoSpark / Apache塞多納和GeoMesa可以執行幾何轉換很快tb的數據。更昂貴的操作,如多邊形或多邊形點查詢需要更加注重地理空間數據工程。向外擴展點包容查詢的一種技術,將geohash幾何圖形,或六角指數與圖書館如H3;一旦完成,處理點的總數減少了。

民主化:

為企業提供正確的信息在正確的時間和最終用戶采取的戰略和戰術決策形式可訪問性的支柱。可訪問性曆來是一個挑戰由於地理空間數據格式的多樣性,高頻特性,大量參與。通過地理空間數據提煉成一個小的選擇高度優化的標準化格式,進一步優化的索引,您可以很容易地混合和匹配來自不同來源的數據集和不同樞軸點大規模實時。

替代:

當你的地理空間數據是可用的,你會希望能夠表達它在一個高度可行的格式進行探索性分析,工程和建模。地理空間Lakehouse設計輕鬆地表麵和答案,什麼在哪裏的你的地理空間數據:誰是實體對象分析(例如,客戶、POIs屬性),beplay体育app下载地址什麼實體的屬性,在哪裏的位置分別是實體。的答案,什麼在哪裏將提供必要的見解和模型製定你的實際地理空間是什麼問題要解決。這是進一步擴展的開放接口,使廣泛的可視化選項。

AI-enabled:

製定問題要解決,你要理解為什麼它發生時,最困難的問題。啟用和促進團隊關注為什麼——使用任意數量的先進的統計和數學分析(如相關,推測學、相似性分析)和建模(如貝葉斯信念網絡,譜聚類神經網絡)——你需要一個平台旨在緩解的過程自動化重複決策同時支持人工幹預來監控模型和調整他們的性能。Beplay体育安卓版本這個實驗的磚地理空間Lakehouse設計方法。

種數據管道:

標準化數據管道如何看起來像在生產中對可維護性和數據治理很重要。這使得決策上橫切關注點沒有進入每個管道的細節。什麼工作很好是一個很大的數據管道的概念是一種管道。這是使用過小和大公司(包括磚本身)。

傳入的數據從外部來源的想法是結構化的,硬度,不遵守任何質量標準本身。種管道,這叫做銅層。我們生攝入和曆史層,物理層,包含一個結構良好和正確格式的源數據的副本,這樣它在主要數據處理引擎表現良好,在這種情況下磚。

青銅階段後,將最終的數據銀層數據成為可查詢數據科學家和/或相關的數據管道。我們的過濾、淨化和增強可共享的數據資產層,提供了保存位置驗證之前,作為安全措施影響麵向客戶表。此外,銀是所有曆史存儲下一個層次的細分(例如黃金表),不需要這種級別的細節。省略不必要的版本是一個偉大的方式來提高性能和降低生產成本。所有之間的轉換(映射)完成原始版本(青銅)和這一層(銀)。

最後,還有金層在其中一個或多個銀表組合成一個物化視圖是特定的用例。作為我們的業務級聚合物層,物理層的廣泛用戶組將消耗數據,最後,高性能的結構,解決了一些範圍廣泛的業務需求。

額外的資源:

對於一個更實際的觀點如何處理地理空間數據的Lakehouse,看看這個研討會資格地理空間分析和人工智能在規模。網絡研討會,你會發現一個偉大的客戶從Stantec例子,他們在洪水預報工作,進一步的例子和地理空間分析方法(一些發現共同努力與英國陸地測量部博客),偷偷高峰在發展中地理空間數據磚路線圖。Lakehouse未來還包括關鍵地理空間合作夥伴如紙箱包裝(看到最近宣布),建築規模和擴展Lakehouse幫助解決空間問題。

總結

地理空間分析和機器學習在規模將繼續挑戰一個放之四海而皆準的模式。通過應用程序的設計原則,磚Lakehouse獨特的安裝,您可以利用這種大規模基礎設施幾乎任何時空的解決方案。

第2部分,我們將深入研究實際方麵的設計、詳細和實現步驟。

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map