解鎖的力量與現代數據Lakehouse健康數據
2021年7月19日 在工程的博客
一個病人產生約80字節的醫療數據每年。用它在成千上萬的患者在他們的一生中,和你看著pb級的病人數據,其中包含有價值的見解。解鎖這些見解可以幫助簡化臨床操作,加速藥物研發和改善病人的健康狀況。但首先,數據需要準備下遊分析和人工智能。不幸的是,大多數醫療保健和生命科學組織花費大量的時間簡單的收集、清洗和結構化數據。
讀數據Lakehouse上升探索為什麼lakehouses未來的數據架構和數據倉庫的父親,Bill Inmon。
挑戰在衛生保健和生命科學與數據分析
數據準備,有很多原因分析和人工智能是一個組織在醫療保健行業麵臨的挑戰,其中許多都與投資遺留數據架構建立在數據倉庫。這裏有四個共同挑戰行業中我們看到:
挑戰# 1(體積):擴展對迅速增長的健康數據
基因組學可能是一個最好的例子數據量爆炸式增長的醫療保健。第一個基因組測序成本超過美元1 b。鑒於高昂成本,早期的努力和很多的努力仍然關注的基因,尋找特定的變異過程在一個很小的一部分人的基因組,通常在0.1%左右。進化到全外顯子組測序,包括基因組蛋白質編碼的部分,仍然隻有不到2%的整個基因組。公司現在提供直接麵向消費者測試全基因組測序(WGS) 30 x WGS不到300美元。在人口層麵,英國生物庫發布超過200000今年整個基因組的研究。不僅僅是基因組學。成像、健康衣物和電子醫療記錄越來越巨大。
規模是這場遊戲的名字人口健康分析和藥物研發等項目。不幸的是,許多遺留的架構構建應急和為峰容量設計的。這種方法導致未使用的計算能力(並最終浪費美元)在使用較低的時期,規模也不需要時迅速升級。
挑戰# 2(品種):分析多樣化的健康數據
醫療保健和生命科學組織處理大量的數據不同,每個國家都有自己的細微差別。人們普遍認為超過80%的醫療數據是結構化的,然而大多數組織仍將注意力集中在數據倉庫為結構化數據和傳統的基於sql的分析而設計的。非結構化數據包括圖像數據,診斷和衡量疾病進展的關鍵在腫瘤學、免疫學和神經學(成本)的增長最快的領域和敘事文本在臨床所指出的,這是至關重要的理解完整的病人健康和社會曆史。忽視這些數據類型,或設置到一邊,不是一個選擇。
更糟糕的是,醫療生態係統越來越相互聯係,要求股東應對新的數據類型。例如,供應商需要索賠的數據管理和裁決風險分擔協議,和納稅人需要臨床數據來支持流程之前授權和傳動質量的措施。這些組織通常缺乏數據架構和平台支持這些新的數據類型。Beplay体育安卓版本
一些組織投資數據湖泊支持非結構化數據和先進的分析方法,但是這將創建一個新的問題。在這種環境下,數據團隊現在需要管理兩個係統——數據倉庫和數據湖泊——數據複製在孤立的工具導致數據質量和管理問題。
挑戰# 3(速度):流媒體數據的實時處理病人的見解
在許多環境中,醫療保健是一個生死攸關的問題。條件可以非常有活力,和批量數據處理——即使每天完成——往往是不夠好。訪問到最新的即時信息的成功介入治療是至關重要的。為了拯救生命,流數據由醫院和國家衛生係統用於從實現實時預測膿毒症重症護理病床的需求預測。
此外,數據速度是醫療數字革命的一個主要組成部分。個人獲得比以前更多的信息和實時能夠影響他們的護理。例如,可穿戴設備——像連續葡萄糖監測提供的Livongo——流實時數據到移動應用提供個性化的行為建議。
盡管其中一些早期的成功,大多數組織都不是設計他們的數據架構,以適應流媒體數據的速度。可靠性問題和挑戰將實時數據與曆史數據是抑製創新。
挑戰# 4(真實性):建立信任在醫療數據和人工智能
最後,但並非最不重要,臨床和監管標準需求最大的醫療數據的準確性。公共衛生醫療組織有很高的合規要求必須滿足。數據在組織需要治理民主化。
此外,組織需要好的模型治理時,將人工智能(AI)和機器學習(ML)臨床設置。不幸的是,大多數組織有不同的平台與數據科學工作流數據倉庫。Beplay体育安卓版本這就產生了嚴峻的挑戰,當試圖AI-powered應用程序中建立信任和再現性。
解鎖Lakehouse健康數據
lakehouse架構幫助衛生保健和生命科學組織克服這些挑戰的現代數據架構結合了低成本、可擴展性和靈活性的湖雲數據與數據倉庫的性能和治理。lakehouse,組織可以存儲所有類型的數據和權力的所有類型的分析和毫升在一個開放的環境。
具體來說,lakehouse為衛生保健和生命科學組織提供了以下好處:
- 大規模組織所有你的健康數據。磚Lakehouse平台的核心Beplay体育安卓版本三角洲湖一層開源數據管理,提供可靠性和性能數據。與傳統的數據倉庫,三角洲湖支持所有類型的結構化和非結構化數據,並使攝取健康數據容易,磚建造了連接器的電子醫療記錄和基因組學等領域特定的數據類型。這些連接器封裝在行業標準數據模型在一組快速啟動解決方案加速器。此外,三角洲湖提供了內置的數據緩存和索引優化大大加快數據處理速度。與這些能力,團隊可以土地所有的原始數據在一個地方然後牧師來創建一個病人健康的整體視圖。
- 你所有的病人分析和人工智能。與你所有的數據集中在lakehouse,團隊可以建立強大的病人直接對數據分析和預測模型。建立在這些能力上,磚為協作工作空間提供了一整套分析和人工智能工具和支持廣泛的編程語言,如SQL, R, beplay娱乐iosPython, Scala。這使一個不同的用戶組,像數據科學家,工程師,和臨床信息學家,共同分析、模型和可視化你的健康數據。
- 提供實時的病人的見解。lakehouse提供了一個統一的架構為流和批處理數據。不需要支持兩個不同的架構和解決可靠性問題。此外,通過運行lakehouse建築磚,組織訪問原生雲平台,auto-scales基於工作負載。Beplay体育安卓版本這使它容易攝取的曆史數據流數據和混合pb在人口規模接近實時的見解。
- 提供數據質量和遵從性。地址數據真實性,lakehouse包括功能缺失等傳統數據湖泊的模式執行,審計、版本控製和細粒度的訪問控製。lakehouse的一個重要的好處是能夠執行分析和ML相同,可信數據源。此外,磚提供了ML模型跟蹤和管理功能方便團隊複製結果在環境和幫助滿足遵從性標準。所有的這些功能提供了一個與hipaa兼容的分析環境。
這種lakehouse是最好的架構管理衛生保健和生命科學數據。通過與磚的能力結婚這個架構,組織可以支持廣泛的高度有效的用例,從藥物發現到慢性疾病管理計劃。
開始建立你的Lakehouse衛生保健和生命科學
正如上麵提到的,我們很高興提供一係列的解決方案加速器幫助衛生保健和生命科學組織開始建立一個Lakehouse他們的特定需求。我們的解決方案加速器包括樣本數據,預先構建的代碼和循序漸進的指示在磚筆記本。
- 新的解決方案加速器:Lakehouse真實的證據。實際數據為製藥公司提供了新的見解病人健康和藥物療效之外的審判。這個加速器幫助您構建一個Lakehouse磚真實的證據。我們將向您展示如何攝取EHR患者人群的數據樣本,使用OMOP常見數據結構數據模型,然後運行分析大規模調查藥物處方模式。
- 即將到來:Lakehouse人口健康。醫療保健類股和提供者需要實時了解病人做出更明智的決策。在這個加速器,我們將向您展示如何輕鬆攝取流HL7數據磚和建立強大的毫升等用例模型預測病人的疾病風險。