改善患者的見解與文本ETL Lakehouse範例
2021年7月22日 在公司博客上
這是一個協作的磚beplay娱乐ios森林邊緣技術。我們感謝Bill Inmon,創始人兼首席執行官,瑪麗·萊文,首席數據官的森林邊緣的貢獻。
醫療數據生成的數量今天是前所未有的和迅速擴張的增長數字病人護理。然而大部分的數據創建後仍未使用。尤其如此,80%的醫療數據的非結構化形式文本和圖像。
在衛生係統環境中,非結構化提供者筆記提供患者信息的重要寶庫。例如,提供者筆記可以包含病人的條件,否則將無法在結構化數據編碼,病人的症狀,可以狀態和疾病惡化的信號,和病人的社會和行為的曆史。
每次病人接受治療時,供應商文件的複雜性,遇到。的原始文本和語言的性質取決於提供者和許多其他因素。這就產生了很多變化哪些文本捕獲,以及它是如何。這些原始文本記錄的集合作為一個病人的病史的基礎並提供了巨大的價值的個別病人和整個人群的病人。當記錄檢查集體在數以百萬計的患者,研究人員可以識別模式有關疾病和病症的原因和進展。這些信息是至關重要的病人提供更好的結果。
原始非結構化文本數據,如供應商指出,還包含了非常重要的信息對病人護理和醫學研究;然而,文本數據通常是存檔,尚未開發的複雜性和手動審查所需的時間。從文本中提取信息提供者的筆記,結合它與更傳統的結構化數據變量,提供最完整的病人。這是至關重要的,從推進臨床知識的急性病人護理和支持慢性病管理提供幹預措施。
分析醫療文本數據的挑戰
衛生係統麵臨的挑戰在利用這些數據集是傳統的數據倉庫,通常利用關係數據庫,不支持半結構化或非結構化數據類型。標準技術處理結構化數據、數值數據和事務很好;然而,當涉及到文本,不能在文本檢索和分析。缺乏文本結構的失敗的許多數據倉庫提供的優勢。
第二個原因遺留數據架構不會讓自己的集體分析病人數據,大多數的數據駐留在非常不同的來源和專有技術。這些技術隻是從未設計無縫地與其他技術工作,並且經常禁止大規模非結構化文本的分析。
此外,這些遺留係統從未為大數據,設計先進的分析處理和機器學習。建立基於sql的分析這些係統適合報道事件過去,但沒有提供預測的未來這是實現創新的關鍵用例。
解開病人的見解與森林邊緣技術和磚Lakehouse平台Beplay体育安卓版本
森林邊緣技術,文本ETL的創造者,磚可以幫助醫療組織克服麵臨的挑戰遺留數據倉庫和專有數據的技術。與磚Lakehouse前進道路的開始,一個現代數據平台,結合了數據倉庫的最佳元素與低成本、靈活性和雲數據規模湖。Beplay体育安卓版本這個新的,簡化架構使衛生係統彙集所有的數據——結構化(如診斷和程序代碼中發現電子病曆),半結構化(如組織的文本注釋),和非結構化(如圖像或文本數據),到一個高性能的傳統分析和數據科學的平台。Beplay体育安卓版本
磚Lakehouse平台的核心Beplay体育安卓版本三角洲湖一個開源存儲層,使湖泊數據可靠性和性能。醫療組織可以土地所有的數據,包括原材料供應商指出,三角洲湖的青銅攝入層(如下圖)。這個保留了原始的真理應用任何數據轉換。相比之下,與傳統的數據倉庫,轉換發生在加載數據。因此,從非結構化文本中提取結構化變量都斷開本機文本。lakehouse架構還提供了一整套分析和人工智能功能,以便組織可以開始探索他們的數據沒有複製到另一個係統。
森林邊緣技術建立在磚”與文本ETL功能,讀取原始的先進技術,敘事文本,如發現在醫療記錄,並發展了這一文本結構化數據,可以很容易地攝取到三角洲湖。ETL能夠將非結構化文本醫學指出,來自任何源電子可讀到一個結構化的格式。文本ETL的其他功能包括在不同的語言中對應的解析和翻譯文本數據。目前文本ETL支持多種語言,包括英語,西班牙語,葡萄牙語,德語,法語,意大利語和荷蘭。非結構化文本數據可以加工成結構化數據安全,確保任何敏感數據保護和治理。磚Lakehouse平台和文本的ETL的結合可以分析數據為一個病人,一群病人,整Beplay体育安卓版本個醫院或整個國家。
分析醫療記錄與文本ETL和數據磚Lakehouse規模
示範文本Lakehouse架構中的ETL的力量,森林邊緣和磚生成大量的文本合成使用Synthea醫療記錄,合成病人模擬器。電子文本病曆的大小不等,從10頁的長度為病人超過40頁。
文本ETL使用複雜的本體,可以消除歧義醫學術語的差異(例如,心髒病簡稱“哈”意味著“心髒病”,而同樣的縮寫其他提供商可能意味著“頭痛”或“肝炎”)。在這個例子中,森林邊緣部署文本ETL技術來識別和提取值的文本從人口結構(年齡、性別、地理和種族)醫療(症狀、條件和藥物)。由此產生的變量被用作輸入開始探索數據的可視化工具。磚”Lakehouse使集成商業智能(BI)工具直接從三角洲湖促進快速勘探和可視化數據間的關係。
對於本例,我們專注於模擬記錄從阿拉巴馬州,可以很容易地探索所有的文本筆記使用文本處理後數據ETL和微軟PowerBI連接結構的結果。這使我們去探索和理解的數據提供者和病人之間最常討論的話題,以及免疫等特定的分布。
文本ETL和數據磚Lakehouse促進詳細鑽,我們可以很容易地探索跨領域如藥物和疾病的相關性由不同的參數,比如性別、年齡、地理和婚姻狀況,見下麵的GIF。
一旦電子文本病曆由文本ETL處理,研究人員、分析師和數據科學家可以通過機器學習用例支持從報告或其他先進的分析工具。Lakehouse的另一個優點是,原來的筆記位於三角洲湖,讓用戶輕鬆地審查所需的完整的病人記錄(數據倉庫相比,完整的筆記可能駐留在一個單獨的係統)。此外,notes數據可以與結構化的數據記錄減少臨床醫生的時間,提高整體的病人護理。
磚和森林的邊緣技術帶來了共同願景提供可信的環境敏感,可以安全地在Lakehouse處理非結構化的醫療數據分析研究。醫療數據持續增長,這種願景為更深的見解提供了一個可信的環境中通過文本ETL同時保護醫療信息的敏感性。
森林邊緣技術:森林邊緣技術是由Bill Inmon和是世界領導人在將文本非結構化數據轉換為結構化數據庫進行更深入的見解和有意義的決策。森林邊緣醫療數據的使命是讓政府和醫療機構使用文本信息的分析研究和病人護理以更低的成本。