大規模應用自然語言處理醫療文本

發現病人見解埋在醫療文本與約翰·斯諾實驗室解決方案和磚

通過邁克爾·奧爾特加,邁克爾Sanky和莫裏茨斯特勒

2021年7月1日在Beplay体育安卓版本平台的博客

分享這篇文章

這是合著的文章寫在與莫裏茨斯特勒合作,AI傳道者,約翰·斯諾實驗室。看我們的隨需應變的車間,提取與NLP的真實數據,了解更多關於我們的NLP醫療解決方案。

2015年,HIMSS估計美國的醫療行業生產12億個臨床文檔。這是一個大量的非結構化的文本數據。從那時起,數字化醫療隻有每年增加臨床文本生成的數據的數量。數字形式,門戶網站,pdf報告、電子郵件、短信和聊天機器人提供現代醫療的骨幹通信。文本生成的在這些渠道的數量太龐大的測量和綜合為人類消費。因為這些數據是結構化的,他們不容易可分析的,經常保持孤立。

這對所有醫療組織構成風險。鎖定在這些實驗報告中,提供者筆記和聊天記錄是有價值的信息。當結合病人的電子健康記錄(EHR),這些數據提供了一個更完整的病人的健康。在人口層麵,這些數據集可以通知藥物發現,治療途徑,和現實世界的安全評估。

揭示小說健康見解和自然語言處理

有好消息。進步在自然語言處理(NLP) -人工智能的一個分支,使計算機能夠理解書麵,口頭或文字形象——能夠從文本中提取出的見解。使用NLP方法、非結構化臨床文本可以提取,將下遊分析並存儲在一個結構化的格式和美聯儲直接進入機器學習(ML)模型。這些技術正在推動重大創新研究和護理。

在一個用例、Kaiser Permanente最大的非營利性衛生計劃和醫療服務提供者在美國,使用NLP處理數以百萬計的急診分診指出預測醫院床位的需求,護士和醫生,最終改善病人的流動。另一項研究NLP用於分析非標準文本消息從移動支持團體對hiv陽性的青少年。分析發現很強的相關性之間的參與,提高藥物依從性與社會支持的感覺。

妨礙醫療NLP是什麼?

所有這些不可思議的創新,它回避了為什麼沒有更多的醫療組織利用臨床文本數據嗎?在我們的經驗中,使用一些最大的納稅人,提供者和製藥公司,我們看到三個關鍵挑戰:

NLP係統通常不用於醫療保健。臨床文本是自己的語言。數據不一致是由於各種各樣的源係統(例如EHR,臨床指出,PDF報告),最重要的是,臨床專業語言有很大的不同。傳統的NLP技術不是用來理解獨特的詞彙,語法和醫學文本的意圖。例如,在下麵的文本字符串,NLP模型需要理解阿奇黴素是一種藥物,500毫克劑量,發出嗚咽聲是一個臨床縮寫“氣短”病人相關條件肺炎。同樣重要的是推斷病人不是呼吸急促,,他們還沒有采取藥物,因為它隻是規定。

大多數NLP工具無法正確地編寫醫療文本。火花NLP的醫療目的是建立算法旨在理解領域特定語言。 — 大多數NLP工具無法正確地編寫醫療文本。火花NLP的醫療目的是建立算法旨在理解領域特定語言

僵化的傳統醫療數據架構。文本數據包含各種新聞信息,但隻提供一個鏡頭到病人的健康。真正的價值來自於將文本數據與其他病人的健康數據創建一個全麵的視圖。不幸的是,遺留數據架構建立在數據倉庫缺乏支持非結構化數據(如掃描報告,生物醫學圖像,基因組序列和醫療設備流,從而無法協調患者數據。此外,這些架構是昂貴和複雜。一個簡單的臨時分析大型語料庫的健康數據可以運行幾小時或幾天。太長,當病人需要實時調整等。

缺乏先進的分析功能。絕大多數醫療組織已經建立了他們的分析數據倉庫和商務智能平台。Beplay体育安卓版本這些是偉大的描述性分析,計算使用的病床數量上周,但缺乏AI /毫升功能來預測未來醫院病床上使用。組織通常投資於AI把這些係統看作是孤立的,補強的解決方案。這種方法需要對要複製的數據在不同的係統導致不一致分析和time-to-insight緩慢。

解鎖的力量醫療NLP磚和約翰·斯諾實驗室

磚和約翰·斯諾實驗室——開源的創造者火花NLP庫,火花NLP衛生保健和火花OCR——興奮地宣布我們的新套解決方案專注於幫助衛生保健和生命科學組織的大量文本數據轉換成小說病人的見解。我們共同解決方案結合最佳醫療NLP工具和一個可擴展的平台,你所有的數據,分析和人工智能。Beplay体育安卓版本

解鎖醫療NLP的力量與磚Lakehouse平台和約翰·斯諾實驗室。Beplay体育安卓版本

作為基礎磚Lakehouse平台Beplay体育安卓版本現代數據架構,結合數據倉庫的最佳元素與低成本、靈活性和雲數據規模湖。這個簡化的、可伸縮的架構使醫療係統彙集他們所有的數據結構,半結構化和unstructured-into單一、高性能科學傳統的分析和數據平台。Beplay体育安卓版本

磚Lakehouse平台的核心是Apache SparkTM和三角洲湖,一個開源Beplay体育安卓版本存儲層帶來的性能,可靠性和管理您的數據。醫療組織可以土地所有的數據,包括原始提供者筆記和PDF實驗報告,進一層銅攝入的三角洲湖。這保存真理的來源在應用任何數據轉換。相比之下,與傳統的數據倉庫,轉換發生在加載數據之前,這意味著所有從非結構化文本中提取結構化變量斷開本機文本。

建立在此基礎上約翰·斯諾實驗室的火花NLP的醫療保健,最廣泛使用的NLP圖書館衛生保健和生命科學行業。軟件無縫地提取、分類和結構與最先進的臨床和生物醫學文本數據準確性。這樣做是使用工業生產、可伸縮和可訓練的實現最近healthcare-specific深度學習和轉移學習技術,連同200 + pre-trained和定期更新模型。

約翰·斯諾實驗室的軟件的顯著功能庫包括:

開箱即用的命名實體識別超過100的臨床和生物醫學實體——從症狀和藥物解剖學、社會因素、實驗室、成像和基因
解決實體術語的語義上的代碼包括SNOMED-CT ICD-10-CM, ICD-10-PCS, RxNorm,盧瓦,uml,網狀,HPO。
Pre-trained關係提取模型檢測30 +關係類型:醫療事件之間,治療和藥物、基因和表型,和其他人。
可定製的檢測、de-identification和困惑的敏感信息自由文本,PDF文件,掃描報告,以及DICOM圖像。
Healthcare-specific單詞,和句子嵌入塊不是可用的其他地方和定期更新新的術語和內容。

ohn雪實驗室的火花NLP醫療庫提供了一個最堅實的自然語言處理功能和模型。 — 約翰·斯諾實驗室的火花NLP醫療庫提供了一個最堅實的自然語言處理功能和模型。

我們共同解決方案彙集的力量引發NLP的醫療協作分析和人工智能能力的磚。beplay娱乐ios信息學團隊可以直接攝取原始數據成磚,過程數據規模與火花NLP醫療、並使其可為下遊SQL分析和ML,都在一個平台。Beplay体育安卓版本培訓和推理過程中直接運行磚;除了速度和規模的好處,這也意味著,數據是不會發送給第三方,一個至關重要的隱私和合規要求在處理敏感的醫療數據。最重要的是,磚是建立在Apache SparkTM,使其運行引發應用程序最好的地方像火花NLP的醫療保健。