跳轉到主要內容
工程的博客

從真實臨床數據和NLP中提取腫瘤的見解

分享這篇文章

預覽方案加速器筆記本中引用這個博客在線或者馬上開始下載筆記本電腦並導入到你的磚賬戶。

癌症是世界主要死亡原因和疾病在美國,和the numbers are staggering with nearly的癌症新發病例達200萬預計明年在美國這個診斷。癌症也代表了很大一部分美國醫療保健支出總額的估計超過200美元在2020年。因此,生物製藥產業主要集中在腫瘤藥物的研發。近40新癌症藥物被批準FDA在2019年和2020年孤獨,超過1300新的藥物和疫苗在臨床開發。

測量腫瘤的療效幹預患者匹配正確的幹預是至關重要的。腫瘤數據和相關真實的證據,有可能通知臨床研究,試驗設計、管理決策、安全評估、治療途徑等等。不幸的是,鑒於腫瘤護理的高度專業化的性質,疾病標準和端點通常不可用結構化格式和保持鎖定在數據倉庫,很難進行彙總和分析。

在腫瘤學、病理學報告(通常在PDF格式捕獲和孤立的EMR係統),包含關鍵信息,如腫瘤大小、等級、舞台和組織學。這些變量,提取自然語言處理(NLP)係統,可用於定義疾病人群,評估疾病嚴重程度和疾病進程創建一個基線,然後可以應用於上述用例,從臨床試驗匹配的治療途徑。但從非結構化臨床文本數據中提取這些信息通常是一個巨大的疼痛點數據團隊。

約翰·斯諾實驗室、醫療NLP的領導者,和磚是應對這些挑戰,與許多客戶在合作醫療生態係統非結構化腫瘤數據轉化為可操作的證據。beplay体育app下载地址

臨床自然語言處理大規模數據磚&約翰·斯諾實驗室

前進道路的開始磚Lakehouse平台Beplay体育安卓版本現代數據平台相結合的最佳元素數據Beplay体育安卓版本warehouse-such數據管理和性能——低成本、靈活性和雲數據規模湖。這個新的,簡化架構使衛生係統統一所有的數據結構(例如,診斷和程序代碼中發現EHR數據庫),半結構化(例如HL7、FHIR消息)和非結構化(如自由文本筆記和圖片),到一個高性能的傳統分析和數據科學的平台。Beplay体育安卓版本

解鎖的力量臨床NLP磚Lakehouse平台和約翰·斯諾實驗室。Beplay体育安卓版本

磚Lakehouse平台的核心Beplay体育安卓版本三角洲湖開源存儲層,使性能(通過Apache火花™),可靠性和管理數據。醫療組織土地所有的數據——包括原材料供應商指出,放射學報告和PDF病理報告——三角洲湖。這個保留了原始的真理應用任何數據轉換。相比之下,與傳統的數據倉庫,轉換發生在加載數據之前,這意味著所有從非結構化文本中提取結構化變量斷開本機文本。

建立在此基礎上是約翰·斯諾實驗室的火花NLP衛生保健,最廣泛使用的NLP圖書館在醫療保健和生命科學產業。優化運行在磚,火花NLP醫療無縫地提取、分類和結構與最先進的臨床和生物醫學文本數據大規模的準確性。這是唯一本地分布式開源文本處理為Python庫,Java和Scala,因為每一個引發火花毫升NLP管道管道,特別適合構建統一的NLP和機器學習管道。火花NLP提供Python、Java和Scala庫傳統NLP的完整功能庫(像寬大的,nltk,斯坦福CoreNLP和開放NLP)和增加了額外的功能,如拚寫檢查、情緒分析和文檔分類。您可以了解更多關於聯合磚和約翰·斯諾實驗室解決方案在我們以前的博客,應用自然語言處理健康大規模文本

真實的腫瘤數據抽象

為了演示磚和約翰·斯諾實驗室的力量,我們創建了一個解決方案加速器從腫瘤指出抽象真實數據。解決方案加速器包含示例數據,預先構建的代碼和分步指導,為下遊分析腫瘤攝取和準備報告和實際證據的一代。解決方案是在磚筆記本準備好並幫助你開始,我們包括簡要介紹下麵的解決方案。

磚和約翰·斯諾實驗室的解決方案加速器提供一個端到端的自然語言處理工作流為下遊腫瘤攝取和準備報告分析和實際證據的一代。

我們使用這個解決方案太腫瘤學筆記數據集。它提供了資源主要在轉錄樣本在醫學專業醫學報告的形式和常見醫療抄寫單詞/短語中遇到的特定部分形成一份醫學報告的一部分——部分如體檢或PE、審查的係統或ROS,實驗室數據和精神狀態考試,等等。

我們選擇50腫瘤消除識別信息的報告太腫瘤學notes數據庫作為源的非結構化文本和降落的原始文本數據到三角洲湖銅層。出於演示目的,我們50個樣本的數量有限,但這個解決方案提出的框架加速器可以縮放以適應數以百萬計的臨床的筆記和文本文件。

我們的加速器的第一步是提取變量使用各種模型命名實體識別(尼珥)。要做到這一點,我們首先建立了NLP管道,其中包含注釋器如documentAssembler和sentenceDetector和記號賦予器訓練專門為醫藥相關尼珥。在下麵的例子中,我們結合bionlp_ner,這是一個臨床尼珥模型,jsl_ner,這是一個pre-trained深尼珥模型對臨床術語。我們看到,間皮瘤病人正在經曆的症狀,比如咳嗽。

磚和約翰·斯諾實驗室的加速器的例子顯示如何使用pre-trained命名實體識別(尼珥)模型來提取患者的症狀。

從文本中提取命名實體是一個很好的例子AI-assisted ETL: pre-trained深度學習(DL)模型使我們能夠將非結構化數據轉換為一個結構化的格式,可用於下遊臨床分析。

一旦我們有了症狀提取,我們可以映射到icd - 10編碼,它可以用於編碼自動化和提高分層條件分類醫療保險風險的(HCC)編碼精度調整。我們可以進一步使用這些數據來分析治療模式和分析症狀和腫瘤實體之間的關係。

平均風險指標編碼症狀的臨床數據集
圖1:平均風險信號編碼的症狀的臨床數據集
濃縮的可視化症狀最常見的數據集的條件之一。
圖2:症狀濃縮的可視化數據集最頻繁的條件之一

我們也可以生成一個圖表來研究這些症狀的斷言狀態作為禮物,缺失或與別人(例如,一個家庭成員)。

磚和約翰·斯諾實驗室的腫瘤學NLP解決方案加速器可視化描述的斷言狀態症狀作為禮物,缺失或與別人(例如,一個家庭成員)。

繼續同樣的注意,我們運行描述和可視化統計數據顯示最常見的實體腫瘤(在下麵的例子)分層的斷言狀態。

磚和約翰·斯諾實驗室的腫瘤學NLP解決方案加速器可視化描述的斷言狀態最常見的症狀
圖3:斷言狀態最常見的症狀。

接下來,我們可以看看治療,包括藥物頻率和持續時間,形成腫瘤治療方案的基礎。下麵是截圖的NLP模型包含在我們的解決方案的筆記本中提取藥物治療和持續時間的信息。

例子Databricks-John雪實驗室腫瘤NLP解決方案加速器文本分析治療,包括藥物頻率和持續時間。

我們可以把症狀與治療,以及疾病狀態如複發,滿懷信心的分數。

例子Databricks-John雪實驗室腫瘤NLP解決方案加速器分析關聯的症狀與治療,以及疾病狀態如複發,滿懷信心的分數。

這個數據是至關重要的,以確保個別病人護理的質量和群體的研究,可以幫助確定幹預措施的有效性和安全性在現實世界中。

使用磚Lakehouse的平台,我們也可以輕鬆地創建一個數據庫Beplay体育安卓版本的條件,症狀和程序,以及其他相關提取信息的非結構化的筆記,然後可以用於下遊分析、臨床決策支持和研究。

使用磚Lakehouse的平台,你也可以輕鬆地創建一個數據庫的Beplay体育安卓版本條件、症狀、程序以及其他相關信息從非結構化的筆記,然後可以用於下遊分析和研究。

這個解決方案加速器,磚和約翰·斯諾實驗室提取腫瘤數據打開門在規模與質量要求真實的證據。

開始從腫瘤中提取RWD NLP的票據

使用此解決方案,預覽筆記本電腦在線或者馬上開始下載並導入筆記本到你的磚帳戶。筆記本電腦包括指導安裝相關的約翰·斯諾實驗室NLP圖書館和許可證密鑰。

你也可以訪問我們的行業頁麵來了解更多關於我們的醫療保健生命科學解決方案。

免費試著磚
看到所有工程的博客的帖子
Baidu
map