用NLP從真實臨床數據中提取腫瘤學見解
2021年9月22日 在工程的博客
癌症是主要死因和疾病,這個數字令人震驚200萬新的癌症病例預計將於明年在美國確診。癌症也占美國醫療保健總支出的很大一部分,估計到2020年將超過2000億美元。因此,生物製藥行業主要專注於腫瘤藥物的開發。近40種新的抗癌藥物獲得批準僅在2019年和2020年,以及超過1300種新藥疫苗也在臨床開發中。
衡量腫瘤幹預措施的療效對於使患者與正確的幹預措施相匹配至關重要。腫瘤學數據和相關的現實證據有可能為臨床研究、試驗設計、監管決策、安全評估、治療途徑等提供信息。不幸的是,鑒於腫瘤護理的高度專業化性質,疾病標準和終點通常無法以結構化格式提供,並且仍然鎖定在數據筒倉中,這使得它們難以彙總和分析。
在腫瘤學中,病理報告(通常以PDF格式捕獲並存儲在EMR係統中)包含關鍵信息,如腫瘤大小、分級、分期和組織學。一旦使用自然語言處理(NLP)係統提取這些變量,就可以用於定義疾病隊列,評估疾病嚴重程度,並為疾病進展創建基線,然後可以應用於上述用例,從臨床試驗匹配到治療途徑。但是從非結構化的臨床文本數據中提取這些信息通常是數據團隊的一個巨大痛點。
醫療NLP領域的領導者John Snow Labs和Databricks正積極應對這些挑戰,並與醫療生態係統中的許多客戶合作,將非結構化腫瘤數據轉化為可操作的證據。beplay体育app下载地址
與Databricks和John Snow實驗室進行大規模臨床自然語言處理
前進的道路始於Databricks湖屋平台Beplay体育安卓版本這是一個現代數據平台,它將數據倉Beplay体育安卓版本庫的最佳元素(如數據管理和性能)與雲數據湖的低成本、靈活性和規模相結合。這個新的,簡化的架構使衛生係統得以實現將所有數據結構化(如EHR數據庫中的診斷和程序代碼)、半結構化(如HL7、FHIR信息)和非結構化(如自由文本筆記和圖像)統一為一個傳統分析和數據科學的單一高性能平台。Beplay体育安卓版本
Databricks Lakehouse平台的核心是Beplay体育安卓版本三角洲湖這是一個開源存儲層,為數據湖帶來了性能(通過Apache Spark™)、可靠性和治理。醫療保健組織可以將其所有數據(包括原始供應商說明、放射學報告和PDF病理報告)輸入Delta Lake。在應用任何數據轉換之前,這將保留真實的原始來源。相比之下,在傳統數據倉庫中,轉換發生在加載數據之前,這意味著從非結構化文本中提取的所有結構化變量都與本機文本斷開了連接。
在此基礎上,約翰·斯諾實驗室用於醫療保健的Spark NLP,最廣泛使用的NLP庫在醫療保健和生命科學行業。Spark NLP for Healthcare經過優化,可在Databricks上運行,以最先進的精度無縫提取、分類和構建臨床和生物醫學文本數據。它是唯一的本地分布式開源文本處理庫,適用於Python、Java和Scala,由於每個Spark NLP管道都是一個Spark ML管道,因此特別適合構建統一的NLP和機器學習管道。Spark NLP提供Python、Java和Scala庫傳統NLP庫的全部功能(如spaCy, nltk, Stanford CoreNLP和Open NLP),並添加了額外的功能,如拚寫檢查,情緒分析和文檔分類。你可以在我們之前的博客中了解更多關於Databricks和John Snow實驗室的聯合解決方案,自然語言處理在大規模衛生文本中的應用.
實際的腫瘤學數據抽象
為了展示Databricks和John Snow實驗室的強大功能,我們創建了一個解決方案加速器用於從腫瘤學記錄中提取真實數據。該解決方案加速器包含樣本數據、預構建代碼和逐步說明,用於攝取和準備腫瘤報告,以進行下遊分析和生成真實世界的證據。這個解決方案已經在Databricks的筆記本中準備好了,為了幫助您入門,我們在下麵提供了一個簡單的解決方案演練。
對於這個解,我們使用Mt腫瘤學筆記數據集。它主要以跨醫學專業的轉錄樣本醫療報告的形式提供資源,以及在構成醫療報告一部分的特定部分中遇到的常見醫療轉錄單詞/短語-如體檢或PE,係統或ROS審查,實驗室數據和精神狀態檢查等部分。
我們從MT oncology notes數據集中選擇了50份去識別的腫瘤學報告作為非結構化文本的來源,並將原始文本數據放入Delta Lake bronze層。出於演示目的,我們將樣本數量限製在50個,但是這個解決方案加速器中提供的框架可以擴展到容納數百萬個臨床記錄和文本文件。
我們的加速器的第一步是使用命名實體識別(NER)的各種模型提取變量。為此,我們首先設置NLP管道,其中包含注釋器例如documentAssembler, senencedetector和tokenizer,這些都是專門為醫療保健相關NER培訓的。在下麵的例子中,我們合並了bionlp_ner為臨床NER模型jsl_ner,這是一個預訓練的深度NER臨床術語模型。我們看到間皮瘤患者有咳嗽等症狀。
從文本中提取命名實體是人工智能輔助ETL的一個很好的例子:預訓練的深度學習(DL)模型使我們能夠將非結構化數據轉換為可用於下遊臨床分析的結構化格式。
一旦我們提取出症狀,我們就可以映射到icd - 10編碼,可用於編碼自動化和改進層次條件類別(HCC)醫療保險風險調整的編碼精度。我們可以進一步使用這些數據來分析治療模式,並分析症狀和腫瘤實體之間的關聯。
我們還可以生成一個圖表,以研究這些症狀存在、不存在或與其他人(例如,家庭成員)相關的斷言狀態。
繼續使用相同的注釋集,我們運行描述性和可視化統計,以顯示按斷言狀態分層的最常見腫瘤實體(如下例)。
接下來,我們可以看看治療,包括藥物頻率和持續時間,這構成了腫瘤方案的基礎。下麵是我們的解決方案筆記本中包含的提取藥物治療和持續時間信息的NLP模型的截圖。
然後,我們可以將症狀與治療相關聯,以及疾病狀態,如複發,與信心評分相關聯。
這些數據對於確保個體患者護理的質量和人群水平的研究至關重要,有助於確定現實世界中幹預措施的有效性和安全性。
使用Databricks Lakehouse平台,我們還可以輕Beplay体育安卓版本鬆創建一個關於病情、症狀和程序的數據庫,以及從非結構化筆記中提取的其他相關信息,然後可用於下遊分析、臨床決策支持和研究。
有了這個解決方案加速器,Databricks和John Snow實驗室打開了大規模提取腫瘤數據的大門,並具有生成真實世界證據所需的質量。
開始使用NLP從腫瘤學筆記中提取RWD
要使用此解決方案,請預覽筆記本電腦在線或者馬上開始下載並導入筆記本電腦進入你的Databricks帳戶。筆記本包括安裝相關的John Snow Labs NLP庫和許可密鑰的指導。