用NLP從真實臨床數據中提取腫瘤學見解

通過阿米爾Kermany，莫裏茨斯特勒，大衛Talby而且邁克爾Sanky

2021年9月22日在工程的博客

分享這篇文章

預覽本博客中引用的解決方案加速器筆記本在線或者馬上開始下載並將筆記本導入你的Databricks帳戶。

癌症是主要死因和疾病，這個數字令人震驚200萬新的癌症病例預計將於明年在美國確診。癌症也占美國醫療保健總支出的很大一部分，估計到2020年將超過2000億美元。因此，生物製藥行業主要專注於腫瘤藥物的開發。近40種新的抗癌藥物獲得批準僅在2019年和2020年，以及超過1300種新藥疫苗也在臨床開發中。

衡量腫瘤幹預措施的療效對於使患者與正確的幹預措施相匹配至關重要。腫瘤學數據和相關的現實證據有可能為臨床研究、試驗設計、監管決策、安全評估、治療途徑等提供信息。不幸的是，鑒於腫瘤護理的高度專業化性質，疾病標準和終點通常無法以結構化格式提供，並且仍然鎖定在數據筒倉中，這使得它們難以彙總和分析。

在腫瘤學中，病理報告(通常以PDF格式捕獲並存儲在EMR係統中)包含關鍵信息，如腫瘤大小、分級、分期和組織學。一旦使用自然語言處理(NLP)係統提取這些變量，就可以用於定義疾病隊列，評估疾病嚴重程度，並為疾病進展創建基線，然後可以應用於上述用例，從臨床試驗匹配到治療途徑。但是從非結構化的臨床文本數據中提取這些信息通常是數據團隊的一個巨大痛點。

醫療NLP領域的領導者John Snow Labs和Databricks正積極應對這些挑戰，並與醫療生態係統中的許多客戶合作，將非結構化腫瘤數據轉化為可操作的證據。beplay体育app下载地址

與Databricks和John Snow實驗室進行大規模臨床自然語言處理

前進的道路始於Databricks湖屋平台Beplay体育安卓版本這是一個現代數據平台，它將數據倉Beplay体育安卓版本庫的最佳元素(如數據管理和性能)與雲數據湖的低成本、靈活性和規模相結合。這個新的,簡化的架構使衛生係統得以實現將所有數據結構化(如EHR數據庫中的診斷和程序代碼)、半結構化(如HL7、FHIR信息)和非結構化(如自由文本筆記和圖像)統一為一個傳統分析和數據科學的單一高性能平台。Beplay体育安卓版本

Databricks Lakehouse平台的核心是Beplay体育安卓版本三角洲湖這是一個開源存儲層，為數據湖帶來了性能(通過Apache Spark™)、可靠性和治理。醫療保健組織可以將其所有數據(包括原始供應商說明、放射學報告和PDF病理報告)輸入Delta Lake。在應用任何數據轉換之前，這將保留真實的原始來源。相比之下，在傳統數據倉庫中，轉換發生在加載數據之前，這意味著從非結構化文本中提取的所有結構化變量都與本機文本斷開了連接。

在此基礎上，約翰·斯諾實驗室用於醫療保健的Spark NLP,最廣泛使用的NLP庫在醫療保健和生命科學行業。Spark NLP for Healthcare經過優化，可在Databricks上運行，以最先進的精度無縫提取、分類和構建臨床和生物醫學文本數據。它是唯一的本地分布式開源文本處理庫，適用於Python、Java和Scala，由於每個Spark NLP管道都是一個Spark ML管道，因此特別適合構建統一的NLP和機器學習管道。Spark NLP提供Python、Java和Scala庫傳統NLP庫的全部功能(如spaCy, nltk, Stanford CoreNLP和Open NLP)，並添加了額外的功能，如拚寫檢查，情緒分析和文檔分類。你可以在我們之前的博客中了解更多關於Databricks和John Snow實驗室的聯合解決方案，自然語言處理在大規模衛生文本中的應用．

實際的腫瘤學數據抽象

為了展示Databricks和John Snow實驗室的強大功能，我們創建了一個解決方案加速器用於從腫瘤學記錄中提取真實數據。該解決方案加速器包含樣本數據、預構建代碼和逐步說明，用於攝取和準備腫瘤報告，以進行下遊分析和生成真實世界的證據。這個解決方案已經在Databricks的筆記本中準備好了，為了幫助您入門，我們在下麵提供了一個簡單的解決方案演練。

對於這個解，我們使用Mt腫瘤學筆記數據集。它主要以跨醫學專業的轉錄樣本醫療報告的形式提供資源，以及在構成醫療報告一部分的特定部分中遇到的常見醫療轉錄單詞/短語-如體檢或PE，係統或ROS審查，實驗室數據和精神狀態檢查等部分。

我們從MT oncology notes數據集中選擇了50份去識別的腫瘤學報告作為非結構化文本的來源，並將原始文本數據放入Delta Lake bronze層。出於演示目的，我們將樣本數量限製在50個，但是這個解決方案加速器中提供的框架可以擴展到容納數百萬個臨床記錄和文本文件。

我們的加速器的第一步是使用命名實體識別(NER)的各種模型提取變量。為此，我們首先設置NLP管道，其中包含注釋器例如documentAssembler, senencedetector和tokenizer，這些都是專門為醫療保健相關NER培訓的。在下麵的例子中，我們合並了bionlp_ner為臨床NER模型jsl_ner，這是一個預訓練的深度NER臨床術語模型。我們看到間皮瘤患者有咳嗽等症狀。