深度學習在醫學圖像人口規模:按需網絡研討會和FAQ現在可用!

通過邁克爾·奧爾特加

2019年8月13日, 在公司博客上

分享這篇文章

6月26日,我們舉辦了一個研討會深度學習在人口規模的醫學圖像與數據科學與工程團隊的成員——從人類長壽公司(HLI),一個領導者在醫學成像和基因組學。

在研討會期間,HLI分享他們如何使用MRI圖像,全基因組測序數據,和其他臨床數據集健康核,一個個性化的健康檢測和確定平台的風險pre-symptomatic癡呆等疾病。Beplay体育安卓版本這個平台的核心是使用深度學Beplay体育安卓版本習管道在大群MRI圖像識別生物標誌物的綜合風險報告,讓人們更好地管理自己的生命周期,因為它與退化性疾病有關。

AI成功的主要障礙

HLI麵臨的主要挑戰之一是創建一個敏捷的機器學習環境。他們的團隊非常雜亂的使用一係列孤立的數據和機器學習工具。這使得他們很難創建工作流協作,高效和可再生的——生產率放緩和他們的創新能力。beplay娱乐ios

他們麵臨的另一個挑戰是在管理他們的數據聚合和訓練數據的驗證。他們不僅努力過程tb的數據,通過各種雜亂的係統,但是他們有嚴格的HIPAA法規要求保護病人健康信息。

他們如何權力杠杆磚綜合健康屏幕嗎

討論關鍵挑戰後,HLI分享他們如何使用磚和開源技術像Apache的火花^TM、Tensorflow MLflow構建一個綜合影像數據庫14000 +消除識別信息的個人和力量敏捷開發環境模型,訓練,和部署。

磚是核心數據架構。數據存儲在S3中,然後通過一個SQS消息傳遞係統輸入數據磚,ETL批處理作業。成像數據然後消除識別信息和準備下遊分析。

HLI團隊分享他們如何發展核心邏輯在交互式集群以及磚磚IDE集成使他們輕鬆地調試代碼在他們的管道。通過使用工作區CLI,他們可以很容易地複製/粘貼代碼從他們的IDE成磚筆記本快速和簡單的故障診斷和調試,然後輕鬆導出代碼回他們的IDE。

接下來,他們展示了他們如何使用數據來訓練機器學習模型預測健康得分。他們的機器學習的關鍵工作流程是確保高層之間的協作研究,數據科學與工程和模型再現性。MLflow開源框架管理端到端毫升生命周期,是這個過程的核心。

通過使用MLflow,數據科學團隊HLI能夠記錄和版本等實驗結果和參數——讓他們輕鬆地分享和培訓模式,並允許團隊成員然後重用代碼和模型。MLflow另一個很棒的特性是它的語言和環境無關,允許數據科學家使用編程環境的選擇和執行自己的代碼對遠程數據磚集群。

最後,HLI團隊詳細的一些結果和影響磚有能力履行深度學習項目。具體地說,他們意識到以下好處:

改善跨團隊合作在一個統一的平台上Beplay体育安卓版本
加速時間從想法到產品
加速生物標誌物識別,減少了時間評估模型
改善工作流程統一的生物信息學和數據科學推動生產力
更快的ETL管道和ETL開發時間短
簡化模型開發——MLflow和預先包裝好的庫使團隊構建深度學習模型更快

現場演示和筆記本:深度學習轉移識別

HLI的演講後,我們舉辦了一個現場演示的深度學習轉移模型識別磚。現在這些筆記本電腦供你上運行自己的:

筆記本1:整個圖像數據集——首先,這個筆記本運行階段GigaDB映像存儲庫的數據到雲存儲。
筆記本2:生成腫瘤/正常圖像補丁——下一個筆記本處理張幻燈片圖像創建補丁文件,用於訓練神經網絡檢測轉移。
筆記本3:使用深度學習來檢測Mestatic網站——最後筆記本訓練神經網絡基於Xception架構檢測轉移,和日誌MLFlow模型中的模型店。

網絡研討會問答

在研討會結束後我們舉行了問答。下麵是問題和答案:

1)被存儲在一個單獨的數據存儲的元數據的etl圖像或隻是被存儲在另一個桶嗎?。你用的數據存儲和格式?

DICOM圖像的元數據仍在S3是DICOM的一部分,但我們也存儲元數據的一個子集信息在我們的數據目錄查詢圖像需要研究。提供更快的性能,查詢元數據的標準化的方式,為我們提供了一個額外的級別的控製誰有權訪問的數據。研究人員將使用REST API來查詢這些圖像的數據目錄。

有趣的知道也許是我們不存儲每個DICOM文件的標簽在我們的數據目錄。而我們將它存儲在一係列層麵上,我們的研究人員所關心的圖像係列,而不是一個單獨的圖像。

我們的數據存儲後端是一個非關係數據庫優化大數據查詢。

2)圖書館/算法被用來de-identify DICOM圖像嗎?

我們主要使用pydicom。然而,我們也使用GDCM做一些減壓的pydicom不能處理。

在算法方麵,我們使用指數退下重試邏輯,flatMap轉換分發工作負載在我們的工作進程。

3)你能分享任何數字GPU設置和典型的訓練時間嗎?

我們將培訓分布在四個NVIDIA Tesla V100使用p3.8x gpu。大的實例。自從3 d數據需要更多的內存,我們使用小批量大小和分裂模型在gpu。平均培訓花了至少9個小時,患者在早期驗證骰子被用作停止標準。提取定量成像生物標誌物與訓練模型參考15 k +個人的人口,我們使用100 c4.2x.large類型的節點。

下一個步驟

下載我們的深度學習轉移檢測筆記本電腦:

看網絡研討會回放:深度學習在人口規模的醫學圖像

免費試著磚

開始

看到所有公司博客上的帖子