跳轉到主要內容
行業的頭

建立一個生命科學知識圖譜與數據湖

分享這篇文章

這是一個協作的磚和wbeplay娱乐iosisecube.ai。我們感謝毗瑟奴Vettrivel、創始人和亞曆克斯·托馬斯,主要數據科學家,因為他們的貢獻。

製藥公司發現、開發和商業化突破性的藥物的一些世界上最嚴重的疾病。數據驅動的方法研發可以增加藥物發現的成功率以及安全管理的臨床試驗。然而,這一創新的主要障礙是不能利用所有可用的科學信息的速度比新數據的速度。

研發數據通常來源於數百萬數據點和成千上萬的來源。這包括高通量基因組學和蛋白質組學等技術,日益增長的電子健康記錄的使用,和其他數字的數據來源。可用性的數據驅動的顯著增加發表的研究在生物醫學科學的所有領域。製藥組織,這些出版物的係統分析,也稱為薈萃分析,在循證醫學中起著關鍵作用,幫助加速研發、臨床試驗設計優化,使小說藥物市場更快。

薈萃分析可能導致一個更精確的估計的影響疾病治療或危險因素。它還提供了一個框架,綜合和定量評估的複雜,有時相互矛盾的、身體的研究。除了薈萃分析,將先進的分析方法應用到大量的文學小說會導致知識發現。例如,使用一個集成預測方法知識庫可以提供幫助識別信息的遺傳變異可能是錯過的常用方法。

賭注很高如果醫藥組織未能識別和集成現有研究的薈萃分析。這會導致誤導性的結論,阻礙研發進展在監管的研究環境中,推遲上市時間。遺留數據平台的依賴不規模和數據倉庫往往是促成因素Beplay体育安卓版本。

組織可以提取有意義的見解,可能導致新型藥物旨在幫助人們健康生活的規模通過消除這些障礙。在這篇文章裏我們討論這些挑戰的背景下,知識發現在生物醫學研究和討論如何統一的數據和分析方法可以解決這些挑戰。

挑戰# 1(連接):創建語義從雜亂的數據集

生物醫學研究和臨床試驗可能是一些經典的例子在生命科學數據量的爆炸性增長。2004 - 2013年期間,超過730萬的期刊文章被添加到PubMed,比2003年增長了48.9%

這是其中一個主要原因Pubmed采取了受控詞彙表像網格

這是其中一個主要原因Pubmed采取了受控詞彙表像網格。在MEDLINE / PubMed,每個期刊文章與大約10 - 15主題詞索引,副標題,概念和補充記錄,其中一些被指定為主要標有星號,說明本文的主要話題。

ClinicalTrials.gov,每個實驗都有關鍵詞,描述了試驗。ClinicalTrials.gov團隊分配每一個審判兩套網格。一組條件的試驗研究,另一個是組的幹預試驗中使用。

這允許研究人員使用一種常見的語言不同數據源之間共享和語義理解。不幸的是,這種語義層往往是忽略了在現代數據湖泊和通常是馬後炮。

知識圖表揭示生物醫學實體之間的關係,以促進探討出新的事實與現有的。
知識圖表揭示生物醫學實體之間的關係,以促進探討出新的事實與現有的。

挑戰# 2(豐富):增加和解鎖隱藏知識的數據連接。

集成生物醫學數據連接的方式有助於快速檢索隱藏的見解。這些語義網絡也有助於減少錯誤並提高的機會發現符合成本效益的方式。發現隱藏的醫療數據之間的相關性,分析使用不同的技術像鏈接預測。通過可視化地探索這些醫療機構之間的相關性,科學家可以做出及時的決定在敏感的治療方案。

生物醫學數據的提供一個連接視圖可以導致新協會的發現和識別新趨勢,單從個人數據集不會明顯。
生物醫學數據的提供一個連接視圖可以導致新協會的發現和識別新趨勢,單從個人數據集不會明顯。

此外,組織需要能夠治理模型時,將人工智能(AI)和機器學習(ML)臨床設置。不幸的是,大多數組織有不同的平台與數據科學工作流數據倉庫。Beplay体育安卓版本這就產生了嚴峻的挑戰,當試圖AI-powered應用程序中建立信任和再現性。在這裏有一個簡單的和透明的表示數據有幫助。

數據倉庫和雜亂的係統可以很難保證模型是安全的,在現實世界的環境倫理和有效。
數據倉庫和雜亂的係統可以很難保證模型是安全的,在現實世界的環境倫理和有效。

挑戰# 3(發現):訪問連通圖構建見解和應用程序。

集中數據可以促進新發現的不同實體之間的關係,可用於構建功能強大的網絡分析和預測模型。
集中數據可以促進新發現的不同實體之間的關係,可用於構建功能強大的網絡分析和預測模型。

一旦數據集中在知識圖,我們應該能夠建立強大的網絡分析和預測模型直接在圖上。

更重要的是,我們需要能夠讓所有的數據訪問的大多數組織中的人。大多數人在任何組織沒有數據從業者。這意味著他們不精通SQL和SPARQL或其他數據查詢語言。有鑒於此,要提供查詢和分析功能使用開放標準SPARQL。但更重要的是,允許這些見解可以通過終端用戶訪問不是數據頭腦簡單而直觀的方式。

這通常是一個迭代的過程,涉及到用戶從一個簡單的查詢和建築逐步使它更複雜更適合他們的具體需求。同時,用戶可能想結合自然語言關鍵字以及語義實體查詢知識圖在強大的方式。

需要支持這樣複雜的查詢工具,迭代查詢流程能夠讓領域專家知識增量查詢圖來分析和推導的見解。然而,今天許多不這樣做。

使用三角洲湖圖建立一個知識

為了解決上述挑戰對於衛生保健和生命科學組織,知識圖表可以是一個很好的解決方案來克服它們。然而,有各種各樣的新障礙需要克服,真正實現一個企業級知識處理不斷變化的數據和圖形數據版本控製問題,快照,再現性,和治理,同時仍然可伸縮的、靈活、性能作為主要數據lakehouse。

這就是為什麼我們堅信答案不是建立另一個孤立的知識圖形數據庫,而是建立在您的數據。這不僅是更具成本效益和更少的開銷數據團隊的構建、維護和管理,同時也可以更好地為你的最終用戶,因為它會避免典型問題等多個數據源數據延遲和同步問題。

衛生保健和生命科學的Lakehouse使醫療組織召集他們所有的數據結構,半結構化和unstructured-into單一、高性能科學傳統的分析和數據平台。Beplay体育安卓版本
衛生保健和生命科學的Lakehouse使醫療組織召集他們所有的數據結構,半結構化和unstructured-into單一、高性能科學傳統的分析和數據平台。Beplay体育安卓版本

擔任該基金會是磚Lakehouse平台,現代數據體係結構相結合的最佳元素數據倉庫與低成本、靈活性、和規模的雲Beplay体育安卓版本數據湖。這個簡化的、可伸縮的架構允許醫療組織召集所有的數據結構,半結構化和unstructured-into單一、高性能科學傳統的分析和數據平台。Beplay体育安卓版本

具體地說,知識圖建立在三角洲湖提供以下三個主要好處衛生保健和生命科學組織:

  • 連接:組織所有的研究和開發數據使用一個特定於域的靈活的本體。的核心Wisecube知識圖三角洲湖數據管理層提供湖雲數據的可靠性和性能。與傳統的數據倉庫,三角洲湖支持所有類型的結構化和非結構化數據。攝取數據更加容易,Wisecube建造了連接器等R&D-specific數據集臨床試驗,網等等。此外,Wisecube提供了內置的優化圖查詢和AI顯著加速基於分析。與這些能力,團隊可以土地所有的原始數據在一個地方然後牧師來創建一個所有生物醫學數據的整體視圖。
  • 豐富:Wisecube知識圖提供了一個統一的架構結構化和非結構化數據。它也有模塊允許您通過先進的網絡分析合成的新見解鏈接預測。此外,通過運行知識圖完全磚,組織可以根據負載自動擴展。
  • 發現:嫁給這樣的開放標準SPARQL與磚的能力,組織可以支持廣泛的高度有效的用例,從藥物發現到慢性疾病管理計劃。這使得Wisecube知識圖的理想數據存儲管理衛生保健和生命科學數據。

開始構建您的衛生保健和生命科學知識圖使用Graphster三角洲湖

Graphster是一個開源工具用於創建、查詢和圖形可視化知識等各種用例的目標識別和生物標誌物的發現。
Graphster是一個開源工具用於創建、查詢和圖形可視化知識等各種用例的目標識別和生物標誌物的發現。

我們引入一個新的Apache Spark-based開源庫:Graphster,特地為可伸縮的、端到端的知識圖施工,分析,從非結構化和結構化數據和查詢。graphster庫文件的集合,提取提到填充原始知識和關係圖,然後用事實與Wikidata豐富知識圖。一旦建立知識圖,graphster還可以幫助本地使用SPARQL查詢圖的知識。

我們也很高興提供建立一個知識圖使用的臨床試驗作為解決方案加速器幫助生命科學組織開始建立一個知識圖的具體需求。我們的解決方案加速器包括樣本數據,預先構建的代碼,一步一步的指示在磚筆記本。它向您展示了如何攝取的臨床試驗數據,給它通過結構化數據使用語義網本體,然後分析大規模使用SPARQL查詢。首先,查看加速器在這裏

免費試著磚

相關的帖子

看到所有行業的帖子
Baidu
map