跳轉到主要內容
工程的博客

基因組測序的概括

2016年5月24日 工程的博客

分享這篇文章

這篇文章從黛博拉·西格爾從西北與丹尼基因組中心和華盛頓大學的李從磚在他們合作的基因組變異分析亞當和火花。

這是3個部分的係列的第1部分基因組變異分析使用k - means,亞當,和Apache火花:

1。基因組測序的概括
2。並行基因組變異分析
3所示。預測地理人口使用基因組變異和k - means

介紹

在過去的幾年裏,我們看到了一個基因組測序的快速減少成本和時間。潛在的理解基因組序列的變化範圍從幫助我們識別人傾向於常見疾病,解決罕見疾病,使臨床醫生能夠個性化個人處方和劑量。

在這個分三部分的博客,我們將提供一個基因組測序引物及其潛力。我們將關注基因組變異分析,基因組序列之間的差異,以及如何加速利用Apache火花和亞當(基因組處理一個可擴展的API和CLI)使用磚Community Edition。最後,我們將執行一個k - means聚類算法對基因組變異數據,建立一個模型,將預測個人的地理原產地種群基於這些變體。

這第一篇文章將提供一個在基因組測序引物。你也可以跳到第二個帖子並行基因組變異分析關注並行生物信息學分析或第三個帖子預測地理人口使用基因組變異和k - means

基因組測序

一個非常簡單的語言類比

想象一個長30億個字符組成的字符串,包含約25000個單詞穿插其他字符。甚至有些單詞造句子。更改、添加或刪除字符或字符組可能會改變單詞和句子的結構或意義。

startling_string

每個長字符串非常約10 ~ 30百萬這些差異可能發生的地方。這使事情變得有趣。當然,一切都更複雜。但這已經證明自己是一個有用的抽象的基因組數據。

基因組中,我們一直在構建知識單詞(基因)位於字符串的字符(基地),我們已經發現他們不同的地方(變異)。但我們不知道一切。我們還學習什麼是變異的影響,基因是如何彼此相關的,以及它們如何可能被表達在不同的形式和不同的數量在某些情況下。

biology_or_foreign_language

基因組測序的概括

基因組測序涉及使用化學和錄音技術讀取的字符代碼基因組(a、G、C、T)(按順序)。

distribute_me

數據是最初讀短字符串的形式。30 x的報道一個人的基因組(30 x是一個共同的目標),可能有大約6億短字符串的150個字符。在數據預處理過程中,字符串將被映射/對齊,通常一個參考序列。有許多不同的對齊方法。最終,這給每一個基礎定義的位置。變體對齊序列數據的分析發現代碼差異通過比較參考或其他序列對齊序列和賦值給一個人的基因型變異。

基因型

的一些檢測到變異將基於噪音,可以篩選和硬閾值等參數範圍,質量,特定於域的偏見。而不是硬過濾,一些分析師閾值擬合高斯混合模型的變體。進一步下遊,分析師量化和探索數據,試著識別非常重要的變體(少量輸入大小),並試圖預測其功能效應可能是什麼。

為什麼序列?

基因組序列(外顯子組序列,這是一個子集)有趣的是數據從數據科學的角度。我們可以用我們的知識序列來獲得暗示了如何以及為什麼代碼已經進化在很長一段時間。基因組測序研究的知識變得更加融入醫學。現在用於基因組測序非侵入性產前診斷。基因組測序很快就會使用臨床篩查和診斷測試擴大,正在進行的工作基因組醫學

在研究和發現方麵,大型隊列和人口規模的基因組測序研究發現變異方差或模式可能使人容易等常見疾病自閉症,心髒病,具體癌症。測序研究還表明變異的影響藥物代謝,使個性化臨床醫生的處方,並每個劑量。罕見的遺傳疾病,測序某些家庭成員經常導致找到因果變異

disease_allele

(圖片來源:弗雷德裏克·瑞尼,使用許可)

在過去的五年裏,測序實驗相關的基因變異,數以百計的罕見疾病:

“單獨一種罕見的疾病,可能會影響隻有少數家庭。集體,罕見疾病的影響僅在美國20到3000萬人。”

由於這些原因,有資源指向序列的閱讀和分析。英國的國民醫療服務項目的基因組序列100000家庭成員有2017年罕見疾病或癌症。在美國,國家人類基因組研究所(NHGRI)計劃以2.4億美元基金常見疾病研究和罕見疾病的研究以4000萬美元的價格在接下來的4年。也有其他種類的測序將受益於規模生物信息學和降低障礙數據科學應用到大量的序列數據,如RNA-seq、微生物基因組測序,測序和免疫係統和癌症概要文件。

sequencing_technology

測序技術已經加速增長的一個對象。從1998年到2001年,第一個人類基因組測序。它花費28億美元的2009美元。今天,基因組測序在3天1000美元左右(有關更多信息,請審查國立衛生研究院:國家人類基因組研究所>DNA測序成本)。約測序實驗的第一個25年期間,化學隻允許一段DNA測序,使它費力,緩慢,和昂貴的。下一代測序已經成為大規模並行,使測序發生在許多的DNA在相同的實驗。與分子索引,也可以將多個個體的DNA測序和數據可以在進行分離分析。並不是難以置信的推測,地球上大多數人選擇將他們的基因組測序在不遠的將來。關於下一代測序找到更多細節,請參閱成年:十年的下一代測序技術

這取決於應用程序和設置,當前測序儀器每天可以讀~ 600 gb。一個中等大型測序中心有幾個這樣的工具同時運行。稍後我們將看到在細節,生物信息學麵臨的挑戰之一是,下遊軟件分析變異先前為特定的優化,非擴展性的文件格式,而不是在數據模型本身。結果是,存在管道脆弱性和障礙可伸縮性。現在我們已經大規模並行測序,許多正在向平行的生物信息學分析。

公共數據

基因組序列數據通常是私人的。在2007年至2013年之間,1000人基因組計劃是一個最初的努力為公眾“人口水平排序”。的最後階段,它提供了一些序列覆蓋率數據從26人口2504人。我們使用方便的數據從這個項目作為資源來構建一個筆記本在磚Community Edition。

下一個步驟

在接下來的博客並行基因組變異分析我們將考慮並行的生物信息學分析。你也可以跳過預測地理人口使用基因組變異和k - means

歸因

我們想要給一個特定的電話下麵的資源幫助我們創建了筆記本

,我們想感謝額外貢獻和評論由安東尼·約瑟夫Xiangrui孟,Hossein Falaki,蒂姆·亨特。

免費試著磚
看到所有工程的博客的帖子
Baidu
map