| 5 | 1/1 | 返回列表 |
| 查看: 1597 | 回復(fù): 4 | |||
remax520鐵桿木蟲(chóng) (著名寫(xiě)手)
|
[交流]
宏基因組學(xué)研究—宏基因組Reads的組裝與分類/分箱 已有3人參與
|
|
1. 高通量測(cè)序是探索宏基因組學(xué)研究的一個(gè)工具 1.1與參考基因組進(jìn)行Mapping來(lái)重構(gòu)宏基因組Reads 許多微生物未被分離,數(shù)據(jù)庫(kù)中無(wú)相關(guān)信息; 利用宏基因組Reads與當(dāng)前已知數(shù)據(jù)庫(kù)進(jìn)行比較分析,可以對(duì)數(shù)據(jù)產(chǎn)生新的理解; 已測(cè)序的基因組是宏基因組Reads來(lái)源確定最可靠的基礎(chǔ),探索與先前基因組密切相關(guān)的生物體基因組結(jié)構(gòu); 從獨(dú)立測(cè)序轉(zhuǎn)變成從環(huán)境中直接測(cè)序感興趣的生物體的開(kāi)始; 已分離微生物但未測(cè)序的數(shù)量巨大,提交公開(kāi)的數(shù)據(jù)遠(yuǎn)小于需求; 參考基因組用于宏基因組分析會(huì)因所分析數(shù)據(jù)的規(guī)模大小而更加復(fù)雜; 需要新的算法來(lái)支持宏基因組數(shù)據(jù)與參考數(shù)據(jù)庫(kù)之間的比較分析; 盡管存在局限性,參考基因組已經(jīng)被有效的應(yīng)用于宏基因組數(shù)據(jù)分析; 宏基因組數(shù)據(jù)與參考基因組比對(duì)也可以提供對(duì)特定樣本中特定微生物適應(yīng)性提供新的見(jiàn)解。 1.2 TaxonomicClassification/Binning 基于Reads與已知序列Mapping的方法,沒(méi)辦法表征大量尚未分離和測(cè)序的微生物群體。 現(xiàn)有的比對(duì)算法只能發(fā)現(xiàn)近緣關(guān)系,且僅能用于分析數(shù)據(jù)庫(kù)中與基因組最密切相關(guān)的環(huán)境微生物。 在“taxonomicbinning”或“taxonomicclassification”的過(guò)程中使用機(jī)器學(xué)習(xí)技術(shù)可以推斷遠(yuǎn)緣關(guān)系。 這類工具試圖將每個(gè)Reads比對(duì)到分類學(xué)中一個(gè)近乎廣泛的分類群“bin”中(例如屬或者科)。 一款軟件:MEGAN,基于BlastSearch用于鑒別Reads跟數(shù)據(jù)庫(kù)中已知分類序列的匹配性。 其他方法:K-mer(短序列模式比對(duì)),利用機(jī)器學(xué)習(xí)技術(shù),對(duì)由已知基因組構(gòu)建的數(shù)據(jù)庫(kù)進(jìn)行匹配。 不同分類中DNA組分具有一定相似性,當(dāng)不能利用比對(duì)而進(jìn)行分類:基于“Self-OrganizingMaps”的工具,插值馬爾可夫模型—Phymmbl、樸素貝葉斯分類器—NBC和支持向量機(jī)—Phylopythia。 基于組合( Compositional )的方法,可能會(huì)受到非尋常基因組區(qū)域或橫向基因轉(zhuǎn)移的影響。這些局限性可以通過(guò)關(guān)注系統(tǒng)發(fā)育信息的特定基因來(lái)解決,即,它們的組成與有機(jī)體的進(jìn)化歷史相關(guān)。工具包括:Amphora、Metaphler、MetaPhlAn和mOTU。 1.3 de novo組裝構(gòu)建宏基因組短序列基因集 對(duì)宏基因組序列進(jìn)行廣泛分類不足以理解一個(gè)群落中微生物的功能。因基因組相關(guān),但在臨床功能上卻不同(例如:共生和致病大腸桿菌菌株)。 人類腸道菌群在功能上的相對(duì)穩(wěn)定,但微生物組成和種類差異較大。 從宏基因組數(shù)據(jù)中重建基因或基因組是向著更好地描述其功能,邁出重要的第一步,盡管有些分析可以從獨(dú)立的Reads開(kāi)始。 組裝任務(wù)相對(duì)艱巨,即使是獨(dú)立的基因組組裝同樣如此,組裝復(fù)雜的原因如下:1)低豐度的生物體由于缺乏覆蓋而無(wú)法有效地組裝;2)群落成員之間豐度/覆蓋范圍的巨大差異使基因組重復(fù)序列的鑒定變得困難;3)緊密相關(guān)的生物體之間的真正差異與測(cè)序錯(cuò)誤不容易區(qū)分。 根據(jù)宏基因組數(shù)據(jù)的特征開(kāi)發(fā)的工具包括:Meta-IDBA、Meta-Velvet和集成的分析流程,包括組裝和下游分析,例如基因查詢與分類—MOCAT和MetAMOS。 注意:對(duì)復(fù)雜微生物群體的重要組成部分進(jìn)行有效測(cè)序?qū)χ匦聵?gòu)建基因組的能力并不明顯。測(cè)序深度足夠才能確保數(shù)據(jù)可以被組裝,但成本昂貴,且生成了足夠數(shù)據(jù),也不易對(duì)數(shù)據(jù)進(jìn)行計(jì)算分析。在與宿主相關(guān)的群落中,人類DNA污染極大地降低了有效測(cè)序深度,因此,強(qiáng)調(diào)了制定富集樣品微生物策略的必要性。另外,高度復(fù)雜的群落,如土壤,分析仍然是一個(gè)重大挑戰(zhàn)。 盡管組裝的目的是重建整個(gè)基因組,但宏基因組組裝后輸出是高度碎片化的,需要額外的分析來(lái)確定屬于同一基因組的contig集合;诮M合的方法和覆蓋度信息可達(dá)成此目的,盡管更詳細(xì)的數(shù)據(jù)分析可能需要手動(dòng)檢查裝配結(jié)果。 由于組裝宏基因組數(shù)據(jù)缺乏連續(xù)性及其復(fù)雜性,迄今為止的研究大多集中于表征數(shù)據(jù)的基因含量,而不是重建個(gè)體微生物。這些分析揭示了微生物生態(tài)系統(tǒng)中隱藏著巨大的基因多樣性。 1.4 宏基因組基因集的聚類 宏基因組基因集的龐大規(guī)模,使得分析和解釋結(jié)果數(shù)據(jù)變得困難。解決途徑之一:使用多樣本的豐度基因(通過(guò)將宏基因組ReadsMap到基因集)來(lái)識(shí)別具有相關(guān)豐度的基因。具有高度相關(guān)豐度的基因可以推斷來(lái)自同一個(gè)染色體,從而可以重建虛擬基因簇。然而,由于環(huán)境成員之間的共生或互惠的相互作用,高相關(guān)性可以預(yù)期,同時(shí)環(huán)境成員這一因素可能導(dǎo)致來(lái)自不同生物體的基因錯(cuò)誤聚類。相反,可變基因,如前噬菌體區(qū)域,不會(huì)與含有它們的生物體聚集在一起,因此很難利用這些基因簇來(lái)研究微生物對(duì)環(huán)境的特殊適應(yīng)。 盡管存在局限性,但基因簇越來(lái)越多地被用于詮釋宏基因組數(shù)據(jù),并簡(jiǎn)化分析過(guò)程。 基因簇也可以作為一個(gè)框架,人們可以圍繞著它來(lái)重建宏基因組生物體,方法是通過(guò)迭代收斂宏基因組ReadsMap到簇內(nèi)基因,然后組裝得到的序列。 構(gòu)建基因組的質(zhì)量是關(guān)鍵問(wèn)題,需要嚴(yán)苛的標(biāo)準(zhǔn)。 1.5 宏基因組分析的優(yōu)勢(shì) 大多數(shù)宏基因組學(xué)研究主要集中在拓展獨(dú)立基因組開(kāi)發(fā)的分析方法。宏基因組數(shù)據(jù)的特殊性,以及宏基因組在大量樣本收集中的應(yīng)用,使得探索單一培養(yǎng)微生物無(wú)法研究的生物學(xué)問(wèn)題成為可能,其中包括試圖揭示群落成員之間的相互作用,探索橫向基因轉(zhuǎn)移,以及研究微生物生態(tài)系統(tǒng)的動(dòng)態(tài)行為。 2.鳥(niǎo)槍法宏基因組微生物分類分析的計(jì)算工具 2.1 鳥(niǎo)槍法宏基因組學(xué)分類學(xué)分析 Taxonomic Profiling:確定微生物群落中存在的有機(jī)體及其豐富度通常是揭示這些群落生物學(xué)的第一步。分類特征分析是一種計(jì)算操作,用于推斷環(huán)境微生物群落中,微生物分類情況并且以何種比例(相對(duì)豐度)填充環(huán)境樣品。 分類學(xué)分析方法的特點(diǎn):它們都在不同程度上依賴于(已測(cè)序微生物的)參考數(shù)據(jù)庫(kù)來(lái)為序列分配分類標(biāo)簽。宏基因組和參考數(shù)據(jù)庫(kù)的規(guī)模對(duì)分類分析提出了重大挑戰(zhàn)。 目前用于宏基因組分類分析方法可以根據(jù)他們利用參考基因組的直接程度進(jìn)行劃分:Assembly、Compositional、Mapping、Marker-basedapproaches。 2.2 基于組裝的微生物分類學(xué)分析(Assembly-Based) 為了獲取環(huán)境樣品中完整基因組的信息,需要復(fù)原每個(gè)微生物的全長(zhǎng)基因組序列,顯然這是理想情況。 但是利用宏基因組denovo(從頭)組裝技術(shù),宏基因組reads首先組裝成contigs,并且在某些情況下,有可能重建群落中優(yōu)勢(shì)成員的基因組。在組裝步驟后,通過(guò)與參考基因組的序列比對(duì),將分類或系統(tǒng)發(fā)育信息歸于每個(gè)contig。 軟件:MetAMOS、MOCAT、Ray Meta SOAP de novo直接應(yīng)用于宏基因組數(shù)據(jù)并獲得一定成功,但是,這些工具不適用于混合基因組的宏基因組項(xiàng)目。 為了處理宏基因組序列,包括由于樣本的量而引起的計(jì)算機(jī)內(nèi)存問(wèn)題,以及跨組織嵌合Contigs或Scanffolds,開(kāi)發(fā)了幾種擴(kuò)展。 MetaVelvet和Meta-IDBA是兩款基因基于deBruijn的宏基因組組裝工具,它對(duì)宏基因組樣品中高豐度的生物體友好,能形成有效高質(zhì)量的組裝。 contigs的分類地位通常是通過(guò)比對(duì)參考基因組的序列完成的,自動(dòng)化工具包括:MetaPhyler、PhyloPhlAn。 這些工具,除了分類學(xué)分析外,還提供了一個(gè)評(píng)估的contigs系統(tǒng)基因組,通過(guò)把contigs放在環(huán)境微生物系統(tǒng)發(fā)育樹(shù)中。特別是,PhyloPhlAn利用微生物系統(tǒng)發(fā)育中已測(cè)序成員的400個(gè)最保守的蛋白質(zhì)來(lái)推斷新基因組或宏基因組組裝的contig的系統(tǒng)發(fā)育位置。 基于組裝的方法特別適用于微生物組研究尤其是包含大量以前未觀測(cè)到(未測(cè)序)微生物。被部分參考序列覆蓋的宏基因數(shù)據(jù),基于組裝的優(yōu)勢(shì)在于,他們依賴于參考基因組的使用,而其他分析方法則會(huì)缺失群落中部分新的微生物信息。 目前,宏基因組組裝仍然是一個(gè)活躍的研究領(lǐng)域,因?yàn)榫o密相關(guān)的生物體、高度保守的DNA區(qū)域和水平基因轉(zhuǎn)移對(duì)獲得精確的組裝提出了重大挑戰(zhàn)。 2.3 組合的方法進(jìn)行宏基因組數(shù)據(jù)分箱(COMPOSITIONAL APPROACHES FOR METAGENOMIC BINNING) 組合的方法比較的是序列內(nèi)在特性,而不依賴于核苷酸或蛋白質(zhì)序列比對(duì)。內(nèi)在特性包括:GC含量的變化、密碼子使用的偏向性和不同長(zhǎng)度k-mers的分布。 在組合方法中,第一步是通過(guò)預(yù)處理參考基因組(所謂的訓(xùn)練步驟)建立特有內(nèi)在特性物種或?qū)俚慕y(tǒng)計(jì)模型。第二步是應(yīng)用這個(gè)模型來(lái)比較和分類宏基因組Reads。 實(shí)現(xiàn)方法: PhyloPythia/PhyloPythiaS采用基于k-mer統(tǒng)計(jì)的支持向量分類器。 不同的方法使用不用的機(jī)器學(xué)習(xí)工具,包括基于貝葉斯模型的Phymm和NBC,以及采用基于k-nearestneighbor策略的TACOA。 組合方法避免了計(jì)算上耗時(shí)的序列比對(duì),節(jié)省了計(jì)算運(yùn)行時(shí)間。與組裝方法類似,它具有很好的包容性,沒(méi)有參考序列比對(duì)的情況下,對(duì)reads進(jìn)行良好的分類。當(dāng)有參考序列的情況下,則需要以犧牲低分辨能力為代價(jià)。因此,組合分類分析通常僅限于屬級(jí)水平解析,此外,低分辨能力會(huì)因短序列進(jìn)一步加劇,基于組合的方法和基于Mapping的方法相結(jié)合,可以避免這樣的缺點(diǎn)。 2.4 基于Mapping的宏基因組序列分類 基于Mapping或比對(duì)的方法,均根據(jù)與參考基因組的序列相似性來(lái)分類宏基因組Reads。目前,基于DNAReads與基因組Mapping的工具更具先進(jìn)性。與類似于BLAST比對(duì)的工具相比速度上快幾個(gè)數(shù)量級(jí)。 它們利用緊湊的指數(shù)(例如基于Burrows-Wheeler變換的指數(shù))來(lái)有效地識(shí)別參考基因組有效序列子集并進(jìn)行完全比對(duì)。雖然BLASTN作為Mapping的底層引擎,更新升級(jí)依舊可以形成快速算法(例如:Bowtie2,SOAP2,BWA)。 2.5 基于Marker的分類分析 參考基因組中可用于分類特征分析的大部分基因組信息是非信息性的(例如,跨多個(gè)分類群的保守序列),有時(shí)甚至是誤導(dǎo)性的(例如,水平轉(zhuǎn)移的基因);贛arker的方法對(duì)參考基因組進(jìn)行預(yù)處理,以去除冗余和非歧視性的序列,并專注于最具分類信息的標(biāo)記。因此,這減少了參考基因組數(shù)據(jù)庫(kù)的大小,降低了計(jì)算要求,因?yàn)楹昊蚪M樣本僅與每個(gè)基因組的一小部分(標(biāo)記集)進(jìn)行比較。到目前為止,已有兩類標(biāo)記被用于分類鑒定:通用標(biāo)記和特定分支的標(biāo)記。 通用標(biāo)記是指:(i)存在于所有微生物中;(ii)具有可變區(qū)域的序列,可作為分類或系統(tǒng)發(fā)育標(biāo)記加以利用。 通用標(biāo)記利用了少數(shù)普遍保守的基因組序列,這些序列預(yù)計(jì)存在于尚未測(cè)序的微生物中,但不能利用構(gòu)成微生物基因組大多數(shù)的非普遍存在的基因。 微生物基因組中非普遍存在的區(qū)域可以被著重放在每個(gè)分類分支(例如,每個(gè)物種)唯一存在的分支特異性標(biāo)記基因上。這些基因被定義為給定分支內(nèi)的核心基因,與分支外的任何其他基因沒(méi)有序列相似性。因此,它們是每個(gè)微生物分支的獨(dú)特指紋,只需檢查它們?cè)诤昊蚪M中的存在與否,就可以高精度地鑒別出密切相關(guān)的微生物。 軟件:MetaPhlAn |
鐵桿木蟲(chóng) (知名作家)
鐵桿木蟲(chóng) (著名寫(xiě)手)
銅蟲(chóng) (正式寫(xiě)手)
| 5 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|