| 5 | 1/1 | 返回列表 |
| 查看: 1601 | 回復(fù): 4 | |||
| 當(dāng)前只顯示滿足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | |||
remax520鐵桿木蟲 (著名寫手)
|
[交流]
宏基因組學(xué)研究—宏基因組Reads的組裝與分類/分箱 已有3人參與
|
||
|
1. 高通量測序是探索宏基因組學(xué)研究的一個工具 1.1與參考基因組進(jìn)行Mapping來重構(gòu)宏基因組Reads 許多微生物未被分離,數(shù)據(jù)庫中無相關(guān)信息; 利用宏基因組Reads與當(dāng)前已知數(shù)據(jù)庫進(jìn)行比較分析,可以對數(shù)據(jù)產(chǎn)生新的理解; 已測序的基因組是宏基因組Reads來源確定最可靠的基礎(chǔ),探索與先前基因組密切相關(guān)的生物體基因組結(jié)構(gòu); 從獨(dú)立測序轉(zhuǎn)變成從環(huán)境中直接測序感興趣的生物體的開始; 已分離微生物但未測序的數(shù)量巨大,提交公開的數(shù)據(jù)遠(yuǎn)小于需求; 參考基因組用于宏基因組分析會因所分析數(shù)據(jù)的規(guī)模大小而更加復(fù)雜; 需要新的算法來支持宏基因組數(shù)據(jù)與參考數(shù)據(jù)庫之間的比較分析; 盡管存在局限性,參考基因組已經(jīng)被有效的應(yīng)用于宏基因組數(shù)據(jù)分析; 宏基因組數(shù)據(jù)與參考基因組比對也可以提供對特定樣本中特定微生物適應(yīng)性提供新的見解。 1.2 TaxonomicClassification/Binning 基于Reads與已知序列Mapping的方法,沒辦法表征大量尚未分離和測序的微生物群體。 現(xiàn)有的比對算法只能發(fā)現(xiàn)近緣關(guān)系,且僅能用于分析數(shù)據(jù)庫中與基因組最密切相關(guān)的環(huán)境微生物。 在“taxonomicbinning”或“taxonomicclassification”的過程中使用機(jī)器學(xué)習(xí)技術(shù)可以推斷遠(yuǎn)緣關(guān)系。 這類工具試圖將每個Reads比對到分類學(xué)中一個近乎廣泛的分類群“bin”中(例如屬或者科)。 一款軟件:MEGAN,基于BlastSearch用于鑒別Reads跟數(shù)據(jù)庫中已知分類序列的匹配性。 其他方法:K-mer(短序列模式比對),利用機(jī)器學(xué)習(xí)技術(shù),對由已知基因組構(gòu)建的數(shù)據(jù)庫進(jìn)行匹配。 不同分類中DNA組分具有一定相似性,當(dāng)不能利用比對而進(jìn)行分類:基于“Self-OrganizingMaps”的工具,插值馬爾可夫模型—Phymmbl、樸素貝葉斯分類器—NBC和支持向量機(jī)—Phylopythia。 基于組合( Compositional )的方法,可能會受到非尋;蚪M區(qū)域或橫向基因轉(zhuǎn)移的影響。這些局限性可以通過關(guān)注系統(tǒng)發(fā)育信息的特定基因來解決,即,它們的組成與有機(jī)體的進(jìn)化歷史相關(guān)。工具包括:Amphora、Metaphler、MetaPhlAn和mOTU。 1.3 de novo組裝構(gòu)建宏基因組短序列基因集 對宏基因組序列進(jìn)行廣泛分類不足以理解一個群落中微生物的功能。因基因組相關(guān),但在臨床功能上卻不同(例如:共生和致病大腸桿菌菌株)。 人類腸道菌群在功能上的相對穩(wěn)定,但微生物組成和種類差異較大。 從宏基因組數(shù)據(jù)中重建基因或基因組是向著更好地描述其功能,邁出重要的第一步,盡管有些分析可以從獨(dú)立的Reads開始。 組裝任務(wù)相對艱巨,即使是獨(dú)立的基因組組裝同樣如此,組裝復(fù)雜的原因如下:1)低豐度的生物體由于缺乏覆蓋而無法有效地組裝;2)群落成員之間豐度/覆蓋范圍的巨大差異使基因組重復(fù)序列的鑒定變得困難;3)緊密相關(guān)的生物體之間的真正差異與測序錯誤不容易區(qū)分。 根據(jù)宏基因組數(shù)據(jù)的特征開發(fā)的工具包括:Meta-IDBA、Meta-Velvet和集成的分析流程,包括組裝和下游分析,例如基因查詢與分類—MOCAT和MetAMOS。 注意:對復(fù)雜微生物群體的重要組成部分進(jìn)行有效測序?qū)χ匦聵?gòu)建基因組的能力并不明顯。測序深度足夠才能確保數(shù)據(jù)可以被組裝,但成本昂貴,且生成了足夠數(shù)據(jù),也不易對數(shù)據(jù)進(jìn)行計(jì)算分析。在與宿主相關(guān)的群落中,人類DNA污染極大地降低了有效測序深度,因此,強(qiáng)調(diào)了制定富集樣品微生物策略的必要性。另外,高度復(fù)雜的群落,如土壤,分析仍然是一個重大挑戰(zhàn)。 盡管組裝的目的是重建整個基因組,但宏基因組組裝后輸出是高度碎片化的,需要額外的分析來確定屬于同一基因組的contig集合;诮M合的方法和覆蓋度信息可達(dá)成此目的,盡管更詳細(xì)的數(shù)據(jù)分析可能需要手動檢查裝配結(jié)果。 由于組裝宏基因組數(shù)據(jù)缺乏連續(xù)性及其復(fù)雜性,迄今為止的研究大多集中于表征數(shù)據(jù)的基因含量,而不是重建個體微生物。這些分析揭示了微生物生態(tài)系統(tǒng)中隱藏著巨大的基因多樣性。 1.4 宏基因組基因集的聚類 宏基因組基因集的龐大規(guī)模,使得分析和解釋結(jié)果數(shù)據(jù)變得困難。解決途徑之一:使用多樣本的豐度基因(通過將宏基因組ReadsMap到基因集)來識別具有相關(guān)豐度的基因。具有高度相關(guān)豐度的基因可以推斷來自同一個染色體,從而可以重建虛擬基因簇。然而,由于環(huán)境成員之間的共生或互惠的相互作用,高相關(guān)性可以預(yù)期,同時環(huán)境成員這一因素可能導(dǎo)致來自不同生物體的基因錯誤聚類。相反,可變基因,如前噬菌體區(qū)域,不會與含有它們的生物體聚集在一起,因此很難利用這些基因簇來研究微生物對環(huán)境的特殊適應(yīng)。 盡管存在局限性,但基因簇越來越多地被用于詮釋宏基因組數(shù)據(jù),并簡化分析過程。 基因簇也可以作為一個框架,人們可以圍繞著它來重建宏基因組生物體,方法是通過迭代收斂宏基因組ReadsMap到簇內(nèi)基因,然后組裝得到的序列。 構(gòu)建基因組的質(zhì)量是關(guān)鍵問題,需要嚴(yán)苛的標(biāo)準(zhǔn)。 1.5 宏基因組分析的優(yōu)勢 大多數(shù)宏基因組學(xué)研究主要集中在拓展獨(dú)立基因組開發(fā)的分析方法。宏基因組數(shù)據(jù)的特殊性,以及宏基因組在大量樣本收集中的應(yīng)用,使得探索單一培養(yǎng)微生物無法研究的生物學(xué)問題成為可能,其中包括試圖揭示群落成員之間的相互作用,探索橫向基因轉(zhuǎn)移,以及研究微生物生態(tài)系統(tǒng)的動態(tài)行為。 2.鳥槍法宏基因組微生物分類分析的計(jì)算工具 2.1 鳥槍法宏基因組學(xué)分類學(xué)分析 Taxonomic Profiling:確定微生物群落中存在的有機(jī)體及其豐富度通常是揭示這些群落生物學(xué)的第一步。分類特征分析是一種計(jì)算操作,用于推斷環(huán)境微生物群落中,微生物分類情況并且以何種比例(相對豐度)填充環(huán)境樣品。 分類學(xué)分析方法的特點(diǎn):它們都在不同程度上依賴于(已測序微生物的)參考數(shù)據(jù)庫來為序列分配分類標(biāo)簽。宏基因組和參考數(shù)據(jù)庫的規(guī)模對分類分析提出了重大挑戰(zhàn)。 目前用于宏基因組分類分析方法可以根據(jù)他們利用參考基因組的直接程度進(jìn)行劃分:Assembly、Compositional、Mapping、Marker-basedapproaches。 2.2 基于組裝的微生物分類學(xué)分析(Assembly-Based) 為了獲取環(huán)境樣品中完整基因組的信息,需要復(fù)原每個微生物的全長基因組序列,顯然這是理想情況。 但是利用宏基因組denovo(從頭)組裝技術(shù),宏基因組reads首先組裝成contigs,并且在某些情況下,有可能重建群落中優(yōu)勢成員的基因組。在組裝步驟后,通過與參考基因組的序列比對,將分類或系統(tǒng)發(fā)育信息歸于每個contig。 軟件:MetAMOS、MOCAT、Ray Meta SOAP de novo直接應(yīng)用于宏基因組數(shù)據(jù)并獲得一定成功,但是,這些工具不適用于混合基因組的宏基因組項(xiàng)目。 為了處理宏基因組序列,包括由于樣本的量而引起的計(jì)算機(jī)內(nèi)存問題,以及跨組織嵌合Contigs或Scanffolds,開發(fā)了幾種擴(kuò)展。 MetaVelvet和Meta-IDBA是兩款基因基于deBruijn的宏基因組組裝工具,它對宏基因組樣品中高豐度的生物體友好,能形成有效高質(zhì)量的組裝。 contigs的分類地位通常是通過比對參考基因組的序列完成的,自動化工具包括:MetaPhyler、PhyloPhlAn。 這些工具,除了分類學(xué)分析外,還提供了一個評估的contigs系統(tǒng)基因組,通過把contigs放在環(huán)境微生物系統(tǒng)發(fā)育樹中。特別是,PhyloPhlAn利用微生物系統(tǒng)發(fā)育中已測序成員的400個最保守的蛋白質(zhì)來推斷新基因組或宏基因組組裝的contig的系統(tǒng)發(fā)育位置。 基于組裝的方法特別適用于微生物組研究尤其是包含大量以前未觀測到(未測序)微生物。被部分參考序列覆蓋的宏基因數(shù)據(jù),基于組裝的優(yōu)勢在于,他們依賴于參考基因組的使用,而其他分析方法則會缺失群落中部分新的微生物信息。 目前,宏基因組組裝仍然是一個活躍的研究領(lǐng)域,因?yàn)榫o密相關(guān)的生物體、高度保守的DNA區(qū)域和水平基因轉(zhuǎn)移對獲得精確的組裝提出了重大挑戰(zhàn)。 2.3 組合的方法進(jìn)行宏基因組數(shù)據(jù)分箱(COMPOSITIONAL APPROACHES FOR METAGENOMIC BINNING) 組合的方法比較的是序列內(nèi)在特性,而不依賴于核苷酸或蛋白質(zhì)序列比對。內(nèi)在特性包括:GC含量的變化、密碼子使用的偏向性和不同長度k-mers的分布。 在組合方法中,第一步是通過預(yù)處理參考基因組(所謂的訓(xùn)練步驟)建立特有內(nèi)在特性物種或?qū)俚慕y(tǒng)計(jì)模型。第二步是應(yīng)用這個模型來比較和分類宏基因組Reads。 實(shí)現(xiàn)方法: PhyloPythia/PhyloPythiaS采用基于k-mer統(tǒng)計(jì)的支持向量分類器。 不同的方法使用不用的機(jī)器學(xué)習(xí)工具,包括基于貝葉斯模型的Phymm和NBC,以及采用基于k-nearestneighbor策略的TACOA。 組合方法避免了計(jì)算上耗時的序列比對,節(jié)省了計(jì)算運(yùn)行時間。與組裝方法類似,它具有很好的包容性,沒有參考序列比對的情況下,對reads進(jìn)行良好的分類。當(dāng)有參考序列的情況下,則需要以犧牲低分辨能力為代價(jià)。因此,組合分類分析通常僅限于屬級水平解析,此外,低分辨能力會因短序列進(jìn)一步加劇,基于組合的方法和基于Mapping的方法相結(jié)合,可以避免這樣的缺點(diǎn)。 2.4 基于Mapping的宏基因組序列分類 基于Mapping或比對的方法,均根據(jù)與參考基因組的序列相似性來分類宏基因組Reads。目前,基于DNAReads與基因組Mapping的工具更具先進(jìn)性。與類似于BLAST比對的工具相比速度上快幾個數(shù)量級。 它們利用緊湊的指數(shù)(例如基于Burrows-Wheeler變換的指數(shù))來有效地識別參考基因組有效序列子集并進(jìn)行完全比對。雖然BLASTN作為Mapping的底層引擎,更新升級依舊可以形成快速算法(例如:Bowtie2,SOAP2,BWA)。 2.5 基于Marker的分類分析 參考基因組中可用于分類特征分析的大部分基因組信息是非信息性的(例如,跨多個分類群的保守序列),有時甚至是誤導(dǎo)性的(例如,水平轉(zhuǎn)移的基因);贛arker的方法對參考基因組進(jìn)行預(yù)處理,以去除冗余和非歧視性的序列,并專注于最具分類信息的標(biāo)記。因此,這減少了參考基因組數(shù)據(jù)庫的大小,降低了計(jì)算要求,因?yàn)楹昊蚪M樣本僅與每個基因組的一小部分(標(biāo)記集)進(jìn)行比較。到目前為止,已有兩類標(biāo)記被用于分類鑒定:通用標(biāo)記和特定分支的標(biāo)記。 通用標(biāo)記是指:(i)存在于所有微生物中;(ii)具有可變區(qū)域的序列,可作為分類或系統(tǒng)發(fā)育標(biāo)記加以利用。 通用標(biāo)記利用了少數(shù)普遍保守的基因組序列,這些序列預(yù)計(jì)存在于尚未測序的微生物中,但不能利用構(gòu)成微生物基因組大多數(shù)的非普遍存在的基因。 微生物基因組中非普遍存在的區(qū)域可以被著重放在每個分類分支(例如,每個物種)唯一存在的分支特異性標(biāo)記基因上。這些基因被定義為給定分支內(nèi)的核心基因,與分支外的任何其他基因沒有序列相似性。因此,它們是每個微生物分支的獨(dú)特指紋,只需檢查它們在宏基因組中的存在與否,就可以高精度地鑒別出密切相關(guān)的微生物。 軟件:MetaPhlAn |
銅蟲 (正式寫手)
鐵桿木蟲 (知名作家)
鐵桿木蟲 (著名寫手)
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 0857求調(diào)劑 +4 | CDDD1013 2026-03-04 | 4/200 |
|
|---|---|---|---|---|
|
[考研] 中國科學(xué)技術(shù)大學(xué)材料與化工281求調(diào)劑,有科研和獲獎經(jīng)歷 +9 | wsxw 2026-03-02 | 10/500 |
|
|
[考研] 接收調(diào)劑 +15 | 津萌津萌 2026-03-02 | 23/1150 |
|
|
[考研] 293求調(diào)劑 +4 | 是樂渝哇 2026-03-03 | 4/200 |
|
|
[考研] 化工專碩調(diào)劑 +4 | 利好利好. 2026-03-03 | 7/350 |
|
|
[基金申請] 請問大家,研究風(fēng)險(xiǎn)與應(yīng)對措施那里, 大家都怎么寫呢 ? +3 | cauasen 2026-03-02 | 3/150 |
|
|
[碩博家園] 2025屆雙非化工碩士畢業(yè),申博 +4 | 更多的是 2026-02-27 | 5/250 |
|
|
[考研] 成績276,專業(yè)代碼0856求調(diào)劑 +7 | 小陳朵 2026-03-03 | 7/350 |
|
|
[考研] 材料類考研調(diào)劑 +6 | gemmgemm 2026-03-01 | 7/350 |
|
|
[考研] 清華大學(xué) 材料與化工 353分求調(diào)劑 +5 | awaystay 2026-03-02 | 6/300 |
|
|
[考研] 化工京區(qū)271求調(diào)劑 +7 | 11ing 2026-03-02 | 7/350 |
|
|
[考研] 288求調(diào)劑 +3 | 少71.8 2026-03-02 | 5/250 |
|
|
[考研] 295求調(diào)劑。一志愿報(bào)考鄭州大學(xué)化學(xué)工藝學(xué)碩,總分295分 +8 | yl1 2026-03-02 | 9/450 |
|
|
[考研] 302材料工程求調(diào)劑 +5 | Doleres 2026-03-01 | 6/300 |
|
|
[考研] 材料工程274求調(diào)劑 +5 | Lilithan 2026-03-01 | 5/250 |
|
|
[考研] 一志愿華南理工大學(xué)材料與化工326分,求調(diào)劑 +3 | wujinrui1 2026-02-28 | 3/150 |
|
|
[考研] 求調(diào)劑 +3 | 熬夜的貓頭鷹 2026-03-02 | 3/150 |
|
|
[基金申請]
剛錄用,沒有期刊號,但是在線可看的論文可以放為代表作嗎
10+3
|
arang1 2026-03-01 | 3/150 |
|
|
[考研] 317一志愿華南理工電氣工程求調(diào)劑 +6 | Soliloquy_Q 2026-02-28 | 11/550 |
|
|
[考研] 307求調(diào)劑 +4 | 73372112 2026-02-28 | 6/300 |
|