看T2T 聯盟如何完成史上第一個“完整的”人類基因體序列
文章推薦指數: 80 %
人類基因體參考序列“GRCh38.p13” 和最新完成的人類基因體完整序列“CHM13v1.1” 有哪些差別? 有些人或許不知道,由美國能源部(DOE) 和國家衛生研究院(NIH) ...
🚩別錯過人類基因體序列的重要里程碑
看T2T聯盟如何完成史上第一個“完整的”人類基因體序列
人類基因體參考序列“GRCh38.p13”和最新完成的人類基因體完整序列“CHM13v1.1”有哪些差別?
有些人或許不知道,由美國能源部(DOE)和國家衛生研究院(NIH)在1990年共同主導展開的跨國性「人類基因體計劃(HumanGenomeProject,HGP)」雖然已在2003年宣布完成,然而其實我們一直以來都沒有真正獲得過“完整的”人類基因體序列。
以目前大家使用的人類基因體參考序列GRCh38.p13為例,它是在2013年由參考基因體協會(GenomeReferenceConsortium,GRC)釋出,最後更新時間為2019年;GRCh38.p13缺少了近8%的序列,這些缺失主要分布在異染色質(heterochromatin)與複雜區域,包含著絲粒衛星陣列(centromericsatellitearrays)、rDNA陣列、次端粒(subtelomeric)區域等,最明顯的缺口就落在近端著絲點染色體(acrocentricchromosomes)——也就是第13,14,15,21,22號染色體——這五個染色體的整個短臂(p-arms)序列在GRCh38.p13中通通都缺失了!可以發現這些缺失的部分幾乎都具有重複序列特性,無論是桑格定序(Sangersequencing)或次世代定序(NGS)都無法有效觸及與覆蓋,因此長期以來都處於序列不明或未知的狀態。
端粒到端粒聯盟(TelomeretoTelomereConsortium,以下簡稱T2T聯盟)最新釋出的人類基因體序列CHM13v1.1,不僅彌補了GRCh38.p13所有的序列缺失,也校正了許多原本的組裝錯誤,最終完成全長約30.55億個鹼基對(bp)的全基因體序列,也是史上第一個沒有任何間隙(gap)、完整且連續的人類基因體序列!值得一提的是,CHM13v1.1含有超過1.8億個在GRCh38.p13找不到的全新序列,裡面蘊含了2,226個旁系同源基因(paralogousgenes),估計有115個基因會轉譯出蛋白質。
這些珍貴的全新發現基因將連同所有新揭露的困難與複雜區域完整序列資訊,為生物醫學研究帶來極佳助益。
您可以透過T2T聯盟發表於《bioRxiv》的文章,更深入地了解GRCh38.p13與CHM13v1.1之間的差別。
以下,我們則將帶您進一步來看T2T聯盟是如何跨越困難區域的重重阻礙,完整組裝出人類基因體序列?
表1﹑人類基因體參考序列GRCh38.p13*與T2T聯盟最新完成的人類基因體完整序列CHM13v1.1比較表。
*GRCh38p13summarystatisticsexclude"alts"(110Mbp),patches(63Mbp),andChromosomeY(58Mbp).IMAGE©bioRxiv.2021May27.DOI:10.1101/2021.05.26.445798.Table1.
T2T聯盟如何定序組裝出完整的人類基因體序列?
1.選擇CHM13hTERT細胞株作為定序樣本,以降低組裝複雜度 CHM13hTERT是一種源自於人類完全性葡萄胎(completehydatidiformmole,CHM)的細胞株,染色體核型(karyotype)為46,XX,亦即22對體染色體(autosomes)加上1對X染色體。
由於它的染色體全是由精子本身的單套染色體複製而來,因此可視為是近乎完全一致的同型合子(homozygous)。
使用CHM13hTERT作為定序樣本,一來可以降低組裝複雜度,再來是可以確保組裝出的單倍體(haplotype)序列是源自於單一樣本(※人類基因體參考序列GRCh38.p13則是由數個捐贈者樣本的定序數據混雜組裝而成)。
圖1﹑CHM13hTERT細胞的染色體核型(karyotype)。
IMAGE©NIHCytogeneticsLaboratory.
2.使用PacBioHiFi定序數據作為組裝基礎 由PacBio公司所開發的HiFi定序是T2T聯盟達成人類基因體完整組裝的重要關鍵之一!首先,不可諱言地,T2T聯盟起初其實是採用奈米孔超長定序數據作為組裝基礎的,然而後來發現,雖然極長數據易於組裝,但是錯誤率太高,使得他們不得不花費大量時間與心力,以其他定序技術數據來進行錯誤糾正。
這種以高錯誤率數據為開端的組裝策略,明顯在效率上無法讓T2T聯盟滿意。
PacBioHiFi定序的出現則徹底打破了科學家們對第三代定序技術高錯誤率的既定印象,它能夠在提供長讀取數據的同時,還兼具有比肩NGS的高精準度(>99.9%)。
這種前所未見的雙重優勢,讓T2T聯盟決定轉向使用HiFi定序數據作為組裝基礎,建構形成序列骨架(scaffold)。
T2T聯盟表示:
PacBio'srecent“HiFi”circularconsensussequencingoffersacompromiseof20kbpreadlengthsandamedianaccuracyof99.9%,whichhasresultedinunprecedentedassemblyaccuracywithrelativelyminoradjustmentstostandardassemblyapproaches....HiFisequencingexcelsatdifferentiatingsubtlydivergedrepeatcopiesorhaplotypes.
–文章出處:bioRxiv.2021May27.DOI:10.1101/2021.05.26.445798
此外,T2T聯盟聯合主席KarenMiga博士在接受《Nature》期刊採訪時,也特別提到HiFi定序對於T2T聯盟完成此項壯舉的重要性。
T2T聯盟聯合主席KarenMiga博士表示:
Thefeatprobablywouldn'thavebeenpossiblewithoutnewsequencingtechnologyfromPacificBiosciencesinMenloPark,California,whichuseslaserstoscanlongstretchesofDNAisolatedfromcells—upto20,000basepairsatatime.
–文章出處:Nature.2021Jun;594(7862):158-159.PMID:34089035
HiFi定序能夠消弭技術藩籬,深入其他定序技術難以檢測的重複序列區域,使高度重複的著絲粒與端粒周邊區域、rDNA陣列和片段重複(segmentalduplications)等困難區域的序列得以被T2T聯盟完整揭曉。
不僅如此,HiFi定序數據的高準確度,讓T2T聯盟在單純使用HiFi定序數據的狀況下就能組裝出精準度極高的序列骨架(圖2),大幅降低後續驗證除錯的複雜度。
最終完成的人類基因體序列CHM13v1.1準確度高達Q70左右,這個結果遠遠超出了T2T聯盟當初所設立的Q40目標。
圖2﹑以HiFi定序數據組裝出的人類基因體示意圖。
T2T聯盟直接使用HiFi定序數據進行組裝,可以看到在未經過任何其他定序技術數據驗證除錯的狀態下,就能清楚地分出每壹條染色體,且大部分皆為線性結構。
其中五個近端著絲點染色體(染色體13,14,15,21,22)由於彼此間的序列有高度重合相似之處(特別是第14,15,21,22號染色體的短臂),使得它們集結為一個群組。
IMAGE©bioRxiv.2021May27.DOI:10.1101/2021.05.26.445798.Fig.2A.
下一個里程碑:人類泛基因體(HumanPangenome)
為了填補空缺的人類Y染色體序列資訊,T2T聯盟正在進行HG002細胞株(染色體核型為46,XY)的定序與組裝工作,相信再過不久所有人類染色體序列都將被我們所知道。
然而這並不是我們探索人類基因體的終點。
接下來人類泛參考基因體聯盟(HumanPangenomeReferenceConsortium)將會複製T2T聯盟的成功經驗,共同合作在接下來三年內完成超過300人的定序、組裝與單倍體定相(haplotypephasing),以更深入了解不同個體與種族間的基因體多樣性,向精準醫學的目標更往前邁進一步。
PacBio全新推出的Sequel®IIe定序系統能夠讓您直接取得高品質的HiFi定序數據,協助您以更高效經濟的方式完成精確的全基因體定序(wholegenomesequencing,WGS)與從頭組裝(denovoassembly)。
若您希望進一步了解PacBioHiFi定序實驗實踐細節與生物資訊分析流程,歡迎洽詢PacBio台灣代理—伯森生技。
您可透過下方連結瀏覽更多相關資訊:
關於PacificBiosciences(PacBio)
從《NatureGenetics》論文看HiFi定序技術如何參與馬鈴薯育種計畫
讓COVID-19變種病毒株無所遁形⌖HiFi定序強勢助力美國CDC追蹤病毒變異
高準確度的長讀取基因定序技術「HiFi定序」帶來哪些突破與進展?
References
RobertsL,etal.AhistoryoftheHumanGenomeProject.Science.2001Feb16;291(5507):1195.PMID:11233436
ReardonS.Acompletehumangenomesequenceisclose:howscientistsfilledinthegaps.Nature.2021Jun;594(7862):158-159.PMID:34089035
NurkS,KorenS,RhieA,RautiainenM,etal.Thecompletesequenceofahumangenome.bioRxiv.2021May27.DOI:10.1101/2021.05.26.445798
Telomere-To-TelomereTeamAssemblesCompleteHumanGenomeEnRoutetoReferencePangenome.GenomeWeb.2021Jun03.
伯森生物科技(股)公司BlossomBiotechnologies,Inc.
網址www.blossombio.com 客服0800-059668
[📝線上留言諮詢] [☎伯森業務專員聯絡資訊]
延伸文章資訊
- 1人類基因體10 年之後? 4 大研究願景和10 大預測
1. 對於任何研究實驗室來說,生成和分析完整的人類基因體序列都是常規操作,變得與進行DNA純化一樣簡單。 2. 每個人類基因的生物學功能將是已知的;對於 ...
- 2人類基因體解碼 - 生物科技面面觀
所謂的基因體,指的是生物體內的所有DNA,包括它的基因。人類基因體計畫要測定的是人體23對染色體中的所有DNA的序列,它由31.647億個鹼基對組成, ...
- 3基因編輯出錯可能改變人類物種- BBC News 中文
經賀建奎干涉而出生的一對雙胞胎女嬰攜帶了一種稱為CCR5的基因組的編輯改造版本,賀建奎希望這種基因改造能使雙胞胎女嬰對艾滋病毒有免疫力。 但事情的 ...
- 4人類基因體定序草圖21週年精準醫療研究方興未艾 - 環球生技
人類基因體計畫由美國能源部和國家衛生研究院於1990年啟動,英國、日本、法國、德國和中國等國相繼加入,為人類歷史上生命科學領域首次大規模的國際合作, ...
- 5人類基因組- 维基百科,自由的百科全书
人類基因組,又称人類基因體,是一套完整的人类核酸序列,其被编码成“细胞核中23对染色体的DNA”及“线粒体中小DNA分子”;通常被分成核基因组和线粒体基因组两类探讨。