人類參考基因體 - 次世代定序知識櫥窗
文章推薦指數: 80 %
人類基因體計畫(Human Genome Project, HGP)目的是希望解碼人類 30 億對鹼基 ... 是蠑螈 Salamander,其基因體大小變異性很高,最大可以到人類基因體 ...
次世代定序知識櫥窗
圖爾思生物科技(BIOTOOLSCO.,LTD)是由一群熱愛生命科學的專業人士所成立的公司,我們致力於提供優質的生物技術服務,包含有NGS、CRISPR及Proteomics三大服務平台。
記事一覧
人類參考基因體
2019/11/15
11:15
原創文章 引用請註明出處人類參考基因體(HumanReferenceGenome) 人類參考基因體的第一版印刷品作為一系列書籍展示,在倫敦的WellcomeCollection中展出(圖片來源)人類基因體計畫(HumanGenomeProject,HGP)目的是希望解碼人類 30 億對鹼基對的序列,2000年6月26日,美國總統柯林頓與英國首相布萊爾共同宣布人類基因體計劃工作草圖完成。
接下來就是不斷地針對草圖修正以及補充。
到現在為止,已經有多種版本。
解碼人類基因體序列促進了生命科學相關研究的發展,讓人們對於演化、發育、分化、疾病發生甚至治療,提供了很好的參考資料。
人類參考基因體對於研究人員來說,使用上有哪些要注意的呢? 人類基因體序列草圖公布至今也超過十幾年了,由於定序技術不斷地更新突破,先前有些不容易定出序列的區域也逐漸地明朗化,所以人類基因體序列每隔幾年就會有新的版本公布。
表一:人類參考基因體版本公布時間ReleasenameDateofreleaseEquivalentUCSCversionGRCh38Dec2013hg38GRCh37Feb2009hg19NCBIBuild36.1Mar2006hg18NCBIBuild35May2004hg17NCBIBuild34Jul2003hg16表格來源:https://en.wikipedia.org/wiki/Reference_genome 多種版本同時並行,我究竟該用哪個版本呢? 首先,先解釋什麼是參考序列? 參考序列怎麼來的?由於參考基因體是利用來自”多個”DNA提供者的基因體進行定序之後而組裝而成的,因此不能準確地代表任何一個人的基因體序列。
當生物資訊人員拿到定序結果的原始資料,或是實驗端的研究人員拿到分析好的定序報告,第一個要注意的就是,手上這份資料的人類參考序列究竟是根據哪一個版本呢?GRCh38?GRCh37?hg38?hg19? 以公布的時間軸來看(表一),GRCh37 是 2009 年所公布的,在相同時間 UCSC(UniversityofCalifornia,SantaCruz)也發布了一個類似的版本為 hg19,而 GRCh38 是 2013 年所公布的,UCSC 相對應的版本為 hg38(會不會覺得奇怪為什麼不是 hg20? 而是 hg38。
這就跟蘋果公司出的iPhone8下一代為什麼不是iPhone9而是iPhoneX一樣(誤)。
這是因為 GRCh 與 UCSC 所公布的版本都是來自於相同的參考序列,為了避免大家搞混(精神錯亂)所以決定用同樣的數字來代表。
在這邊相同的參考序列所代表的意思就是基因體座標(genomiccoordinate) 是一樣的。
舉例來說:TP53(NM_001276698)這個基因在:hg38 或是 GRCh38 的位置是chr17:7,668,402-7,675,493hg19 或是 GRCh37 的位置是chr17:7,571,720-7,578,811(資料來源是UCSCGenomeBrowser) 兩個不同時間發表的版本其基因體座標完全不一樣,所以如果要查詢序列時,一定要先清楚知道自己該使用哪一個版本的參考基因體。
那GRCh37(hg19)與GRCh38(hg38)還有哪些地方不一樣呢? 簡單來說就是修正一些不正確的序列,增加許多原先不清楚序列的區域,例如 centromere 區域,另外就是增加多許多存在變異的位置。
因此,GRCh38(hg38)是目前最新版的人類參考基因體。
那我該選擇哪個版本呢?是不是最新的版本最好?這就要看使用者的選擇了,目前兩種版本出現的比例差不多,相關的輔助資訊,例如各大基因體資訊資料庫,NCBI、UCSC、Ensembl、1000GenomesProject、gnomAD、COSMIC等,還有我們台灣人體生物資料庫,同時都可以使用這兩種版本進行查詢與資料使用。
不過還是有一些延伸的工具還沒有完全更新,所以目前來說,使用 GRCh37/hg19 可參考的資料較完善,也還不會遇到什麼版本不合的問題。
利用GRCh37/hg19分析出來的結果也可以利用以下兩種工具進行版本間座標的轉換:UCSCLiftOver工具(https://genome.ucsc.edu/cgi-bin/hgLiftOver)NCBI’sGenomeRemappingService(https://www.ncbi.nlm.nih.gov/genome/tools/remap) 接下來就要討論到比較細部的問題,以同一時間發表 (以GRCh37為例),還是有不同名稱的人類參考基因體,那差別是在哪兒呢? (1)GRCh37全名為 TheGenomeReferenceConsortiumHumanBuild37, GRCh37。
是 GenomeReferenceConsortium 建立的人類參考基因體。
這是所有人類基因體的參考版本,並作為其他三個參考序列的基礎。
a) 粒線體版本是修正版的 NC_012920。
b) 染色體編號直接以數字表示,沒有 chr 這幾個字元。
(2)hg19UCSC 根據 GRCh37 所建立的人類參考基因體,通常稱為 hg19,與 GRCh37 有些許地方不一樣。
a) 粒線體是使用舊版的 NC_001807。
b) hg19 在記錄序列時有分大小寫,小寫表示在repeat區(RepeatsfromRepeatMaskerandTandemRepeatsFinder)。
c) 染色體編號帶有chr這三個字元,例如:chr1。
(3)b37BroadInstitute 根據 GRCh37 創建了一個人類基因體參考序列,BroadInstitute 稱之為 b37。
(4)humanG1Kv37這個版本相當於 b37,不同之處在於這版本不包含人皰疹病毒4類型1(humanherpesvirus4type1),這是由 1000genomesProject 所完成。
這四個版本目前都有使用,如果您是使用 BroadInstitute 所開發的相關分析軟體,建議使用 UCSC 與 BroadInstitute 所建立的人類參考基因體,也就是hg19/hg38以及b37/b38,因為 BroadInstitute 有提供這兩種版本相關資源可以使用。
詳情可以參考:https://software.broadinstitute.org/gatk/download/bundle。
最後給大家猜猜看,目前發現基因體最大的脊椎動物是什麼?大象?鯨魚?....是蠑螈 Salamander,其基因體大小變異性很高,最大可以到人類基因體大小的 40-50 倍左右,這時候有沒有慶幸自己的研究對象是人類了呢?不然光印出序列就要 40 個大書櫃,硬碟儲存量就要 40 倍,還要加上運算時間,讓我們向研究蠑螈基因體的研究人員致上萬分的敬意吧!蠑螈Salamander。
圖片出自:https://en.wikipedia.org/wiki/Salamander 參考文獻:1. https://en.wikipedia.org/wiki/Reference_genome2. https://software.broadinstitute.org/gatk/documentation/article?id=23390#hg193. https://genome.ucsc.edu/index.html4. https://genome.ucsc.edu/cgi-bin/hgLiftOver5. https://www.ncbi.nlm.nih.gov/genome/tools/remap6. https://software.broadinstitute.org/gatk/download/bundle7. https://en.wikipedia.org/wiki/Salamander8. Sclavi,J.Herrick,Genomesizevariationandspeciesdiversityinsalamanders.Journalofevolutionarybiology32,278-286(2019).圖爾思生物科技/微生物體研究中心謝嘉珊文案http://www.toolsbiotech.com/©BIOTOOLS.AllRightsReserved
Tweet
カテゴリ:基因體定序DNA-seq
CM:0
GSEA分析 主頁
單細胞定序分析介紹(三):BatchEffect
留言
發表留言
您的名字
標題
郵件地址
URL
本文
密碼
秘密留言
只對管理員顯示
自我介紹
Author:圖爾思生物科技
歡迎來到圖爾思的次世代定序知識櫥窗!官方網站:http://www.toolsbiotech.com/TEL:886-2-2697-2697寄信給小編
最新文章
【RNAseq3小學堂】WGCNA:WeightedCorrelationNetworkAnalysis(11/26)
【三代定序於人類癌症的應用】(11/25)
【RNAseq3小學堂】蛋白質交互作用分析_PPI(11/19)
【RNAseq3小學堂】基因富集分析_GSEA(11/12)
懶人…聰明人工具包-microPIPE無腦組裝高品質細菌基因體(11/10)
類別
次世代定序技術與生物資訊分析(17)
微生物體定序分析Microbiota(59)
精準醫療PrecisionMedicine(4)
基因體定序DNA-seq(13)
轉錄體定序RNA-seq(19)
其他Others(10)
10XGenomics-SingleCellRNAsequencing(13)
多體學Multiomics(3)
三代定序(20)
最新留言
圖爾思生物科技:漫談腸道小尖兵:Akkermansiamuciniphila(01/14)
圖爾思生物科技:微生物分析系列報導:樣本分組比較分析(BetaDiversity)(12/28)
MeiHuei:漫談腸道小尖兵:Akkermansiamuciniphila(12/28)
lulu:微生物分析系列報導:樣本分組比較分析(BetaDiversity)(09/29)
回到此頁首
搜尋欄
RSS連結
最新文章的RSS
最新留言的RSS
連結
圖爾思次世代定序知識櫥窗管理頁面
將此部落格加到連結
加為部落格好友
和此人成爲部落格好友
PoweredbyFC2部落格
Copyright©次世代定序知識櫥窗AllRightsReserved.
延伸文章資訊
- 1Human genome project 基因組學-人類基因體計劃及其應用
基因數目. 3 4288 19,000 13,600 ~ 20,000 ? • 基因組大小. C值謎(C-‐value enigma):⽣生物的C值(或基因組⼤大⼩小)並不與⽣生物複雜程度相關的...
- 2人類基因體解碼 - 生物科技面面觀
人類基因體計畫(Human Genome Project)與曼哈頓計畫、阿波羅登月計畫並稱為人類 ... 人類基因體計畫要測定的是人體23對染色體中的所有DNA的序列,它由31.647億個鹼基對...
- 3全基因體定序Whole Genome Sequencing - 圖爾思公司
全基因體定序Whole Genome Sequencing · DNA總量: Nanopore平台定序: High Molecular Weight Genomic DNA, HMW DNA ≧...
- 4基因體定序
人、小鼠和牛的粒線體基因組全序列已經測定,都是16.5 kb左右。植物細胞的粒線體基因組的大小差別很大,最小的為100kb左右,大部分由 ...
- 5基因組大小— Google 藝術與文化
基因組大小是指一個基因組中所擁有的DNA含量,一般以重量計算,單位通常是皮克,寫成pg;有時也用道耳頓;或是以核苷酸鹼基對的數量表示,單位為百萬計,寫成Mb ...