SAM, BAM and CRAM - 我們的基因體時代Our "Gene"ration

文章推薦指數: 80 %
投票人數:10人

簡單介紹sam/bam和cram. ... 的定序資料通常就是已有配對到reference genome上的reads,目前此類檔案有三種format: SAM, BAM, CRAM,檔案大小依序也是 ... 直接觀看文章 2016年01月27日2016年11月16日 常見的AlignmentGenomicDataArchiveFormat alignment後的基因定序資料通常是任何分析的起頭,如廚師把配菜弄好擺在流理台後,要大顯身手,此時一個好的工具來處理就是非常重要,不然會有種看者滿山資料卻不知從何下手。

alignment後的定序資料通常就是已有配對到referencegenome上的reads,目前此類檔案有三種format:SAM,BAM,CRAM,檔案大小依序也是從左到右,而SAM(SequenceAlignment/Map)和BAM(BinaryAlignment/Map)兩個檔案基本上是同樣的內容,差別在SAM是人看得懂的,BAM是壓縮成binary的,前兩種檔案格式出現的時候,定序資料量還沒現在這麼大,最近連BAM格式還是被嫌太大,CRAMformat是會逐漸取代前者的壓縮方式,EMBL已經改用CRAM的格式來儲存定序檔案了,其概念是所謂的reference壓縮的模式,如下圖所事是: 簡單來說,就是以reference上相對位置和改變的資訊來儲存,而非直接儲存reads序列, 整個降低檔案儲存需要的大小。

使用cram格式相對於bam可以節省約10-30%的檔案大小,但因為cram的格式是基於reference來減低檔案格式,需要固定的reference版本,才不會再還原時候有問題,所以每個CRAM檔案會有MD5checksum,來確保記錄所使用的reference版本。

關於CRAM的相關reference: Hsi-YangFritz, etal.(2011). GenomeRes.21:734-740 CochraneG. etal.(2012). GigaScience 1:2 SAMFormat的形式 SAM的檔案架構分兩部分,一部分是Header,另一部分是Alignment。

外觀如下圖: Header的部分位在整個檔案的一開頭,裡面會有這份檔案的基本資料,如有無sorted過、裡頭使用的reference及其長度、使用過什麼工具處理和alignment時所下的指令。

Header裡頭會有幾個關鍵組成:@SQ/@RG/@PG,分別代表以下的意義 @SQ這個開頭含有做alignment所使用的reference序列資訊,SN代表的是sequencename,而緊跟者為LN,代表此參考序列的長度 @RG代表者readgroup的資訊和sample的基本資料,部分軟體會根據裡頭的ID,去辨識有無batcheffect,有的會有PL指標去代表其所使用的定序平台 @PG裡頭含有此次alignment所使用的程式資訊,CL指標後面有所下的指令,VL後面有使用的軟體版本資訊 Alignment的部分就是實際一個個read的alignment資料,一行為一個reads,其用以下的資訊來說明每個reads的狀況: 依序是每個Reads獨一無二的編號,通常還有在定序機器上的位置,FLAG,則是代表此reads的mapping狀態,chr則很明顯的是對到的染色體,Start代表reads對應到reference上的開始位置,CIGAR則代表這個reads每一個位置跟referencemapping的狀態,是否100Match到,後面還有一些進階資訊,假如是paired-read則會顯示他的matereads的位置。

因為sam檔沒有壓縮過,所以大多數會以bam檔形式儲存,必須使用samtools來轉換,以便閱讀上面那些資訊,這邊samtools在處理bam/sam檔案上就非常重要了! 可參考這篇介紹samtools的使用! 分享此文:TwitterFacebook請按讚:喜歡正在載入... 文章分頁導航 BasicMultivariateStatisticsandPrincipalComponentAnalysis (PCA)samtools使用 對「SAM,BAMand CRAM」的一則回應 引用通告:samtools使用–我們的基因體時代 發表迴響取消回覆 在此輸入你的回應… 在下方填入你的資料或按右方圖示以社群網站登入: 電子郵件(必須填寫)(電子郵件地址不會公開) 名稱(必須填寫) 個人網站 您的留言將使用WordPress.com帳號。

( 登出 /  變更 ) 您的留言將使用Google帳號。

( 登出 /  變更 ) 您的留言將使用Twitter帳號。

( 登出 /  變更 ) 您的留言將使用Facebook帳號。

( 登出 /  變更 ) 取消 連結到%s 透過電子郵件通知我後續回應。

有新文章時用Email通知我。

Δ 搜尋: 近期文章 GenomesDAO:定序你的基因,鑄造一個NFT 社群、區塊鏈、NFT和新型態生技開源模式 2021鐵人賽-AI,Data和生物資訊 2021台灣臨床次世代定序指引探討和比較 2021臨床次世代定序實務與應用概論 近期迴響 GenomesDAO:定序你的基因,鑄造…在社群、區塊鏈、NFT和新型態生技開源模式2021台灣臨床次世代定序指引探討和比…在2021臨床次世代定序實務與應用概論[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻[實戰紀錄]整理基因變異Variant…在PubmedE-utilitiesAPI 使用…[實戰紀錄]整理基因變異Variant…在PubmedAPI介紹 文章存檔 2022年三月 (1) 2022年二月 (1) 2021年十二月 (1) 2021年八月 (2) 2021年七月 (1) 2021年六月 (1) 2021年二月 (1) 2020年十一月 (2) 2020年六月 (2) 2020年三月 (1) 2019年十月 (1) 2019年九月 (1) 2019年八月 (1) 2019年五月 (2) 2019年四月 (6) 2019年三月 (2) 2019年二月 (1) 2019年一月 (1) 2018年十二月 (1) 2018年十一月 (2) 2018年十月 (1) 2018年九月 (2) 2018年八月 (1) 2018年七月 (8) 2018年六月 (1) 2018年五月 (7) 2018年四月 (9) 2018年三月 (5) 2018年二月 (6) 2018年一月 (8) 2017年十二月 (2) 2017年十一月 (2) 2017年十月 (6) 2017年九月 (2) 2017年八月 (9) 2017年七月 (2) 2017年六月 (4) 2017年五月 (16) 2017年四月 (20) 2017年三月 (13) 2017年二月 (7) 2017年一月 (14) 2016年十二月 (10) 2016年十一月 (21) 2016年十月 (17) 2016年八月 (4) 2016年六月 (9) 2016年五月 (2) 2016年四月 (3) 2016年三月 (3) 2016年二月 (13) 2016年一月 (27) 2015年十二月 (1) 2015年十一月 (2) 2015年十月 (8) 分類 bioinformatics(5) Biostatistics(1) book(1) cancer(3) Code(3) docker(1) EnsemblAPI(2) GeneOntology(4) genedock實習準備(1) ggplot2(1) LDT(1) MedicalInformation(3) python(1) R(7) reddit(1) RNAseq(9) samtools(1) Softward(2) 未分類(290) 其它 註冊 登入 訂閱網站內容的資訊提供 訂閱留言的資訊提供 WordPress.com 我們的基因體時代Our"Gene"ration learningtogetherwithgreatscientist,codingandbioinformatics 搜尋: 近期文章 GenomesDAO:定序你的基因,鑄造一個NFT 社群、區塊鏈、NFT和新型態生技開源模式 2021鐵人賽-AI,Data和生物資訊 2021台灣臨床次世代定序指引探討和比較 2021臨床次世代定序實務與應用概論 近期迴響 GenomesDAO:定序你的基因,鑄造…在社群、區塊鏈、NFT和新型態生技開源模式2021台灣臨床次世代定序指引探討和比…在2021臨床次世代定序實務與應用概論[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻[實戰紀錄]整理基因變異Variant…在PubmedE-utilitiesAPI 使用…[實戰紀錄]整理基因變異Variant…在PubmedAPI介紹 文章存檔 2022年三月 2022年二月 2021年十二月 2021年八月 2021年七月 2021年六月 2021年二月 2020年十一月 2020年六月 2020年三月 2019年十月 2019年九月 2019年八月 2019年五月 2019年四月 2019年三月 2019年二月 2019年一月 2018年十二月 2018年十一月 2018年十月 2018年九月 2018年八月 2018年七月 2018年六月 2018年五月 2018年四月 2018年三月 2018年二月 2018年一月 2017年十二月 2017年十一月 2017年十月 2017年九月 2017年八月 2017年七月 2017年六月 2017年五月 2017年四月 2017年三月 2017年二月 2017年一月 2016年十二月 2016年十一月 2016年十月 2016年八月 2016年六月 2016年五月 2016年四月 2016年三月 2016年二月 2016年一月 2015年十二月 2015年十一月 2015年十月 分類 bioinformatics Biostatistics book cancer Code docker EnsemblAPI GeneOntology genedock實習準備 ggplot2 LDT MedicalInformation python R reddit RNAseq samtools Softward 未分類 其它 註冊 登入 訂閱網站內容的資訊提供 訂閱留言的資訊提供 WordPress.com 分類 bioinformatics Biostatistics book cancer Code docker EnsemblAPI GeneOntology genedock實習準備 ggplot2 LDT MedicalInformation python R reddit RNAseq samtools Softward 未分類 追蹤 已追蹤 我們的基因體時代Our"Gene"ration 加入其他56位關注者 我要註冊 已經有WordPress.com帳號了?立即登入。

我們的基因體時代Our"Gene"ration 自訂 追蹤 已追蹤 註冊 登入 複製短網址 回報此內容 以閱讀器檢視 管理訂閱 收合此列   載入迴響中...   發表迴響… 電子郵件(必要) 名稱(必要) 網站 %d位部落客按了讚:



請為這篇文章評分?