SAM, BAM and CRAM - 我們的基因體時代Our "Gene"ration
文章推薦指數: 80 %
簡單介紹sam/bam和cram. ... 的定序資料通常就是已有配對到reference genome上的reads,目前此類檔案有三種format: SAM, BAM, CRAM,檔案大小依序也是 ...
直接觀看文章
2016年01月27日2016年11月16日
常見的AlignmentGenomicDataArchiveFormat
alignment後的基因定序資料通常是任何分析的起頭,如廚師把配菜弄好擺在流理台後,要大顯身手,此時一個好的工具來處理就是非常重要,不然會有種看者滿山資料卻不知從何下手。
alignment後的定序資料通常就是已有配對到referencegenome上的reads,目前此類檔案有三種format:SAM,BAM,CRAM,檔案大小依序也是從左到右,而SAM(SequenceAlignment/Map)和BAM(BinaryAlignment/Map)兩個檔案基本上是同樣的內容,差別在SAM是人看得懂的,BAM是壓縮成binary的,前兩種檔案格式出現的時候,定序資料量還沒現在這麼大,最近連BAM格式還是被嫌太大,CRAMformat是會逐漸取代前者的壓縮方式,EMBL已經改用CRAM的格式來儲存定序檔案了,其概念是所謂的reference壓縮的模式,如下圖所事是:
簡單來說,就是以reference上相對位置和改變的資訊來儲存,而非直接儲存reads序列,
整個降低檔案儲存需要的大小。
使用cram格式相對於bam可以節省約10-30%的檔案大小,但因為cram的格式是基於reference來減低檔案格式,需要固定的reference版本,才不會再還原時候有問題,所以每個CRAM檔案會有MD5checksum,來確保記錄所使用的reference版本。
關於CRAM的相關reference:
Hsi-YangFritz, etal.(2011). GenomeRes.21:734-740
CochraneG. etal.(2012). GigaScience 1:2
SAMFormat的形式
SAM的檔案架構分兩部分,一部分是Header,另一部分是Alignment。
外觀如下圖:
Header的部分位在整個檔案的一開頭,裡面會有這份檔案的基本資料,如有無sorted過、裡頭使用的reference及其長度、使用過什麼工具處理和alignment時所下的指令。
Header裡頭會有幾個關鍵組成:@SQ/@RG/@PG,分別代表以下的意義
@SQ這個開頭含有做alignment所使用的reference序列資訊,SN代表的是sequencename,而緊跟者為LN,代表此參考序列的長度
@RG代表者readgroup的資訊和sample的基本資料,部分軟體會根據裡頭的ID,去辨識有無batcheffect,有的會有PL指標去代表其所使用的定序平台
@PG裡頭含有此次alignment所使用的程式資訊,CL指標後面有所下的指令,VL後面有使用的軟體版本資訊
Alignment的部分就是實際一個個read的alignment資料,一行為一個reads,其用以下的資訊來說明每個reads的狀況:
依序是每個Reads獨一無二的編號,通常還有在定序機器上的位置,FLAG,則是代表此reads的mapping狀態,chr則很明顯的是對到的染色體,Start代表reads對應到reference上的開始位置,CIGAR則代表這個reads每一個位置跟referencemapping的狀態,是否100Match到,後面還有一些進階資訊,假如是paired-read則會顯示他的matereads的位置。
因為sam檔沒有壓縮過,所以大多數會以bam檔形式儲存,必須使用samtools來轉換,以便閱讀上面那些資訊,這邊samtools在處理bam/sam檔案上就非常重要了!
可參考這篇介紹samtools的使用!
分享此文:TwitterFacebook請按讚:喜歡正在載入...
文章分頁導航
BasicMultivariateStatisticsandPrincipalComponentAnalysis (PCA)samtools使用
對「SAM,BAMand CRAM」的一則回應
引用通告:samtools使用–我們的基因體時代
發表迴響取消回覆
在此輸入你的回應…
在下方填入你的資料或按右方圖示以社群網站登入:
電子郵件(必須填寫)(電子郵件地址不會公開)
名稱(必須填寫)
個人網站
您的留言將使用WordPress.com帳號。
( 登出 /
變更 )
您的留言將使用Google帳號。
( 登出 /
變更 )
您的留言將使用Twitter帳號。
( 登出 /
變更 )
您的留言將使用Facebook帳號。
( 登出 /
變更 )
取消
連結到%s
透過電子郵件通知我後續回應。
有新文章時用Email通知我。
Δ
搜尋:
近期文章
GenomesDAO:定序你的基因,鑄造一個NFT
社群、區塊鏈、NFT和新型態生技開源模式
2021鐵人賽-AI,Data和生物資訊
2021台灣臨床次世代定序指引探討和比較
2021臨床次世代定序實務與應用概論
近期迴響
GenomesDAO:定序你的基因,鑄造…在社群、區塊鏈、NFT和新型態生技開源模式2021台灣臨床次世代定序指引探討和比…在2021臨床次世代定序實務與應用概論[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻[實戰紀錄]整理基因變異Variant…在PubmedE-utilitiesAPI 使用…[實戰紀錄]整理基因變異Variant…在PubmedAPI介紹
文章存檔
2022年三月 (1)
2022年二月 (1)
2021年十二月 (1)
2021年八月 (2)
2021年七月 (1)
2021年六月 (1)
2021年二月 (1)
2020年十一月 (2)
2020年六月 (2)
2020年三月 (1)
2019年十月 (1)
2019年九月 (1)
2019年八月 (1)
2019年五月 (2)
2019年四月 (6)
2019年三月 (2)
2019年二月 (1)
2019年一月 (1)
2018年十二月 (1)
2018年十一月 (2)
2018年十月 (1)
2018年九月 (2)
2018年八月 (1)
2018年七月 (8)
2018年六月 (1)
2018年五月 (7)
2018年四月 (9)
2018年三月 (5)
2018年二月 (6)
2018年一月 (8)
2017年十二月 (2)
2017年十一月 (2)
2017年十月 (6)
2017年九月 (2)
2017年八月 (9)
2017年七月 (2)
2017年六月 (4)
2017年五月 (16)
2017年四月 (20)
2017年三月 (13)
2017年二月 (7)
2017年一月 (14)
2016年十二月 (10)
2016年十一月 (21)
2016年十月 (17)
2016年八月 (4)
2016年六月 (9)
2016年五月 (2)
2016年四月 (3)
2016年三月 (3)
2016年二月 (13)
2016年一月 (27)
2015年十二月 (1)
2015年十一月 (2)
2015年十月 (8)
分類
bioinformatics(5)
Biostatistics(1)
book(1)
cancer(3)
Code(3)
docker(1)
EnsemblAPI(2)
GeneOntology(4)
genedock實習準備(1)
ggplot2(1)
LDT(1)
MedicalInformation(3)
python(1)
R(7)
reddit(1)
RNAseq(9)
samtools(1)
Softward(2)
未分類(290)
其它
註冊 登入
訂閱網站內容的資訊提供
訂閱留言的資訊提供
WordPress.com
我們的基因體時代Our"Gene"ration
learningtogetherwithgreatscientist,codingandbioinformatics
搜尋:
近期文章
GenomesDAO:定序你的基因,鑄造一個NFT
社群、區塊鏈、NFT和新型態生技開源模式
2021鐵人賽-AI,Data和生物資訊
2021台灣臨床次世代定序指引探討和比較
2021臨床次世代定序實務與應用概論
近期迴響
GenomesDAO:定序你的基因,鑄造…在社群、區塊鏈、NFT和新型態生技開源模式2021台灣臨床次世代定序指引探討和比…在2021臨床次世代定序實務與應用概論[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻[實戰紀錄]整理基因變異Variant…在PubmedE-utilitiesAPI 使用…[實戰紀錄]整理基因變異Variant…在PubmedAPI介紹
文章存檔
2022年三月
2022年二月
2021年十二月
2021年八月
2021年七月
2021年六月
2021年二月
2020年十一月
2020年六月
2020年三月
2019年十月
2019年九月
2019年八月
2019年五月
2019年四月
2019年三月
2019年二月
2019年一月
2018年十二月
2018年十一月
2018年十月
2018年九月
2018年八月
2018年七月
2018年六月
2018年五月
2018年四月
2018年三月
2018年二月
2018年一月
2017年十二月
2017年十一月
2017年十月
2017年九月
2017年八月
2017年七月
2017年六月
2017年五月
2017年四月
2017年三月
2017年二月
2017年一月
2016年十二月
2016年十一月
2016年十月
2016年八月
2016年六月
2016年五月
2016年四月
2016年三月
2016年二月
2016年一月
2015年十二月
2015年十一月
2015年十月
分類
bioinformatics
Biostatistics
book
cancer
Code
docker
EnsemblAPI
GeneOntology
genedock實習準備
ggplot2
LDT
MedicalInformation
python
R
reddit
RNAseq
samtools
Softward
未分類
其它
註冊 登入
訂閱網站內容的資訊提供
訂閱留言的資訊提供
WordPress.com
分類
bioinformatics
Biostatistics
book
cancer
Code
docker
EnsemblAPI
GeneOntology
genedock實習準備
ggplot2
LDT
MedicalInformation
python
R
reddit
RNAseq
samtools
Softward
未分類
追蹤
已追蹤
我們的基因體時代Our"Gene"ration
加入其他56位關注者
我要註冊
已經有WordPress.com帳號了?立即登入。
我們的基因體時代Our"Gene"ration
自訂
追蹤
已追蹤
註冊
登入
複製短網址
回報此內容
以閱讀器檢視
管理訂閱
收合此列
載入迴響中...
發表迴響…
電子郵件(必要)
名稱(必要)
網站
%d位部落客按了讚:
延伸文章資訊
- 1椎間盤突出症| 醫學影像學習園地 - 中國醫藥大學
- 2cram 的情境影片範例|影音字典- VoiceTube 看影片學英語
Where is it you could be like, How much can you cram into a day? ... 中文 B1 中級. 適應醫學院101 (Adjustin...
- 3Cram Session in Manual Muscle Testing - 博客來
書名:Cram Session in Manual Muscle Testing: A Handbook for Students & Clinicians,語言:英文,ISBN:9781556...
- 4Cram Session in Functional Anatomy - 合記圖書出版社
合記圖書出版社-專業醫學歐美原版書籍. 首頁. 關於合記. 最新消息 ... Cram Session in Functional Anatomy: A Handbook for Student...
- 5cramming for test - Linguee | 中英词典(更多其他语言)
大量翻译例句关于"cramming for test" – 英中词典以及8百万条中文译文例句搜索。 ... 海军第三医学研究所(NAMRU-3)还为开发和检测提供十分宝贵的禽流感病毒株分离。