我們的基因體時代Our "Gene"ration – learning together with ...

2024-11-13

文章推薦指數： 80 %

投票人數：10人

就如同這次課程介紹的，次世代定序的應用非常廣，所以兩份指引都有開宗明義定義說適用的範圍，在不同情況下就會有不同的狀況，所以兩者面向的一個是偏產科和兒科以及成人 ... 直接觀看文章 2021年08月18日2021年08月18日發表留言前面有稍微分享一下2021臨床次世代定序實務與應用概論這堂課的內容，當然打鐵趁熱也針對一些主題，自己做了些延伸和討論，這邊就針對CAP和台灣的指引來分享一下，將次世代定序使用在臨床所牽涉到實驗室端的細節是以前沒有面對過的，相對於傳統實驗室檢驗單項指標，次世代定序從檢測原理到結果都是高通量的輸出，也許用臨床檢查來譬喻有點像是病人基因的電腦斷層，但是更為複雜幾倍。

大概7-8年前，世界各國基因體學相關的臨床學術組織便開始努力制定相對應的實驗室指引來幫忙導入次世代定序使用，同時也有如實驗室開發檢驗指引等法規來解套基因定序作為檢驗項目的醫療法規問題，另外，廠商也推動一些機型的法規認證。

referencefrom台大醫技蘇剛毅老師演講內容在2013年illumina公司的MiSeqDx平台獲得美國FDA的核准，是第一台獲得IVD認證的機台，同時其三個試劑分別是MiSeqDxuniversalkit和兩個跟囊腫性纖維化(Cysticfibrosis)的定序同時取得認證。

後續IonPGMDxsystem也在2017年6月22號成為美國第二台FDA認證的醫學檢驗用NGS儀器。

而後續產業界跟學術界慢慢希望可以用實驗室開發方法的法規來適用這類的法規，所謂的體外診斷器材(IVD,InVitrodiagnosticdevices)和實驗室開發方法(Labdevelopedtest)是有一些不太一樣的地方，實驗室開發方法通常是那些進步快速的領域之檢驗項目，因為變化太快速了，要是走IVD法規路線，可能核准完市場已經變化且技術同時已經落後，這部分在次世代定序領域尤為常見。

前陣子其實有蠻多風波的特管辦法(特定醫療技術檢查檢驗醫療儀器實行或使用管理辦法)，就是把台灣實驗室開發方法納入管理，其中很多關於資格和操作細節都引發各方人馬的意見。

回到臨床次世代定序，因其複雜的特性使其很難以IVD的模式通過，直到如今，美國市場上只有四個腫瘤為主的NGS檢驗項目： OncomineDxTargetTest:2018/10/17包含４６個腫瘤相關基因檢測MSK-Impact:2017/11/15包含468個腫瘤相關基因檢測FoundationOneCDx:2017/11/3包含324個腫瘤相關基因檢測Guardant360CDx:2020/08/07第一個液態活檢針對55個腫瘤基因體外診斷器材的查驗，其中牽涉到從技術研發、臨床前試驗、第Ｉ、ＩＩ、ＩＩＩ期臨床試驗、上市前審查到衛福部查驗登記以及上市後檢測，相對在實驗室自行發展檢測方法(LDT)中，通常是以實驗室的品質系統來取代臨床前試驗、第Ｉ、ＩＩ、ＩＩＩ期之臨床試驗，所以相對來說，彈性較大，但是實驗室本身的管控就變得非常重要。

目前在臨床實驗室認證台灣非常重視的CAP(CollegeofAmiericalPathologist)的規範，其近期也有一系列文章和網站資源在提供次世代定序的實驗室規範，蠻值得一看的。

其中主要是分別在TestContentDesign,TestOptimization,TestValidation,QualityManagement,BioinformaticsandIT這幾個方向有建立一個方便實驗室追尋的worksheet。

在這邊我們同時來比較一下台灣這兩年衛福部提供的指引來探討一下異同和改變，也剛好是前陣子在科內給的演講。

簡報的左邊是引用來自xkcd的卡通圖，談的是當代操作系統如Linux(當今所有雲端系統基本上都基於linux核心，再往上疊加)，完整的計算機操作系統，奠基在非常多開發者之程序中，有的程序寫得很好，有的則是很脆弱，假如沒有對整體有個巨觀，很可能出錯了都無法抓蟲，這讓我聯想到次世代定序作為檢驗服務給我的感覺(也是聽完郭靜穎老師和蘇剛毅老師在臨床次世代定序中關於確效認證等等的主題後的想法)，雖然目前臨床次世代服務中，所牽涉到的許多細節其實已經靠廠商簡化許多，比如機台自動化、檢體前處理優化到分析套裝軟體，但依舊是複雜模塊的堆疊，如同這左邊這張圖。

台灣這幾年政府也希望能回應醫療人員對於次世代導入臨床之需求，所以分別在2020年和今年年初都有分別針對遺傳類和腫瘤類的基因檢測給予相關的指引，這邊往下比較台灣指引在20200811年公告之精準醫療分子檢測實驗室檢測技術指引-是世代定序應用於遺傳類疾病檢測及20210311公告之精準醫療分子檢測實驗室檢測技術指引-是世代定序應用於腫瘤檢測(草案)。

的確在業界常聽到大家抱怨台灣法規在次世代定序臨床易用這塊很緩慢，也導致普遍醫學中心外並沒有多少人應用次世代定序來幫忙民眾，相對於中國來說，其在2018年開始就有第一份的临床基因检测报告规范与基因检测行业共识探讨來，不過樂觀一點，台灣這一兩年陸陸續續也把遺傳類和腫瘤類指引提出，所以這邊就這個指引和美國CAP的內容來相對應一下，也可以看到今年3月的指引比去年的遺傳類檢測的看法更加純熟。

比較兩個台灣的指引，可以看出今年3月提出的版本，對於生物資訊流程的部分有更多著墨，尤其是在基因資料庫使用與管理建議和檢測報告格式，這部分仔細檢討其實也是當前台灣臨床實驗室比較弱的部分，整體上兩個指引對照CAP下都有所謂的適用範圍、檢測設計考量、檢體類別、影響檢測因素及檢測個步驟，另外，在腫瘤這份也有多著墨一下變異偵測的部分。

就如同這次課程介紹的，次世代定序的應用非常廣，所以兩份指引都有開宗明義定義說適用的範圍，在不同情況下就會有不同的狀況，所以兩者面向的一個是偏產科和兒科以及成人癌症部分的次世代定序檢測。

往下去看兩份指引在步驟建議上，腫瘤檢測的部分可看到觀念比較全面，也加入分析後的品控想法，也有去討論基因庫定序之複雜度及潛在風險評估的部分。

在檢體處理部分，其實跟CAP的工作單中描述的大概相同，但台灣這邊的品質範圍拉的比較大一點，規範細節相似。

檢體在建庫部分也希望臨床檢測的SOP中，也要記錄清楚建庫所相關的細節像是製備方法(擴增法或是捕捉法)、建庫流程中針對核酸片段放大之效能及允收標準，也提到品管物質，這部分的確是目前臨床實驗室比較難符合的地方，同時也會增加品控的成本。

最後在生物資訊分析流程中也希望能把整個流程中所處理的流程、數據分析方法及變異點偵測邏輯都要詳述，且所使用的軟體和資料庫版本都有有所談論，這幾天在多數臨床實驗室沒有配置生資人員情況下，大都是依賴廠商，廠商有時候也是代理國外軟體，所以造成細節部分都沒有人搞得清楚。

進入到檢測品質這邊，跳過檢體和DNA品質這塊，內容跟前述的部分雷同，這裡也有提到要詳述定序覆蓋率，不是只描述平均覆蓋率而已，還要去描述最低和最高的部分，以及目標區域的定序深度（目前臨床使用都還是Panel為主，如同陳沛隆醫師所講），另外，同行和異形合子的基因頻率也要去描述其篩選條件。

取得定序機台的read後，必須要把相關評估read品質和篩選之流程都要記錄清楚，且前一步驟中是否有去掉序列也要描述，最後其比例和重複定序片段的數量和百分比都要紀錄(在此堂課郭老師給予的測試數據中，也會發現其重複定序的片段比率偏高，也是要去理解背後的因素，是否有非預期的原因所造成) 同時整個流程中的定位也要去看其相關指標的細節，不過這算是所謂的postalignmentqualitycontrol的部分，要去看reads拼貼的狀況，畢竟最後變異的分析都是基於這些readalignment後的結果)。

最後變異偵測的參數則是要依據臨床場景有不太一樣的想法，在做遺傳類變異和腫瘤類體細胞變異偵測上就是不太一樣，其中變異等級之指標、整體變異的指標、變異的變異頻率都是重要需要紀錄的資訊。

變異註解的部分也是一個大功夫，郭老師也花費一整堂的部分來描述這流程中要考慮到的細節和需要調用的資料庫，中間所使用的資料庫種類版本，以及流程都是需要系統性標準化的，另外，判讀後的結果也要好好記錄下來。

最後檢測報告該如何撰寫要記錄什麼，在精準醫療分子檢測實驗室檢測技術指引中也有大概的介紹，大體是該包含什麼資訊：位點、臨床註解、檢測方法、相關限制。

在腫瘤檢測的指引中，開宗明義希望報告儘可能剪短、實際，這中間就給予個別實驗室一定的空間來決定，比較重要的部分則是所謂的陰性結果(Pertinentnegative)的呈現，相對來說，就是臨床上喜歡的“rule-out”思考邏輯。

整體來說，次世代基因定序涉到多個流程，每個流程之間都要有相對應之品質管控，從檢體前處理、建庫、定序初始資料、生物資訊流程和報告，如此複雜的過程其實“相當富有挑戰”，但也是吸引人投入的地方吧！也期待越來越多人投入這個領域，能讓這樣技術解放更多關於人們的生理資訊，一方面讓臨床更能給予民眾幫助！ 2021年08月16日1則迴響七月底利用時間請假去參加了台大生物技術研究中心舉辦的臨床次世代定序實務與應用課程，由郭靜穎、楊雅倩和蘇剛毅老師所舉辦的，整個課程蠻扎實的，台灣的確需要多一點這類課程，當初主要是對其hands-on的建庫課程感興趣，畢竟這類機會不多，通常都是廠商幫忙完成，所以想辦法實際來碰一下，順便看一下台大醫院這邊基因檢測的概況，課程表如下，分成兩塊：上課以及實作兩個部分，上課部分則是從基本次世代定序介紹到各主題如遺傳、癌症、微生物體、人類白血球抗原分型、次世代定序的法規、確校及認證以。

實作部分則是做人類白血球抗原分型搭配和生物資訊分析，很開心能在持續精進，抱持者Rookiespirits，畢竟日新月異，還是一段時間得學習一番，當然不可能什麼都懂，但是至少多聽聽不同人切入次世代定序的看法! 全程可以看到郭靜穎老師辛苦的陪伴，郭靜穎老師在台大醫技系畢業後，至美國加州希望之城生物科學研究所攻取博士學位，然後在希望之城糖尿病與代謝研究中心做博士後研究員，博士後研究結束之後，其在希望之城醫學中心的臨床分子檢驗實驗室做基因變異分析師，然後2017年回來台灣大學醫學檢驗暨生物技術學系做老師，所以課程中也可以聽郭老師分享美國臨床分子檢驗室的架構，聽完覺得要建立一個一流的分子醫學檢驗實驗室真的不簡單，需要非常多不同專長的人員，另外令我很佩服的是楊雅倩老師，楊雅倩老師是台灣檢驗醫學界很資深的教授，但她也是趁者空擋基礎全程參與從做實驗到生物資訊分析，看著老師自己打開筆電跟者學習怎麼使用生物資訊軟體甚至程式碼的輸入，這精神真的值得學習，希望能持續保持如楊雅倩老師這種學習精神！建庫的過程格外的令人熟悉，前陣子正踩到用磁珠萃取的坑，比如不同比例或是容器等等，這種把實驗之間關聯起來的感覺蠻不錯的！其中陳沛隆醫師的課程提到蠻多很珍貴的觀點，次世代定序在台灣已經談論快十年，尤其最近五年在台灣做定序的價錢已經很便宜了，往往會給人一種好像這個工具無堅不摧（當然不是，每個檢驗技術都有優點和缺點），陳沛隆醫師則願意分享其看到的機會： Referencegenome:population-specific?Haplotyping/phasingPsudogeneStructuralvariation(SV)DynamicmutationMobileelementSomaticmutationDigenic/oligogenicmodeEpigeneticchangeNon-codingregion(suchasTAD,UTR,etc.) 上面是完整寫下陳沛隆醫師簡報裡面的字串，可惜時間不足，所以陳醫師沒有辦法一項項細講，感覺裡面滿滿的珠璣！這邊趁機來查一下：參考基因組在次世代定序中的影響之前在科內晨會就準備過這個主題，所以可以理解陳醫師的意思！參考基因組在第二代定序(所謂的次世代定序中)影響頗大，基本上可以暱稱次世代定序為高通量短片段定序，所以參照的拼圖對於把讀長序列(reads)排序回去就變得異常重要，而目前我們所謂的參考基因組主要是使用美國人類基因組計畫中所產生的參考序列其實從2003年的草稿到今天為止，存在很多問題(科學就是越探索，越發現事情比想像中複雜ORZ)，美國人類基因組計畫中所使用的檢體其實並非一個人的檢體，而是一群人，然後把它分發給世界各地合作對象來定序，下面是當初的招收廣告：這是當初刊登在報紙上徵求自願者時候的廣告，蠻有趣的，當初要的是20個人，不過後來我們發現其實實際基因體系列可能大多數是某一位自願者的檢體，且實際可能有約30個人左右 from2020.Pan-genomicsinthehumangenomeera.NaturereviewsGenetics 直到今年2021年六月我們才有一個比較接近完整的人類基因組定序取得，是由Telomere-to-telomereconsortium團隊所發表的，他們利用了很多第三代定序的技術來混合完成這個任務的，這篇論文Thecompletesequenceofahumangenome目前是發表在bioRxiv上面，可以由這篇Nature新聞Acompletehumangenomesequenceisclose:howscientistsfilledinthegaps了解這件事代表，另外，他們所使用的定序檢體也很特別，是使用hydatidiformmole，也就是將精子注射到一個沒有核的卵子中，這樣可以一次定序一股染色體，不用面對phasing的問題。

Pseudogenes對於短序列alignment的影響這也是之前有概念，但沒有特別關注的議題，實際去調查真的發現蠻有趣的，所謂的假基因(Pseudogenes)是染色體上的基因片段，其跟對應的基因相似，但可能散失部分功能，目前認為他可能是細胞複製過程所產生的重複序列，在探討演化的學者這個現象很重要，可以利用Pseudogene的片段來探討種源的距離，這邊因此可以理解到這個Pseudogenes會如何影響到定序結果，一方面是來自Pseudogene的reads可能會被貼到其同源基因區域，或是者反之也會發生(OS:好複雜，難怪很多時候即時有定序資料還是看不出什麼所以然，很多因此會影響結果)，在NatureReviewsGenetis2020年12月後有一篇Overcomingchallengesanddogmastounderstandthefunctionsofpseudogenes在談論如何研究pseudogene以及他在生物學的角色。

實務上來說，蠻多臨床上重要的基因就有很多這類同源基因，比如PMS2,CYP2D6,CHEK2,SMN1,PKD1，這邊就有一個這類對於二代定序和Sanger定序都是所謂盲點的基因列表： Mandelker,D.,Schmidt,R.,Ankala,A. etal. Navigatinghighlyhomologousgenesinamoleculardiagnosticsetting:aresourceforclinicalnext-generationsequencing. GenetMed 18, 1282–1289(2016).https://doi.org/10.1038/gim.2016.58 短片段定序無法偵測之基因變異知道越多人類序列，才發現人類序列的變化遠比想像的多，從下面的圖可以知道像是Structuralvariation,Repeatexpansion以及所謂Phasing的問題都是目前二代定序的工具無法解決的。

2019.Long-ReadSequencingEmerginginMedicalGenetics,Front.Genet 有的基因變異的範圍很方式其實是比想像中多的，從上面的Structuralvariation也可看到如reverse或是translocation這類的轉位，短片段的序列都還是能得到，但是alignment會去參考基因組時，就看不到這樣的資訊，以前覺得沒有太大影響，但後來發現這些都多多少少造成其基因表現的不同。

動態突變Dynamicmutation：短片段重複相關的疾病disorder 動態突變造成的疾病也是之前我不太懂的，仔細一查，維基百科的定義是： anunstableheritableelementwheretheprobabilityofexpressionofamutantphenotypeisafunctionofthenumberofcopiesofthemutation.Thatis,the replication product(progeny)ofadynamicmutationhasadifferentlikelihoodofmutationthanitspredecessorfromDynamicmutation,Wiki 不過目前比較常用Trinucleotiderepeatdisorder來形容，跟此相關的疾病也不少，最知名的就是亨廷頓舞蹈症，當然還有蠻多跟此相關的疾病：這類疾病可能使用NGS在定序時，因為參考基因組的關係，可能不容易檢測到，在一般的alignment分析中應該也不容易排列好，看起來也不是很容易被探討的疾病種類。

不過幾篇文獻看起來是特別的一群基因疾病 Mirkin,S.ExpandableDNArepeatsandhumandisease. Nature 447, 932–940(2007).https://doi.org/10.1038/nature05977UsdinK,HouseNC,FreudenreichCH.RepeatinstabilityduringDNArepair:Insightsfrommodelsystems. CritRevBiochemMolBiol.2015;50(2):142-167.doi:10.3109/10409238.2014.999192McIvorEI,PolakU,NapieralaM.Newinsightsintorepeatinstability:roleofRNA•DNAhybrids. RNABiol.2010;7(5):551-558.doi:10.4161/rna.7.5.12745Li,D.,Pan,S.,Zhang,H. etal. AcomprehensivemicrosatellitelandscapeofhumanY-DNAatkilobaseresolution. BMCGenomics 22, 76(2021).https://doi.org/10.1186/s12864-021-07389-5Ajjugal,Y.,Kolimi,N.&Rathinavelan,T.SecondarystructuralchoiceofDNAandRNAassociatedwithCGG/CCGtrinucleotiderepeatexpansionrationalizestheRNAmisprocessinginFXTAS. SciRep 11, 8163(2021).https://doi.org/10.1038/s41598-021-87097-y 從下面的圖也可以看出來在不同基因甚至區段上面的這種重複序列，可能跟不同的疾病相關連，看到這邊真的驚嘆人類基因體的奧秘，另一個角度來看，人類的疾病也可以看成是基因多型性的一種表現吧！ fromMirkin,S.ExpandableDNArepeatsandhumandisease. Nature 447, 932–940(2007).https://doi.org/10.1038/nature05977 雙基因或多基因遺傳模式(Digenic/OligogenicMode) 顧名思義就是某一個性狀是由多個基因所造成的，所以當同時有兩個變異發生在兩個基因上時就會造成某個性狀產生，這時候可以稱為Digenicinheritance，這類在之前也是比較少見(當然也是武器不夠好)，慢慢也開始有一些文章開始探討！ Agenome-widecase-onlytestforthedetectionofdigenicinheritanceinhumanexomes.PNAS.2020, 117 (32) 19367-19375; DOI: 10.1073/pnas.1920650117Thedigeniccausalityinfamilialhypercholesterolemia:revisingthegenotype–phenotypecorrelationsofthedsiease.FrontGenet.2021. https://doi.org/10.3389/fgene.2020.572045Geneticmodifiersandoligogenicinheritance.2021.ColdSpringHarborPerspectivesinMedicineDigenicinheritanceandgeneticmodifiers.ClinicalGenetics.2018.https://doi.org/10.1111/cge.13150 陳沛隆醫師所列出的每一點都有蠻多可學習的地方，也可以一窺所謂遺傳基因體學的面貌！ 2021年07月19日2021年07月21日發表留言這邊分享一下最近一個清洗資料的流程，做生物資訊的雜活其中一個重要的事情就是把來自各方的資料整合在一起，許多細節是必須把手弄髒才知道的！問題最近幫忙解決的這個問題是科內用來出次世代定序報告系統的某個資料表，自從2016年的助理離職，就沒有人能幫忙更新，這也是臨床檢驗科室的問題，老店員工資深，很難有人願意重新投入學習寫程式清資料等等，老闆也不一定知道這箇中的重要，不過相信這是可以慢慢改變的。

這個資料表暫稱Hotsopt.bed，是用來幫忙次世代定序之Panel在定序後的生物資訊流程中作為資料註解的資料表，表格長得如下面這樣：這是用來幫助次世代分析流程中，當遇到定序品質不好的區域，能把此區域已知具有臨床意義的變異點給吐出來。

整個資料表很單純，第一欄是染色體位置、第二和第三欄是這個位置的開始和結束、第四欄是跟這位置相關的臨床位點ID（舊版本是用rsID，我接手後應該會改成clinvarID，比較貼近需求）、第五欄則是綜合這個位置的變異資料以及變異起始前一位的序列，最後一欄則是這區域為在哪個targetpanel的Amplicon。

這個表格目前只想放在clinvarDB上面已經住解為Pathogenic和LikelyPathogenic的位點。

該串接的資料庫:NCBIclinvar,dbSNP 從上面的問題，可以知道工作重點是：建立能定期下載特定基因列表的clinvar註釋，然後在看這些位點為在哪個panel的amplicon，以及此位點的序列變化和從參考人類基因組抓出變異位點起始位置前一位的核酸序列，最後整合成hotspot的格式。

因此需要串接的資料庫為 NCBI:clinvar,dbSNP 第一步：使用NCBIEntrezDirect檢索基因列表最新在clinvar的位點資訊相信這邊的做法有蠻多的，這邊因為前陣子因為想幫科內建立血庫分子資料庫，所以摸了一下NCBI的EntrezDirect，就順勢使用這個工具，EntrezDirect是美國國家生物技術資訊中心(TheNationalCenterforBiotechnologyInformation,NCBI)所提供的一個命令行工具，讓人可以直接使用Unixterminal的方式來針對NCBI內的各個資料庫。

基本上就是下面那個下拉表單所提供的所有資料庫都可以調用。

(超級佛心的，幾個代碼就可以調用全世界最大的生物資料庫ＱＱ) 這個EntrezDirect(EDirect)可以有幾個安裝方式，可以由Anaconda，也可以直接下載後安裝。

(之前有幾篇文章介紹這個命令行工具PubmedE-utilitiesAPI 使用規範,使用python來調用pubmedAPI快速整理文獻,PubmedAPI介紹)，安裝完EntrezDirect後，他會有幾個命令行的函數是可以用的: esearchelinkefilterefetchxtracteinfoepostnquire 藉由組合上面這幾個指令，便能擁有調用NCBI資料的技能，非常實用！且相關的說明文檔有越來越好，相對於幾年前。

這邊所使用的關鍵語法是 forgenein$gene_list do echodownload$gene echo========================== echo"" esearch-dbclinvar-query$gene[gene]| efetch-formatdocsum| xtract-patternDocumentSummary-def"-"\ -elementIdobject_typetitle\ -blockvariation_set-subsetvariation-elementmeasure_idcdna_change\ -blockvariation_set-subsetassembly_set-ifassembly_name-equals"GRCh37"-def"-"-elementchrstartstop\ -blockclinical_significance-def"-"-elementdescriptionlast_valuated\ -blockgenes-subsetgene-ifsymbol-equals"$gene"-def"-"-elementsymbolGeneIDstrand>>gene_clinvar.txt sleep2s echo===============down======= done 上面的代碼主要是使用三個指令：esearch、efetch和xtract，先用esearch去查詢NCBI內對於單一個基因的最新資料，在使用efetch來下載，最後使用xtract來把資料做前處理來整理成比較。

這邊需要花一些的坑就是去調整xtract的pattern，看我們需要什麼資料做後續的處理，然後針對這些資料來做pattern的設計。

每一行都是在這個基因區域中，相關的變異位點資訊，包含其編碼、變異種類、變異細節、其臨床註釋之意義等等。

接者就可以把這個資料去往下做更新。

第二步：將從NCBI下載的資料進行清洗，只留下位點具有Pathogenic或LikelyPathogenic標注的拿到這些資訊後，接者便是應用各種技巧來進行整合。

(資料處理的坑就是這樣，不過也是有趣的地方，每次都會多學到一點點不同的代碼寫法和狀況) 下一步，我們先用R來把這個資料讀進去後，只留下Pathogenic和Likelypathogenic的位點資訊，聽起來簡單，但下面是真實情況的資料：上面是看各個原始資料中，臨床位點的注釋，會發現很多奇怪的狀況，這邊就是一些清資料的活，確認這些不一致的來源，並且將其處理成乾淨的版本，去掉許多注釋可能沒有完成的位點資訊，最後只留下相關的位點。

這邊可以善用dplyr的強大功能搭配字串處理的stringr，我這邊則是使用mutate搭配case_when來做處理。

第三步：利用clinvarID,alleleID來彙整資訊取得新更新的特定基因列表中的變異位點相關的ID資訊後，可以以此為參考，來跟不同資料來做收集。

尋這些位點分別是在Ion的哪個Amplicom上、過濾clinvarVCF檔案取得ref和alt資料、使用位置資訊來從referencegenomefasta來取得前一位置的位點序列。

這邊使用clinvarID,alleleID和其相關的位點來取得下面三個資料取得每個變異位點在Amplicon的位置上|使用bedtools取得每個變異位點前一個序列的核酸資料｜使用seqkit和seqtk取得每個變異位點的實際資訊｜使用VCFtools 這邊可以借助Bedtools來做兩組不同位點資訊的比較，比如位點是否位在特定位置區域上等的分析。

比如這邊我需要做的就是每個位點實際位在的Amplicon位置，這邊就必須要拿位點資料和Amplicon資料來做處理。

bedtoolsintesect-wb\ -aCRC_clinvarBed-bCRC_amplicon_bed|\ cut-f1,2,3,4,5,6,10,14 這邊代碼的意思是去看每一個-a後面的檔案其在-b後面的amplicon範圍，並且將兩個資料合再一起，並且最後使用bash的指定cut，只留下特定想要的欄位供後續的使用。

像是下方的示意圖：另一部分，想要取得特定位置的序列資訊，則可以使用seqkit這個工具，他可以吃bed檔案格式來吐出相關的序列資訊，也可以使用seqkit來清理從NCBI所下載。

這邊可以直接去NCBI的ftp下載參考序列組，其資料夾長得如下：下載後，可以看到其實際fasta檔案有非常多細節，有297個片段（第一次抓參考基因組，通常都以為只有24個染色體片段，實際上每個染色體除了主要資料外，還有很多“補丁”的片段）。

seqkit是一個可以用來取代seqtk的分析命令行工具，可以用來處理和分析fasta和fastq的檔案格式，這樣的的代碼和sed來做清洗，最後只留下23對染色體的參考序列，並且使用seqkit來取變異點前一位置的序列。

下面的代碼也有用到seqtk，用來提取特定的染色體序列出來。

P.S:這邊有一個要小心的坑，使用seqkitsubseq來擷取序列時，用bed檔或是直接下指令，兩者的索引會是不同的。

seqkitseq-nGRCh37_latest_genomic.fna.gz|grep"GRCh37.p13PrimaryAssembly"|grep"NC">primaryAssemble.lst #onlyuseprimaryassemblyhg19referencegenome seqtksubseqGRCh37_latest_genomic.fna.gzprimaryAssemble.lst>onlychr_GRCh37_latest_genomic.fna #renamethehg19referenceheaderandpreprocessofthetitle sed'/^>/d'file.fa|wc-l sed's/NC_.*Homosapiens//'draft_o_onlychr_GRCh37_latest_genomic.fna>draft_1_onlychr_GRCh37_latest_genomic.fna sed's/,GRCh37.p13PrimaryAssembly//'draft_1_onlychr_GRCh37_latest_genomic.fna>draft_2_onlychr_GRCh37_latest_genomic.fna #getthereferencesequencefrombedfile seqkitsubseq--bed$CRCRefAnchorBeddraft_2_onlychr_GRCh37_latest_genomic.fna|\ sed'N;s/\n/\t/'|\ sed's/^>//'|\ sed's/\.//'|\ sed's/://'>$CRCrefAnchor_file #getthereferencesequencefrombedfile seqkitsubseq--bed$EpilepsyRefAnchorBeddraft_2_onlychr_GRCh37_latest_genomic.fna|\ sed'N;s/\n/\t/'|\ sed's/^>//'|\ sed's/\.//'|\ sed's/://'>$EpilepsyAnchor_file 接者，為了取得每個VCF檔案裡面的序列變異細節，會使用VCFtools，這邊也是踩了一個軟體的坑，在VCFtools裡面的snps篩選，所使用的其實是clinvarID而非snpID，這邊真的是頗坑的。

vcftools--gzvcf$vcf_file--snps$Epilepsy_VCF_Bed--recode--recode-INFO-all--out20210717_epilepsy_annotation_VCF 這個代碼的參數意思：–gzvcf是輸入壓縮過的vcf檔案，–snps則是以提供每行一個clinvarID的列表，用來篩選落在這標單的位點資訊。

第三部：把全部資料彙整成最終檔案最後的部分可以在R裡面處理，比較highlevel的資料處理在比較小的資料集中使用R相對方便，因為前面三個檔案都是以tab間隔之檔案，所以讀進去後可以在R裡面彙整成最終的檔案格式。

可以用到dplyr裡面的rename、left_join、filter、mutate來做最終的匯聚。

outputCRC_clinvarBED%>% dplyr::rename('chr'=V1,'start'=V2,'end'=V3,'clinVarID'=V4,'alleleID'=V5,'dbSNP'=V6,'Amplicon'=V7,'Gene'=V8)%>% dplyr::left_join(.,CRC.annotation.VCF,by='clinVarID')%>% dplyr::mutate(Anchor_pos=paste0(chr,'_',as.character(start-1)))%>% dplyr::left_join(.,CRC.annotate.ref.anchorfile,by='Anchor_pos')%>% dplyr::filter(!is.na(REF))%>%dplyr::filter(!is.na(AHCHOR))%>% dplyr::mutate(Info=past0("REF=",REF,";OBS=",ALT,";ANCHOR=",ANCHOR)) 清資料的過程蠻多小細節的，真的是每次都是全新的坑，只是越清會越知道什麼坑是小坑，什麼坑是大坑，以及比較熟悉各種基因資料的格式比如bedformat,VCFformat和各個資料庫中的關聯性。

2021年06月19日發表留言太久沒寫網誌了，這半年咻咻咻的就過惹，沈靜在打造實驗室的忙碌中，之後慢慢分享打造一個具有高通量能力之合成生物學實驗室以及居家實驗室的進展！這邊來稍微摘錄一下六月發表在NatureBiotechnology的文章：Voicesofbiotechleaders。

這篇文章邀請了以下這些在生物科技發展前沿的領導者，談論一下他們對於未來產業的看法，有大學教授、生技創辦人、基金會管理人、創投、大型研究機構負責人等等，雖然實際瀏覽和查閱一下，總合來講還是只邀請了小部分的領導者，裡頭的比爾蓋茲和臉書創辦人老婆PriscillaChan本身就是著名的名人，另外，GeorgeChurchmJohnCumbers,EmilyLeProust,NeriOxman,AvivRegev,J.CraigVenter等人之前就在關注，剩下的其他也是第一次認識，每個人其實只說幾句話，老實說與其閱讀內容，不然看看他們所屬的組織和google一下事蹟，會獲得比較多有趣的資訊，整體來說，都在表達生物科技的進步搭配資訊和運算的升級，將大大在各個層面改變人類的生活，雖然困然依舊很多，不是來自科技，而是來自於社會結構、法律、資源分布不均等等。

： AbasiEneAbong,54Gene,NigeriaKatrineBosley,ArrakisTherapeutics,USACharlotteCasebourn,Theolytics,UKPriscillaChan,ChanZuckerbergInitiative,USAJaniceChen,MammothBioscience,USAMichaelChen,PureTechHealth,USAGeorgeChurch,ProfessoratHarvardUniversity,USAJohnCumbers,SynBioBeta,USATomasdeWouters,PharmaBiome,SwitzerlandHeatherDewey-Hagborg,REFRESHcollective,USAXavierDuporter,EligoBioscience,FranceArturoElizondo,ClaraFood,USAJeremyFarrar,WellcomeTrust,UKBillGates,Bill&MelindaGatesFoundation,USAFrancescoGatto,Elypta,SwedenSebastianGiwa,Elevian,USAJernejGodec,AtlasVenture,USASilviaGold,MundoSano,ArgentinaEmilyLeProust,TwistBioscience,USAJeantineLunshof,ProfatUniversityofGroningen,NetherlandsEddieMartucci,AkiliInternational,USAMichelleMcMurrayHealth,BiotechnologyInnovationOrganization,USAJasonMellad,StartCodon,UKVeronikaOudova,S-Biomedics,BelgiumNeriOxman,MITMediaLab,USAAvivRegev,Genentech,USASarahRichardson,MicroByre,USAChristopherThomasScott,BaylorCollegeofMedicine,USAJakeSherkow,Universityofillinois,USALeahSibener,3TBiosciences,USATeresaTarrago,Exheus,SpainSharonTerry,GeneticAlliance,USAJ.CraigVenter,J.CraigVenterInstitute,USASpinWang,TetraScience,USASajithWickramasekara,Benchling,USAHakimYadi,ClosedLoopMedicine,UKLuhanYang,QihanBiotechnology,ChinaBowenZhao,QuantiHealth,China 2021年02月10日2021年02月12日發表留言最近發現在麻省理工大學媒體實驗室(MITMediaLab)的課程Howtogrow(almost)everything又重啟了，剛好最近在學習做合成生物學領域的實驗，所以感覺是個不錯的學習路引，一慣地野蠻學習。

Howtogrow(almost)everything其實是另一門Howtomakealmosteverything(假如對Howtomakealmosteverything有興趣，可參考這篇介紹文章)的生物版本課程，由哈佛大學GeorgeChurch、MIT的Jacobson以及DavidS.Kong所開設的。

幾年前也有嘗試這個課程，但那時候的理解力還不夠，且自造能力等於零，如今大概比較成熟，有基礎的自造和實驗能力和背景知識。

第一週的課程，算是簡單的開場，以及討論實驗安全和倫理的問題，而GeorgeChurch教授則是分享了整個領域目前在做的十個具有改變人們生活型態潛力的方向，話說，三年前閱讀完GeorgeChurch的書Regenesis，便對其對當代影響真的頗為佩服。

便宜的DNA讀取和合成合成生物學，簡單來說，其實是奠基在過往的分子生物學基礎上，更向前的去定義這個領域，相對於過去已探索生物體現象為主，改為利用生物體現象來創造如工程工具的技術，能將生物技術結合工程思維和快速迭代，主要歸功於我們對於基因定序(讀)和基因合成(寫)的技術進步，由下面GoergeChurch的簡報可以看到，整個技術的進步，是比莫爾定律還誇張的。

首先可以由下圖發現，定序基因也就是讀取生物內的資訊成本快速下降。

fromNIH,SequencingHumanGenomeCost 另一方面，基因合成的價格雖然沒有持續下降，但目前大約200bp以下，每個bp在美金0.07美元左右。

這算是支持整個合成生物學向前的一個基本支持，而目前我們已有利用奈米孔洞蛋白的技術來改善合成和定序的方法，相信未來合成和定序整個基因組會更加的便宜和快速。

使用機器學習來做蛋白質設計隨者定序和合成基因的成本降低，各種高通量的實驗設計變成為可能，隨之而來的巨量資料，便能利用來做近一步的預測，如今火紅的機器學習領域便可以用來設計蛋白質。

下面兩個研究便是很好的典範轉移，將生物實驗從經驗性探索轉成資料導引的科研方式。

雖然在GeorgeChurch的簡報裡面提到他實驗室的科學家PierceJ.Ogden和EricD.Kelsic在2019年的發表，將機器學習應用於基因療法中，探討AAV病毒其外鞘蛋白序列要如何更有效率的去做突變和測試，這個方法學後來變成一間公司DynoTherapeutics，導入於基因療法中。

fromScience 29Nov2019:Vol.366,Issue6469,pp.1139-1143 另外，我自己補充之前閱讀到的趨勢，在CarnegieMellonUniversity最近新成立的自動化科學AutomationScience的主任RobertFMurphy也提到用機器學習的方法學搭配自動化高通量實驗技術。

前陣子看到一篇文章也頗有趣的，利用一組數據102個可能的測試組合來做無細胞表達系統的最佳化。

fromBorkowski,O.,Koch,M.,Zettor,A. etal. Largescaleactive-learning-guidedexplorationforinvitroproteinproductionoptimization. NatCommun 11, 1872(2020).https://doi.org/10.1038/s41467-020-15798-5 使用DNA來當作儲存的工具去氧核醣核酸，也就是DNA，本身以A、T、C、G四種組合，其實本質上，就是可以轉換成四進位的方式來儲存原本二進制的資料，比如影片、照片等等資訊，最早直接使用DNA來儲存“資料”的概念在1988年左右，由JoeDavis藝術家就有提到，但當時應該是處在“概念”階段，而在2012年左右GeorgeChurch教授的實驗室也提出使用DNA作為資料儲存的方式，將一張照片轉換成四進制後儲存成ATCG的編碼，裡面也提及DNA作為儲存工具，其在資料密度及儲存穩定上是相當不錯的，這也歸功於定序和合成成本的下降，雖然目前合成的價錢相對來說較高。

fromChurch,GeorgeM.,YuanGao,andSriramKosuri.2012.“Next-GenerationDigitalInformationStorageinDNA.”Science337(6102):1628. 也可以聽聽華大基因的podcast天方燁談：未來用什麼儲存資料在2021年2月2號的這集，也簡單地談談用DNA做儲存的好處和近期發展，裡頭提到的哥倫比亞大學HarrisWang教授在這方面的努力，他本身研究生時就在GeorgeChruch實驗室開發出MAGE方法學。

重新編碼基因：抵禦病毒感染記得之前中國科學家賀建奎在2018年愛滋寶寶基因編輯事件中，其實就讓大家正視人類已經具有如此威力的技術，它實際上就是將人類的CCR5基因修改，這個基因是愛滋病毒進入人體的細胞表面受體，雖然這技術開啟很多可能，但也延伸許多未知的問題，比如這樣修改雖然能避免愛滋病感染，但會不會造成其他問題，畢竟CCR5是身體內本來就有功能的受體蛋白，另外，修改CCR5的過程多多少少有可能會不小心修改到其他基因，這些都是很多科學研究需要進一步探索的。

在2016年GeorgeChurch團隊的一篇研究，目前生物體將三個RNA代碼對應相應的蛋白質生產或是相關指定，所以三碼代表自然界有4*4*4種可能，也就是64個相對應代碼，實際上，很多代碼是產生一樣的氨基酸的，基於這個思路，他們團隊思考重新編碼大腸桿菌，將64個氨基酸對應的代碼，縮減成57個，看是否會有因此對於大腸桿菌的一些正常生存能力造成影響。

fromOstrov,Nili,MatthieuLandon,MarcGuell,GlebKuznetsov,JunTeramoto,NatalieCervantes,MinervaZhou,etal.2016.“Design,Synthesis,andTestingtowarda57-CodonGenome.”Science353(6301):819–22 這樣的實驗在以前是看起非常不可能的，大腸桿菌的基因組有4百60萬個鹼基，所以這樣大規模的編輯得力於如今許多技術的發展。

近一步來說，這些方法學在醫學上可以發展細胞和基因療法，比如這五年來發展飛快的CART療法，將病人免疫T細胞收集出來後，進行基因工程，在注射回病人的療法，讓這些Ｔ細胞能便是這些癌症細胞。

fromLarson,R.C.,Maus,M.V.RecentadvancesanddiscoveriesinthemechanismsandfunctionsofCARTcells. NatRevCancer (2021).https://doi.org/10.1038/s41568-020-00323-z 重新調控皮膚細胞轉化成大腦細胞前面提到的大都以基因層面的編輯，但一個人體，同樣的基因體，有的細胞變成皮膚細胞，有的則變成大腦細胞，這些就是在調控層次的變化，雖然細胞調控牽涉到的機制非常複雜，但轉錄因子是其中具有重要角色的，藉由調控這些轉錄因子的表達，便能將細胞重新改變。

在這篇2020年的研究中，科學家變利用漫病毒表現載體(Lentiviralexpressionvector)來調控誘發性幹細胞(hiPSCs)，看其會造成分化上有何影響。

fromNg,A.H.M.,Khoshakhlagh,P.,RojoArias,J.E. etal. Acomprehensivelibraryofhumantranscriptionfactorsforcellfateengineering. NatBiotechnol (2020).https://doi.org/10.1038/s41587-020-0742-6 改造器官用於移植器官移植在目前來說，技術已經臻於成熟，但苦於人類器官的來源非常短缺，從器官移植資料庫可以看出，能提供器官的捐贈者相對於需求者，兩者間有巨大的需求，那從跟人類基因體較相近的動物身上取得器官，可能是另一種解法，但其中有許多要克服的困難。

fromSykes,Megan,andDavidH.Sachs.2019.“TransplantingOrgansfromPigstoHumans.”ScienceImmunology4(41).https://doi.org/10.1126/sciimmunol.aau6298. 跨物種的移植(Xenotransplantation)要面對複雜的免疫排斥作用、栓塞和凝血功能之影響、組織相容性蛋白分型、豬內源性逆轉錄蛋白(Porcineendogenousretrovirus )等等，所以利用基因編輯技術來修改器官上面的受體，可以一步步慢慢解決這些困難，其中目前做得蠻好的是將豬內源性逆轉蛋白序列從豬器官中提除。

器官強化抗老化及逆齡科學老化是個非常複雜的過程，有非常多個理論在描述所謂老化的過程，目前認為由兩個機制來影響，一個是細胞內建的凋亡機制(Programmingage)和細胞損傷造成，可以把他分成九個分子層面的因素：(1).基因組不穩定、(2).端粒耗損(telomereattrition)、(3).表觀調控改變、(4).蛋白質代謝功能散失、(5).代謝調控失衡、(6).粒線體功能異常、(7).細胞複製減緩(cellularsenescence)、(8).幹細胞耗盡(stemcellexhaustion)、(9).細胞內通訊改變。

fromRebelo-Marques,Alexandre,AdrianaDeSousaLages,RenatoAndrade,CarlosFontesRibeiro,AnabelaMota-Pinto,FranciscoCarrilho,andJoãoEspregueira-Mendes.2018.“AgingHallmarks:TheBenefitsofPhysicalExercise.”FrontiersinEndocrinology9(May):258. 當可以把老化解構成不同分子層面的事件後，便能藉由調整生物分子路徑，來達成所謂的逆齡。

在2019年，GeorgeChurch的團隊發表一篇論文，使用腺病毒來做基因療法，針對三個基因:FGF21、TGFbetaR2、HFTC3，這三個基因已知跟許多人類慢性病相關，如糖尿病、關節炎和腎臟疾病，他們使用老鼠疾病模型來做驗證，觀察到在心臟衰竭的小鼠模型中，觀察到了58%的心臟功能提升，在αSMA表現量有38%降低以及腎臟髓質細胞萎縮下降約75%。

目前也成立了一間公司Rejuvenatebio，先以寵物為標的在做發展。

資訊來源：定序和合成基因的價錢變化 Howtogrowalmosteverything,week1material,MITmedialab 美國NIH定序人類基因組的價錢https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost 機器學習在蛋白質設計上的應用 Ogden,PierceJ.,EricD.Kelsic,SamSinai,andGeorgeM.Church.2019.“ComprehensiveAAVCapsidFitnessLandscapeRevealsaViralGeneandEnablesMachine-GuidedDesign.”Science366(6469):1139–43. Borkowski,O.,Koch,M.,Zettor,A. etal. Largescaleactive-learning-guidedexplorationforinvitroproteinproductionoptimization. NatCommun 11, 1872(2020).https://doi.org/10.1038/s41467-020-15798-5 將DNA用在資料儲存 Church,GeorgeM.,YuanGao,andSriramKosuri.2012.“Next-GenerationDigitalInformationStorageinDNA.”Science337(6102):1628. 重新編碼基因 Ostrov,Nili,MatthieuLandon,MarcGuell,GlebKuznetsov,JunTeramoto,NatalieCervantes,MinervaZhou,etal.2016.“Design,Synthesis,andTestingtowarda57-CodonGenome.”Science353(6301):819–22. 基因和細胞療法 LiuX,ZhangY,ChengC,etal.CRISPR-Cas9-mediatedmultiplexgeneeditinginCAR-Tcells. CellRes.2017;27(1):154-157.doi:10.1038/cr.2016.142 Larson,R.C.,Maus,M.V.RecentadvancesanddiscoveriesinthemechanismsandfunctionsofCARTcells. NatRevCancer (2021).https://doi.org/10.1038/s41568-020-00323-z 重新調控將皮膚細胞改造成大腦 Ng,A.H.M.,Khoshakhlagh,P.,RojoArias,J.E. etal. Acomprehensivelibraryofhumantranscriptionfactorsforcellfateengineering. NatBiotechnol (2020).https://doi.org/10.1038/s41587-020-0742-6 改造移植用器官 Waystoreducethekidneyshortage,NewYorkTimes,2014 Niu,Dong,Hong-JiangWei,LinLin,HaydyGeorge,TaoWang,I-HsiuLee,Hong-YeZhao,etal.2017.“InactivationofPorcineEndogenousRetrovirusinPigsUsingCRISPR-Cas9.”Science357(6357):1303–7. Yang,Luhan,MarcGüell,DongNiu,HaydyGeorge,EmalLesha,DennisGrishin,JohnAach,etal.2015.“Genome-WideInactivationofPorcineEndogenousRetroviruses(PERVs).”Science350(6264):1101–4. Sykes,Megan,andDavidH.Sachs.2019.“TransplantingOrgansfromPigstoHumans.”ScienceImmunology4(41).https://doi.org/10.1126/sciimmunol.aau6298. Yang,Siyoung,NoriyukiFujikado,DmitriyKolodin,ChristopheBenoist,andDianeMathis.2015.“ImmuneTolerance.RegulatoryTCellsGeneratedEarlyinLifePlayaDistinctRoleinMaintainingSelf-Tolerance.”Science348(6234):589–94. 抗老化 Khosla,Sundeep,JoshuaN.Farr,TamaraTchkonia,andJamesL.Kirkland.2020.“TheRoleofCellularSenescenceinAgeingandEndocrineDisease.”NatureReviews.Endocrinology16(5):263–75. Kruempel,JosephC.P.,MarshallB.Howington,andScottF.Leiser.2019.“ComputationalToolsforGeroscience.”TranslationalMedicineofAging3(November):132–43. Magalhães,JoãoPedrode,andOlivierToussaint.2004.“GenAge:AGenomicandProteomicNetworkMapofHumanAgeing.”FEBSLetters571(1-3):243–47. Melzer,David,LukeC.Pilling,andLuigiFerrucci.2020.“TheGeneticsofHumanAgeing.”NatureReviews.Genetics21(2):88–101. Partridge,Linda,MatiasFuentealba,andBrianK.Kennedy.2020.“TheQuesttoSlowAgeingthroughDrugDiscovery.”NatureReviews.DrugDiscovery19(8):513–32. Rebelo-Marques,Alexandre,AdrianaDeSousaLages,RenatoAndrade,CarlosFontesRibeiro,AnabelaMota-Pinto,FranciscoCarrilho,andJoãoEspregueira-Mendes.2018.“AgingHallmarks:TheBenefitsofPhysicalExercise.”FrontiersinEndocrinology9(May):258. Rijt,Sannevander,MarteMolenaars,RebeccaL.McIntyre,GeorgesE.Janssens,andRiekeltH.Houtkooper.2020.“IntegratingtheHallmarksofAgingThroughouttheTreeofLife:AFocusonMitochondrialDysfunction.”FrontiersinCellandDevelopmentalBiology8(November):594416. Tacutu,Robi,DanielThornton,EmilyJohnson,ArieBudovsky,DiogoBarardo,ThomasCraig,EugeneDiana,etal.2018.“HumanAgeingGenomicResources:NewandUpdatedDatabases.”NucleicAcidsResearch46(D1):D1083–90. 2020年11月28日發表留言這篇是分享閱讀PaulGraham十一月的文章HowtoThinkForYourself。

沒聽過PaulGraham的人也可以趁機了解一下，他算是矽谷創業圈的老前輩，創辦的YCombinator是目前很重要的一個美國新創孵育器。

他本身會把自己的小散文貼在一個簡單的網站來分享，文字都相當的淺顯和易懂，看得出來是非常厲害的寫手。

這篇文章HowtoThinkForYourself，其實想表達的東西很簡單，如何成為一個獨立思考的人，以及怎樣的特質能保持獨立思考的特性(Independent-mindedness)，文中很簡單地提到三個重要的特點，且彼此可以互相加強：對於事實的吹毛球疵fastidiousnessabouttruth不易被說服該如何想resistancetobeingtoldwhattothink好奇心curiosity 保持獨立思考這件事，不是在唱高調，而是很多職業生存的基本要求。

科學家，假如都跟同儕想一樣的事情，那麼不會有什麼新的產出;投資家，假如都跟市場想的一模一樣，那麼能賺取的利潤會相當有限，甚至進一步對於創業家來說，你認為有趣的點子在當時大家也都認同的話，鐵定已經有公司創立了，最好是你的想法對大多數人來說都是不熟悉的，甚至覺得不太對，但你有自己獨到的看法，那麼就會有機會。

獨立思維(Indenpendent-mindedness)和從眾思維(Conventional-mindedness) 傳統的教育其實本質上是不鼓勵獨立思維的人，因為往往使用譬如分數來最為排序跟評判的工具，因此在傳統教育中，從小一路領先的人往往會自覺得是所謂具備獨立思維的人，但實際上往往相反，所以有從眾思維的人往往覺得自己是具有獨立思維的人，反之，具有獨立思維的人其實常常怕自己其實是具有從眾思維的，也因此種狀況在職場上會觀察到鄧寧-克魯格效應(Dunning-Krugereffect)，這個效應是在描述所謂的“傻瓜認為自己是明智的，而聰明的人認為自己是個傻瓜”。

如何讓你自己具有獨立思維？雖然作者認為獨立思維比較偏向於是天生的特質，但不代表是不能去加強的，比如不去注意當前主流的想法是什麼，雖然不去關注主流的想法和資訊會讓人感到痛苦的事情，再來則是結交具有獨立思維的人。

當你察覺到一個環境讓你有重回到學生時代的感受，那麼有可能就是處在一個從眾思維的團體之中(不過，可能要看是怎樣的高中吧xd)，可以盡量去接觸各式各樣的人，或是地方，甚至去旅行到一個不一樣的地方與當地人交流，都是一個不錯的方式，簡單一點的話，可以閱讀歷史，從中取得一些不同的觀點來看這世界。

2020年11月01日2021年01月13日發表留言不知道是否是閱讀太多跟儀器開源和生物自造的文章，慢慢的也感受到很多生物科技的進入門檻，比想像中的低，最近閱讀到一篇在YC合夥人賈里德.傅利曼(JaredFriedman)的文章HowBiotechStartupFundingWillChangeintheNext10Years也從某種程度在驗證這個想法。

這篇文章的作者賈里德.傅利曼(JaredFriedman)也是之前YC投資的創辦人，目前則是在YC擔任合夥人，幫助創業者來解決他們遇到的問題。

生技領域的資金運作變化這篇文章的起頭是在描述創投在投資生技業以及大部分生技公司募資和創立的變化，雖然現今的生技創業之模式，為所謂的資本主導模式，也就是資本方有了幾個覺得可行的商業想法，便去找信任的職業經理人或是在創投的駐點創業家來運營，通常都需要大約億元以上的起始資金來啟動公司，如今在YC所投資的生技公司，慢慢有了轉變，新的創業架構有了不一樣的方式，可以用大概300萬左右的初始成本便能進行產品的開發。

生技領域的開發門檻降低而能有這樣的轉變，主要是越來越多的公司開始提供生技公司的研發配套服務，生技公司不需要在初始就投入太多的設備成本，即能開始發展，比如像是ScienceExchange平台，提供各式各樣的生醫研發之外包服務，Quartz和HappiLabs兩間公司想要幫忙解決最耗費人力和心思的實驗室器材和試劑管理，也有如Opentron這樣的公司提供相對便宜的自動化移液設備，甚至有一間公司Strateos，讓生物學家變成直接使用他們的雲端平台，便能讓自動化機台來做相關的測試和開發。

CloudRoboticLab,PicturefromStrateoswebsite 除了讓開發成本變得更低外，法規、專利和臨床試驗是生醫領域創業的另外一個門檻，但如今像是CognitionIP將專利佈局的成本變得很低，Enzyme這間公司則是幫你處理遞交FDA相關申請的雲端文件系統。

YC的扶植案例:Shasqi和Athelas 在2015年的時候，一位美國醫師JoseMejiaOneto離開骨科住院醫師訓練，想創辦一間想發展精準化療藥物的公司，他加入YC的時候，連成功的動物模型試驗都沒有，利用YC的啟動資金，他才開始執行老鼠的乳癌模型來驗證他的想法是否可行，另外一間公司Athelas，創辦人則是還在大學時就開始發展，其用大約120萬元的資金便建立第一個可行的原型，在YC的時候，便執行了一個約350人的試驗，取得相當不錯的結果，如今這個產品已經獲得FDA的核可。

逐步募資相對於一次性募資相對於過去，如今的啟動成本相對低廉，在YC也看到越來越多的生技公司創辦人是博士後或是研究生，而非傳統的創投背景人士來創辦，如今生技創業領域的創投也開始轉變其投資模式，可以預期現在才是生技領域投資的初始階段，未來相關的資本熱錢會越來越多。

延伸賈里德.傅利曼(JaredFriedman)在其2019年在YCStartupschool時給予一個演講Adviceforhard-techandbiotechfounders，內容也相當精采，鼓勵人一開始便選擇一個困難進入的題目，其中也有談論其想法和相關的建議。

2020年06月24日2020年06月24日發表留言這個演講系列由聖路易斯華盛頓大學的ObiL.Griffith教授做主席來規劃，有四個子演講組成，線上演講的連結在此。

腫瘤研究者該如何面對巨量高通量的定序資料呢?本演講主要在談論有甚麼資訊處理工具可以用來幫助臨床上對於這些資料的管理、分析、視覺化和判讀，另外，也會介紹一些基本的觀念、標準、指引。

最後，也會分享在臨床判讀腫瘤圖片和腫瘤影像在生物標誌發展的方式。

除了ObiGriffith教授，還有約翰霍普金斯的計算機學家RachelKarchin、哈佛大學放射學教授AndreyFedorov、華盛頓聖路易斯大學DanielMarcus。

將定序資料導入臨床腫瘤科使用，最大的障礙就是如何去解讀變異，或是去判斷哪個變異是有臨床意義的，到現在這始終是個"百萬美元"的問題，下面這張圖便是來自於Griffith教授在2014年的文章:Organizingknowledgetoenablepersonalizationofmedicineincancer，裡面談論到他覺得可能的解法，便是建立一個開源群眾註解和判讀的知識庫。

GoodBM,AinscoughBJ,McMichaelJF,SuAI,GriffithOL.Organizingknowledgetoenablepersonalizationofmedicineincancer. GenomeBiol.2014;15(8):438.Published2014Aug27.doi:10.1186/s13059-014-0438-7 Standardizedandgenome-wideclinicalinterpretationofcomplexgenotypesforcancerprecisionmedicine 第一個演講便是ObiL.Griffith教授介紹其發展的線上資料庫CIViC，也算是他2014年提出的概念的實踐版本，一個可以用來做腫瘤變異判讀的知識庫，其終極目地為用來做腫瘤精準治療所使用，其代碼開源且提供API串接，且期望建立一套良好的註解規則讓不同層級的人可以為其做貢獻。

CIViCisacommunityknowledgebaseforexpertcrowdsourcingtheclinicalinterpretationofvariantsincancer.2017.NatureGenetics Informaticstoolsforhigh-throughputanalysisofcancermutations 第二個部分是由約翰霍普金斯的計算機學家RachelKarchin發展的工具OpenCRAVAT，相對於前一部分想要使用專家和社群的方式來解決基因變異註解的問題，這個工具相對於CIVIC，比較著重在串接各種資料庫和用計算生物學的方法給予變異一些排序和解釋。

IntegratedInformaticsAnalysisofCancer-RelatedVariants.2020.JCOClinCancerInform 這個系列也分享了一些目前基因資訊處理和共享的指引，主要是由美國醫學遺傳學暨基因體學學會(ACMG)提到的 StandardsandGuidelinesfortheInterpretationofSequenceVariants:AJointConsensusRecommendationoftheAmericanCollegeofMedicalGeneticsandGenomicsandtheAssociationforMolecularPathology.2015 StandardsandGuidelinesfortheInterpretationandReportingofSequenceVariantsinCancer.2017 Standardoperatingprocedureforcurationandclinicalinterpretationofvariantsincancer.2019 TheFAIRGuidingPrinciplesforscientificdatamanagementandstewardship.2016 2020年06月17日2020年06月24日2則迴響這一系列主要有鑒於最近發現我的寫作能力實在是有很多提升空間，所以想再鍛鍊寫作肌肉，這系列主要來自於Coursera:WritingintheScience的上課心得和筆記。

起手式當然是重新加強一下觀念，重溫一些原則，如何往一個更好的寫手邁進：閱讀、刻意去關注文章是如何寫的、並且模仿看看每日或是定期的寫作請拋棄堆砌文字的壞習慣先談談(找好朋友喝咖啡的意思)你做的研究，再下手來撰寫不要等待靈感再來寫作接受寫作對於任何人來說都是很困難的不段重寫，沒有人第一次就能寫好，大多數人留太少時間再重寫，都想一次到位聽完這些，就一定要列一下自己目前看過很會寫作的作者，當作觀摩目標，下面這些是我自己回億起來，閱讀他們的文字很令人愉悅和開心，有點會上癮的那種滋味！ JohnM.ChamberHadleyWickhamJalesJ.BermanStephanWolframUriAlonBernhardPalssonLeroyHoodBradleyEfronTrevorHastieTimO’Reily 收集幾本跟寫作相關的好書： WriteNoMatterWhat:AdviceforAcademicsbyJoliJensen分享作者自己在學術寫作遇到的困擾，以及他的解法，娓娓道來的敘述方式很休閒紓壓，比較像長者在經驗分享和傳承HowtoWriteaLot:APracticalGuidetoProductiveAcademicWritingbyPaulJ.SilvaiaWritegreatessaybyPeterLevinMasteringAcademicWritingintheSciences:AStep-by-StepGuidebyMarialusiaAliotta針對整個寫作流程來談述，從寫作前、草稿、重寫、編輯、潤稿等OnWritingWellbyWilliamZinesser經典叢書，針對寫作本身來分享，並非特定用於學術寫作，專注在相對概念的建立，如減少贅字、簡化、風格等等WritinginEnglishfortheMedicalScience:APracticalGuidebySteveHart針對醫學寫作，著墨於細節的介紹，如時態、名詞、動詞、介系詞、標題、引用等等，文字簡單易懂，以範例為主來介紹，有清晰的重點提示。

這邊有幾個範例，來體會一下如何把字句更加地讓人易理解，下面是一個節錄自TheJournalofClinicalOncology的開頭： Adoptivecelltransfer(ACT)immunotherapyisbasedontheexvivoselectionoftumor-reactivelymphocytes,andtheiractivationandnumericalexpressionbeforereinfusiontotheautologoustumor-bearinghost 仔細思考上面這個段落，會發現一個學術論文很喜愛的模式，過度使用“名詞”（clunkynouns），假如要讓字串更簡單俐落，就必須要減少這類使用，以“動詞”主導論述。

Thesefindingsimplythattheratesofascorbateradicalproductionanditsrecyclingviadehydroascorbatereductasetoreplenishtheascorbatepoolareequivalentatthelowerirradiance,butnotequivalentathigherirradiancewiththerateofascorbateradicalproductionexceedingitsrecyclingbacktoascorbate" 修改過後如下，整體的可讀性增加，更容易理解且順暢。

Thesefindingsimplythat,atlowirradiation,ascorbateradicalsareproducedandrecycledatthesamerate,butathighirradiation,theyareproducedfasterthantheycanberecycledbacktoascorbate 如何寫的簡白(EffectiveWriting)的三個要點減少不必要且意義模糊的用字原則(Cuttheclutter)主動語氣使用洽當的動詞盡可能減少多餘的字，你永遠都會驚訝於能使用更少的字來表達同樣的道理：範例一 Thispaperprovidesareviewofthebasictenetsofcancerbiologystudydesign,usingasexamplesstudiesthatillustratethemethodologicchallengesorthatdemonstratesuccessfulsolutionstothedifficultiesinherentinbiologyresult.Thispaperprovidesareviewofthebasictenetsofcancerbiologystudydesign,usingasexamplesstudiesthatillustratethemethodologicchallengesorthatdemonstratesuccessfulsolutionstothedifficultiesinherentinbiologyresult.[高手改] 範例二 Asitiswellknown,increasedathleticactivityhasbeenrelatedtoaprofileoflowercardiovascularrisk,lowerbloodpressurelevels,andimprovedmuscularandcardio-respiratoryperformanceIncreasedathleticactivityisknowntolowercardiovascularriskandpressurelevels,andimprovedmuscularandcardio-respiratoryperformance[土炮練習]Increasedathleticactivityisassociatedwithlowercardiovascularrisk,lowerbloodpressure,andimprovedfitness.[高手改的] 範例三 TheexperimentaldemonstrationisthefirstofitskindandisaproofofprinciplefortheconceptoflaserdrivenparticleaccelerationinastructureloadedvacuumTheexperimentsdemonstratetheproofofconceptthatlaser-drivenparticlecanaccelerateinthestructureloadedvacuum.[土炮練習]Theexperimentprovidesthefirstofprincipleoflaser-drivenparticleaccelerationinastructure-loadedvacuum.[高手改] 範例四 Braininjuryincidenceshowstwopeakperiodsinalmostallreports:ratesarethehighestinyoungpeopleandtheelderlyBraininjuryincidencepeaksinyoungandtheelderly[高手改] 2020年03月12日2020年03月18日發表留言如何創造一個願意探索、分享和動手實作的社群，是一個很有意義也充滿挑戰的事情，而這樣的社群在未來對於孕育新的人才和技術是不可或缺的，如今很多有趣的進展和技術都是藉由不同領域的人互相切磋討論而展開的。

如中研院物理所江宏仁老師創辦的科學Make臉書群組，是台灣很有活力的一個科研社群，以顯微鏡觀察為主，從開發手機顯微鏡的套件，搭配群眾捐款的方式，算是可自給自足的生態圈，在其中感受到江老師對其之後的發展有一定的想像，非常期待。

而單就討論生物科技相關議題的社群，如TheInvestigatorTaiwan，也聚集一群熱愛科學的朋友。

跨越學術的藩籬，興趣驅動的群體這時代對於領域的劃分越來越薄弱，只要你對於某件事情有興趣，一定的耕耘下其實都有機會能參與其中，免費的學習資源和世界各地的同好分享非常豐沛，其實只要能上網，對英文閱讀的能力尚可，基本上都能取得相關想了解的資訊，除此之外，社會環境的改變，普遍更好的社經條件也讓部分人有多餘的心力可以投入在滿足自己的好奇心之活動，很多科學儀器和實驗的門檻不段降低，不論是花費和其中的操作細節都能較以前用較少成本取得。

圖片來自Science雜誌的文章Communityscience:Notjustahobby 在2019年8月刊登在科學雜誌的文章：社區科學-不只是興趣，裡面提到以麻省理工學院多媒體實驗室主辦的GlobalCommunityBioSummit，描述這一個新興的趨勢，把以往只鎖在學術殿堂裡的生物技術、基因工程、合成生物學打開成全民可參與的一個舞台，麻省理工學院社群生命科學技術計畫的負責人DavidKong描述這個希望能進一步打造全球生命科學熱愛者社群的努力，這個社群其實本身就是非常多樣性，其中有DIYBiologist、CommunityBiologist、Biohackers、Biomakers等等，每年一次的會議將這群人聚集一起互相分享，這邊是他們2019年的議程，可以由此一窺他們都在討論些甚麼。

DavidKong在2017年在NatureBiotechnology發表了一篇Open-source,community-drivenmicrofluidicswithMetafluidics的文章，其創立了一個微流體設計分享平台Metafluidics，也描述了一個框架，在不同層次裡分享相關資訊以及已知的平台： Figure1fromNatureBiotechnology35,523–529(2017) 越來越多的跡象顯示這類創新的機會慢慢從純粹軟體、電機轉移到生物科技，這個以往認為一定要很大資本才能有所發揮的地方。

隨著許多基本分子生物學研究需要的儀器都有開源版本後，這個門檻正在逐漸降低，比如OpenPCR、PocketPCR，相信可見的將來會有更多的人尋者自己的好奇心，用更開放的心胸來探索這世界以及與其他人分享! 文章分頁較舊的文章搜尋：近期文章 2021台灣臨床次世代定序指引探討和比較 2021臨床次世代定序實務與應用概論 [實戰紀錄]整理基因變異VariantCallFormat檔案：使用NCBIAPI+bedtools+VCFtools+Shellscripts 閱讀分享：生技前峰們對未來的看法 Howtogrow(almost)everything:學習筆記-Week 1.a 近期迴響 2021台灣臨床次世代定序指引探討和比…在2021臨床次世代定序實務與應用概論[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻[實戰紀錄]整理基因變異Variant…在PubmedE-utilitiesAPI 使用…[實戰紀錄]整理基因變異Variant…在PubmedAPI介紹[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻文章存檔 2021年八月 (2) 2021年七月 (1) 2021年六月 (1) 2021年二月 (1) 2020年十一月 (2) 2020年六月 (2) 2020年三月 (1) 2019年十月 (1) 2019年九月 (1) 2019年八月 (1) 2019年五月 (2) 2019年四月 (6) 2019年三月 (2) 2019年二月 (1) 2019年一月 (1) 2018年十二月 (1) 2018年十一月 (2) 2018年十月 (1) 2018年九月 (2) 2018年八月 (1) 2018年七月 (8) 2018年六月 (1) 2018年五月 (7) 2018年四月 (9) 2018年三月 (5) 2018年二月 (6) 2018年一月 (8) 2017年十二月 (2) 2017年十一月 (2) 2017年十月 (6) 2017年九月 (2) 2017年八月 (9) 2017年七月 (2) 2017年六月 (4) 2017年五月 (16) 2017年四月 (20) 2017年三月 (13) 2017年二月 (7) 2017年一月 (14) 2016年十二月 (10) 2016年十一月 (21) 2016年十月 (17) 2016年八月 (4) 2016年六月 (9) 2016年五月 (2) 2016年四月 (3) 2016年三月 (3) 2016年二月 (13) 2016年一月 (27) 2015年十二月 (1) 2015年十一月 (2) 2015年十月 (8) 分類 bioinformatics(5) Biostatistics(1) book(1) cancer(3) Code(3) docker(1) EnsemblAPI(2) GeneOntology(4) genedock實習準備(1) ggplot2(1) LDT(1) MedicalInformation(3) python(1) R(7) reddit(1) RNAseq(9) samtools(1) Softward(2) 未分類(287) 其它註冊登入訂閱網站內容的資訊提供訂閱留言的資訊提供 WordPress.com 我們的基因體時代Our"Gene"ration learningtogetherwithgreatscientist,codingandbioinformatics 搜尋：近期文章 2021台灣臨床次世代定序指引探討和比較 2021臨床次世代定序實務與應用概論 [實戰紀錄]整理基因變異VariantCallFormat檔案：使用NCBIAPI+bedtools+VCFtools+Shellscripts 閱讀分享：生技前峰們對未來的看法 Howtogrow(almost)everything:學習筆記-Week 1.a 近期迴響 2021台灣臨床次世代定序指引探討和比…在2021臨床次世代定序實務與應用概論[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻[實戰紀錄]整理基因變異Variant…在PubmedE-utilitiesAPI 使用…[實戰紀錄]整理基因變異Variant…在PubmedAPI介紹[實戰紀錄]整理基因變異Variant…在使用python來調用pubmedAPI快速整理文獻文章存檔 2021年八月 2021年七月 2021年六月 2021年二月 2020年十一月 2020年六月 2020年三月 2019年十月 2019年九月 2019年八月 2019年五月 2019年四月 2019年三月 2019年二月 2019年一月 2018年十二月 2018年十一月 2018年十月 2018年九月 2018年八月 2018年七月 2018年六月 2018年五月 2018年四月 2018年三月 2018年二月 2018年一月 2017年十二月 2017年十一月 2017年十月 2017年九月 2017年八月 2017年七月 2017年六月 2017年五月 2017年四月 2017年三月 2017年二月 2017年一月 2016年十二月 2016年十一月 2016年十月 2016年八月 2016年六月 2016年五月 2016年四月 2016年三月 2016年二月 2016年一月 2015年十二月 2015年十一月 2015年十月分類 bioinformatics Biostatistics book cancer Code docker EnsemblAPI GeneOntology genedock實習準備 ggplot2 LDT MedicalInformation python R reddit RNAseq samtools Softward 未分類其它註冊登入訂閱網站內容的資訊提供訂閱留言的資訊提供 WordPress.com 分類 bioinformatics Biostatistics book cancer Code docker EnsemblAPI GeneOntology genedock實習準備 ggplot2 LDT MedicalInformation python R reddit RNAseq samtools Softward 未分類追蹤已追蹤我們的基因體時代Our"Gene"ration 加入其他56位關注者我要註冊已經有WordPress.com帳號了？立即登入。

我們的基因體時代Our"Gene"ration 自訂追蹤已追蹤註冊登入回報此內容在讀取器中檢視網站管理訂閱收合此列載入迴響中... 發表迴響… 電子郵件(必要) 名稱(必要) 網站