首頁>政聲·政情>推薦 推薦
中國科學家將基因組分析速度提升5倍
中國科學家將基因組分析速度提升5倍
自基因組學技術問世以來,測序與分析一直是基因組學技術中最主要的兩個環節。實際上,與繁重的測序工作相比,基因組的分析也同樣復雜,需要耗費大量時間。
然而,隨著近年來基因組學技術發展突飛猛進,這種狀況正在逐步改變。
日前,中國農業科學院深圳農業基因組研究所阮玨團隊在《自然·方法學》上發表了第三代測序數據組裝算法Wtdbg,極大提高三代測序數據的分析效率,與今年4月發表在《自然·生物技術》上的Flye算法相比,分析速度提升了5倍,并首次將測序數據分析時間降低到少于測序數據產出時間。
基因組的測序與分析
DNA測序技術成熟于上世紀70年代中后期,1990年人類基因組計劃的提出,將基因組測序技術逐步由實驗室邁入商業化階段;到2004年人類基因組計劃完成時,第二代基因組測序技術已經相對成熟,開始大規模商業化應用;2013年,單分子等第三代測序技術出現,也預示著測序技術應用更廣,測序的成本越低。
“如今,完成一個人的全基因組測序是普通家庭都可以負擔起費用的‘平?!虑榱?。以三代測序為例,完成個人全基因組測序僅需1天時間、費用低于5萬元?!闭撐淖髡?、中國農業科學院深圳農業基因組研究所研究員阮玨告訴經濟日報記者。
在測序技術日新月異的同時,分析技術也在共同成長。以人類基因組組裝為例,在2014年需要消耗50萬個CPU小時,且只能在超大計算機集群上進行。因而,以全基因組組裝方式對群體進行測序分析已經成為生物醫學研究的趨勢。
關鍵鑰匙:模糊布魯因圖
Wtdbg算法的開發得益于一個新的組裝圖理論——模糊布魯因圖的提出。模糊布魯因圖借鑒了德布魯因圖的思想,將測序數據切分為固定長度的短串,再從短串構建出的圖上恢復出全基因組序列。
上世紀90年代,德布魯因圖被引入基因組組裝領域,其以速度優勢常用于第二代測序數據的組裝分析,但因測序噪音極高,從未成功應用在第三代測序數據。
2013年起,阮玨和美國哈佛醫學院的博士李恒在德布魯因圖基礎上,設計出一個新的組裝圖理論——模糊布魯因圖。通過重新對短串進行定義,它能夠容忍高噪音數據,并隨后對生成組裝圖和恢復基因組序列做了大量相應的重構,使其兼具高效率和高容錯的優點。
不斷進化的新算法
近年來,生物信息學領域的科學家們致力于改變這種數據產出速度遠高于數據分析速度的尷尬狀況,不斷開發出更高效的組裝分析算法。
2013年,阮玨與李恒合作開始了測序數據分析方法如組裝算法的開發,力求推動測序數據的分析速度更快、分析質量更高。2016年,他們的研究結束,并將研究成果Wtdbg對所有人免費開放使用。3年來,這項成果不僅被幾十篇學術論文引用,還被國內多家基因測序分析公司作為主要組裝分析工具,并且在2019年世界大學生超算競賽中作為性能測試賽題。
“我們收到大量反饋,不僅有助修訂算法軟件中的漏洞,還帶來了新想法和思路。算法需要不斷在實踐中完善,只有通過更多實際應用,我們才能更有效調整改進這套算法。目前的算法與2016年相比已經是2.0版本,而更高版本的算法于今年初也開始了研究?!比瞰k告訴記者。
常 理
編輯:李澤杰
關鍵詞:測序 基因組 分析