English
接洽我们
网站舆图
邮件
旧版回首



梁承志:大数据发作让生物信息学“C位出道”

文章泉源:中国迷信报 赵广立    公布工夫:2018-09-20  【字号:      】

  生物信息学包罗许多使用技能,使用简直越来越遍及,可以或许办理的题目也越来越多,但它还必要联合其他的生物技能。换言之,它的生长离不开生物学的生长,二者是相反相成的。生物信息学现在最大的变革是服从的提拔。曩昔做生物研讨以实行为主,历程很漫长、耗费很高,积聚的数据量很无限。

  本年5月,国际顶级学术刊物《天然》在线颁发了2018注册免费送白菜_可靠平台遗传与发育生物学研讨所(简称“澳门送彩金网站遗传所”)动物细胞与染色体工程国度重点实行室、遗传发育所基因组剖析平台、2018注册免费送白菜_可靠平台种子创新研讨院等互助完成的一项研讨论文。该项研讨完成了小麦A基因组的测序和染色体序列精致图谱的绘制,对深化研讨麦类动物的基因组布局与功效具有紧张实际意义和适用代价。

  作为底层盘算支持平台,遐想公司为澳门送彩金网站遗传所创建的HPC(高功能盘算)平台饰演偏重要的支持脚色,以高功能盘算助力科研攻关。那么,在巨大的生物数据盘算和剖析中,生物信息学必要什么样的盘算?对此,《中国迷信报》专访了澳门送彩金网站遗传所基因组剖析平台首席技能专家、上述论文的通讯作者梁承志。

  处置惩罚三代测序数占有提拔

  《中国迷信报》:5月份在《天然》中颁发的对小麦A基因组的研讨事情中,有部门测序事情除接纳了第二代的高通量测序技能外,还接纳了第三代的单分子测序技能。在你看来,第三代测序技能对付盘算平台提出哪些新的要求?

  梁承志:我们开端做小麦基因组测序的时间是2014年,从得出数据到末了颁发文章,现实上曾经已往两三年的工夫,其时我们对小麦基因组测序时仍以二代测序为底子,只使用了一部门单分子测序数据。

  三代测序自己错误率比力高,但体系偏差小,在测序倍数比力高的时间可以或许到达比二代还准确的结果,但数据量更大,对盘算存储需求就会相应增长。别的,现在技能上对三代测序数据的处置惩罚速率都还比力慢,软件功效方面也绝对不可熟。

  在完成小麦A基因组项目标历程中,我们又开辟了一些新的生物信息剖析技能,使用这些新的软件、新的要领我们就可以用纯三代测序技能来完成小麦基因组的事情了。

  现在第三代单分子测序的代价曾经降到了我们其时利用的1/10,因而如今做如许一个基因组耗费更低,质量比曩昔高,速率比曩昔快。这可以看出技能的生长黑白常快的,我们在软件剖析本领上也有了宏大的进步,但总体来讲还不敷,必要更多的提拔。

  生物信息学将负担更大任务

  《中国迷信报》:早在几年前就曾有业内子士描述生物信息学像是“在一望无垠的大草原上开车”一样,有许多可做的偏向和很大的生长潜力。随着盘算力的提拔,生物信息学能否迎来了越发黄金的期间?

  梁承志:严酷来讲,生物信息学是一个技能学科,它触及到的许多盘算实际和要领都是从盘算机技能、统计剖析这边过去的,当前也会用到人工智能的要领。

  生物信息学包罗许多使用技能,使用简直越来越遍及,可以或许办理的题目也越来越多,但它还必要联合其他的生物技能。换言之,它的生长离不开生物学的生长,二者是相反相成的。

  生物信息学现在最大的变革是服从的提拔。曩昔做生物研讨以实行为主,历程很漫长、耗费很高,积聚的数据量很无限。随着实行本领的进步,10年前要耗费一年的实行如今一个月乃至一周、一两天就能做完,这种服从的提拔所孕育发生的数据必要生物信息学剖析,把有效的信息和知识发掘出来。从这个角度讲,将来生物信息学有大概起到主导作用。

  《中国迷信报》:能否大数据的发作让生物信息学有了得天独厚的生长机会?

  梁承志:生物信息学的发作是可以预见的。在大数据期间,生物信息学可以或许办理的题目也越来越多。起首便是精准医学,触及到我适才提到的小我私家基因组。要是可以测一万万、一亿人的基因组,以及种种组学数据,包罗转录组、卵白组、代谢组、表观组、表型组,再加上食品养分、疾病信息、药物信息等,这种信息大概数据积聚的越来越多,生物信息剖析起到的作用就越来越大。

  第二个紧张使用便是分子设计育种。澳门送彩金网站遗传地点这个范畴已结出了丰富的结果,培养出来多个高产优质的水稻新种类。联合生物信息大数据剖析,我们可以在将来的分子设计育种中进步目的范畴及设计深度,对多本性状举行设计,进一步进步育种的服从。

  “盘算”生物信息仍存瓶颈

  《中国迷信报》:高功能盘算集群在生物信息剖析中饰演什么脚色?

  梁承志:生物大数据除了数据量特殊大之外,另有“三高”:高庞大性、高不确定性、高维度。数据维度高就招致了盘算量的庞大,这就必要高功能集群。要是没有高功能集群支持的话,我们对数据的剖析是无法完成的,由于数据量太大,对存储和盘算都有很高的要求。

  《中国迷信报》:在做生物信息剖析的时间,盘算上还存在哪些瓶颈?

  梁承志:在盘算上的瓶颈有许多。生物体系自己特殊庞大,是分条理的。一个生命体从个别程度上有各种数据,从构造、器官、细胞程度上也有各种数据,在代谢程度、生化程度上以致遗传、退化方面都有差别的数据,庞大性特殊高。因而,要是盘算体系存储硬件不敷的话,盘算服从就会大大低落。在做剖析时既要思量盘算又思量存储,以是庞大性一下就高多了,这是一个基本的需求。

  别的,生物数据庞大性的特点使得对软件的需求也越来越高,现在市场上用于生物信息剖析的软件比十年前好太多,但总体来讲,仍不敷用。

  另有很紧张的一点是剖析本领还不敷,这是将来5~10年急需转变的状态。随着数据越来越多,还必要少量的投入,用以开辟新的软件和新的剖析要领。此中很紧张的一点,随着生物数据的增长,对人工智能技能的需求也会越来越高,在其他范畴里曾经做得很好的人工智能剖析的要领,也可以借过去用。

  数据的增长和剖析本领的增长有肯定的工夫差,绝对来讲也相反相成,二者是一个配合生长的历程。

  《中国迷信报》:既然生物信息剖析盘算既要思量存储又要思量盘算,那么有没有大概经过高功能集群的云化来办理题目?

  梁承志:生物信息范畴许多,有些剖析是云盘算能办理的,但是很大一部门剖析使用云盘算就有点困难。由于要把数据传输到云上,自己便是一件比力困难的事变。

  用于生物信息剖析的高功能集群,有着十分强的“公用性”。生物数据剖析有肯定的特别性,要是用以其他学科的数据剖析设计的高功能集群,我们很难做生物数据剖析。




(责任编辑:侯茜)

附件:

专题保举

相干旧事


© 1996 - 2018注册免费送白菜_可靠平台 版权全部 京ICP备05002857号  京公网安备110402500047号  接洽我们

地点:北京市三里河路52号 邮编:100864