第313章 火速切割与《自然》封面(2 / 2)

重生之AI教父 CloseAI 2528 字 1个月前

在其中最为炫酷的一个名称,就是相关学科背景当中的这个所谓【人类基因组计划】,一听就非常不得了。

这是一项跨国跨学科的科学探索工程,为了测定组成人类染色体中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

单说这个工程,普通人的感触可能还不够直观,但若是提到与其并列三大科学计划的其他两个,曼哈顿原子弹计划和阿波罗登月计划...

对比一下造原子弹,以及登上月球这两件更加直观的超级大事件。

其价值、地位和对人类的重要意义就不言而喻了。

“从1985年至2003年,接近二十年的时间,这一项三十亿美元预算的人类基因测序计划基本完成。从化学的角度去简单理解,蛋白质也不过是根据基因编码而成的肽链,是一串或几串氨基酸残基而已。”

“但是问题就出在这个地方,知道蛋白质的化学信息并不能告诉我们它的生物学功能到底是什么,它到底象征什么功能,我们又应当如何去应对?这几件事之间还有着很大的鸿沟。也就是说,虽然已经测定了化学信息,但我们对于这些基因在生理上到底会有什么功能其实仍旧一无所知。”

“这是因为蛋白质的肽链会折叠,在空间中形成奇异的结构。人类基因组计划测序的时候,不论测量什么基因,其本质是差不多相同的任务类型。但在蛋白质当中,目前并没有什么发现什么办法能够适用于大部分蛋白质,面对不同的蛋白质很可能需要更换方法,这也是为什么我们人类的蛋白质数据库每年增长的速度大约只有一万左右的主要原因。”

一是方法并不通用,二是有用这些方法也不是特别的方便,所需的设备和操作手法有很高的门槛,并且非常耗时。

“但现在,我们有了阿尔法fold,这个数据库涵盖了整个蛋白质宇宙,我们已经迈入数字生物学的全新时代!在未来,预测蛋白质结构就如同使用搜索引擎一样简单,它将几乎涵盖了地球上所有已进行过基因组测序的生物体。”

阿尔法fold与围棋这种一下子就能够被理解的事情区别不小,节目当中主持人花费了不少的时间和精力在介绍这个任务的背景、难点还有意义。

不过在结尾处的总结和吹捧稍微有些用力过猛,孟繁岐不得不切入进来稍微解释一下。

“人工智能毕竟还是数据驱动的一种新技术,目前阿尔法fold是基于已有的十几万测定结果去构造人工智能模型,我们已经对二十多种模式的生物进行了尝试。”

“由于AI技术是从已知的数据当中学习规律,所以针对从未出现过的结构和现象,那可能阿尔法fold是没有办法预测的。就像是在加减法的题目上学出来的AI很难自己掌握乘除法一样。AI或许可以总结出一些新的东西,但绝不可能总结出所有未出现的知识内容,那样的难度实在太高了。”

“我们计划在今年年底公布人类的全蛋白质结构,这个大概是百万千万的级别。未来的两到三年之内,我们公布2亿多条全生物预测结果,所有曾经被人类测序的蛋白质,我们都会去一一做预测。根据目前的统计结果,大约有百分之35左右会是高度准确的。”

孟繁岐实话实说,基于人类已有的十七八万去预测两个亿,当然不可能做到基本全部准确。

这里他说的高准确度,是指基本上超过百分之99.9的符合程度。唯有这个级别的预测结果,才能够如同大家所想的那样,完全取代目前的测量方式。

余下的,多多少少还是会有一些误差,能用,但需要科研人员自己谨慎判断。

不过,百分之35已经是非常优秀的高精确度比例了。这意味着两个多亿当中,至少能有七千多万条结果是和实际情况基本上没有差别的。

相比现在人类已经掌握的数量,十几万来说,这仍旧是几百上千倍的进步。

“孟,你实在是太谦虚了,即便是三成左右的高精确度比例,人类按目前的速度也得需要七千年才能得到这些结果。可现在,两三年之内我们就能做到。”

孟繁岐的解释并没有让主持人和现场的听众失去热情,这两个数字实在是天差地别。

几十年下来,全人类才积攒下来不到二十万条高质量的蛋白质结构。

现在你两三年就能预测出七八千万,结果还嫌这准确率太低?

这章没有结束,请点击下一页继续阅读!

“也不能说是谦虚,我只是希望大家可以知晓事实吧。毕竟人工智能的能力一旦被高估其实也是相当危险的一件事情。我不希望大家认为阿尔法fold已经可以精确地解决一切,它目前仍旧还是被极大的限制了。”

“目前呢,我们已经和欧洲分子生物学实验室合作,公开了人类蛋白质组内的全部能预测的蛋白质结构,并免费开放给了学术界。一直以来,我的目标都是将人工智能作为工具,以加速科学的发现,进而增加人类对世界的理解。”

“阿尔法fold之所以登陆上了《自然》杂志的封面,便是因为我们获得了一副迄今最全、最准的人类蛋白质组的图像。我们相信这是目前为止人工智能对促进科学进步做出的最重要的贡献,极好地展示了人工智能将如何造福社会。”

孟繁岐这番话没有贬低此前的其他人工智能成果,也没有刻意去抬高阿尔法fold的意义。

而是事实的确如此,光是对比一下点评发声的那些人物就能够明白了。

此前,往往是人工智能界,或者计算机领域的学者做出的点评为主,成果所涉及的学科领域为辅。

此次,AI领域的不少大佬想说话都已经有点插不上嘴了。

因为生物和化学方面的大佬们站出来讲话的实在太多,咖位上实在差了不少。别的不说,光是诺奖得主就有四五个。

比如保罗,2001年诺贝尔生理学医学奖得主:“计算方法正在改变科学研究,为有益于公共利益的发现和应用开辟新的可能性。了解蛋白质的功能对于提高我们对生命的认识至关重要,并将最终导致医疗保健、粮食可持续性、新技术等等方面的改进。孟繁岐主导开放了免费的阿尔法fold数据库,这是生物学的一个重大飞跃。孟繁岐的慷慨开创了人工智能生物的新纪元。”

比如文卡特拉曼,2009年诺贝尔化学奖得主,英国皇家科学会主席:“蛋白质折叠问题是生物学50年来的重大挑战,这项计算工作代表了对该问题研究的惊人进展。这个巨大的难题被孟繁岐以这样的方式解决,实在出乎了我们许多业内人士的预料。不过看到阿尔法fold从根本上改变了生物学的研究,我们感到十分振奋。”

再比如伊丽莎白,2009年诺贝尔生理学医学奖得主:“孟繁岐和EMBL提供给了世界绝佳的资源,彻底改变了我们进行结构生物学的方式。这些预测展示了机器学习的力量,并服务于全世界的科学机构。这是一个开创性的例证:21世纪应该如何开展科学研究。”

多个诺奖得主级别的学者大加赞赏,令孟繁岐一时间风头无两,毕竟这些学界泰斗平日里一般人见都见不到半个。

“被你这么一说,我大概明白《自然》杂志封面的含义了!”主持人此前还在疑惑,为何自然杂志要用化学物质,一堆链条一样的东西组成一个人形的图案作为封面。

孟繁岐这么一说他才明白,原来这篇文章被选做《自然》封面的主要原因,便是因为阿尔法fold已经完成了人类绝大多数蛋白质结构的分析工作。

封面的设计思路也源自于此。