科研加速
一个科学研究的过程可以分为以下几个步骤。
(1)提出问题或选择要解决的问题。
(2)学习研究关于这个问题已经发表的研究文献。
(3)根据研究文献和研究者的经验提出假设。
(4)设计验证假设的实验。
(5)进行实验和整理实验数据。
(6)根据实验结果判断假设是否成立。
(7)如果假设不成立,返回第(2)步或第(3)步,提出新的假设。
在这个流程中最花时间的有三个环节:研究文献、做实验和整理数据。在这三个环节中,机器学习都可以部分甚至全部取代人。获取相关的文献,阅读、理解并总结已经成为科研的瓶颈之一。根据渥太华大学的研究,自从1965年以来共有5 000万篇科学文章发表,现在每年新发表的文章是250万篇。关于某个能够抑制癌细胞的蛋白质的论文就达到70 000篇。一个科学家即使一天读10篇文献,每个工作日都读,一年也只能读2 500篇,所以大部分的研究结果都会被束之高阁。使用AI可以通过自然语言理解找到相关的所有文献。例如一个叫作Iris(艾瑞斯)的AI软件可以这样做科研:首先从一个关于这个研究题目的演讲开始。
这个演讲通常是本领域的一位著名科学家做的几十分钟的概述性报告,例如TED(美国著名讲坛)大会的演讲。Iris先使用自然语言处理算法分析演讲的脚本,挖掘从开放渠道获取的学术文献,查找到与讲座内容相关的关键论文,然后将相关的研究论文分组并进行可视化,Iris目前可以达到70% 的准确率,下一步是用人工帮助标注文献使机器匹配精度增加。当机器能够理解文献的内容和结构时,至少可以帮助科学家总结出在一个科研领域中已经提出的问题,已经提出过的假设及其验证,已经做过的实验和结果。机器甚至能根据文章的逻辑自洽性对文章结果提出疑问。用机器阅读文献的一个重要作用是能够对前人的工作一览无余,不至于做许多重复性的工作。
今天的科研越来越依赖于实验,而实验的准备、操作和数据整理经常耗时耗力。机器学习可以大大加快实验进程。2001年的诺贝尔物理奖颁发给了美国的埃里克·康奈尔(Eric Cornell)等三位实验物理学家。
他们的成果是用激光器和磁场创造出了自然界不存在的物质的第四种状态:玻色-爱因斯坦凝聚态。物质在自然界的三种状态根据温度不同分别是固态、液态和气态。当温度降低至非常接近绝对零度时(实验上永远无法达到绝对零度),物质就会进入凝聚态(一种气态的、超流性的物质状态)。凝聚态物质有很多特性,例如对地球磁极和引力场极为敏感,光线在该物质中会延迟,等等。基于印度科学家玻色的计算,爱因斯坦于1924年预测了这种物质的存在以后,科学家一直想在实验室验证出来。1995年,这三位科学家经过多年的实验,用一套非常复杂的实验装置终于制造出了物质的凝聚态。图6.1是这个实验的示意图,透镜内有一小块物质,透镜外有许多激光束。激光打在物质上可以约束物质内分子的运动,从而降低物质的温度。图6.2是实验设备的核心部分,图
6.3是实验设备的全貌。可以看出,这套实验装置非常复杂,可以设置的参数非常多,如果每一种参数的排列组合都去试,到宇宙终结可能都试不出来。而人有许多直觉可以大大加快实验。获奖的三位物理学家摸索了很多年才终于造出了凝聚态。2016年5月17日,来自澳大利亚新南威尔士大学和澳大利亚国立大学的研究团队使用机器学习从头开始操作这样的实验(反复设置调整实验设备的各种参数直到产生凝聚态物质),机器学习竟然不到一个小时就成功制造出了这种凝聚态物质。该团队希望通过进一步借助AI以更快的速度构建更大的这类物质。
科学实验的第三个环节是收集整理数据,这更是AI的优势。其实在科学界目前还有一个瓶颈就是研究论文的审核,要发表的论文太多,能有水平和时间对其进行审核的人太少。机器学习可以大大加快这个过程,例如可以检查该论文是否抄袭或者和已经发表的结果有冲突等。
科学研究中最难被机器取代的是提出假设,但是IBM的一个团队宣称他们的系统可以做到。也就是说,他们的AI可以通过挖掘学术文献自动产生科学假设。而且,宣称他们的算法可以用来做出新的科学发现。
他们的目标是将文本挖掘与可视化和分析结合起来,以便识别事实,并提出“新的、有趣的、可以测试的、可能是真实的”假设。
人类过去500年来的进步主要依靠科学技术的进步,而且这种进步还在加速。随着AI的发展,科学发现可能会加速,这意味着技术进步会进一步加快,反过来又会加快科学的进步。例如量子计算依赖于材料科学的进展,一旦量子计算取得突破,计算能力就可能比现在提高几个数量级,AI能力的提高又会进一步加快科学进展和加速实验速度,如此循环下去。
另外一个加速是用AI改进AI。谷歌和Facebook都开始研究自动机器学习,通过强化学习的模型,让机器不仅不断地调整参数,而且能够选择不同的神经网络模型。在很多情况下自我学习的性能都可以和人设计出来的性能相比,机器有时还会选择人类想不到的模型,甚至有人开始探索如何在机器学习里模仿人类的想象和创新。2017年底,谷歌推出由AI自主“孕育”出的“子AI”,该“子AI”被取名为“NASNet”,研究人员在ImageNet图像分类和COCO目标识别两个数据集上,对NASNet进行了测试,在验证集上的预测准确率达到了82.7%,比之前公布的人工智能产品的结果好1.2%,效率也提高了4%。目前这些研究还处在早期阶段。
一旦这类循环加速技术成熟,就会使技术迅速达到一个新的高度。
科学的本质是受控实验。人类通过控制一组变量(例如物理实验中的物体位置和受力等,化学实验的温度和压力等)来测量另外一些变量(例如物理实验中物体的速度,化学实验中的气体体积)的变化。科学定律就是可控变量和测量变量之间的关系。当人类完全掌握了某一类关系后,就可以通过制造仪器把原来的测量变量变为可控变量,用增大的可控变量集再来继续发现它们和新的测量变量的关系,这就是科学进步的本质,所以仪器就是某一类科学定律的物化。科学的进展完全依赖于能否完全掌握某个科学定律并且把该定律变成仪器。所以科学的进展可以分为三个步骤。
(1)提出假设:某一组可控变量和另一组可测量变量可能的关系。
(2)设计实验:验证可控变量和可测变量之间的关系。
(3)如果实验不能验证,就重新回到步骤(1)。如果能够验证,就把验证过的关系制造成仪器,使原来的可测变量变为可控变量。然后回到步骤(1)。
机器学习在每个步骤中都能加快速度。在步骤(1),机器学习可以通过阅读历史文献提出大量可能的组合。虽然在大量的备选假设中最终还要科学家定夺为哪个做实验,但机器可以帮助科学家想得更全面。
在步骤(2)最花时间的是改变可控变量的值来测量可测变量,这正是机器的拿手好戏。在收集、整理、分析数据方面机器比人要快,也更准确。在步骤(3)制造仪器方面又分为设计、实验和制造三个步骤,机器学习在实验和制造上都能加快速度。可以想象在不久的将来会出现“机器人研究生”,人类科学家给机器一个大致的研究方向,当机器遇到困难时请教一下导师,剩下的大部分研究工作就是机器自己做了。它们不知疲倦,7 ×24小时做研究,阅读速度是人类研究生的一亿倍,测量分析数据速度是人类研究生的一万倍。只要有电力和算力,世界上可以有几十亿个这样的“研究生”在研究人类关心的各种课题。
