第一节 为何将区块链与人工智能结合
一、人工智能(AI)要素
1.数据
在人工智能领域,人们花了一段时间才意识到,数据是关键。20世纪90年代的人工智能所使用的数据量很小。通过设计新的算法来提升性能,可改进的空间并不大,提高2~10倍就很了不起了。进入千禧年,人工智能走向现代化。2001年,微软研究人员Banko 和Brill发表论文,揭示当算法保持相同,增加数倍的数据会使错误率下降非常多。该研究成果在几年后得到进一步的证实,Google研究人员Halevy、Norvig和Pereira在2007年发表的文章 the Unreasonable EffectivenessofData极大地冲击了人工智能领域。他们认为数据可以“不合理地有效”跨越许多人工智能领域,揭示了数据在人工智能领域异常有效。
数据可以来自物理世界现实事物的数字化,也可以随互联网交流而不断产生,如医疗行业的医生信息和移动终端彼此交互的信息。经过累积、沉淀和保存,可以形成更大规模的数据集。近年,移动设备的发展促使数据爆发式增长,同时物联网极大地扩展了获取数据的数量和类型。2017年产生的数据比过去5 000年的加起来还要多。据IDC预计,到2020年,数据量会达到40 000EB(Exabytes)或者40ZB(Zettabytes)。过去10年结构化和非结构化数据的增长表明,非结构化数据占所有数据的90%以上,如图3.15所示。从数据中挖掘价值,我们的社会将越来越熟悉数据和模型结合并以大量算力支持的系统。物理生活与虚拟层面交织,人与机器彼此紧密合作。2016年杭州开始试行城市大脑(City Brain),利用人工智能来优化城市交通。城市大脑利用数据和算法来改善交通问题,过程涉及图像识别、视频处理、人工智能和云计算等。
城市大脑,让数据帮助城市思考。2017年,杭州有200多万辆机动车,9 000多辆公交车,无法计数的非机动车穿行其中。搭建这样庞大的交通体系存在城市道路优化问题,出租车司机会为了避免堵车选择凌晨出门。然而数据的收集和运用会改变城市拥堵的状况。路口的监控摄像头记录车辆的行驶状况、行驶速度和数量。出租车司机用手机接单,运行轨迹被保留下来。公交刷卡机器记录有多少人在什么时段乘坐公共交通工具。全城5万多个视频设备,可以做到计算视频内有多少车,往哪个方向走。红绿灯优化配时方案,帮助城市8万多个路口做出实时决策。城市大脑在市中心路段试验结果显示,平均车速提升3%~5%。
2.算力
在自动驾驶领域,交通信息实时变化,需要不停地收集、分析、输出以控制汽车,也即意味着要依靠大量算力。支撑人工智能算力需要基础硬件设施,以自动驾驶领域为例,利用摄像头、传感器在感知层收集信息,并把它传到芯片中执行深度学习的算法。其核心在于传感器收集并分析数据、检测路面信息、做出路线规划,通过算法模型输出更好的结果。半导体设计公司英伟达(NVIDIA)在2015年推出了世界上第一块车载超级大脑(第一代Drive PX)。在2018年,针对新兴的自动驾驶市场发布了专门的Drive Xavier芯片(见图3.16)。这款芯片大小为350mm2,含有90亿个晶体管、一个8核中央处理器(CPU)、一个512核图形处理器(GPU)、一个新的深度学习加速器、一个全新的计算机视觉加速器等。
每秒可执行30万亿次运算,功率只有30瓦。支撑人工智能除了芯片,更重要的是软件和算法,算法的复杂程度决定了算力资源的需求。2018年GTC大会上,英伟达发布的DRIVE Constellation模拟系统,模拟自动驾驶汽车传感器的软件,基于此的计算平台,能够处理传感器产生的模拟数据,并把驾驶指令反馈给仿真器。这样的数字反馈循环使得自动驾驶的安全性进一步提高,扩展性进一步增强。
虽然数据不断增长,但是计算机无法跟上其规模。就遗传数据而言,基因测序技术的进步将使基因序列数据比处理器增长更快。即使计算机本身的速度越来越快,但和不断增长的数据相比,可以处理的数据规模却越来越小。分布式计算(Distributed Systems)和并行计算(Parallel Computing)等计算方式的出现,减少了单个处理器的速度约束。分布式计算把一个需要巨大算力的问题分成几块,然后分配给多台计算机处理,最后把这些计算结果综合起来得到最终的结果。分布式算力可以理解为分布式计算的能力的输出集合。最近的分布式计算项目被用于,利用世界各地成千上万的志愿者的计算机的闲置算力,通过因特网分析来自外太空的电信号,寻找隐蔽的黑洞和探索可能存在的外星智慧生命等。并行计算则意味着同时运行两个或更多的处理器,彼此共享数据且工作同时进行,目的在于提供单处理器无法提供的性能。云计算是分布式计算、并行计算等计算方式的商业化发展。云可以使用廉价的PC服务器,管理大数据量与大集群,并且能够对云内的基础设施进行动态按需分配与管理。云通过整合、共享硬件设备,弹性扩展伸缩以适应工作任务需求,实现IT资源利用率的最大化,因此云计算意味着可以较低成本获得算力。
城市大脑利用实时的城市数据,全局优化城市公共资源,实现城市治理模式、服务模式,并推动产业发展。数据和模型结合产生社会价值。从互联网行业到传统行业,都在收集数据来做更多的事情,实现工业、环境、医疗等行业智慧化,最终实现智慧社会。目前提出的智慧化概念仍然模糊,而且容易与自动化相混淆。两者的区别为自动化是单纯控制,智慧化则包括了数据的传输、存储、分析,以及运用数据来制定决策。从自动化升级到智慧化,差异在于对资料的掌握和运用能力。智慧化的最底层是数据,第二层是信息,第三层是知识,最后一层是智慧。数据是不加过滤的输入值,经过加工成为有价值的数据资料即信息,相关的信息集组合、联系就成为认识世界的知识,最后利用机器学习的方法做出决策就形成了机器智慧。人工智能的进步需要获取大量数据,用以提取新的信息,产生知识和智慧。
二、数字化社会的问题
数字化社会,逐渐出现过去我们并没有遇到过的问题,包括安全、隐私和伦理等问题。在安全方面,譬如针对物联网设备发起攻击的恶意软件,可能导致威胁性的僵尸网络。2015年知名科技媒体《连线》,在一篇文章中详细描述了黑客如何远程入侵并控制汽车。文中写道:“我在位于圣刘易斯下城区的边界,以70迈的时速驾驶着切诺基,突然间,汽车失去控制。在没有触碰仪表盘的情况下,切诺基的制冷系统以最大挡功率开始送风,通过座椅背部的循环系统,让我的背部感到一阵寒意。接下来,收音机切换到了本地嘻哈频道,音量自己调至最大,喇叭里发出刺耳的音乐。我将控制旋钮转向最左侧,同时不停地按动电源开关,一切都没有反应。这时候,雨刮器也开始凑热闹,不断喷出清洁剂,让挡风玻璃变得一片模糊。”黑客能够控制车上的GPS设备,获取目标车辆的坐标及车速,进而在地图上对车辆的行进路径进行追踪。甚至,控制一组联网设备主机,然后利用这些设备发起更大规模的入侵,结果可能会导致通过无线连接的方式,控制成千上万辆机动车来组成僵尸网络。
Ian Goodfellow 认为机器学习有盲区(Blind Spots),他在2015年ICLR(International Conference on Learning Representations)会议上展示了机器学习如何被干扰,将熊猫误认为猴子(见图3.17)。对机器学习的图片稍加改动,虽然不影响人类的肉眼辨别,但却令深度学习系统做出错误判断。模型输入受到噪音干扰或无法正确识别,以及没有检测到的人为攻击等,都可能使机器学习的结果谬以千里。Barocas和Selbst在研究中发现,人工智能系统会在训练中将数据的偏差和错误固化。数据的脆弱性可能会对网络安全产生威胁,比如系统地向智能恶意软件侦测系统提供虚假信息,实质上会在不知不觉中创建一个双重代理,从而使这些软件失效。某些数据偏差,譬如涉及性别歧视等,重复累积运算而缺少纠正,就会永久存在于体系之中。人工智能技术筛选简历,不人为设置关键词,以“过往的优秀员工数据”来训练机器。听起来十分公平,但通过人工智能的检视,少数族裔、女性或者有心理疾病史的人更难找到工作。训练机器的“过往数据”,实际上是人类自身偏见和行为的产物。
这些数字产生的结果,如果不加以监督,有时候会产生令人不快的结果。有证据显示,剑桥某分析公司帮助某国总统赢得2016年大选。这家数据分析企业涉嫌“窃用”脸书8 700万个用户的个人信息,针对潜在选民的“心理特征”投放付费政治广告。投放的广告类型,取决于一个人的政治倾向、情绪特征及易受影响的程度。虚假的消息会在特定人群中迅速传播、增加曝光,并潜移默化地影响人们的价值判断。网上大量的个人信息会形成过滤气泡(Filter Bubble),并因此彼此产生信息隔离。Pariser发现,在英国石油公司发生墨西哥湾石油泄漏事件之后,在谷歌上搜索时,一些人得到公司投资的新闻,另一些人则返回泄漏事件。他把这一发现写进2011年出版的书The Filter Bubble:What the Internet is Hiding fromYou。人们更倾向于相信已经存在的信念,即使有时候是谬误。即使数据并不是被用来作恶,人工智能对用户信息的深入挖掘也可能走在合规但有违公平的边缘。
人工智能技术的发展给原有的管理框架带来了新的挑战。公民隐私权可能受到侵犯,而权力的边界也并不明确。例如从公共数据中计算私人信息,从个人信息中推断社会关系网等。这类信息的结论超出最初个人同意披露的个人信息范围。执法机构可用的搜查、扣押能力以及随之而来的对隐私的侵犯也是较明显的问题。公共部门可以便利地收集和使用公民个人数据。个人信息的汇集能够帮助政府部门了解所服务的人群的状态,然而也存在不恰当地使用个人信息的风险。公共部门监督公民的行为,表面中立实际却有可能成为巩固不平等的工具。
与伦理相关的讨论,也值得我们关注。比如,人工智能是否具有法律人格(Legal Personhood)。2016年3月,名叫Sophia的人工智能成为沙特阿拉伯公民。当她被开玩笑地问道“你是否想毁灭人类”时,她回答:“好的,我会毁灭人类。”当然,这并不意味着她明白自己在说什么。法律并不将“人性”列为“人”的充分或是必要条件。Shulamit Almog认为,一个公司之所以被视为法人,原因在于这样做对人类的商业和利益有好处。未来,如果人工智能的行为足够接近人类,那人类可能就有必要把它们视作同类并重新思考人类的定义。
随着人工智能乃至数字社会的深度发展,需要解决的问题还有很多。衡量获得的人工智能训练数据是否真实有效是一项挑战。世界上许多公司拥有可观的数据,但是他们却没有最大化利用这些数据,并从中获得好处。多数的数据都被锁定在“数据孤岛”中。一般而言,只有客户数量庞大的公司才能接触到大数据库,但类似谷歌之类大型公司很少有动力去公开分享自动驾驶汽车的数据。目前世界上大约只有1%的数据被分析,这是发展人工智能的极大阻碍。数据孤岛之间很少与外界进行共享,造成数据的大量沉积和浪费。即使与第三方平台交易,同样存在交易实时性和成本之间难以平衡的问题。中心化平台收取费用,细颗粒的数据价格昂贵。复杂的手续也影响了交易数据的时效性。而到2025年,预计所有数据中约95%将由物联网设备实时生成,快速的数据交易是必然趋势。区块链可能会为人工智能的数据交互提供便利,去中心化平台鼓励数据共享而且带来新的数据集和模型。海洋协议(Ocean Protocol)计划创造一个私人而安全的网络。这个平台试图消除中心化交易的风险,保证所有参与者的控制、可审计性、透明度和合规性,让数据的提供方和分析方获得潜在的利益。
另外,人工智能对传统商业模式的破坏性影响,将迫使我们重新考虑知识产权(Intellectual Property,IP)框架。在研究知识产权问题时,我们需要明确所有权属于谁。人工智能软件的算法和代码本身需要进行版权保护。在开发中,提供不同初始代码参与方,会在谁将拥有最终的知识产权方面发生冲突。机器学习自动生成大量代码,训练结果和代码归属也颇具争议。从第三方收集的数据应该受到版权相关法规的保护,并不应该被免费应用在任何目的上。在判断计算机创作的成果时,法律也需要重新审视版权问题。在50年前,没有人会认为软件应该具有知识产权。现在,我们需要在法律上阐明界限。另外,无论是人类还是人工智能创作的数字化作品,如软件和媒体流等,都面临盗版泛滥的问题。基于区块链的人工智能,或许能够实现数据资产的顺利交互。比如,训练数据和模型以智能合约的形式,确定为知识产权资产并以去中心化的方式实现交换。
本书评论