卷积神经网络能做哪些事
首先,几乎所有的图像类的处理,如图像分类、人脸识别、X光读片,都适合用卷积神经网络。图像分类最著名的大赛就是斯坦福大学李飞飞教授创办的ImageNet(计算机视觉系统识别项目,是目前世界上图像识别最大的数据库)大赛。这个大赛提供1 000种不同物体的几百万张图片让参赛者训练自己的模型,参赛时给大家一些新的图片让参赛者识别,看谁的识别准确率最高。2012年辛顿的学生亚历克斯·克里捷夫斯基(Alex Krizhevsky)第一次用一个5层的卷积神经网络就把多年徘徊在74%的准确率一举提高到84%,震惊了业界。到2015年微软的152层ResNet把准确率提高到了96%,超过了人类的准确率95%。从那以后进展就越来越小。有些公司组织大量的人力,采集更多的训练图片,尝试更多的小模板,更精心地微调那些旋钮,最后能达到比现有结果好
0.1%,然后就可以宣称自己是世界第一了。但这个世界第一意义不大,因为没有在网络结构上和算法上有任何创新,当时人家一个研究生Alex一举提高10个百分点,你扑上去几十上百人提高0.1个百分点,不算本事。对不懂卷积神经网络的投资人、股民、政府官员来说,这块“世界第一”的牌子还挺唬人的。但读到这里你以后就不会被忽悠了。
更有用的是通过识别一张图片中所有的物体,甚至发现物体之间的关系来“理解”这张图片。譬如机器看完一张图片后会说出来“蓝天白云下,一位戴草帽的年轻妈妈在草地上教孩子学走路,她们的小狮子狗在旁边卧着”。
X光读片也是卷积神经网络一个很好的应用。假如要在胸片中发现早期肺癌,就需要拿大量已经确诊的早期肺癌片子来训练机器,这样训练好的机器就可以快速地发现肺癌。随着X光仪、CT机等医疗成像设备的普及,有经验的读片医生非常稀缺。特别是在小城市、县城、乡村更缺乏这样的好医生。如果机器读片能够达到甚至超过北京、上海大医院有经验的医生,将是普惠医疗的一个巨大进展。我们在第六章会专门讲AI在医疗健康领域的应用,包括X光读片的现状和挑战。
卷积神经网络虽然应用很广,但它解决不了一些重要的问题,如股票预测和自然语言理解。下面我们就介绍可以解决这类问题的另一个很牛的网络。
本书评论