4.6 机器学习的难点
基于互联网技术的快速发展,机器学习也得到了充分发展的空间。有了机器学习,早期面临的最大难题——自然语言处理问题也迎刃而解。计算机利用各种各样的分类方法和人工神经网络,已经能够对很多未知事物进行判断,人工智能也不再只是满足科学家的求知欲和工业生产需求,它开始步入人类的日常生活。
虽然人工神经网络的出现让人工智能突破了发展瓶颈,也加快了其发展的速度,但是这并不意味着发展人工智能已经完全没有障碍。
其实可以说,在机器学习这个概念产生的时候,它本身就有一个明显的弱点,只不过这个弱点一直没有获得重视。随着人们在机器学习领域的成果越来越多,这一弱点才被充分暴露出来——特征工程。
我们从小时候认东西开始,基本上就是通过一个又一个特征来记住某一个或某一类事物。比如,我们根据没有脚、爬行这两个特征来记住蛇,没有脚、爬行就是蛇的特征。另外一个比较有意思的例子是瑞士军刀(见图4-25)。瑞士军刀是一种十分方便的工具,我们通过零件的外形特征就能分辨出每一个部件有什么样的用途。当然,对工具一窍不通的人可能只会认为这是一个有很多装饰品的水果刀。
以上就是特征的重要性,通过特征人们甚至能够辨识出一些之前没有见到过的东西。
对于一位成年人来说,记住某些特征是非常容易的事情,因为人的听觉、视觉、触觉都在帮助大脑来记录一些特征并长久保存。但是如何让一台计算机记住特征呢?它没有各种感觉,要想让它记住特征就教授它一些有用的特征量(我们姑且称这些特征为特征量)。那么,对于一件事物,我们应该选择什么样的特征量来让计算机记住呢?
如果我们要想让计算机记住豹子,就需要教授它“有斑点”“猫科动物”等特征量。如果我们仅仅教它记住“有斑点”这个特征量,当计算机遇斑点狗的时候就会错误地判断其为豹子(见图4-26)。因此,斑点狗和豹子之间的区别特征量在于“犬科”和“猫科”的差别。
从这一点来看,选取什么样的特征量决定了整个运算过程的精确度。就像前文所说的手写识别系统,为什么10个数字的图片资料要准备7万张?原因就在这里。我们再来看一个非常直观的例子,如果我们想要统计某一地区人们开什么品牌的汽车与收入呈什么样的关系(见图4-27),就需要统计数据。
我们简单看一眼就能发现,该地区人们喜好的汽车品牌跟性别和月收入有关系。或许青年人和中年人对于品牌的看法不同,也会导致他们选择与自己收入不符的汽车品牌,但是这似乎和“喜好颜色”没有关系。没错,问题就出现在这里,喜好颜色与需要统计的数据并没有关系,但是我们如何告诉计算机这样的特点呢?
虽然机器学习已经有了比较大的进展,但是这个问题始终无法得到彻底解决。继自然语言处理之后,如何让计算机自己去选择合适的特征量成为了人工智能发展需要克服的又一道难题。
松尾丰先生曾在其创作的《人工智能狂潮》一书中提到,他在听取黑桥祯夫教授的课程时听到了关于机器学习的事情。当时黑桥祯夫教授说:“方法有各种各样的,但是制作好的特征量是难度最大的工作,而这件事情只能靠人来完成。”可见,对机器学习来说,如果无法突破自我选取特征量这个关键点,那么人工智能可能永远只能是人类的一个美梦。当梦醒来的时候,机器依旧是机器,人工智能的难题仍然等待着被攻克。
本书评论