类推学派——机器学习默知识
我们生活中很多经验来自类比。医生一看病人的面部表情和走路姿势就基本能判断出是普通感冒还是流感,因为流感症状比感冒厉害得多。科学上的许多重要发现也是通过类比。当达尔文读到马尔萨斯(Malthus,1766—1834)的《人口论》(Principle of Population )时,被人类社会和自然界的激烈竞争的相似性所触动;玻尔的电子轨道模型直接借鉴了太阳系的模型。机器学习中用类比方法的这一派叫类推学派,他们的逻辑很简单:第一,两个东西的某些属性相同,它俩就是类似的;第二,如果它们的已知属性相同,那么它们的未知属性也会相同。开好车上班的人可能也会用苹果手机,喜欢看《星球大战》(Star Wars )的人可能也会喜欢看《三体》等。类比的逻辑可以明确表达,但具体的类比常常是默知识。例如老警察一眼就能看出谁是小偷,但不一定说得清楚原因。
在类推学派中最基础的算法叫最近邻法。最近邻法的第一次应用是1894年伦敦暴发霍乱,在伦敦的某些城区每8个人就会死1个,当时的理论是这种疾病是由一种“不良气体”造成的。但这个理论对控制疾病没有用。内科医生约翰·斯诺把伦敦每个霍乱病例都标在地图上,他发现所有的病例都靠近一个公共水泵。最后推断病因是这个水泵的水源污染,当他说服大家不要再用这个水泵的水后,疾病就得到了控制。在这里这些数据的相似点就是和这个水泵的距离。最近邻法还有一个应用就是在网上搜照片,你对高铁上霸座的人很愤慨,你把他的照片上传,网站给你显示出几张和他长得最像的照片,并且有文字,你一看,天哪,还是个在读博士生!同样的道理,很多智能手机都可以自动进行照片分类,把你手机里的人像都自动归类。
在类推学派中,第一件事是要定义“相似度”。相似度可以是身高、收入等连续变量,也可以是买了某一类书的次数的统计变量,也可以是性别这样的离散变量。总之,只有定义了相似度,才能度量一个分类方法是否最优。人可以感受相似度,但无论是人的感官还是大脑都无法量化相似度。人类在做相似度比较时,甚至都不知道自己在比较哪些特征和属性,但机器可以很容易量化这些相似度。所以只要机器抓准了特征和属性,比人的判断还准。
类推算法可以用于跨领域的学习。一个消费品公司的高管到互联网媒体公司不需要从头学起,华尔街雇用很多物理学家来研究交易模型,是因为这些不同领域问题的内在数学结构是类似的。类推算法最重要的是能用类比推导出新知识,就像我们前面提到的达尔文受《人口论》的启发。
虽然机器可以学习明知识和默知识,但它最大的本事是学习暗知识。






本书评论