多伦多书苑

数据资本时代

机器学习系统登上舞台

但是,海量数据市场的运转还需要另一因素配合。海量数据流和改进的匹配能力就像一辆没有引擎的汽车,我们还需要一套高效合理的方法,来帮助市场参与者表达他们的个人偏好(并将其转化为数据)。

有了海量数据市场,市场参与者就可以了解其他人的个人偏好,并使用匹配算法对他们进行配对。但是市场参与者如何表达他们的个人偏好及其权重?他们又如何相互交流?这是一个巨大的挑战,找到解决办法至关重要。没有人愿意在需要花费数小时回答调查问卷的市场上进行交易。幸运的是,近期的技术进步再次发挥作用,使我们更接近可行的解决方案。我们再考虑一下亚马逊的产品推荐引擎:乍一看,它是一个匹配系统,可以成功地将我们的个人偏好与可用的产品配对,并对我们应该订购的产品提出建议。但这只是整个故事的一半。亚马逊捕获了我们的个人偏好,但它并不是直接从我们这里获取了信息,而是从综合数据流中收集到我们与网站的每一个互动环节——我们看的是什么产品,什么时候看的,看了多长时间,读了什么评论。亚马逊是在数据中寻找能够显示我们个人偏好的独特模式。通过识别这些模式,它可以从统计学角度推断出我们的需求,而不必直接询问我们。当然,亚马逊并不能完全确切地了解我们的个人偏好,它只是近似确切(所以有时它也会提出错误的建议);并且它也不知道为什么我们喜欢一样东西而不喜欢另一样东西,它只是考虑了我们实际做过的事情。但这足以让亚马逊满足其个人偏好匹配算法的数据需求,并搜索到我们最可能购买的产品。

亚马逊的策略并非独一无二,它是大数据分析的代表做法,是一种数据分析方法,其目的是全面收集关于某特定现象的数据,并寻找嵌入数据中的复杂模式。亚马逊的策略集中于模式分析,与传统的统计数据不同,后者集中于将数据压缩到本质——从计算平均值到回归分析都是如此。很多大数据分析方法的一个特点是,人们所寻找的模式并不是从一开始就被定义了的,它是经过分析大量的用于训练的数据后才出现的。举个例子,在亚马逊的推荐系统中,系统并不是一开始就知道哪个数据模式会显示某特定客户的个人偏好,只有通过筛选过去多年的与客户的互动和购买数据,系统才会发现最有可能的一个模式。 [6] 由于该系统通过筛选用于训练的数据来学习,所以它通常被描述为“人工智能”方法,尽管这个术语最初主要指的是那些安装了普遍规则的系统,而不是通过利用用于训练的数据来学习的系统。这些系统并不能以人类的理性来理解数据,它们所做的只是识别自己所“看到”的模式,就像Libratus在德州扑克上打败那些职业玩家时所做的那样。

要使这样一个机器学习方法有效运行,机器学习系统必须满足两个条件。首先,机器学习系统一开始需要大量的数据来训练自己,并且要搞清楚嵌入数据里的内容。 [7] 例如,谷歌利用其Web(万维网)上的所有文本,来找出谷歌翻译工具的单词使用概率模式。其次,机器学习系统必须得到频繁的反馈,以便随着时间的推移,它能够根据具体的情况变化进行自我调整,以超越最初的训练成绩。新一代机器学习系统在数据中寻找的不仅是模式——它们以一种更微妙、更具有识别作用的方式来使用反馈数据。例如,它们可以像人类的记忆一样降低旧数据的价值。

Author:

退出移动版