用超文本投票
在上个10年中,网络信息的数量呈指数级增长:现在有大概150亿个网页,更不用说图片、音乐、视频和其他媒体形式,它们在互联网上大量”繁殖”。这个信息自助餐,规模变得越来越大。实际上,计算机领域顶尖的专家也在思考如何将这些内容整理和分类。对于那些还在凭借自身能力在无限混乱中创造秩序的公司来说,这是一个亟待解决的任务。
总的来说,众包还是一个新兴现象。尽管在某些关键的方面,众包已经成为文化中一种突出的力量。大众可以成为过滤器,这让iStockphoto这类公司的存在成为可能,还有菲特利公司征集”超级杯”广告的活动也是如此。但是同样的原理还可以应用在更为广泛的领域:在这类让网络更有秩序的工作中,大众的集体判断是首当其冲的力量,是存储信息最大的仓库。让这一切实现的引擎是什么?
Google。
Google的搜索引擎把决定信息(比如报纸文章或博客内容)重要性的权利交给了大众。这改变了人们过去对互联网的感受方式,造成了很大的不同。在Google之前,专家决定什么值得关注,而非大众来决定。Google的创始人,拉里·佩奇和塞吉·布林,并没打算颠覆专家的统治。
事实上,当这两个人还是斯坦福大学毕业生时,他们忙着完成一个代码,这个代码后来成为Google搜索技术的关键,那时,他们从论文发表使用的弓I文和注释系统中获得了灵感。
学术期刊的一个作用是,公布人类体质学、有机化学以及类似领域的科学新发现,此外,它还有一个作用——是学者保住自己职位,并在同行中建立声誉的渠道。
如果某篇文章要发表,教授会小心地引用该领域里已发表的文章,就像一个律师为了某个案子,引用写入法律摘要中的先例。一篇学术论文中,引用了很多其他学术论文的内容。这些加在一起,学术文献形成了它们自己的引文网络。
20世纪50年代,美国语言学家尤金·加菲尔德构想出一种方法,能将某篇论文的相对重要性量化,它就是”引文分析”——计算某篇论文被引用的次数。这样,爱因斯坦在1905年发表的提出相对论的那篇著名文章,在”1930年前发表的最重要论文”中位列第五,被引用了450次。
拉里·佩奇的突破在于,他认识到超链接不过是一种引文,网络本身就是一个密集的相互连接的文献集,在效用上和那些数十年的学术出版物没有本质区别。比如,一个学者引用爱因斯坦的《论运动物体的电动力学》(“狭义相对论”),而美食家网站Chowhound.com上一篇写生鱼“塞维切”的文章中可能引用了马克_比特曼的《最佳烹饪大全》。第一个例子可能涉及宇宙物理学,另一个则涉及某种生鱼片的准备工作,但根据文本动态,两者之间的链接没有区别。
链接的本质就是超文本形式的引文,这种观点在今天看来是很平常的,但在当时不同凡响。1995年,网络还不到一岁,“搜索引擎”还处在襁褓中。那时,雅虎——和今天一样,也是最受欢迎的门户网站之一——只是杨致远与戴维·费罗创建的网页目录而已。互联网内容的排名由他们两人和其他雇员进行,不是由单个网民的行为决定(雅虎在1995年增加了一个独立的搜索功能)。其他搜索引擎,比如Alta Vista,通过散布在网络中的”蜘蛛”程序反馈回网页的列表,之后再将其整理到中心索引中。但还是没有将结果按照相关性排名的有效方法。如果某人搜索”有毒废物”,得到的结果既可能是一个叫做”有毒废物”的不知名的爱尔兰朋克乐队,也有可能是某个环保机构列出的美国有毒地点的名单。技术对互联网的混乱状态无能为力。
Google在1998年9月7日正式成立,使用的是两位奠基人编写的代码(叫做”网页排名”——这里佩奇用自己的姓开了个诙谐的玩笑①)。
对于互联网,这个代码的作用和加菲尔德对学术出版的作用一样。“网页排名”通过计算某网页的链接数量,以及这些链接网页与其他网页再次链接的数量,来断定该网页的相关性和重要性。比如,美国环保署关于”有毒废物”的网页和”有毒废物”乐队粉丝的网页都被链接了10次。但环保署的网页还被链接到各类大学、报纸以及参议院个人主页——这类网页反过来又与上百个更小的网站链接。所有这样的链接加起来决定了一个网页的”Google果汁”(即Google对网页的评分)或者在排名榜上的位置。在这个例子中,环保署远远超过乐队粉丝的网站,后者都是与一些不知名的网页链接。
网页排名也包括其他变量,据约翰·巴特勒在他的书《搜寻:Google及其对手如何改变商业规则和文化》中写的,这些变量超过200个,但这种链接的测量法仍是最主要的。Google的搜索功能在判断相关性方面如此强大,这是一个好的搜索引擎必不可少的,网站很快成为互联网搜索业的领头羊。
Google证明,把人们的个人意见适当会聚在一起,能够将难以控制且数量庞大的信息整理出来。大众的集体决策力量是以链接的形式体现出来的,佩奇和布林在最初的学术论文中将它说成”投票”。
依赖上百万普通人(而非专家)步调不一的行为,Google将网上的.内容进行了分类整理,这几乎一手颠覆了沿袭了几个世纪的传统经验。
Google系统的精妙之处在于,它不需要用户付出额外的劳动。大众无须刻意做什么,只要做自己的事情即可表达他们的判断。在这个过程中,所有行为本身便是知识和经验的资料库。Google不必给人们分配任务,大众自己便会完成阅读或分析150亿个网页的”工作”。
在用大众的集体判断作为组织工具的系统中,网页排名也许是分布最广的,但它并不是这种点子唯一的应用——亚马逊和Netflix都在用大众生成的资料为顾客推荐产品(书籍和电影)。现在这种行为有了术语,叫做”群体筛选”。然而,其实它由来已久。《鼠标宣言:群体筛选的营销力》的作者们写道:“群体筛选的实质类似于通过社区成员的合作来区分好坏的机制。“说得更准确些,不是好坏,而是什么和大家息息相关,什么无关。而计算机的出现仅仅是帮助我们处理数量更庞大的信息,让受益的人更多些而已。
最早的”自动群体筛选”是由施乐帕洛阿尔托研究中心创造的,它是电脑鼠标以及激光打印机创新背后的计算机实验室,位于加利福尼亚。20世纪90年代早期,帕洛阿尔托研究中心的研究员在工作中广泛使用虚拟留言板Usenet,他们靠Usenet上的文章在各自的领域跟上发展的步伐。文章通过邮件发送,这就导致了一个让邮箱主人苦恼的问题(这个问题现在依然存在):满了的收件箱。
1992年,研究中心的4个科学家开发了一个叫做”挂毯”的系统,该系统让读者给每个文件标上注释,或者仅仅加上”喜欢”或”讨厌”的标签,然后通过设定服务器,仅仅转发那些受到好评的内容,收信人可以借此来过滤收到的信息和文章。
但挂毯计划不能推广,因为它仅限于研究中心内部。
几年后,一些来自麻省理工学院和其他大学的科学家发布了Grouplens,它也为Usenet上的文章排名。Grouplens在很多方面改进了”挂毯”,例如,任何人都可以使用它,这意味着它比”挂毯”拥有多得多的资料。其工作原理是,通过分析大量读者对各类文章的评级,将志同道合的使用者分成一组,假设他们过去意见一致,将来也会如此。
1995年,麻省理工学院媒体实验室将这个技术应用于音乐,之后,一个很好用的音乐推荐网站上线了。麻省理工很快将这个网站重新命名为”萤火虫”并联系投资人,希望将这种群众筛选技术卖给其他公司。最后,它被微软收购,然后就停业了。萤火虫吸引了很多忠实的音乐爱好者,在它的启发下,相继出现了很多音乐推荐搜索引擎,比如很受欢迎的在线服务Last.FM。
但真正普及”群体筛选”的是网络书店巨头亚马逊,亚马逊的创新之处在于,它分析的是各条目之间,而不是用户之间的联系。换句话说,通过仔细追踪每个顾客购买的商品,亚马逊能够通过大量的数据结果,在阿诺德·兰佩萨德写的拉尔夫,埃里森的传记和朱诺特·迪亚兹的小说《奥斯卡·沃精彩小传》之间建立起联系。这两本书没有任何共同点,但为什么买了其中一本的通常也会买另一本呢?亚马逊并未做出大胆猜测,它也没这个必要。只要利用两者的关系,提高销售量就够了。亚马逊的推荐功能非常有效,因此,很多网站都采用了类似的系统。
尽管”群体筛选”通常是指类似亚马逊使用的那种推荐系统,但它也提供了一个有益的环境,我们可以在里面研究,如何将大众的喜好用在身边的事情上。这样的”集体判断”机制主要有两类——主动和被动。亚马逊用的是被动过滤,因为它使用的资料仅仅是顾客在网站购物时的副产品。在现代化的数字生活中——比如添加博客链接,在YouTube上观看视频,在Williams-Sonoma.com上买搅拌碗等——我们会生成一些资料,被动过滤采用的正是这种资料,之后再将这类资料按照某种有意义的方式整理出来。
而帕洛阿尔托研究中心的实验系统使用的,则是主动过滤,因为用户在为手头资料排名的时候,是一种有意识的行为,该技术正是依赖于这种行为。尽管Netflix公司和亚马逊的目标一样,都是迎合用户的独特品位,为其推荐,争取卖出更多商品(Netflix还有出租业务),但Netflix使用的是主动过滤。
亚马逊是根据顾客购物的模式做出”群体筛选”,而Netflix的推荐系统”你可能会喜欢”依赖的则是用户对他们看过电影的评级。同样,网站易趣的评级系统是建立在买家对卖家的评分基础上,评分依据是卖家的可靠性和信任度。最近一段时间,群体过滤的使用范围更广了,不再局限于捜索技术和电子商务。
过去,图书馆管理员发明了索引,通过主题对书籍进行分类;类似地,互联网用户逐渐开始在创造和消费内容时,用”标签”作为索引的方法。比如说,我会为自己的每一篇博客文章添加标签:关于菲多利公司使用众包创作“超级杯”广告的文章,我使用的标签是”多力多滋”和”广告”。任何人搜索”众包”和”多力多滋”,第一个找到的都会是我的文章。这样的标签——无论是20世纪50年代就有的图书馆分类卡,还是今天用于描述博客文章的标签都叫做”元数据”。
标签是从博客开始的,但是很快,在世纪之交出现的很多其他形式的社交媒体也开始使用。网络书签工具”美味书签网”和照片分享网站Flickr都是通过标签将用户的书签和图片分类。所有这些元数据聚合起来,形成了用户创造的分类系统。
如果我在美味书签网上查找和”飞钓”①有关的网页(每个人都需要远离科技的时刻),会得到2509个网页,这是因为不同的人添加了和”飞钓”有关的标签。这些内容包括不同的钓线结如何打,以及一个有关鳟鱼的水下照片专业网站等。
这种零碎的分类法称为”大众分类法”,图书馆学方面的专家对此很感兴趣。早期,一篇关于”大众分类法”的文章指出:“创造专业的元数据既费时又费力。这样一来,在数量上它很难赶上正在大量生成的新内容,尤其是在互联网这样的新媒介中创造出的内容。“尽管大众分类法的缺点也很多——文章作者指出,它”从根本上是混乱的”,但它对用户的需求也很敏感,最好的地方在于,它可以无限升级无限扩展。大众分类法的优势和其他的众包应用没有区别:它让无法完成的任务变成可能。此类”群众过滤”的应用比其他形式的众包发展得更快。甚至,我们获得的新闻也已经被上百万读者的评论重塑了。大部分的新闻媒体——从美国国家公共广播(NPR)到《纽约时报》——都会在网站提供侧栏,根据读者的欢迎程度为报道排名。
《泰晤士报》的媒体专栏作家戴维·卡尔说:“这可以被视做一种赌博。一种动物——最好是海豚或者在某部情感戏中——来移动指针。编辑集中注意力,他们敲钟的时候记者会知道。”
所有这一切彻底改变了我们感受世界的方式。在组织和整理全球知识方面,专家曾毫无争议地拥有统治权。但仅仅几年时间,这个功能就极大地民主化了。正如所有形式的民主一样,积极效果的到来必然伴随令人不安的后果。






本书评论