用超文本投票-众包-大众力量缘何推动商业未来在线阅读

语速1.0: 2.0

进度0:

用超文本投票

在上个10年中，网络信息的数量呈指数级增长：现在有大概150亿个网页，更不用说图片、音乐、视频和其他媒体形式，它们在互联网上大量”繁殖”。这个信息自助餐，规模变得越来越大。实际上，计算机领域顶尖的专家也在思考如何将这些内容整理和分类。对于那些还在凭借自身能力在无限混乱中创造秩序的公司来说，这是一个亟待解决的任务。

总的来说，众包还是一个新兴现象。尽管在某些关键的方面，众包已经成为文化中一种突出的力量。大众可以成为过滤器，这让iStockphoto这类公司的存在成为可能，还有菲特利公司征集”超级杯”广告的活动也是如此。但是同样的原理还可以应用在更为广泛的领域：在这类让网络更有秩序的工作中，大众的集体判断是首当其冲的力量，是存储信息最大的仓库。让这一切实现的引擎是什么？

Google。

Google的搜索引擎把决定信息（比如报纸文章或博客内容）重要性的权利交给了大众。这改变了人们过去对互联网的感受方式，造成了很大的不同。在Google之前，专家决定什么值得关注，而非大众来决定。Google的创始人，拉里·佩奇和塞吉·布林，并没打算颠覆专家的统治。

事实上，当这两个人还是斯坦福大学毕业生时，他们忙着完成一个代码，这个代码后来成为Google搜索技术的关键，那时，他们从论文发表使用的弓I文和注释系统中获得了灵感。

学术期刊的一个作用是，公布人类体质学、有机化学以及类似领域的科学新发现，此外，它还有一个作用——是学者保住自己职位，并在同行中建立声誉的渠道。

如果某篇文章要发表，教授会小心地引用该领域里已发表的文章，就像一个律师为了某个案子，引用写入法律摘要中的先例。一篇学术论文中，引用了很多其他学术论文的内容。这些加在一起，学术文献形成了它们自己的引文网络。

20世纪50年代，美国语言学家尤金·加菲尔德构想出一种方法，能将某篇论文的相对重要性量化，它就是”引文分析”——计算某篇论文被引用的次数。这样，爱因斯坦在1905年发表的提出相对论的那篇著名文章，在”1930年前发表的最重要论文”中位列第五，被引用了450次。

拉里·佩奇的突破在于，他认识到超链接不过是一种引文，网络本身就是一个密集的相互连接的文献集，在效用上和那些数十年的学术出版物没有本质区别。比如，一个学者引用爱因斯坦的《论运动物体的电动力学》（“狭义相对论”），而美食家网站Chowhound.com上一篇写生鱼“塞维切”的文章中可能引用了马克_比特曼的《最佳烹饪大全》。第一个例子可能涉及宇宙物理学，另一个则涉及某种生鱼片的准备工作，但根据文本动态，两者之间的链接没有区别。

链接的本质就是超文本形式的引文，这种观点在今天看来是很平常的，但在当时不同凡响。1995年，网络还不到一岁，“搜索引擎”还处在襁褓中。那时，雅虎——和今天一样，也是最受欢迎的门户网站之一——只是杨致远与戴维·费罗创建的网页目录而已。互联网内容的排名由他们两人和其他雇员进行，不是由单个网民的行为决定（雅虎在1995年增加了一个独立的搜索功能）。其他搜索引擎，比如Alta Vista，通过散布在网络中的”蜘蛛”程序反馈回网页的列表，之后再将其整理到中心索引中。但还是没有将结果按照相关性排名的有效方法。如果某人搜索”有毒废物”，得到的结果既可能是一个叫做”有毒废物”的不知名的爱尔兰朋克乐队，也有可能是某个环保机构列出的美国有毒地点的名单。技术对互联网的混乱状态无能为力。

Google在1998年9月7日正式成立，使用的是两位奠基人编写的代码（叫做”网页排名”——这里佩奇用自己的姓开了个诙谐的玩笑^①）。

①在英文中，网页和佩奇谐音。——译者注

对于互联网，这个代码的作用和加菲尔德对学术出版的作用一样。“网页排名”通过计算某网页的链接数量，以及这些链接网页与其他网页再次链接的数量，来断定该网页的相关性和重要性。比如，美国环保署关于”有毒废物”的网页和”有毒废物”乐队粉丝的网页都被链接了10次。但环保署的网页还被链接到各类大学、报纸以及参议院个人主页——这类网页反过来又与上百个更小的网站链接。所有这样的链接加起来决定了一个网页的”Google果汁”（即Google对网页的评分）或者在排名榜上的位置。在这个例子中，环保署远远超过乐队粉丝的网站，后者都是与一些不知名的网页链接。

网页排名也包括其他变量，据约翰·巴特勒在他的书《搜寻：Google及其对手如何改变商业规则和文化》中写的，这些变量超过200个，但这种链接的测量法仍是最主要的。Google的搜索功能在判断相关性方面如此强大，这是一个好的搜索引擎必不可少的，网站很快成为互联网搜索业的领头羊。

Google证明，把人们的个人意见适当会聚在一起，能够将难以控制且数量庞大的信息整理出来。大众的集体决策力量是以链接的形式体现出来的，佩奇和布林在最初的学术论文中将它说成”投票”。

依赖上百万普通人（而非专家）步调不一的行为，Google将网上的.内容进行了分类整理，这几乎一手颠覆了沿袭了几个世纪的传统经验。

Google系统的精妙之处在于，它不需要用户付出额外的劳动。大众无须刻意做什么，只要做自己的事情即可表达他们的判断。在这个过程中，所有行为本身便是知识和经验的资料库。Google不必给人们分配任务，大众自己便会完成阅读或分析150亿个网页的”工作”。

在用大众的集体判断作为组织工具的系统中，网页排名也许是分布最广的，但它并不是这种点子唯一的应用——亚马逊和Netflix都在用大众生成的资料为顾客推荐产品（书籍和电影）。现在这种行为有了术语，叫做”群体筛选”。然而，其实它由来已久。《鼠标宣言：群体筛选的营销力》的作者们写道：“群体筛选的实质类似于通过社区成员的合作来区分好坏的机制。“说得更准确些，不是好坏，而是什么和大家息息相关，什么无关。而计算机的出现仅仅是帮助我们处理数量更庞大的信息，让受益的人更多些而已。

最早的”自动群体筛选”是由施乐帕洛阿尔托研究中心创造的，它是电脑鼠标以及激光打印机创新背后的计算机实验室，位于加利福尼亚。20世纪90年代早期，帕洛阿尔托研究中心的研究员在工作中广泛使用虚拟留言板Usenet，他们靠Usenet上的文章在各自的领域跟上发展的步伐。文章通过邮件发送，这就导致了一个让邮箱主人苦恼的问题（这个问题现在依然存在）：满了的收件箱。

1992年，研究中心的4个科学家开发了一个叫做”挂毯”的系统，该系统让读者给每个文件标上注释，或者仅仅加上”喜欢”或”讨厌”的标签，然后通过设定服务器，仅仅转发那些受到好评的内容，收信人可以借此来过滤收到的信息和文章。

但挂毯计划不能推广，因为它仅限于研究中心内部。

几年后，一些来自麻省理工学院和其他大学的科学家发布了Grouplens，它也为Usenet上的文章排名。Grouplens在很多方面改进了”挂毯”，例如，任何人都可以使用它，这意味着它比”挂毯”拥有多得多的资料。其工作原理是，通过分析大量读者对各类文章的评级，将志同道合的使用者分成一组，假设他们过去意见一致，将来也会如此。

1995年，麻省理工学院媒体实验室将这个技术应用于音乐，之后，一个很好用的音乐推荐网站上线了。麻省理工很快将这个网站重新命名为”萤火虫”并联系投资人，希望将这种群众筛选技术卖给其他公司。最后，它被微软收购，然后就停业了。萤火虫吸引了很多忠实的音乐爱好者，在它的启发下，相继出现了很多音乐推荐搜索引擎，比如很受欢迎的在线服务Last.FM。

但真正普及”群体筛选”的是网络书店巨头亚马逊，亚马逊的创新之处在于，它分析的是各条目之间，而不是用户之间的联系。换句话说，通过仔细追踪每个顾客购买的商品，亚马逊能够通过大量的数据结果，在阿诺德·兰佩萨德写的拉尔夫，埃里森的传记和朱诺特·迪亚兹的小说《奥斯卡·沃精彩小传》之间建立起联系。这两本书没有任何共同点，但为什么买了其中一本的通常也会买另一本呢？亚马逊并未做出大胆猜测，它也没这个必要。只要利用两者的关系，提高销售量就够了。亚马逊的推荐功能非常有效，因此，很多网站都采用了类似的系统。

尽管”群体筛选”通常是指类似亚马逊使用的那种推荐系统，但它也提供了一个有益的环境，我们可以在里面研究，如何将大众的喜好用在身边的事情上。这样的”集体判断”机制主要有两类——主动和被动。亚马逊用的是被动过滤，因为它使用的资料仅仅是顾客在网站购物时的副产品。在现代化的数字生活中——比如添加博客链接，在YouTube上观看视频，在Williams-Sonoma.com上买搅拌碗等——我们会生成一些资料，被动过滤采用的正是这种资料，之后再将这类资料按照某种有意义的方式整理出来。

而帕洛阿尔托研究中心的实验系统使用的，则是主动过滤，因为用户在为手头资料排名的时候，是一种有意识的行为，该技术正是依赖于这种行为。尽管Netflix公司和亚马逊的目标一样，都是迎合用户的独特品位，为其推荐，争取卖出更多商品（Netflix还有出租业务），但Netflix使用的是主动过滤。

亚马逊是根据顾客购物的模式做出”群体筛选”，而Netflix的推荐系统”你可能会喜欢”依赖的则是用户对他们看过电影的评级。同样，网站易趣的评级系统是建立在买家对卖家的评分基础上，评分依据是卖家的可靠性和信任度。最近一段时间，群体过滤的使用范围更广了，不再局限于捜索技术和电子商务。

过去，图书馆管理员发明了索引，通过主题对书籍进行分类；类似地,互联网用户逐渐开始在创造和消费内容时，用”标签”作为索引的方法。比如说，我会为自己的每一篇博客文章添加标签：关于菲多利公司使用众包创作“超级杯”广告的文章，我使用的标签是”多力多滋”和”广告”。任何人搜索”众包”和”多力多滋”，第一个找到的都会是我的文章。这样的标签——无论是20世纪50年代就有的图书馆分类卡，还是今天用于描述博客文章的标签都叫做”元数据”。

标签是从博客开始的，但是很快，在世纪之交出现的很多其他形式的社交媒体也开始使用。网络书签工具”美味书签网”和照片分享网站Flickr都是通过标签将用户的书签和图片分类。所有这些元数据聚合起来，形成了用户创造的分类系统。

如果我在美味书签网上查找和”飞钓”^①有关的网页（每个人都需要远离科技的时刻），会得到2509个网页，这是因为不同的人添加了和”飞钓”有关的标签。这些内容包括不同的钓线结如何打，以及一个有关鳟鱼的水下照片专业网站等。

①飞钓就是使用特殊的飞钓线、飞钓杆和人工拟饵，利用独特的挥舞技术和线本身的重量，将线和饵打出去，然后慢慢回收线，利用不同手法和水流状况表现拟饵的活动，吸引鱼儿攻击上钩的一种钓鱼方法。——译者注

这种零碎的分类法称为”大众分类法”，图书馆学方面的专家对此很感兴趣。早期，一篇关于”大众分类法”的文章指出：“创造专业的元数据既费时又费力。这样一来，在数量上它很难赶上正在大量生成的新内容，尤其是在互联网这样的新媒介中创造出的内容。“尽管大众分类法的缺点也很多——文章作者指出，它”从根本上是混乱的”，但它对用户的需求也很敏感，最好的地方在于，它可以无限升级无限扩展。大众分类法的优势和其他的众包应用没有区别：它让无法完成的任务变成可能。此类”群众过滤”的应用比其他形式的众包发展得更快。甚至，我们获得的新闻也已经被上百万读者的评论重塑了。大部分的新闻媒体——从美国国家公共广播（NPR)到《纽约时报》——都会在网站提供侧栏，根据读者的欢迎程度为报道排名。

《泰晤士报》的媒体专栏作家戴维·卡尔说：“这可以被视做一种赌博。一种动物——最好是海豚或者在某部情感戏中——来移动指针。编辑集中注意力，他们敲钟的时候记者会知道。”

所有这一切彻底改变了我们感受世界的方式。在组织和整理全球知识方面，专家曾毫无争议地拥有统治权。但仅仅几年时间，这个功能就极大地民主化了。正如所有形式的民主一样，积极效果的到来必然伴随令人不安的后果。