3.3.1 占意流网络
我们可以用一种流网络模型来抽象表示占意流,以便于我们能够揭示占意流的各种特性。为了说明这个模型,让我们先从一个商城中的人流的例子说起。
假设有这么一家商城,里面有多家商店,大量的顾客从入口进来徘徊、游荡于各个商店之间。如图 3-3 所示,箭头表示局部的人流,A、B、C、D 是 4 个不同大小、形状各异的商店。尽管每个人的行动路径不尽相同,但是他们构成的群体却可以形成一股股人流。这些人流就可以抽象地用一张网络图来表示,如图 3-4 所示,其中节点表示商店,连边表示任意两个节点之间的流动,连边上的数字表示不同商店之间的人流量。
与此类似,让我们考虑一群人浏览一个网站(例如淘宝网),他们点击网站中的页面会形成流动,这些流动同样可以用类似的流网络来表示。
图 3-5 展示的就是这个网站中的大量用户浏览访问所形成的流网络。其中节点表示页面,连边表示跳转,边上的数字表示跳转的流量。源和汇类似于商城的入口与出口。
页面上的人流可以近似代表这群人的占意流,这是因为用户访问的每个页面都会投射到这些人的意识空间中。而用户的点击行为则反映了注意力在意识中页面投射之间的跳转,所以这是概念空间中的流动。
图 3-6 展示的是大量用户访问某国内新闻类网站的占意流网络图,其中每个节点都是一个新闻页面,连边的颜色深浅表示流量大小。节点按照从源到达该节点的流距离进行排列,最下面的节点是源。
Digg 是一个新闻类分享、社交的网站,用户自己可以添加新闻,也可以“挖掘”别人的新闻,被“挖”得越多的新闻就会越靠前,获得越多的占意流。图 3-7 分别展示了不同时期大量用户访问 Digg 形成的占意流网络的情况。其中每个节点表示一个新闻,节点的颜色表示新闻在 Digg中的存活时间,越红表示存活的时间越长。节点离中心的距离就是源到该节点的距离。
与此类似,我们也可以将整个互联网看作一个大的商城,将每个网站看作一个商店,这样大量用户在互联网上的浏览行为就形成了他们浏览整个互联网的占意流网络。我们用美国印第安纳大学师生上网的数据近似绘出了他们浏览各个网站的占意流网络 ⁵ ⁶,如图 3-8 所示。
ACM International Conference on Web Search and Data Mining (WSDM); 2008. p. 65.
根据图 3-8,我们能够观察出如下几个现象。
所有的网站自发地聚成了几大类。在图中,我们根据来自http://sitereview.bluecoat.com/sitereview.jsp 网站的分类标注,用不同的颜色将所有的网站染色。结果发现,有些类别如成人类网站明显地聚集到了整张图的左侧,而绿色的新闻/娱乐类网站则聚到了图的右下侧。
少数几个大型网站聚到了中心位置,尤其是 Google 基本位于整张图的正中心。按照我们的算法,对于整个互联网生态越重要的网站就会越靠近中心。我们用圆圈的大小来表示该网站的访问流量。我们看到,虽然 Google 的流量相对于 Myspace、Facebook 来说并不是很大,但是它的位置却比 MySpace 和 Facebook 更加靠近中心,这彰显出 Google 对于整个互联网的中心作用。
最后,所有的网站的分布基本形成了一个以 Google 为中心的球形。我们可以按照球的半径大小从里到外把这些网站分成三个不同的层次(两条虚线圆形成了分界线)。我们发现最里面的球包含了仅仅 1/5 的网站数量,但是流量却涵盖了整个生态系统的 45% ;第二圈则包含了全部网站的 40%,而流量却仅仅只有 25% ;第三圈则是剩下的小网站。
每一天,印第安纳大学的师生上网浏览就会留下一些上网痕迹,形成占意流网络,那么不同日期就能得到不同的网络,也就会形成不同的互联网地图。于是,我们可以观察这张地图随着时间动态演化的情况。图 3-9 分别展示了 4 个不同日期(按照左上、右上、左下、右下的顺序)的互联网生态地图。可以看到,首先,Google 始终位于图形的中心位置。
其次,有一些大网站逐渐退出舞台的中心,例如 Yahoo、MSN ;而另外一些网站则逐渐从外围占据中心,例如 YouTube 就是一个后起之秀。其他方面则没有特别大的变化。
最后,除了用点击动作生成占意流网络以外,我们也可以用用户的其他在线行为来生成类似的网络,但是网络的形态就会因为不同动作消耗注意力的品质不同而不同。
图 3-10 分别展示了用户回答问题(stackexchange 网站数据)、图片贴标签(Flickr 社区)和点击行为(百度贴吧)的行为模式。按照一定的算法,我们为每个节点定义了一个二维坐标,从而可以把整个占意流网络可视化。不难看到,不同的用户行为会形成非常不同的图形可视化模式。
图 3-6、图 3-7、图 3-8、图 3-10 网络的展示方法图 3-6 中每一个节点的纵坐标是大量用户从源跳转到该节点的平均跳转次数,横坐标则没有特别的含义 。
图 3-7 中,每个节点到圆中心的距离就是源到该节点的用户平均跳转次数 ⁸。
图 3-8 中,每个节点的坐标是按照如下的方式计算的:要使得任意两个节点在空间中的欧氏距离尽可能地等于这两个节点之间的流距离 ⁹ ¹⁰ 。其中流距离定义为大量用户从这两个节点的任意一个出发沿着占意流网络到达另一个的平均跳转次数。由于我们让节点之间的欧氏距离能够尽量地反映节点对之间的流距离,所以靠得越近的两个节点的联系通常越强。而与所有节点的距离越短的节点就会越靠近整个图形的中心。所以,Google 靠近中心恰恰说明它到所有其他网站的距离很近,这是因为用户都从它进入互联网从而到达其他网站。
在图 3-10 中,不同的用户行为形成的占意流网络展现出了不同的模式。其中每个节点的位置的确定要使得该节点到源((-1,0) 位置)的欧氏距离刚好为源到该节点的流距离,而该节点到汇((1,0)
位置)的欧氏距离刚好等于该节点到汇的流距离。从源发出的边被染成了绿色,到汇的边则被染成了红色。
本书评论