附录A 常用术语
SEOer
即搜索引擎优化者,指从事搜索引擎优化的专业人员。
PR值
PR是PageRank的缩写,中文翻译为“网页级别”,是Google用于评估页面重要性的算法。PR值是反映页面在Google中重要性的一个指标,共分为12个级别,分别是“空”及“0~10”。
我们可以通过Google工具栏或者第三方工具(如去查等)查看页面的PR值,如图A-1所示。
原理
Google的PageRank算法基于这样的理论:如果网页A上存在链接指向网页B,则认为网页A投了网页B一票;然后,根据页面得到的投票数及投票页面的质量来评定页面的重要性。
SogouRank
类似于Google的PageRank。Sougou Rank是搜狗评估网页重要性的算法。
页面收录数
页面收录数是指某网站被搜索引擎索收录面的数量,可以在搜索引擎中通过搜索“site: 你的域名”进行查询。例如,要查询搜索引擎优化网的页面收录数,只需在搜索引擎中搜索“site:chinaeye.com”即可,如图A-2所示。
在查看网站的页面收录数时,不能在域名中加上www。因为这样只是查询www子域名下的页面被收录的情况,而“site: 你的域名”则表示查询所有子域名下的页面被收录的情况。这两种查询方式会存在比较大的差别,特别是当网站同时使用多个子域名时。
页面包含数
页面包含数,指网站的域名被其他页面引用的情况,从一定程度上反映了网站的知名度。可以在搜索引擎中通过搜索“你的域名”进行查询,例如seochat.org。
链接广泛度
链接广泛度指某网站的导入链接情况,目前只能通过Google网站管理员工具进行查询,如图A-3所示。
蜘蛛程序
蜘蛛程序(spider),又称为网络机器人(robot)或者爬行器(crawler),是指搜索引擎中负责抓取信息的程序。由于搜索引擎信息索引程序是跟踪互联网上页面中的链接提取信息的,就好像一只蜘蛛在蜘蛛网上面爬行,因此称为蜘蛛程序。下面介绍一下蜘蛛程序的工作流程及原理。
首先,蜘蛛程序会从某一特定的网页出发,跟踪其中的链接去抓取相应的网页;然后,提取并存储抓取后的页面的信息,包括网页源代码及链接等。
通过搜索引擎会存在多种不同的蜘蛛程序,针对不同的内容使用不同的蜘蛛程序获取信息。例如,Google有Googlebot、Googlebot-Mobile等,对于普通的网页信息,它会使用Googlebot进行抓取,而对于WAP网站,则会使用Googlebot-Mobile进行抓取。
此外,在抓取一个网站的网页的时候,搜索引擎会使用多个蜘蛛程序,这样就可以提高页面抓取的效率,节省时间。
robot.txt
1. 什么是robots.txt
robots.txt是一个纯文本文件,用于限制搜索引擎对网站页面的访问。当搜索引擎的蜘蛛程序访问一个站点时,首先会检查该站点的根目录中是否存在robots.txt文件。如果存在,则按照该文件中制定的规则进行访问,否则沿着链接抓取。
2. robots.txt语法
Robots.txt文件包含一条或多条记录,每条记录通过空行分隔(注释标记为“#”),以User-agent开始,后面加上Disallow。例如:
User-agent: *
Disallow: /Admin/
• User-agent
该项的值用于描述搜索引擎robot的名字,在robots.txt文件中,如果有多条User-agent记录,则说明有多个robot会受到该协议的限制。
对robots.txt文件来说,至少有一条User-agent记录。如果该项的值设为*,则该协议对所有机器人均有效,但在robots.txt文件中,User-agent:* 这样的记录只能出现一次。
• Disallow
该项用于描述不希望被搜索引擎访问的目录或URL(可以是绝对路径或相对路径),任何以Disallow开头的URL或者目录均不会被robot访问。
如果Disallow记录为空,则说明该网站的所有内容都是允许访问。
在robots.txt文件中,至少要有一条Disallow记录。
如果robots.txt是一个空文件,则说明该网站对于所有搜索引擎都是开放的,而且允许其访问网站中所有内容。
下面是robots.txt的一些基本用法。
• 禁止所有搜索引擎访问网站的任何部分。
User-agent: *
Disallow: /
• 允许所有的robot访问。
User-agent: *
Disallow:
或者也可以建一个空robots.txt文件。
• 禁止所有搜索引擎访问网站中的某些部分。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
• 禁止某个搜索引擎访问本站。
User-agent: 搜索引擎蜘蛛程序名称
Disallow: /
• 只允许某个搜索引擎的访问本站。
User-agent: 搜索引擎蜘蛛程序名称
Disallow:
3. robots meta标签
robots meta标签用于限制搜索引擎对当前页面的抓取,存放在网页的头部中。例如:
<html>
<head>
<title>...</title>
<meta name="robots" content="noindex,nofollow">
</head>
常见的content属性值如下所示。
- noindex:不索引当前页面。
- nofollow:不跟踪当前页面中所有的链接。
- norarchive:在搜索结果中不保存当前页面的快照。
- nosnippet:在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照。
- noodp:搜索结果中不使用。
- Googlebot:是Google的Web抓取程序的名称。它的作用是采集互联网上的网页,并建立索引数据库。
- Baiduspider:百度的Web抓取程序的名称。它的作用是采集互联网上的网页,并建立索引数据库。
- Spam:即垃圾信息。在搜索引擎优化领域,垃圾信息包括:垃圾网站、垃圾链接、垃圾页面等。
- 垃圾页面:通常指存在违规行为的页面,例如堆砌关键字、隐藏关键字等。
- 垃圾网站:由于采取违规手段而遭到搜索引擎封杀的网站。
- 垃圾链接:指通过非正常手段获取大量链接的行为。
垃圾链接制造厂(Link spamer),指存放大量链接的低质量页面或者网站,例如常见的链接交换程序。
停用词
指一些使用频繁但又没有实际意义的词语,例如中文里的“的”“地”“得”等;英文里的“the”“of ”“by”等。
本书评论