3.3 关键字密度
在实际中,常用关键字密度来衡量页面中关键字的词频是否合理。关键字密度主要由关键字词频及总词汇量两个因素决定,这三者之间的关系如下:
关键字密度=关键字词频/总词汇量
式中,总词汇量是指页面程序标签(如HTML标签及ASP、JSP、PHP等)以外的词汇的数量。
以下对关键字密度的理解是不正确的:关键字密度=关键字总字节数/页面总字节数。
目前很多所谓的中文关键字密度工具都是按照这样的方法计算关键字密度的。例如,对于中文关键字“手机”,在页面中出现了1次,如果页面大小是1KB,则“手机”的关键字密度就是4/1024(1个中文字符=2字节,1个英文字符=1字节)。这样的统计结果是错误的。
了解关键字密度,要先认识搜索引擎对页面的分词。本书将从中英文这两种我们平常接触得最多的语言出发介绍关键字密度。
3.3.1 英文关键字密度
要了解英文关键字密度,关键是要认识在英文语言环境中,搜索引擎是怎样对页面进行分词的。
1. 分词
分词又称为切词,是指把网页中的正文内容¹ 划分为若干个具有实际意义的词汇(参见2.3.2节)。
2. 英文分词
在英文书面表达里,空格是单词之间的自然分隔符,而句点就是一个句子或者段落结束的标记。根据这个特征,搜索引擎就可以轻易地对网页正文内容进行准确的划分。
如图3-1所示,camcorder battery之间的空格就单词camcorder与单词battery间的分隔符;而句点“.”则是该句子结束的标记。

3. 英文关键字密度
在英文中,同一单词的不同形式会被认为是两个不同的单词(大小写除外)。例如,battery与其复数形式batteries,就会被认为是两个不同的单词。在图3-1的句子中,battery与batteries各在页面中出现了1次,则battery与batteries的关键字密度都是1/17。
而对于英文词组,在衡量这个英文词组的关键字密度是否合理时,除了计算这个英文词组的关键字密度以外,还要计算组成英文词组里的每一个单词的密度。例如,在图3-1中,对于词组关键字camcorder battery,除了要统计camcorder battery这个词组的关键字密度以外,还要统计camcorder battery中的camcorder与battery的关键字密度。即camcorder battery在页面中出现了一次,它的关键字密度 就是1/16 ²,而 camcorder与battery都只出现了一次,则它们的关键字密度都为1/17。
通过手工的方式去统计页面中的关键字密度显然是不可行的。下面,向大家介绍一个计算英文页面中关键字密度的工具—关键字密度检查器。
4. 英文关键字密度工具
关键字密度检查器(工具地址:http://www.webconfs.com/keyword-density-checker.php)只适用于英文网站,这个工具通过统计页面中每一个单词出现的次数,计算出每个单词占页面总单词量的比例,如图3-2所示。

我们只需要在文本框中输入要查询的页面URL即可,例如输入http://www.pcb-prototype.net,点击submit即可查询该页面中关键字的密度,如图3-3所示。

3.3.2 中文关键字密度
1. 中文分词
在中文里,字或者词之间并不存在自然分隔符,而且中文里的词通常由两个或两个以上的中文字符组成。因此,搜索引擎不能借助分隔符对页面的正文内容进行分词,而是基于自有词典,再结合某种算法对页面正文内容进行分词(请参考2.3.2节)。
2. 中文关键字密度
为了让读者可以更加容易理解中文关键字密度 ³,下面举一个简单的例子进行说明。例如,网页内容为“我的笔记本”,基于现有的词典,搜索引擎将其分为“我”“的”“笔记本”,则关键字“笔记本”在这个网页中的密度就是1/3。
对于短语关键字,在衡量这个短语的关键字密度是否合理时,除了计算这个短语的关键字密度,还要计算组成短语里的每个词的密度。例如,“智能手机走进大众市场”切分为“智能”“手机”“走进”“大众”“市场”。短语关键字“智能手机”的关键字密度是1/4 ⁴,而“智能手机”中的“智能”及“手机”各出现了一次,它们的关键字密度都是1/5。
3.3.3 关键字密度范围
通过以上内容,我们知道了搜索引擎对页面的分词方法,以及如何计算中英文页面中的关键字密度。然而,网页中关键字的密度在什么范围内才被认为是与某关键字高相关的?具体我们无从得知。通常,搜索引擎会对若干样本数据进行综合分析,最终确定关键字密度值在哪个范围内页面相关性更高,再以此值来衡量待分析网页中的关键字密度是否合理。
关键字密度的范围在不同的搜索引擎中会有所差别。基于长期的英文网站优化经验,一般认为,关键字密度在6%~10%⁵ 是比较合理的。
3.3.4 关键字密度与页面相关性
关键字密度是衡量页面相关性的重要指标之一。搜索引擎会根据页面中每个关键字的密度对页面的主题进行定位。也就是说,如果我们的页面要出现在某个关键字K的搜索结果中,最基本的是页面中K的关键字密度要在某个特定的范围以内(如6%~10%)。
例如,要想让网站中的某个页面出现在“手机”的搜索结果中,则首要条件就是该页面上“手机”这个词的关键字密度要在某一个特定的范围内。否则,就会被排除在“手机”的搜索结果以外。




本书评论