12.2 Google管理员工具
Google管理员工具(下载地
址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN)是Google为了加强与网站管理员之间的互动以及提高搜索质量而推出的一款工具。
网站管理员可以用它来了解 Google 查看网站的方式,与Google协调工作,进一步提高网站的友好性。以下是Google管理员工具的使用方法。
1. 如果你还没有Google网站管理员账户,可以注册一个(完全免费);否则,直接登录。
2. 如果你是第一次使用Google管理员工具,首先要添加一个需要管理的网站。在“添加网站”的文本框中填入网站的网址即可,例如www.chinaeye.com。如果你要在该账户上管理多个网站,则在此处输入相应的网址,如图12-2所示。
3. 成功添加网站后会产生一个网站管理列表,你可以在这里维护已经添加的网站,如图12-3所示。如果要删除管理的网站,那么就点击“管理网站”,再点击“删除”按钮即可。
4. 为了防止网站信息的泄露,Google管理员工具会对网站所有者的身份进行验证,验证方法有多种,如添加Meta元标记和上传验证文件。下面主要介绍推荐的方法和几种备用方法。
• 推荐的方法。下载HTML验证文件,并上传到网站的根目录,再点击验证即可,如图12-4所示。如果你暂时不想验证,则点击“暂不验证”。
• 备用方法。备用的验证方法有4种,分别是域名提供商、HTML文件上传、Google Analytics(分析)及Google跟踪代码管理器,这里只介绍其中一种最简单的备用方法,即HTML标记验证。选择HTML标记后,会生成一段代码,如图12-5所示。首先,把框中的代码复制到首页的<head>与</head>之间;然后,上传该首页文件;再点击“确认”即可完成身份验证。如果你暂时不想验证,则点击“暂不验证”。
5. 如果网站成功通过验证,只要点击www.chinaeye.com的链接即可进入Google管理员的网站信息中心,如图12-6所示。
Google管理员工具主要有7大块功能,分别是:网站信息中心、网站消息、搜索外观、搜索流量、Google索引、抓取及实验室。
12.2.1 网站信息中心
这里会显示网站的一些重要信息的概览,例如,重要的新消息、抓取错误、搜索查询及站点地图。
1. 重要的新消息
如果网站出现异常,则会以此处进行反馈,例如Googlebot无法访问网站等严重的错误,如图12-6的A区域所示。
2. 抓取错误
显示Googlebot在抓取该网站的页面时遇到的错误及问题,如DNS、服务器连接、Robots.txt抓取等错误。点击相应的链接就可以查看对应项目的具体信息,如图12-6的B区域所示。
3. 搜索查询
显示当前网站在某一天最高的查询数、展示数及点击次数。点击可以查看详情,如图12-6的C区域所示。
4. 站点地图
站点地图,即Sitemap,列出已提交的Sitemap文件及相关的信息,例如已编入索引的网址数量及上次下载时间,如图12-6的D区域所示。
12.2.2 网站信息
此处显示网站在过去某一段时间里的异常明细,点击可以查看详情。
12.2.3 搜索外观
搜索外观网站配置标签里包括结构化数据、数据标注工具、HTML改进、网站链接、地址更改及设置这几个选项。下面一一进行介绍。
1. 结构化数据
Google的结构化数据功能与百度类似,但比百度的展示样式及覆盖的范围要大得多。由于目前Google在国内的市场份额已经极低,所以在这里就不作详细的介绍了,有兴趣的读者可以详细了解一下。
2. 数据标注工具
与结构化数据有点类似,但又有很大的差别。使用数据标注工具,可以对某些特定的网页按照Google提供的样式(书评、产品、餐馆、文章等)进行模版化的处理,这样在Google搜索结果中就可以以更丰富的形式向用户展示,从而获得更高的点击率和更佳的用户体验,如图12-7所示。
例如,对于餐馆类(即商铺类)页面,可以标注商铺名称、地址、图片、评价等信息。如图12-8所示。
3. HTML改进
图12-9列出的是Google发现的可能会对该网站在搜索引擎友好性方面产生负面影响的问题。这些问题不一定会阻止该网站被搜索引擎抓取和编入索引,但是解决这些问题可能会改善该网站在各个搜索引擎中的表现。例如title和description标签是否存在缺失、重复、过长或过短等。
• 元描述
指元描述内容出现的问题,即description标签内容出现的问题。
重复的元说明:指使用相同元描述的页面。
长的元说明:指超出元描述长度限制的页面。
短的元说明:提元描述内容过短的页面。
• title标记
指页面标题(即title标签)内容出现的问题。例如,页面缺少标题或标题内容重复等。
缺少标题标记:指标题标记中没有内容的页面。
重复的标题标记:使用相同标题标记的页面。
长的标题标记:指超出标题标记长度限制的页面。
短的标题标记:指标题标记内容过短的页面。
非信息的标题标记:指标题中存在非信息类的内容。
• 无法编入索引的内容
网页包含无法编入搜索引擎索引的内容,例如Flash文件、视频或图像等。
4. 网站链接
Google有时会根据网站内容在搜索结果中生成相应的附加链接,让用户可以快速浏览网站中相对重要的内容,这些附加链接称为网站链接。仅当搜索引擎认为链接所指向的页面对于用户重要时,才会生成网站链接,显示效果如图12-10所示。
有很多人认为,只有排名第一的网站才能得到展示网站链接的机会。其实不然,即时不是排名第一的网站,搜索引擎也会展示它的网站链接,只要搜索引擎认为它的信息是有价值的就可以,如图12-11所示。
如果你不愿意Google在搜索结果中展示某个附加链接,那么你可以在此处进行降位设置。如图12-12所示,只要在针对搜索结果中输入对应的页面URL,再在以下站点链接网址降位中输入你不希望在搜索结果中展示的链接即可。
12.2.4 搜索流量
搜索流量功能可以让我们了解影响网站搜索流量的关键字的相关情况,以及影响关键字排名的内外部链接的概况。例如,搜索查询反映了网站在某些关键字搜索结果中的排名情况,而指向你网站的链接及内部链接则呈现了影响当前网站关键字排名的内外部链接情况。
1. 搜索查询
通过搜索查询功能,可以了解到网站目前在哪些较热门的关键字搜索结果中,以及在某些关键字搜索结果中具有较好排名的网页。
• 热门查询
热门查询是指网站相关页面出现在较为热门的关键字搜索结果中,如图12-13所示。
- 查询:对应热门搜索的关键字。
- 展示:显示了当前网站在对应关键字搜索结果中被展示的次数。
- 点击数:当前网站在对应关键字搜索结果中被点击的次数。
- 点击率:点击数/展示数。
- 平均排名:指当前网站在指定时间段某对应关键字上的排名平均值。
- 过滤器:用于筛选要查看的目标数据,如图12-14所示。
图 12-14 数据过滤器 - 网络:指查看当前网站在不同搜索类型上的主要指标,目前包括图片、网络、视频及移动设备。
- 地理位置:指查看当前网站在不同国家(地区)上的主要指标。
- 流量:按流量筛选出要查看的主要指标。
此处是当前网站的某些页面在Google上展示次数、点击数、平均排名等指标的报表,其中展示、点击次数、点击率及平均排名与热门查询标签展示的指标的概念是一致的,而变化指标则是指对应指标相对于前一个指定时间段内的变化情况,如图12-15所示。
2. 指向你网站的链接
此处展示了当前网站的外部链接情况,包括外部链接的数量、外部链接的URL、外部链接所使用的锚文本情况以及被外部链接指向的页面的数量跟URL。
• 与你的网站链接次数最多的对象
显示指向当前网站最多的前5个外部链接的URL,点击“详细信息”则可查看指向当前网站的全部外部链接的URL,如图12-16中A区域所示。
• 你的链接次数最多的内容
显示当前网站获得最多外部链接的前5个页面的URL,点击“详细信息”可以查看当前网站获得外部链接的全部网页的URL,如图12-16中B区域所示。
• 你的数据是如何进行关联的
指向当前网站外部链接所使用的锚文本,点击“详细信息”可以查看链接使用最多的锚文本名称,如图12-18中C区域所示。
3. 内部链接
此处展示了获得最多内部链接的站内页面的数量及URL,如图12-17所示。
我们还可以查询某个具体页面获得内部链接数量的情况,只要在搜索框中输入对应的URL即可。
4. 手动操作
如果我们的网站被恶意的外部链接指向,则可以通过手动操作来删除,类似百度的拒绝外部链接功能。
12.2.5 Google索引
Google索引返回的是Google对目前网站页面的索引情况,包括三大块的功能,即索引状态、内容关键字及删除网址。
1. 索引状态
在此处可以查询当前网站页面在过去一年被Google抓取及索引的趋势及具体数量。鼠标移上去可以查看某个时间点的索引量情况,如图12-18所示。
索引状态除了可以查看网站的网页索引数量外,还可以查看网站页面被抓取的数量、robots阻止的网页数量及主动向Google提交删除的网页数量,如图12-19所示。
- 编入索引的网页总数:显示的是当前网站页面被索引的数量。
- 抓取的网页数量:指Google在某段时间里对当前网站页面抓取的数量。
- Robots阻止的网页数:指Robots.txt禁止Google抓取的网页的数量。
- 删除的网页数:是我们主动向Google提交要删除的网页的数量,删除入口将在下面删除网址中进行介绍。
这里列出了网站站中最常出现的关键字,如图12-20所示。
3. 删除网址
如果要在Google索引中删除指定的内容,通常需要花费很长的时间。然而,我们有时需要在短时间内删除指定的内容。这时可以利用删除网址这个工具,Google提供的删除网址工具如图12-21所示。
网址:提出删除请求的URL。
状态:指目前的处理结果,如待定等。
从Google中删除指定网页的索引,操作如下。
1. 点击“创建新的删除请求”后,填写待删除的网址,如图12-22所示。
2. 选择相应的删除方式后,点击“提交”即可完成删除网页的请求,如图12-23所示。
删除搜索结果和缓存中的网页:指从Google索引中及缓存中清除该网页,避免用户通过搜索结果或者网页快照查询到当前待删除的网页。
仅删除缓存中的网页:适用了网站某个重要页面更新的情况。
删除目录:如果填写删除网址时输入的是目录名称,选择该选项则可以删除该目录下所有的网页,相当于批量删除功能。
• 说明
页面必须满足以下任意一个条件才能提出删除请求。
1. 404或401错误。
2. robots.txt限制。
3. 页面中使用了noindex标签。
12.2.6 抓取
此处返回Google蜘蛛在抓取当前网站时遇到的一些问题(如抓取错误、抓取统计信息、Google抓取方式、已拦截网址等),以及sitemap站点地图提交。
1. 抓取错误
抓取错误是指Googlebot在抓取网站页面时遇到的错误,包括针对PC端及移动端的情况,如图12-24所示。
桌面:即针对PC端网页出现的错误。
智能手机:即针对智能手机端的网页出现的错误。
功能手机:即针对普通手机的网页出现的错误,由于功能手机的浏览器面对的前端语言范围是比较窄的,导到兼容性较差。因此,Google在这里对功能手机进行单独检查。
• 网站错误
请参考12.2.1节。
• 网址错误
主要是指由于某些原因引起网站中一些网页不能正常的访问,包括服务器错误、404、访问被拒绝、找不到等。
1. 服务器错误
指由于服务器原因而引起的一些错误,常见的包括访问超时以及服务器内部故障等,如服务器过载、配置错误等。
2. 软404
正常情况下,如果某个页面不存在,则服务器会返回404代码及对应的404页面。如果对于不存在的网页强制服务器返回非404代码(即软404或伪404),则相当于告诉搜索引擎该页面是存在的,那么搜索引擎依然会收录该页面。这样就会出现一个问题,对于所有不存在的页面都会返回相同的内容。这样对于搜索引擎是极不利的,因为搜索引擎并不喜欢过多的重复内容。因此,对于不存在的网页,我们最后返回404代码,并自定义404网页对搜索引擎进行相应的引导。
3. 访问被拒绝
此处列出的是Googlebot抓取该网站的页面时无法访问的网址。页面不能访问的原因有多种,常见的包括5XX 错误、robots.txt 文件限制、需身份验证后才能访问等。
4. 找不到
指Googlebot向该网站发送页面访问请求时,该网站的服务器没能返回相应的页面。这样的情况一般是由于网页不存在而引起的,即常见的404错误。
5. 其他
由于某个不确定的问题Google未能抓取到该网页。
2. 抓取统计信息
抓取统计信息显示了过去90天内Googlebot的活动,如图12-25所示。
每天抓取的网页数量
这里列出的是指在过去的三个月内,Googlebot在网站上抓取页面的数量,如图12-25的A区域所示。
• 每天下载的数据量
图12-25中B区域是指Google从服务器上下载的数据量,这是由每天抓取的网页数量决定的。每天抓取的网页数量越多,下载的数据量自然也就会越大。
• 下载页面所用的时间
图12-25中的C区域是指Google从服务器上下载数据所需要的时间,主要由两方面决定,一是每天抓取的网页数量,即需要下载的数据量;二是服务器的带宽及服务运作的情况。所以,通过下载页面所用的时间这个图,还可以知道网站在这段时间内是否正常运作,或者是否出现过故障。
3. Google抓取方式
该工具可以让我们从Googlebot的角度检查某个具体的网页,查看Google究竟从我们指定的网页上识别到什么内容(与目前蜘蛛模拟器的SEO工具相似)。
例如,如果我们要检查的某个网页是使用Flash制作的,那么在这里查看到的就是与Flash相关的信息,而非普通用户看到的文本等内容。
4. 已拦截的网址
如果网站中的某些内容不想让Google或者其他搜索引擎索引,则可以通过robots.txt文件进行指定,目前大部分搜索引擎都遵守robots协议¹ 。当前是Google提供的用于测试robots.txt文件内容是否生效或达到预期效果的工具。
• robots.txt文件
如果网站的根目录中存在 robots.txt 文件,则列出该文件的相关信息,如图12-26所示。
说明
robots.txt文件当前所在的位置。
Google上一次下载robots.txt文件的时间(如果此后修改过此文件,则缓存版本将不能反映这些更改)。
状态:Googlebot在下载此文件时,接收到的 HTTP响应状态(例如,200表示成功访问文件,404则表示文件不存在)。
Google是否在解析robots.txt文件时遇到问题。
• robots.txt文件内容
robots.txt 分析工具模拟 Googlebot的方式读取robots.txt文件。这样就可以通过这个工具来查看robots.txt拦截了网站中的哪些目录或者文件,如图12-27所示。
• 网址测试
此处是添加需要检测的网站,如图12-28所示。
• User-agent
- Google 有多个漫游器,每个漫游器的User-agent名称都是不一样的,我们可以在此选择要限制访问的User-agent,如图12-29所示。
- Googlebot-Mobile:索引移动网站网页的蜘蛛程序。
- Googlebot-Image:索引图片网页的蜘蛛程序。
- Mediapartners-Google:抓取网页以确定Adsense内容的蜘蛛程序。
- Adsbot-Google:抓取网页来测量AdWords到达网页的品质的蜘蛛程序。
5. 站点地图
Sitemap(网站地图)文件,指存放URL资源的文件。只要我们根据搜索引擎的要求制作它能够识别的网站地图文件,它就会以该网站地图文件为入口抓取网站中的页面。
搜索引擎通过网站地图文件抓取网页会更加简单、快捷(目前Google及百度都支持这种页面抓取方式)。因此,提交一个完整、正确的网站地图文件可以有效增加网站页面被收录的数量。
• Sitemap信息
在Sitemap这个标签里,我们可以提交Sitemap文件或者查看已提交Sitemap文件的信息,如图12-31所示。
其中,所有内容类型如下所示。
- 全部下载:点击可下载已提交的网站地图文件。
- 重新提交:如果你已经上传了一个网站地图文件,由于某种原因需要Google对其进行重新检查,则可以使用该功能。
- 删除:如果你已经上传了一个网站地图文件,由于某种原因需要删除,则可以使用该功能。
- 处理日期:指Google最后一次访问该网站地图文件的时间。
- 问题数量:指所提交的sitemap文件出现的问题数。
- 最后一次提交时间:显示最后一个向Google提交的sitemap包括的网址的数量。
- 已编入索引的网址数:指所提交的sitemap文件里有多少网址是已经被Google编入索引。
此处显示当前网站在过去一段时间内向Google提交网址数量的情况,如图12-32所示。
• 提交Sitemap
此标签功能是让网站管理员添加特定类型的网站地图文件,只要将制作好的Sitemap文件上传到网站指定的目录下,再点击“添加/测试站点地图”,输入URL,点击“提交Sitemap”即可,如图12-33所示。
6. 网址参数
网址参数设置主要是帮助Google过滤掉使用相同参数且页面内容相同的URL,目的是尽可能不去抓取当前网址中内容相同但URL却不一样的网页。此处不建议进行修改,让Googlebot根据算法进行调整即可。
本书评论