12.6 Sitemap生成器
Sitemap Builder(下载地址:www.sitemapbuilder.net)是一款共享软件,能模仿搜索引擎蜘蛛程序对网站页面进行扫描,并提取页面中的URL信息生成XML或者TXT文件。它是目前最好的Sitemap文件制作工具之一,其界面如图12-57所示。

12.6.1 工具栏
在URL文本框中输入要扫描的URL,如果选择了This page only,则只扫描该URL指向的页面,不再跟踪页面中的链接抓取下一级页面。默认情况下,该选项为空(如果要对整个网站进行扫描,则不能选择这个选项)。
- 点击Extract Links即开始对指定URL进行扫描,点击Cancel中止扫描过程。
- URLs to Process:表示待处理的URL数量。
- Grabbing:指抓取的线程数。
- 进度条:表示扫描状态,分别是Processing(扫描中)、Closing Connections(正在关闭扫描)及Processing Finished(扫描结束)。
- Urls Processed:已经扫描的URL地址。
- URLs OK:显示最近一次扫描后成功获得的URL。
- URLs with erros:显示最近一次扫描后出现错误的URL。
- Filtered URLs:设置过滤器后被过滤的URL。
- Map File:手工制作Sitemap选项。有两种形式,分别是xml Map 及txt Map,即按照xml或txt的格式生成Sitemap文件。根据实际情况点击相应的按钮,程序就会自动生成相应格式的文件,然后把这些内容复制并另存为xml文件或者txt文件。
- Stats: 以图表形式显示最近一次扫描后的各项数据,包括全部处理URL数、正常扫描URL数、错误URL数及过滤器过滤掉的URL数,如图12-58所示。

图 12-58 抓取状态界面
12.6.2 菜单栏
• File:菜单中包括New、Load map、Export、Save Map as和Exit。
- New:指开始一次新的扫描任务。
- Load map:导入已完成的Sitemap文件。
- Export:把扫描后的URL导出,你可以选择导出扫描正常的URL(OK URLs Report)、错误的URL(URLs with erros Report)、经过滤器过滤的URL(URLs filtered Report)、所有被扫描的URL(URLs processed Report),或者把扫描后的文件制作成HTML文件(HTML entry page)。
- Save Map as:可以将Sitemap文件保存为三种文件格式,分别是xml、Gzip及 txt;其中,xml及txt这两种格式这里不再重复介绍了,Gzip是指经过压缩的文件,更利于上传及Google下载确认。
- Exit:指退出本系统。
• View Map:选择以哪种形式查看已扫描URL。
- Google sitemap:以xml格式查看。
- txt file:以txt格式查看。
• Stats:以图表形式显示最近一次扫描后的各项数据,与工具栏的Stats标签功能一样。
• Tools:包括设置过滤器及提交网站地图文件两个选项。
- Options:设置扫描的最大线程数,一般按照默认设置即可。
- Maximum simultaneous connections:设置最大扫描线程,可以有效减少扫描时间。但是,要考虑服务器承受能力(特别是虚拟主机用户)。因此,应可以根据实际情况进行相应的设置。
- Page response time out:页面响应时间。指扫描页面时,在多少毫秒里得不到服务器的响应就视为出错处理,根据服务器及自身网络情况进行设置。
- Waiting time between requests:两次请求间隔时间,也是以毫秒为单位。
- Allow redirects:是否允许重定向,指是否允许对重定向的URL进行扫描。
- Filters:设置URL过滤器,如果存在多个过滤条件,则每个过滤条件用逗号分隔。例如,你不想扫描HTML及PK目录下的内容,则可以设置为“HTML,PK”即可。
- Submit Map:点击此选项后直接跳转至Google Sitemap提交页面,具体提交操作请看12.2节。
• Help:包含本工具的使用说明、版本更新、帮助推广本软件、报告软件bug、浏览官方网站、关于本软件的相关信息等。




本书评论