如何辨别搜索引擎机器人身份

百科 @ March 25, 2009 5:37 pm | No Comments | Comments Feed | Trackback

Tags: ,


搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。

在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。

目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的: 

  • Google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;
  • MSN:主机名称应包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com;
  • Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。
现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。

作者: 站长实验室
地址:http://www.fixbar.com
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

相关文章:

  1. 个人网站建设及推广
  2. 让搜索引擎知道新网站
  3. 如何让搜索引擎收录你的页面
  4. 域名是啥?域名解析又是啥?
  5. 地方门户建站首先dedecms

Font: Large   Normal   Small

Leave a comment

Log in to leave a comment or comment anonymously.


Name (required)

E-mail (required)

Website

Spam Protection by WP-SpamFree

RSS WordPress资讯
  • 高亮管理员评论
    你是否想让你的评论和访客的评论不太一样,更为突出?一段代码可以帮助高亮你的评论。找到评论所在的文件,通常是comments.php,并把这段代码添加到class-tag中就OK了。 […]
  • 服务器指数插件
    使用过cPanel的用户都知道,可以在控制面板中查看服务器负载,服务器在线时长以及内存占用情况,WP Really Simple Health 1.0这款插件可以在你的WordPress后台的管理栏显示这些参数,默认设置即显示这三个参数。如果你想显示其他的参数可以自己在插件那块设置。需要注意的是你的WordPress版本最低必须为3.3。 插件下载——点击下载 […]