简单2条命令识别真假百度蜘蛛
经过会有一些站长反馈说在审查网站日志的时候出现了很多百度蜘蛛的 UA,可在百度站长平台控制台查看的抓取数据不一致。其实这种现象会因为某些第三方利用貌似百度蜘蛛的 UA 来访问你的网站,一达到某种目的。那么应该要如何正确的识别真假百度蜘蛛呢?
1. 查看 user-agent(UA)
查看 UA,如果 UA 都不对,可以直接判断非百度搜索的蜘蛛,目前 UA 分为移动、PC、和小程序三个应用场景,这三个渠道 UA 分别如下:
移动 UA:
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
PC UA:
Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
小程序 UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
2. 反查 IP
站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。根据平台不同验证方法不同,如 linux/windows/os 三种平台下的验证方法分别如下:
在 linux 平台下,您可以使用hostip 命令反解 ip 来判断是否来自 Baiduspider 的抓取。Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。
在 windows 平台或者 IBM OS/2 平台下,您可以使用nslookup ip 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 nslookup xxx.xxx.xxx.xxx(IP 地址)就能解析 ip,来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。
在 macos 平台下,您可以使用dig 命令反解 ip 来判断是否来自 Baiduspider 的抓取。打开命令处理器输入 dig xxx.xxx.xxx.xxx(IP 地址)就能解析 ip,来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。
3. 借助第三方软件
以上的方法适合个人用来针对性查询少量的 IP,如果是批量大规模的查询那时间成本也太大了,这个时候站长们可以借助第三方软件来识别百度真假蜘蛛,本人用的是斗牛 SEO 软件的 SEO 软件包,在其他工具 tab 下选择 “ 百度真假蜘蛛检测 ”,如下图所示,在 IP 列表中批量导入要查询的 IP 集,设置好线程和查询间隔,点击 “开始查询”即可。