搜狗Sogou搜索引擎蜘蛛UA与IP段
本文公示目前搜狗 Sogou 搜索引擎蜘蛛爬虫所有的 UA 与 IP 段,用于帮助站长判断网站日志中可疑访问项和 Sogou 搜索引擎爬虫对网站抓取的程度与 SogouSEO 的态度,如下:
Sogou User-agent(ua)
Sogou PC UA
- Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
- Sogou inst spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
- Sogou spider (+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou 移动 UA
- Sogou wap spider(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou 新闻 UA
- Sogou News Spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou 图片 UA
- Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou 视频 UA
- Sogou Video Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou 未知 UA
- Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou IP 段
搜狗暂不对外提供搜狗 spider IP 列表,但您可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自搜狗搜索引擎。根据不同平台有不同的验证方法。
Linux
命令为 host ip,如下图。搜狗 spider 的 hostname 以 *.sogou.com 格式命名,非 *.sogou.com 均为冒充。
在 windows 平台或者 IBM OS/2
命令为 nslookup ip,搜狗 spider 的 hostname 以 *.sogou.com 格式命名,非 *.sogou.com 均为冒充。
MAC OS
命令为 dig ip,搜狗 spider 的 hostname 以 *.sogou.com 格式命名,非 *.sogou.com 均为冒充。
虽然 Sogou 官方表示不对外提供 spider IP 列表,但根据同行的收集和判断,一般 Sogou 搜索引擎爬虫 IP 会存在以下几个 IP 段中。
- 106.120.173.0/24
- 123.126.68.0/24
- 218.30.103.0/24
- 220.181.124.0/24
- 220.181.125.0/24
- 61.135.189.0/24
Sogou 搜索引擎 UA 问答
Q:Sogou spider 如何反应我网站上页面的更新?
A:Sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面。
Q:搜狗 Spider 的抓取频次是怎样的?
A:Sogou spider 对于同一个 IP 地址的服务器主机,只建立一个连接,抓取间隔速度控制在几秒一次。一个网页被收录后,最快也要过几天以后才会去更新。如果持续不断地抓取您的网站,请注意您的网站上的网页是否每次访问都产生新的链接。
如果您认为 sogou spider 对于您的网站抓取过快,请与我们联系,并最好能提供访问日志中 sogou spider 访问的部分,而不要直接将搜狗 spider 的 ua 封禁。
Q:Sogou spider 喜欢收录什么样的页面
A:内容优良而独特的页面。如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被 sogou spider 收录。
链接层次较浅的页面。过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
如果是动态网页,请控制参数的数量和 URL 的长度。搜狗更偏好收录静态网页。重定向次数越多的页面,越有可能被 sogou spider 丢弃。