可能有很多新闻相关网站近段时间已经在谷歌网站管理员工具发现网站的谷歌蜘蛛抓取统计数据下降了。这并不是一个偶然的情况,也已经持续一段时间了,如果你还没有发现那也没事。 因为谷歌最近公布谷歌新闻添加了if-Modified-Since请求头标签的支持,并指出这就是3月份到现在新闻类站点抓取变化的原因。大家大可不必担心,这是谷歌蜘蛛更强高效的一个表现,Matt
Cutts也指出,谷歌新闻的蜘蛛在爬行中做得更聪明更智能化了,从而更加高效。那么什么是
If-Modified-Since呢?
If-Modified-Since是一个标准的HTTP的请求头标签。在发送HTTP请求时,If-Modified-Since把浏览器端缓存页面的最后修改时间一起发到服务器去,服务器会把这个时间与服务器上存储的实际文件的最后修改时间进行比较。
如果时间一致,那么返回HTTP状态码304(不返回文件内容);如果时间不一致,就返回HTTP状态码200和新的文件内容。这样就可以大大缩短蜘蛛的抓取时间,提高蜘蛛抓取的效率,如果时间一致就不需要再次抓取,如果不一致才会继续抓取新的文件。这对于蜘蛛在站点的工作效率是非常大的提升,可以让蜘蛛抓取更多需要抓取的内容,所以站长不用担心,蜘蛛抓取数据减少少的只是不需要抓取的。