通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。
网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。
也就是说,假定它会在系统更新周期内发生变化。随着信息更新过程的不断进行,将根据文档的实际变化情况,不断地调整它们的变化周期。如果一个文档的索引信息在一次信息更新过程需要予以更新,也就是说,文档的内容发生了变化,我们认为它很可能会在近期内再发生变化,因此,把它的变化周期缩短为原来的一半。如果在预计的变化周期内文档没有改变,那么就认为它在近期是比较稳定的,因此把它的变化周期扩展为原来的两倍