在前面的内容中,介绍了搜索引擎的工作原理。下面针对其工作原理中的抓取,进一步 介绍抓取网页的相关策略。每天有许许多多的网站在互联网上进行着网页更新工作,如果蜘 蛛没有选择地抓取页面,会是一个有着极其庞大工作量的任务。因此,蜘蛛进行抓取是有一定策略的,正如我们买东西需要挑挑选选,蜘蛛抓取网页也是有选择性的。蜘蛛选取网 页的策略,可分为以下几部分,蜘蛛抓取网页策略深度优先宽度优先权重优先重访抓取。
1.深度优先
搜索引擎蜘蛛在一个页面发现一w接后顺着这个链接爬下去,然后在下一个页面又发现 一个链接,再爬下去并且全部抓取,这就是深度优先抓取策略。此类抓取方式的思路,就是深 度优先策略的中心思想。
2.宽度优先
搜索引擎蜘蛛先把整个页面的链接全部抓取一次’然后再对下一个页面的全部链接实施抓 取,这就是宽度优先。由于搜索弓丨擎蜘蛛的宽度优先策略,需要我们在SEO实施过程中,做到 网页的层数不能太多,如果太多会很难收录。
3.权重优先
现在搜索引擎都是将深度优先和宽度优先两种策略结合起来使用,两者没有绝对的优劣, 各有各的特点。在这种情况下,就需要我们参照链接的权重。如果链接的权重还不错,那么就 采用深度优先;如果链接的权重很低,那么就采用宽度优先。
鉴于上述原因,搜索引擎蜘蛛会从以下两个因素来衡量链接的权重:
(1)层次的多少;
(2 )链接外链的多少与质量。
4.重访抓取
如果昨天搜索引擎蜘蛛抓取了这个网页,今天在对网页进行更新之后,它又来抓取了新的 内容,这就是重访抓取的策略。重访抓取可分为全部重访和单个重访两类。
(1)全部重访:蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取 一次。
(2)单个重访:单个重访一般都是针对某个更新频率比较快、比较稳定的页面,如果一个 页面一个月也不更新一次,那么搜索引擎蜘蛛第一天来了,网站是这个样子,第二天还是这个 样子’那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间再来,比如隔一个月,或者等全部 重访的时候再来一次。