当前位置：网站首页 > SEO技术 > 正文

引擎蜘蛛的分类和抓取方式（了解搜索引擎的工作原理）

三石哥 2022-09-28 14:57:25 317

搜索引擎蜘蛛抓取主要依据用户的四种行为

网站想要在搜索引擎中拥有席位就必须吸引蜘蛛的抓取，而面对庞大的互联网来说，蜘蛛是没办法保证它的爬行可以遍布整个互联网数据的，因此怎样吸引蜘蛛的抓取也显得尤为重要。就以大连网龙科技旗下产品云霸屏为例来讲，云霸屏作为一款全网霸屏推广产品十分注重对网站的优化，谨防因不当操作影响产品的优化效果，那么在与日俱增的互联网数据中蜘蛛是根据用户的哪些行为进行数据抓取的呢？下面我们就针对这个问题进行详细的分析，希望可以帮助到大家哦。

首先网站的页面权重尽可能优化的高一点，权重越高表明品质越好，蜘蛛在抓取的时候也会更加喜欢去这样的网站。在蜘蛛看来品质好、权重高、建站时间长的网站更容易有好内容，这也是高权重网站能做到秒收录的原因了。

其次，网站页面更新频率要规律，如果不能时常更新页面内容，蜘蛛也就没必要经常来抓取了。正是因此，我们建议网站运营优化期间要保证网站的实时更新，不仅从内容质量上考虑更是从网站优化方面考虑。

当然了，网站内外部链接的发布也不能忽视，虽然说近几年网站的链接作用不如以往，但是尽管作用微小搜索引擎也没有忽略这项优化内容。因此，高品质的网站链接发布能够在一定程度上促进蜘蛛的抓取提升网站的收录数量。如果有高品质的链接更会加深蜘蛛的抓取层次，这是可遇而不可求的机会哦！

搜索引擎工作原理是什么？seo蜘蛛抓取会受到哪些因素影响

seo优化就是搜索引擎优化，就是对网站进行各方面调整，使其更符合搜索引擎的算法要求，从而得到更多的流量及转化，所以做seo必须要多搜索引擎有更多的认识和了解。搜索引擎有哪些功能模块？它的工作原理是什么？搜索引擎蜘蛛抓取会受到哪些因素影响？

搜索引擎功能模块：

1，蜘蛛，即Spider，类似浏览器的程序，专门用来下载web页面

2，爬虫，即Crawler，用来自动跟踪所有页面中的链接

3，索引，即Indexer，专门用来分析蜘蛛和爬虫下载下来的web页面

4，数据库，存储下载的页面信息和处理过的页面信息

5，结果引擎，从数据库中抽取出搜索结果

6，Web服务器，用来处理用户的搜索交互请求的web服务器

百度蜘蛛类型

般我们根据百度蜘蛛的爬取特点，可以将其分为三类: 批量型Spider、增量型Spider和垂直型Spider.

1、批量型Spider

般具有明显的抓取范围和目标，设置抓取时间的限制、抓取数据量的限制，或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标会停止。普通站长和SEO人员使用的采集工具或程序，所派出的Spider 大都属于批量型Spider，般只抓取固定网站的固定内容，或者设置对某资源的固定目标数据量，当抓取的数据或者时间达到设置限制后会自动停止，这种Spider是很典型的批量型Spider.

2、增量型Spider

增量型Spider 也可以称之为通用爬虫。般可以称为搜索引擎的网站或程序，使用的都是增量型Spider,但是站内搜索引擎除外，自有站内搜索引擎般是不需要Spider的。增量型Spider和批量型Spider 不同，没有固定目标、范围和时间限制，般会无休止地抓取下去，直到把全网的数据抓完为止。增量型Spider 不仅仅抓取尽可能全的页面，还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的，单个网页上的内容可能会随着时间的变化不断更新，甚在定时间之后该页面会被删除，优秀的增量型Spider 需要及时发现这种变化，并反映给搜索引擎后续的处理系统，对该网页进行重新处理。当下百度、Google 网页搜索等全文搜索引擎的Spider,般都是增量型Spider.

3、垂直型Spider

垂直型Spider 也可以称之为聚焦爬虫，只对特定主题、特定内容或特定行业的网页进行抓取，般都会聚焦在某个限制范围内进行增量型的抓取。此类型的Spider 不像增量型Spider样追求大而广的覆盖面，而是在增量型Spider 上增加个抓取网页的限制，根据需求抓取含有目标内容的网页，不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别，现在的搜索引擎Spider还不能地进行准确分类，并且垂直型Spider 也不能像增量型Spider 那样进行全互联网爬取，因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么会利用增量型Spider 以站点为单位进行内容分类，然后再派出垂直型Spider 抓取符合自己内容要求的站点: 没有增量型Spider 作为基础的垂直搜索引擎，般会采用人工添加抓取站点的方式来引导垂直型Spider 作业。当然在同个站点内也会存在不同的内容，此时垂直型Spider 也需要进行内容判断，但是工作量相对来说已经缩减优化了很多。

影响搜索引擎抓取的因素

1、抓取友好性

互联网资源庞大的数量级，这就要求抓取系统尽可能的高效利用带宽，在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。

2、用抓取返回码示意

简单介绍几种百度支持的返回码：

1)最常见的404代表“NOT FOUND”，认为网页已经失效，通常将在库中删除，同时短期内如果spider再次发现这条url也不会抓取;

2)503代表“Service Unavailable”，认为网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。

3)403代表“Forbidden”，认为网页目前禁止访问。如果是新url，spider暂时不抓取，短期内同样会反复访问几次;如果是已收录url，不会直接删除，短期内同样反复访问几次。如果网页正常访问，则正常抓取;如果仍然禁止访问，那么这条url也会被认为是失效链接，从库中删除。

4)301代表是“Moved Permanently”，认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时，我们推荐使用301返回码，同时使用站长平台网站改版工具，以减少改版对网站流量造成的损失。

3、取优先级调配

由于互联网资源规模的巨大以及迅速的变化，对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情，因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括：深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等

4、取反作弊