当前位置:网站首页 > SEO技术 > 正文

什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?

seo公司seo公司 2021-03-12 237 0

刚到公司做SEO优化的时候,公司技术就对我说做搜索引擎优化就是为了吸引蜘蛛来抓取,当时就有点蒙,什么是搜索引擎蜘蛛?它们工作的原理是什么?蜘蛛爬行策略有哪些呢?今日就让SEO技术为大家科普下这方面的知识。

什么是搜索引擎蜘蛛

什么是搜索引擎蜘蛛?我们可以把互联网理解成一张巨大的“蜘蛛网”,搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。

什么是搜索引擎蜘蛛?搜索引擎蜘蛛工作原理

爬行和抓取网页:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

每家独立的搜索引擎都会有自己的网页抓取程序爬虫。爬虫蜘蛛顺着网页中的超链接分析连续访问抓去更多网页。被抓取的网页被称之为网页快照。毋庸置疑,搜索引擎蜘蛛抓取网页是有一定规律的。如下:

1、权重优先:先参照链接的权重,再综合深度优先和宽度优先策略抓取。打个比方,如果这条链接的权重还不错,就采用深度优先;如果权重很低,则采用宽度优先。

2、重访抓取:这个就可以直接字面上理解。因为搜索引擎使用单个重访与全部重访结合的居多。所以我们做网站内容要记得定期维护日常更新,让蜘蛛多来访多抓取才能收录快。

处理网页:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

搜索引擎抓取到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、超链接分析、计算网页的重要度/丰富度等。

搜索引擎蜘蛛爬行策略

什么是搜索引擎蜘蛛?网站和页面链接结构太过于复杂,所以蜘蛛只有采用一定的方法才能够爬完所有页面,搜索引擎蜘蛛爬行策略有3种:

1、最佳优先

最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为“有用”的网页。

存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法,因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点,据马海祥博客的研究发现,这样的闭环调整可以将无关网页数量降低30%~90%。

2、广度优先

广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

3、深度优先

深度优先是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

搜索引擎蜘蛛爬行策略

以上就是对什么是搜索引擎蜘蛛,搜索引擎蜘蛛爬行策略的详细介绍,希望能对大家有用哦,其实从理论上说,无论是广度优先还是深度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。


转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《什么是搜索引擎蜘蛛?蜘蛛爬行策略有哪些?》

标签:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

请填写验证码
关于我

关注微信送SEO教程

搜索
最新文章
热门文章
标签列表
热门tag
SEO优化网站优化上海SEO北京SEO深圳SEOSEO网站排名SEO技术广州SEO关键词排名网络推广SEO网站优化网站SEO优化关键词SEO培训网站建设SEO教程关键词优化广州SEO优化网站权重
随机tag
提升排名天津SEO优化采集的文章如何快速获得收录和排名如何提高网站推广中关键词的质量Nofollow标签扬州SEO不同时期的seo网站优化海南SEO网络推广怎么做兰州SEO老网站不收录的原因及解决方法如何设计一个符合SEO优化的网站URL标准化一级目录百度快照更新注册网站域名的费用如何筛选长尾关键词文章总是被复制怎么办seo引领该怎么做网站索引量