商丘做网站,商丘网站优化,商丘网络推广,商丘网络公司
当前位置:

爬虫有哪些分类?白话说说SEO好朋友爬虫

发表日期:2022-04-02 17:59聚圣源浏览次数: 本文关键词:爬虫,蜘蛛,抓取,网页,网站,搜索引擎,协议,状态

本文大纲:

1、爬虫是什么?反爬虫又是什么?

2、爬虫有哪些分类?

3、爬中流程与搜索引擎工作流程

4、http/https协议与状态码

5、robots协议

爬虫是什么?反爬虫又是什么?

这里的爬虫不是我们生活中的爬虫,如蜘蛛。这里的爬虫更多指的是网络爬虫,即我们叫它网页蜘蛛或网络机器人。当然,在SEO里,叫网页蜘蛛更多。

网络爬虫,是一种按照一定规则,自动地抓取互联网上的信息的一种程序。他有一个英文名叫spider,比如百度网页蜘蛛就叫baiduspider,那搜狗的就叫Sogou spider。

这也是我们SEO人员做网站优化排名会听说的一个词。网站为啥没收录呢?原来蜘蛛没来抓取!如何看这个爬虫蜘蛛朋友来没来呢,让技术把网站日志下载给我们,我们就可以判断了,你说算不算好朋友?

百度爬虫是什么?Baiduspider是啥?

Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到网站上的网页。百度还有哪些蜘蛛呢?如下图。最多是圈中这个,记得哈~

图片

反爬虫是什么?

我们以门户网站举例,企业网站也同理哈。门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取,这就叫反爬虫。

当然,其实还有反反爬虫,即爬虫程序通过相应的策略和技术手段,破解了门户网站的反爬虫手段,从而爬取到相应的数据,这就叫反反爬虫。

再白话举例:你要来采集我的内容(爬虫),我不给你采并且我做防采集(反爬虫)。你呢,又搞了更高技术把我防采集攻破了采集(反反爬虫),这样理解了吧?

爬虫有哪些分类?

爬虫总共就分两类:通用爬虫与聚焦爬虫。

通用爬虫:简单说就是尽可能的把网上的所有的网页下载下来,放到服务器里再对这些网页做相关处理,最后给用户搜索用,通常指的搜索引擎爬虫。比如:谷歌爬虫、百度爬虫、搜狗爬虫、360爬虫等。

聚焦爬虫:它是根据指定的需求抓取网络上指定网站的数据。比如:获取知乎问答上的某一问题的浏览量和回答人数,而不是获取整个页面中所有数据。它也可以理解叫特定爬虫。

上面提到的反爬虫与反反爬虫,基本上都是在反这种聚焦爬虫哈,你也可以理解为爬虫攻防战哈哈哈。

爬中流程与搜索引擎工作流程

爬虫一般工作流程:确定某个URL——发送请求——响应内容——提取数据——保存数据。

搜索引擎蜘蛛工作流程:爬取网页——存储数据——数据预处理——提供用户搜索网页排名。

是不是感觉难理解?发送请求是什么,响应内容又是什么?这个往下看HTTP协议与状态看完你就懂了。

关于搜索引擎数据预处理在处理什么,怎么理解?看公众号白杨SEO两年前写过这篇《白杨SEO:大白话告诉你理解搜索引擎工作原理的意义和运用》,看完你就懂了。

http/https协议与状态码

HTTP协议是指Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网 WWW(World Wide Web缩写)服务器传输超文本到本地浏览器的传送协议。默认端口号:80。

而HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议指的是HTTPS是在HTTP上建立SSL加密层,并对传输数据进行加密,是HTTP协议的安全版。默认端口号:443。

你是不是理解不了这个HTTP到底什么东东?简单白话来说这个就是用来传输和接收页面的,保证你的电脑能快速传输文本文档并且让你看到哈。

至于HTTP的请求头,响应头,都是各种代码,白杨SEO就不在这里写了,如果你要真的想了解,自己去搜索,这里只讲一下我们SEO中会看到的HTTP请求响应状态码,一般状态码如下:

图片

上面只要是2或者3开头都是好的,比如查白杨SEO博客的:

图片

图片

输入http://www.baiyangseo.com返回是301,而输入https://www.baiyangseo.com 返回的是200正常的你知道为什么吗?

其实,这在SEO里来说,是因为两个不同URL内容是一模一样,为了让搜索引擎避免认为作弊,所以做了301永久重定向。简单理解,你用不带s的HTTP那个域名打开就是这个带的了哈。

关于这个状态码,如果你想学习了解更深入一点,同样可以白杨SEO公众号上这篇:《白杨SEO:SEO入门学习之搜索引擎蜘蛛与网站HTTP状态码》

robots协议

最后,来到针对搜索引擎网页蜘蛛robots协议了。这个如果你是学SEO的,肯定要学的。

robots协议是什么?简单理解就是网站通过Robots协议告诉搜索引擎,网站上哪些页面可以抓取,那些页面不能抓取!但是,它仅仅是互联网中的一种约定而已。所以有些人说我明明禁止XXX蜘蛛还是被抓取了哈哈哈。

它长啥样?到底有什么用?

图片

长啥样,如上图,作用就是上面说的,在SEO里就是告诉蜘蛛来爬我这里,一般每个站都会做这个,因为蜘蛛首先要爬取一个页面这个地方是最先爬取的,也会反复爬取。

不要问我为啥要给蜘蛛爬取,你做一个网站目的是啥,不就是要让蜘蛛爬取然后用户搜索的时候看到你带来流量吗?当然,你说我做网站只是用来存储我自己看除外哈哈哈。

作者简介:

白杨SEO,专注SEO研究十年,SEO、流量实战派,对互联网精准流量有深入研究。个人微信:baiyang2047

如没特殊注明,文章均来自网络! 转载请注明来自:http://www.jushengyuan.com.cn/news/wzyh/2602.html

网站设计案例推荐

热门文章

企业站可以做聚合页面吗 一般怎...

企业站可以做聚合页面吗? 企业网站可以做聚合页面吗?看网上说基本只有大平台网站才做聚合页面,少于5000个页面就不要做聚合页面是这样的吗? 其实不是。 企业站也可以做聚合页面啊。 比...

日期:2021-02-19 浏览次数:7998

百度搜索结果右侧的相关企业怎...

今天和大家聊聊百度搜索结果右侧的相关企业怎么做的? 首先小编先为大家更正一个错误,搜索结果右侧的相关企业,不是怎么做的,而是不能做。因为他是搜索引擎根据多维度分析后自动推荐的...

日期:2020-11-30 浏览次数:7998

SEO必须了解的网站微调...

当我们优化网站一段时间,应该对现在网站结构、关键词布局、内链建设、首页丰富度、TDK等基本参数等需要进一步调整。当初建立网站所有的优化策略,都是依据以往的实操经验,和现有的用户...

日期:2021-01-30 浏览次数:7996

“SEO+营销”融合,推动企业网络...

网络营销作为当前企业发展中十分重要的推广模式,而今在很多行业都备受众多企业的认可和青睐,而今选择做网络推广排名的企业数量也变得越来越多,通过优质网站排名优化效果,也可以给企...

日期:2021-01-30 浏览次数:7996

详谈百度排名必懂的算法...

网站排名,并不是只做好某一个方面的操作,搜索引擎的算法每天都会更新,针对各行业会有不同的更新周期,能否获取好的排名,先要问问对搜索引擎了解多少,目前90%搜索是信息搜索,但是价...

日期:2021-01-20 浏览次数:7996

相关文章

网站优化之索引量和收录量的区...

一直以来,许多SEO优化师对百度索引量和收录量的概念混淆不清,搞不清二者之间究竟有什么区别和联系。不少人认为索引量就是收录量,或者索引量是搜索引擎收录到数据库中的量,收录是在搜...

日期:2020-11-25 浏览次数:6782

seo优化文章应该怎么写蜘蛛会喜...

网站在优化的过程中文章占了很重要的一部分,那么网站文章在书写的过程中如何才能得到蜘蛛的喜欢呢?深圳seo优化外包就这个问题带大家详细的了解一下。 1、文章标题的拟定方法; 文章标题相...

日期:2020-11-25 浏览次数:6604

seo金三角指的是什么...

SEO金三角指的是谷歌搜索引擎在抓取关键词时一般重点抓取页面右上角。类似一个三角形。 曾经也有不少专业的SEO团队研究过这个问题。金三角现象在英文站,谷歌抓取爬行的次数数据来看非常的...

日期:2020-11-25 浏览次数:6440

seo蜘蛛抓取工作原理详解 seo服务...

为什么做SEO优化需要来了解搜索引擎蜘蛛的爬取规则?原因在于网站的收录决定索引,索引决定网站排名,而网站排名又决定着SEO优化结果的好坏,并且还决定了公司业务的的获客、转化、成交量等...

日期:2020-11-25 浏览次数:6106

seo优化让蜘蛛经常来的方法...

对于seoer来说,对搜索引擎爬虫都应该有所了解,因为在进行seo优化时都会和搜索引擎爬虫有所接触,所以我们要了解搜索引擎爬虫的工作原理。seo优化外包公司今天来给大家介绍一下。 什么是搜...

日期:2020-11-26 浏览次数:7013

随机推荐

SEO问答:新站收录首页多久?百...

逆冬:9月第1天,5个SEO社群小问...

五个网站外链建设的方法...

如何把网站流量做到一万 全文...

为什么我一直坚持白帽SEO...

百度会区别对待不同域名前后缀...