首页 所有文章 「SEO必看」搜索引擎爬虫的工作流程及原理

「SEO必看」搜索引擎爬虫的工作流程及原理

赵彦刚 发表于 2019-01-10 17:49:36
361 0
搜索引擎爬虫工作流程,是SEOer们必备的基础常识。这也是搜索引擎工作原理整个大环节中,最前端的一个环节。做SEO要想根本性解决问题,这些还是要必须掌握的。
搜索引擎工作流程详解头图

搜索引擎爬虫的工作流程,是SEO的基础篇章,也是每一位从事SEO工作的同仁都应该掌握的必备知识。赵彦刚通过整理,绘制了一张图,以便于你不懂技术也能看懂搜索引擎爬虫的工作流程,下面我们一起说一下。

话不多说,先上图:

搜索引擎爬虫抓取流程图

如上图,请大家在阅读下文的时候,对照图中的标号和我一起思考。

  1. 所谓种子URL所指的就是最开始选定的URL地址,大多数情况下,网站的首页、频道页等丰富性内容更多的页面会被作为种子URL;
  2. 然后将这些种子URL放入到待抓取的URL列表中;
  3. 爬虫从待抓取的URL列表中逐个进行读取,读取URL的过程中,会将URL通过DNS解析,把这个URL地址转换成网站服务器的IP地址+相对路径的方式;
  4. 接下来把这个地址交给网页下载器(所谓网页下载器,顾名思义就是负责下载网页内容的一个模块);
  5. 对于下载到本地的网页,也就是我们网页的源代码,一方面要将这个网页存储到网页库中,另一方面会从下载网页中再次提取URL地址。
  6. 新提取出来的URL地址会先在已抓取的URL列表中进行比对,检查一下这个网页是不是被抓取了。
  7. 如果网页没有被抓取,就将新的URL地址放入到待抓取的URL列表的末尾,等待被抓取。

就这样循环的工作着,直到待抓取队列为空的时候,爬虫就算完成了抓取的全过程。

然后以下载的网页,就都会进入到一定的分析中,分析后进行索引,我们就能看到收录结果了。

对于真正的爬虫来说,先抓哪些页面、后抓哪些页面,以及不抓哪些页面等等都是有一定的策略的,这里讲述的是一个比较通过、普遍的爬虫抓取流程,身为SEO的我们,知道这些足以。

延展阅读:

与 “「SEO必看」搜索引擎爬虫的工作流程及原理” 相关标签推荐:

说出你的观点针对《「SEO必看」搜索引擎爬虫的工作流程及原理》已发表0条观点

SEO培训咨询

QQ 31809890

SEO服务咨询

QQ 5683283

提供:SEO技术在线培训

提供:SEO顾问及诊断服务

详情点击:SEO顾问SEO培训

我的个人微信

添加微信时,请注明缘由!
赵彦刚微信号

微信回复“ 资料 ”,免费领取大礼包

加入SEO社群

微信扫码加入,融入行业
赵彦刚微信群

交流SEO 学习SEO 招聘SEO

信息反馈你的支持 我的动力!