「SEO必看」搜索引擎爬虫的工作流程及原理

赵彦刚 • 2019 年 1 月 10 日 17:49 • SEO技术 • 4849 views

搜索引擎爬虫工作流程，是SEOer们必备的基础常识。这也是搜索引擎工作原理整个大环节中，最前端的一个环节。做SEO要想根本性解决问题，这些还是要必须掌握的。

搜索引擎爬虫的工作流程，是SEO的基础篇章，也是每一位从事SEO工作的同仁都应该掌握的必备知识。赵彦刚通过整理，绘制了一张图，以便于你不懂技术也能看懂搜索引擎爬虫的工作流程，下面我们一起说一下。

话不多说，先上图：

如上图，请大家在阅读下文的时候，对照图中的标号和我一起思考。

所谓种子URL所指的就是最开始选定的URL地址，大多数情况下，网站的首页、频道页等丰富性内容更多的页面会被作为种子URL；
然后将这些种子URL放入到待抓取的URL列表中；
爬虫从待抓取的URL列表中逐个进行读取，读取URL的过程中，会将URL通过DNS解析，把这个URL地址转换成网站服务器的IP地址+相对路径的方式；
接下来把这个地址交给网页下载器（所谓网页下载器，顾名思义就是负责下载网页内容的一个模块）；
对于下载到本地的网页，也就是我们网页的源代码，一方面要将这个网页存储到网页库中，另一方面会从下载网页中再次提取URL地址。
新提取出来的URL地址会先在已抓取的URL列表中进行比对，检查一下这个网页是不是被抓取了。
如果网页没有被抓取，就将新的URL地址放入到待抓取的URL列表的末尾，等待被抓取。

就这样循环的工作着，直到待抓取队列为空的时候，爬虫就算完成了抓取的全过程。

然后以下载的网页，就都会进入到一定的分析中，分析后进行索引，我们就能看到收录结果了。

对于真正的爬虫来说，先抓哪些页面、后抓哪些页面，以及不抓哪些页面等等都是有一定的策略的，这里讲述的是一个比较通过、普遍的爬虫抓取流程，身为SEO的我们，知道这些足以。

原创文章：《「SEO必看」搜索引擎爬虫的工作流程及原理》，作者：赵彦刚。不经允许，请勿转载，如若转载，请注明出处：https://zhaoyangang.cn/?p=1576

SEO基础搜索引擎工作原理搜索引擎爬虫精品内容

Like (1)

Donate

微信扫一扫

支付宝扫一扫

0 0

怎么识别Baiduspider的真假？

怎么识别Baiduspider的真假？

Previous 2019 年 1 月 10 日 12:59

搜索引擎爬虫的五大抓取策略

Next 2019 年 1 月 10 日 21:19

发表回复