搜素引擎是怎么判断采集的?

6274 发布于 1个月前 分类:seo

如采集他人站点(非原创)数据,还有如果自己搭建一个数据站,文章啥的都是原创然后采集,前者多半会被惩罚,后者会么?所以关键还是不太明白搜素引擎是怎么判断采集的?

3个回复

  • 赵彦刚

    你这里描述的我觉得是两个问题,先看搜索引擎是如何判断采集的?

    搜索引擎在处理内容的过程中,会将你的文字内容提取出来,从而进行分词,例如:“搜索引擎如何采集”,也许会被分成:搜索/引擎/如何/采集,在这种情况下,搜索引擎根据词组的含义进行分类,去除一些的、地、好、不错等等无效词,剩下的有效词记录位置、记录出现频次,和多个同类文章去对比,发现对比的两个文章相似度很高的时候,采集的那一篇文章很有可能被识别为抄袭。

    而你说的一个数据站,文章啥的都是原创,然后采集?我没有太理解,还请你具体表述一下是什么情况。在线等!

  • 6274

    是我没表达清楚,我所说的数据站你可以理解为:个人或团队写了成千上万篇原创文章存放在一个网站里(该网站不让爬取索引),网站提供接口给站长们采集里面的所有原创内容,因为是采集所以站长们采集后文章发布文章的时间频率就很高(间隔几毫秒就发布了几百篇)这样会不会因为发布时间被判做采集呢?还是说如你上文解答那样只会根据算法来判定内容是否为采集?

  • 赵彦刚

    单纯的时间维度上并不会,时间只是判断是否采集的维度之一,并不是唯一。

联系我们

联系赵彦刚

在线咨询:点击这里给我发消息

邮箱:reedzyg@163.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code