拨打电话

咨询热线

0571-88730320
登录/ 注册

解释搜索引擎抓取、吸引和排名的原则

发布时间:2020-12-29 09:10:00

如果您有类似需求请致电:17742004931 , 0571-88730320

SEOER的研究对象是搜索引擎网站,因为有必要加深对搜索引擎网站办公原理的理解。网络上介绍这方面的文章很多,但能称之为深入、生动、深入的文章却寥寥无几。当然,作者的博客可能也达不到彻底性、形象性和深化性三个方面,但笔者会尽力对各种原则进行阐述和深化讨论,以便对这些原则有更深入的理解。

1、 抓取:其实在爬行之前,有一个过程是没有描述的,那就是搜索引擎网站的过程,就是找到新网站的程序。然而,这个过程的大部分都是在爬行之后进行的。如果你的URL的内部实质性意义没有价值(垃圾的内部实质性意义、重复性的内部实质性意义、以及书籍和行为的内部实质性意义太少),搜索引擎网站抓取程序直接跳过。搜索引擎网站的抓取过程是对值表中已有的或新提交的链接进行抓取,以不断发现新的url。在分析和确认URL的内在意义后,抓取整个子页面并放入信息值表中。在进入信息值表时,新抓取的内部实质意义并不堆积在那里,而是根据表格字段(如网页URL、标题、说明、文本的内部实质意义、爬行时间、导出链接等)存储信息,以满足后面的数值运算。

2、 索引:在讨论这个过程之前,我们首先要弄清楚索引数据表和搜索引擎的信息数据表之间的关系。事实上,搜索引擎的底层数据存储是一个关系数据库。索引数据表和信息数据表是两个独立的表,但是索引数据表和信息数据表之间是一对多的关系,这一点可以更好地理解。那么为什么搜索引擎需要索引数据表呢?我们不妨从信息量的角度来分析。目前,搜索引擎的信息量在100亿级,用户在搜索关键词时的响应速度在2到3秒的短时间内。在这短短的2或3个周期内,不仅要完成数据的查询,还要完成数据的排序(关键字排序)。如果每次都要查询用户请求并对100亿级数据进行排序,不仅会降低响应速度,而且会浪费大量的计算资源,对服务器的压力也会更大。此时,搜索引擎急于将用户的查询信息锁定在一个范围内。这个范围内的信息量可能只有几千或几百。计算和处理的效率更高,索引数据表就是为了解决这个问题。

据统计,中国有9万多个字,听起来很大,但恐怕电脑处理起来会很容易。中国用户的搜索不过是数万个单词的组合(26个字母的组合在英语中更简单)。如果用户搜索一系列句子,首先要经过搜索引擎的分词处理,比如搜索:华普笔记本电脑。分词技术首先根据中国人的习惯分为华普、笔记本和电脑。然后这三个常用词在搜索引擎索引数据库表中有相应的条目。此时,搜索引擎将从相关联的索引数据表中的三个词的所有条目从数据表中过滤出来,并将相交条目显示给用户。如果用户搜索单个单词,搜索引擎将更简单地直接过滤出索引数据表中该词的相应条目。

3、 排名:为了解释这一原理,我们不得不说搜索引擎的爬行和爬行过程有很多影响关键词排名的因素,比如:站点优化、外部链的质量和数量、PR等,那么这些排名因素搜索引擎也必须抓取到数据库中并包含在数据表中作为特定URL的排名依据。其实,获取网页排名指标的过程就是搜索引擎抓取、抓取的过程。难理解的可能是外部链,因为在抓取网页时,搜索引擎无法抓取其导入链接。实际上,搜索引擎在抓取某个页面时,已经计算出该页面的导出链接投票到相应页面,并将该有效投票写入URL字段(如:投票字段),方便排名程序计算。当然,影响排名的因素很多,我们也没有办法知道具体的排名计算方式,所以这些都不在我们的讨论范围之内。至于排名,你可能还有另外一个问题,那就是每个单词的排名是提前排序的还是用户搜索时排序的。作者给出的答案是后者。或许这一现象可以揭示作者的答案:关键词排名每天甚至每小时都有波动。