在早先的分享中,小海就谈到过百度搜索引擎排名的规则和算法。然而不仅仅是百度,其他的比如谷歌、360、搜狗、雅虎、搜搜、必应等搜索引擎,都是具有自己独立的排名展示的规则算法,只不过百度搜索引擎的规则算法是最完善和科学的。那么为什么搜索引擎会有自己的排名规则,以及我们要怎样把握好搜索引擎的展示算法,因此在这里就需要引入一个概念,即搜索引擎的工作原理。正因为有了搜索引擎的工作原理,才会有搜索引擎的排名法则。俗话说:知己知彼,百战不殆。想要攻克对手,就必须先了解对方。搜索引擎的工作原理是其排名的前提,如果想要自己的网站在搜索引擎中拥有好的排名,那么就必须要对搜索引擎本身的操作机制有足够的了解。因此在今天的SEO学习分享中,小海将给大家详细的介绍搜索引擎的工作原理。
虽然每个搜索引擎是各自独立的,但是他们的排名算法却是大致相同的,因而他们的工作原理也是相差无几。既然这样,那么对于SEO学习,我们就拿其中一个搜索引擎来分析即可,我们就以目前使用率最高且搜索引擎机制最先进的百度搜索引擎为例来说明搜索引擎的工作原理过程,总体分为爬行过滤、抓取收录、分析预处理、展示排名四个步骤。
百度蜘蛛爬行过滤:
1.搜索引擎根据自己独特的程序系统来追踪网站的链接,并从这个链接追踪到其他链接,就如同蜘蛛在蛛网上爬行一般,因此就有了百度蜘蛛或机器人的说法。
2.百度蜘蛛具备有规律的爬行顺序,大致可以分为两种爬行顺序:一种是纵向爬行顺序,就是直接从网站的首页爬行到栏目页再爬行到列表页最后爬行到内容页,也就是常规的爬行顺序;另一种是横向爬行顺序,这种爬行顺序并不是严格按照首页-栏目页-内容页的顺序爬行,而是可以跳过栏目页从首页直接到内容页,相当于特殊的爬行顺序。
3.百度蜘蛛会将爬行到的内容进行过滤和筛选。
百度蜘蛛抓取收录:
1.百度蜘蛛经过爬行了内容之后,就会选择自己需要的信息进行抓取,并收录存储在自身的数据库中。
2.百度蜘蛛抓取过程:爬行链接列表——抓取页面——提出链接——存储原始页面。
3.百度蜘蛛收录原则:在原创内容和采集内容之间来回重复爬行,选择最终百度认为原创度高和质量好的内容进行收录。
SEO学习之搜索引擎的工作原理
百度搜索引擎分析预处理:
总的来说就是将收录的内容进行关键词的分类处理,然后分析页面和关键词的相关匹配度。
1.提取关键词。说到关键词,那肯定是文字内容,因此百度搜索引擎会优先处理文字信息,其他的比如图片、flash、js、框架、视频等载体都基本不会抓取。
2.判断特殊词。最明显的就是新鲜的网络词汇,正所谓中国文化博大精深,汉字的巧妙搭配正是其中一大特色,不同的阶段都会出现很多新造的网络用语,而作为搜索引擎就需要及时更新自身数据库的词汇才能判断这些特殊词,当然百度这方面是最先进的。
3.去除语气助词、人称词以及其他没有实际意义的词语。比如啊、呀、哈、吗、嘛、啦、哇等,还比如你、我、他、您、咱、俺等。
4.删除垃圾内容。最主要的就是黄赌毒信息和广告内容。
5.经过以上四步处理之后,就将剩下的内容建立索引。
百度搜索引擎展示排名:
1.将分析预处理后的内容按照不同关键词的信息根据页面和关键词相关匹配度的高低在数据库中进行内部排序。
2.当用户搜索一个关键词后,百度搜索引擎会将与该关键词相关匹配度越高的链接越往前展现。
以上便是百度搜索引擎工作原理的四项内容,当然其他搜索引擎也是如此。虽然这个过程看似很简单,且耗费的时间仅仅是用户从搜索关键词到内容展现不到0.1秒的时间,但是如果我们了解了这个工作原理,那么对日后的SEO工作是有很大的促进作用的。我们要想关键词获得好的排名,就必须做搜索引擎喜欢的内容,简单地说就是要做原创度高和质量好的文字内容。其实搜索引擎的工作原理也是SEO学习中的必学知识。