SEO原理:搜索引擎算法的四大方面

本文的内容比较抽象,但极为重要。为了说明问题,Ethan构造了两个概念:“网页文本域”和“网页血统”,请耐心阅读。围绕本文主题,Ethan专门做了视频和讲义,参见搜索引擎算法。搜索引擎算法是保密的,而且据说每天都在调整,具体没人知道。但是Ethan认为搜索引擎算法源自两个方法论:程序推理和用户判断,程序推理分为两个维度:相关性和重要性,用户判断分别为相关性和重要性乘上个系数。关键词相关性由网页文本域内的关键词密度和分布决定。重要性也叫权重,一个网页的权重由这个网页的血统和内容品质共同决定。由此,我们总结出搜索引擎算法的四个方面:关键词相关性、网页血统、网页内容品质、用户判断。大家从这四个方面思考,往往可以为被广泛认可的seo操作找到理论依据,培养自己的seo思维。有了seo思维,才能突破教条式的操作规定,在seo实战中灵活应变。 排名不是针对网站的,而是针对网页的。当用户搜索一个关键词时,搜索引擎从以下四个方面分析被收录的页面,算出一个总分,总分最高的,排在自然排名的第一位。一、关键词相关性网页文本域是Ethan创造的一个概念,想说明的意思是,搜索引擎在判断关键词和网页之间的相关性的时候,不仅仅考察网页内的文字,还会考察网页外的文字,主要包括反向链接锚文本的文字、反向链接页面的主题文字、域名的主题文字,所有这些文字构成了这个网页的文本域。所谓主题文字,就是搜索引擎会为每个域名和每个页面赋予一些文字,这些文字体现了这个域名或这个页面的主题。大家都知道meta标签里有keywords和description,可以这样想象,搜索引擎为页面增加了一些meta标签,包括域名的主题文字、反向链接1的锚文本、反向链接1所在页面的主题文字、反向链接1所在页面的域名的主题文字、反向链接2的锚文本、反向链接2所在页面的主题文字、反向链接2所在页面的域名的主题文字等等。这些meta标签的权重要远高于keywords和description,有的甚至高于页面可见文字。有了网页文本域的概念,我们就能够理解外链建设等很多seo操作。注意搜索引擎会根据用户的搜索意图,把用户搜索的关键词翻译成内部实际查询的关键词。多数情况下两者是一样的,但有的时候两者不一样。比如知道了用户的ip来自哪个地区,那么那个地区的相关页面会优先显示,有种用户搜索时加进了地域性文字的效果。再比如近义词分析,搜索引擎会把近义词的搜索结果也列出来。关键词和一个网页的相关性由网页文本域内的关键词密度和分布决定,越相关,排名越靠前。二、网页血统网页血统是Ethan创造的一个概念,想说明的意思是,在搜索引擎看来,一个网页天生就具备一种权重,这种权重来自url。搜索引擎会分析一个网页的url,得到两种重要信息,第一是域名的情况,域名是有权重的,会直接传递到这个页面;第二是反向链接的情况,每个反向链接所在页面也是有权重的,也会传递到这个页面。我们经常遇到的pr值,主要体现了通过反向链接传递的权重,详见什么是pr值?注意域名的权重不等于首页的权重,搜索引擎会根据首页的权重、网站整体的情况(比如网站的稳定性和渐进性、站内是否有很多定向锚文本等等)、其它因素(比如域名寿命等等)决定域名的权重。一个网页的血统越好,权重越高,排名越靠前。三、网页内容品质在重要性方面,网页血统是传递性因素,单纯由外部传入;网页内容品质是结构性因素,由这个网页自身相关的各种特质决定。这方面搜索引擎虽然不够智能,但还是有很多手段的,其中最重要的是内容的原创性如何和内容的新鲜度如何,特别是内容的原创性。还有比如网页中是否有定向锚文本和反向链接锚文本是否定向,搜索引擎认为如果一个页面认真地写了定向锚文本或其反向链接锚文本为定向的,说明这个网页内容品质较高。细节一些的,比如页面中有个图片会更好一点,页面中适当使用list标签会更好一 点,段落的开头适当出现“首先”、“其次”这种词汇会更好一点,等等。一个网页的内容品质越好,权重越高,排名越靠前。四、用户判断相关性和权重,数据源都不是来自用户的判断,搜索引擎很清楚,最重要的是用户觉得好不好。虽然这方面获取数据源异常艰难,但搜索引擎还是有些办法的,比如搜索跳出率,比如百度统计和google分析,比如社会化网络的数据,这是以后搜索引擎算法的发展方向,对排名的作用会越来越大。Ethan相信,搜索引擎为了获取用户判断的数据源,会不惜血本。