SEO免费教程,百度搜索引擎怎么区别网页内容价值

首页-SEO学院-SEO教程-当前页面

发布日期:2018-08-07阅读:23

  搜索引擎每天处理着几十亿的查找需求,每一个查找需求都意味了一个人们对于某些资源的指定需求。多数时刻,通过查找返回的页面结果,这需求被完成了,咱们可以认为结果中的某些页对指定人们的指定需求出现价值。


那么对于搜索引擎来说,页面的价值是说哪些,咱们为什么要探索内容价值,技术上应该怎样区别内容的价值呢?

    SEO百度教程.jpg

  此文将逐个讲解这疑问。一、哪些内容价值上面所说咱们介绍了,某种页面完成了某一人们的指定需求,就体现了这种页对人们的价值。那么对搜索引擎来说,价值体如今哪一些层面呢?


  一个简单的推论,所有可以会对人们形成价值的内容都是对于搜索引擎有价值的,将这页面建入搜索引擎的索引中能够完成最后查找到它们人们的需求,咱们称这样的价值为查找价值。


  只要是是能解决某种人们信息需求的,同时是可通过某些常规查找需求到达的,那么就是有查找价值的。


  小学生小王喜欢在空间上写日记,写前天吃了哪些,今天玩了哪些。这信息,是有价值的。

  它们对小王的家人、学生、师父,跟别的小学生,和对小学生日记感兴趣的人来说,大都有价值的。对于这种信息体来说,“小王”这种名称是查找的“key”。


  有一些信息单元,只能有“阅览”价值,而没到达该信息的查找渠道,那么该资源可以是有价值的,但查找价值就非常低。就像一张百度大厦周围的电子地图,从阅览心理,是有价值的;但假如没什么周边文字说明(还有链接的anchortext),只能有一张光秃秃的电子地图,就没查找价值。


  还有,假如图片的信息辩认技术,有朝一日能自动识别出这种是“百度大厦周围电子地图”,还有能够自行剖析出电子地图内的种种大厦、街道、餐馆等的名称,那么这张图同样变成有查找价值了。


  故此一个页面是否有查找价值,应该取决几点:

1)会不会解决某种指定的需求(价值)

2)是否可以通过某种普通的查询方式受到该信息(检索)那么,没查找价值的内容,是否对搜索引擎就没价值了呢?仔细思考,结果是否定的。索引只是搜索引擎的一个程序,对于别的程序而言,没检索价值的内容有可能对我们更加好的收录那部分检索价值高的页面有援助。


  就像对负责爬取网络上资源的spider而言,有一些内容,本身没检索价值,但通过这内容的爬取和剖析,能够更快的援助我们学会这些内容没查找价值这一个重要信息,进而省下很多的流量实施更有效用的爬取。考虑这种价值可以划为一项“间接性”检索价值,最后还立足于索引价值的,在此文中就不展开赘述,咱们只重视“检索价值”这一个基础问题。


  下文中提到的“内容价值”独有页面的“检索价值”。


为什么要研究页面价值一是,网络上上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,要用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值给出判断,不收录那部分无检索价值的页面,少收录那部分检索价值低的页面。


  这也是页面价值在收录管控方面的应用。

搜索引擎spider的爬取能力是有限的,处于浏览友好性的考虑,对于一个网页或一个IP爬取速率需具有一个爬取速率的下限。


  在这一个限制下,爬取或页面更新就需具有一个先后秩序,而这一个排列的主要根据依据就是页面价值,或者对页面价值的预估(未爬取时)。

  这也是页面价值在spider调整方面的应用。


,对于某些内容,页面内容发生变动,引发它的检索价值从好到差,典型的就是变成“死链”,或者“被K”。对于这内容,好的搜索引擎会在第一时间将其清除出索引,或者是检索时对其实施屏蔽,以确保返回给用户的最终更多检索价值高的“好页面”。


  对于其他内容,它不仅伴有非常高的检索价值,而且有很强的“时效性”,能够第一时间让人们查找到这内容对搜索体验有十分大的提高。对搜索引擎来说,越快的收录和索引页面意味着更多的另外资源开销,以多快的速度收录和以多短的周期性更新索引,需要通过内容价值的剖析来点明。


  这几个地方是页面价值在死链率和时效性几大搜索引擎指标提高上的应用。最后,常见意义的页面价值高下对搜索引擎返回给用户的结果排序上也存在着指导意义。希望情况搜索引擎的最终依据与查询请求的相关度进行排序的,在相关度大都差不多的情况,用户更倾向与浏览常见意义页面价值高的页面。


  这也是内容价值在ranking层面的应用。可以说,内容查找价值的探索是搜索引擎中的一项较为基础的工作,对内容价值的辨认和区别的准确程度立刻影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。


如何判断页面价值前文中提到过一个小学生小王空间日记的案例。咱们认为这种内容是有价值的,对小王的学生,朋友,家人都有价值。与此同样的,百度执行官李彦宏在i贴吧上发布一篇几十字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。


  尽管李彦宏的i贴长短可能远小于张三的日记,但就这双方内容的价值来说,咱们都有一个相同的辨认,即从常见意义讲,李彦宏的i贴价值远超过小王的日记。


  (当然,对于小王的父母来说可能这个价值的干系是相反的)再讲一个案例,搜索某单人的手机号码,搜索引擎返回了一个结果,是这单人在某种BBS上的一个回。


  尽管这个手机号码关心的人很少,但因而资源是绝对稀有的,对于关心这个手机号码的查找需求,这个内容是完全无可替代的,因而伴有很高的价值。


  除此,内容查找价值,还获得页面质量的影响。相似的内容,对于完成人们需求来说,常常会有十分大差异,比如资源下载速度,内容的布局,媒体的多少。这部分差异,暂时叫他页面质量。最后,有些内容伴有明显的公众主题特点,且这资源常常在刚刚产生时有格外高的热度,由于时间的推移热度显著降下,有着“新闻”的性质。


  典型的像各种“门”事件,地质灾害、水灾等规模大的自然灾害。我们认为这部分资源具有“时效性”性质。故此,一个内容的检索价值,基本上受底下四个因素的影响:

1、感兴趣的受众群大小

2、该内容的稀有程度(可复制性)

3、该内容的质量高下

4、该内容的时效性性质高低这几个因素,简称受众,稀缺,质量和时效性。

SEO百度教程.jpg


  1. 受众受众群体的大小,即意味了用户检索需求的大小。评论受众的大小主要依据信息创写源的受众和信息内容本身受众几大层面。具体原因包含不限于:网页铁杆用户群大小通常来讲,拥有自己铁杆人们群的著名网页,他们成就,原因他们信息和服务,比他人更加会诱导和满足用户。从这种心理来说,咱们可以推论,拥有更多铁杆用户群的网页上的信息,会比铁杆用户群少的网站上的内容,有更多的既有和内在受众群。

  

这样的话,铁杆用户群大小,就能变为对站点内资源检索价值的一种衡量指标。铁杆用户群的作用原因,它会变化的。如果一个网站变差了,那么用户就会用脚选择。超链有超期问题,作假问题,而假的用户群作假很难。


  几乎所说的网站人气,会和铁杆用户群多少密切相关。资源分布算法我们再考虑一个网页里面的资源分布所体现的受众群大小问题。比如腾讯新闻主页的那些推送内容。


  腾讯主编为什么要推这些内容?因为他们认为这些是用户最感兴趣的。那么从索引价值角度而言,相当于有一个庞大的主编团队,已经对这些内容打上了“符合大众口味”的标签。


  搜索引擎只需要乐享其成就行了。这样的话,资源相对于某些结构性关键页面(主页、频道页等)的链接深度,也变成衡量一个资源受众群大小的指标了。访问热门度我们再从访问热门度角度来考虑受众群大小问题。


  这个是最直接的,当然,它需要第三方的软件来获取关键数据。通过这个途径,获取的不应仅仅是需要入库的页面,还有用户访问一个网站的访问理念。超链超链某种程度上也是受众群大小的反映。


  某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。内容特征A:我写博客blog:“传言郭德纲要上春晚了。


  ”B:我写博客blog:“我今天吃早饭了。”共同的来源,前者的受众必然大于后者。即:当在发布源相同的情况下,具有公众属性的内容分值会更加高。


2.稀缺稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解析这一概念呢?


  可以看一个例子:某人发表了一篇针对某新闻事件的原创博客blog,随后被新浪转发到了新闻频道。从描述的内容上讲,这是一种重复。

SEO价值

  但这种重复仅仅是主体内容上的重复,一方面它的转发带去了访问速度、稳定性等方面的增益,并且以后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转发过程可能会改动页面的标题,并且依托其受众,在转发页面上,还有可能出现很多的有价值评论和回复等,还有可能存在指向别的一些事件的新闻链接。


  这些可以被叫他信息增益。因此即使核心内容没有任何变化,新浪的此次转发也是有价值的,其稀有度也是较高的。同样,反过来说,如果转发的网页相当不知名,则其没办法带来站点名/稳定性/速度的增益。更有甚者,转载以后在内容上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。综上所述,对于主体信息重复的页面,我们应该评论其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。


  3.质量页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。首先,不可以是死链、网站要有一些的稳定性、访问速度要令人满意。

  其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。


  最后,信息是否丰富、延伸出的次级需求是否满足。典型的低质量页面存在以下一些特征:主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)死链虚假信息/诈骗等空页面站点不稳定影响主需求的权限问题(下载/浏览需要注册会员/积分等)信息不完整(转载不全等)浏览体验差(广告/字体/页面布局等)典型的高质量页面存在以下一些特征:访问速度快(页面加载快/资源下载速度快)页面整洁干净,主体内容在显著位置页面信息完整页面元素丰富(文字、图片、评论、相关推荐等)4.时效性“时效性”是内容价值的一个属性,它几乎体现在两个方面:首先页面所描述的事物本身有着较强的公众话题性,容易被传播。


  这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。


  需要表明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的快速收录给予检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章标题,张三的日记。页面价值中的“时效性”指得是一种突发时效性,就是所有有价值页面中最需要快速收录的那些。


  对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生应当的高性价比。区别页面的时效性价值,主要通过以下一些途径:页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。


  描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报...凭据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧常常...四、页面价值的研究重点前文已经介绍了页面价值的意义,研究的意义与价值判断的经验。最后我们再看一下,从技术角度上,这一定位的研究中的重点定位。


  对页面价值的研究工作主要致力于三方面:对页面价值规范的认识。我们目前对页面价值的认识是来源于前文所述的四个角度,这个认识是否周全,对于不停变化的互联网环境与用户需求,这些角度应该如何扩展与变化才可更好的服务于每一样的搜索体验提升,是一个很重要问题。


  对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。


  对各种页面特征的组合方案(机器学习)。针对不用的应用定位,需要运用相应的特征通过合理且高效的方案拟合出页面价值的最终评价结果。

  

 

如果您有什么问题,欢迎咨询OSEO技术团队 QQ:957929390
微信:oseocc