搜索引擎工作原理:
首先蜘蛛(spider)通过页面上在超级链接关系,不断的发现新的URL并抓取;
其次将爬行在数据存储原始页面数据库;
再次进行页面分析,对页面进行初步分析(比如:标题、页面权重、链接深度等)对内容进行质量分析;
在页面分析的基础上,对有价值的内容建立索引;
最后匹配用户检索内容,用户检索关键词后 ,排名程序调用索引库数据,计算排名显示给用户;
了解到搜索引擎基础工作原理,就更好的方便去我们去了解收录与索引的区别了;
1,收录和索引分别指什么
收录:页面被Baiduspider发现、分析过
索引:Baiduspider经初步分析后认为有意义,做建库处理,站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。
站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
目前site语法的数值是索引量估算值,比较不准。推荐站长们使用我们的新工具,同时我们也正在努力改进site语法。
2,收录和索引的关系
包含关系,先收录才可以建索引,收录量大于索引量。百度站长平台链接提交工具是通往收录的大门。
3,收录和索引的意义
【收录意义1】收录是索引的前提,站点需要保持服务器稳定(参考抓取诊断工具、抓取异常工具)、robots正确(《robots写法和需求用法对应表》),为Baiduspider抓取铺平道路
【收录意义2】Baiduspider只能处理已分析过的页面,面对新旧页301和移动适配,可为已收录页面完成权值评分以及流量切换
【索引意义1】只有被建入索引库的网页才有获得流量的机会(网页虽然被建入索引库,但获得流量的机会并不同,无效索引很难获得流量)
【索引意义2】新闻源站点(新闻源目录)内的链接,必须先被网页库建索引,才有机会出现在新闻检索中
4,如何查询收录量和索引量
目前百度未提供查询收录的工具,任何第三方提供的所谓收录查询都是不靠谱儿的。站长可以通过LOG日志分析估算收录,注意真假Baiduspider(《如何识别百度蜘蛛》)
真实索引量只能通过百度站长平台索引量工具查询
目前有第三方开发的工具可以辅助分析索引中页面的引流能力
本文地址:http://www.wkong.net/article-213.html