什么是搜索引擎?分析搜索引擎工作原理

avatar 2017年12月12日21:53:35 发表评论 175 阅读

搜索引擎工作原理解析:
需要向蜘蛛提供入口(外链、手动提交、推送)→蜘蛛收到入口→访问robots文件如果没有直接跳过抓取首页、其次列表与内页等(结合广度与深度方式抓取了解网站结构与内容)→收集数据页面记入索引库→进行过滤符合的收录→进入排名序列进行排序。

什么是搜索引擎?分析搜索引擎工作原理

1、搜索引擎的抓取原理。搜索引擎是通过一种程序(蜘蛛)去抓取页面信息和内容的,百度搜索引擎叫百度蜘蛛,谷歌的叫谷歌机器人,搜狗的叫搜狗蜘蛛等,通过派遣蜘蛛爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页(网页快照。
2、搜索引擎工作原理过滤。当搜索引擎来到我们网站,并不会把所有内容都会抓取收录,因为互联网上每天都有大量的垃圾内容和无质量页面,这些页面和内容不管对搜索引擎,还是用户,都是没有价值的,所以搜索引擎蜘蛛会对抓取回来的内容进行过滤。把符合规则的内容留下,不符合规则的过滤掉。
3、搜索引擎建立索引的工作原理。搜索引擎蜘蛛通过抓取页面获得信息,通过过滤后,会把优质内容,或者对用户有需求内容储存到索引数据库程序中。比如:百度的索引量是百度蜘蛛抓取网站的页面数。
4、搜索引擎工作原理的收录与排序。搜索引擎蜘蛛通过过滤考核的网页,进行分析,数据格式标准化,符合收录规则的留下,储存到索引数据库中,叫收录模块。对于存入索引数据库中的页面,通过一系列算法得到每个页面的权重,并将其进行排序处理,称为排序模块,比如百度快照排名。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: