搜索引擎工作原理:分四块
下载、分析、索引、查询。
以前的文章看着好扯淡,转载的。
一、抓取1、百度有个程序叫百度蜘蛛,这个蜘蛛非常的智能,它能从互联网上抓取相当有含量的网站。它能自动从网上抓取,也可以人工提交抓取,总之它能抓取符合百度规则的网站。2、站长都希望百度蜘蛛能来抓取自己的网站,那就必须要考虑有什么东西会影响蜘蛛来访问抓取呢?不然蜘蛛来家门口,始终都进不去,那岂不是一大损失。
1)如果路径含有中文,蜘蛛就不识别了,也就不会访问该路径了
2)如果路径太长,也不利于蜘蛛访问3)还有一种robots协议,这个是人为特意禁止蜘蛛访问的,比如一些重要的个人信息
3、如何判断是否被蜘蛛抓取了呢?这个可以通过百度站长平台查询,还可以查看服务器日志信息
二、过滤1、蜘蛛在抓取这么多网站后,是不会全部带走的,它会过滤那些空页面、低质量的信息,常见影响过滤的有纯图片、纯视频等媒体信息网站速度打开很慢网站权重,也就是信任度不高页面质量低下,表里不一还有时间因素三、收录1、在蜘蛛层层过滤后的数据,都会收录到百度的数据库中
四、排序1、收录来的数据,经过百度算法,按照分类排序
五、展示1、当用户搜索关键词时,百度直接从数据库中查找返回相关数据展示给用户互联网, 信任度, 搜索引擎, 搜索关键词, 百度站长