搜索引擎工作原理一共包括三个过程:网页搜索,预处理信息,建立索引。
细化分为:爬行—抓取—处理抓取信息—建立索引—呈现排名
一:爬行
爬行的目的:建立待抓取列表
谷歌爬虫:ddos 百度爬虫:spider
1、发现:
新的网站
被动等待:设置好Robots.txt文件,放在服务器等待爬虫自己过来爬取。(谷歌几周,百度一个月至几个月不等。)
主动引爬虫:写带有链接的软文花钱放在高质量高权重的网站中、利用权重高的博客、在质量高的论坛里发外链。
新的内容
能放首页放首页,否则尽量争取放在顶级栏目(总结:争取权重高的位置放)
Banner图片不如幻灯片,幻灯片不如文字。(总结:文字优先,图片写alt属性)2、爬虫分析:
查看:网站日志分析。Log文件里可查看站长工具:查看抓取频次。太高时会造成服务器崩溃问题及解决:网站访问突然为
先site下网站收录看看有没有被惩罚
分析日志爬虫,记录IP(蜘蛛、用户)
统计代码出现问题
3、爬行策略:
深度优先:一层栏目走到底(1百万-1千万个页面)广度优先:同行栏目分别收集(1百万个页面)混合:两者的混合使用(5千万-1亿个页面)
4、爬虫抓取障碍:
txt文件设置错误服务器本身的问题(动态IP频繁出现、服务器不稳定)URL超长,搜索引擎爬虫懒得直接不抓。爬虫陷阱
二:抓取
网页本身需符合W3C标准
页头信息:状态码:200(正常访问)、404(死链)、301(永久性重定向)、302(临时重定向慎用)、403(禁止访问)、5xx(数据库的问题)编码:建议使用utf-8. gb2312在国外打开是乱码TDK关键词:Title:尽量靠前,我们想让爬虫进入到某个页面就看到我们的主旨内容。
长度:33个汉字 文章的话25个汉字足矣 英文两个字符算一个字
位置:关键词位置前置
次数:不要过于重复太多(栏目可强调关键词,最重要的放前面)
可读性:考虑到用户体验
原创性:蜘蛛喜欢新鲜的东西
Keyword: 首页5-7个、一级栏目5-6个、二级栏目4-5个、列表页3-4个、专题2-3个。Deion: (栏目必须围绕关键词写)
作用:提高点击率
密度:3-8%
长度:80个汉字
原创性:有利于收录
可读性:用户体验考虑
号召行动:活动、促销一类的页面
3、公共部分:
搜索引擎不会抓取重复部分(爬虫比较喜欢新鲜原创性的东西,重复出现的内容不利于抓取)
4、导航:主导航、次导航、左导航、SEO导航(标签)、面包屑导航(不要用JS实现)、
5、广告:
Banner图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文字有利于爬虫抓取。
6、正文:
关键词:次数合适、密度适中3-8%、位置靠前(金花站长工具可以查出来)<H1>标签:唯一性,整个页面第一重要。含关键词,关键词尽量靠前<H2>标签:不唯一性,第二重要性。<H2>中可加其它的属性<alt>属性:只能用于<img>,意在告诉蜘蛛图片的解释<title>属性:为链接添加描述性文字,可为用户提供更清楚表达的意思锚文本:(一切讲究相关性)锚文本得有相关的关键词,且面面相关
三:处理抓取结果(预处理)
爬虫抓取后压缩成数据包返回数据库
相关性:因为百度算法语境分析+语义分析的原因,所以网站不要出现不相关的内容出现,否则搜索引擎也会撇掉的权威性:各种评奖、网络评比、申请百度客服增加信任度。
注:不权威造成的影响:同一篇文章,由于信任度高低,有可能自己被转载发布的文章自己的反倒在别人网站后面。
去重:一个链接不能有多个页面、同一个关键词不能指向不同链接、同一页面下不要出现不同链接相同关键词、
四:建立索引
搜索引擎的索引是反向建立的
首页 URL 76分
一级栏目 URL 80分
二级栏目 URL 96分
专题页 URL 70分
产品 URL 68分
百度分词:从前往后、从后往前、统计学、
第三步处理抓取结果的时候说到爬虫把抓取的内容压缩成数据包返回数据库。这时搜索引擎的索引库建成。当用户搜某个词(长尾词或短尾词)的时候搜索引擎会根据百度分词规律首先展现搜索词与索引库里完全一致的词。