如何分析网站日志

2015年12月3日00:44:44 发表评论 3,077 ℃

网站日志是网站管理员和搜索引擎对话沟通的途径。通过日志,了解搜索引擎蜘蛛的访问情况。

从日志中,挑出一段来,就是如下的形式:

2015-12-01 01:05:03 202.173.122.109 GET /atang_1859.html  - 80 - 123.125.71.13 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 1981

蜘蛛名称:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider

如何分析网站日志

在日志文件里,搜索以上蜘蛛名称。就可以看到蜘蛛抓取的痕迹。

我们分析的主要点是,HTTP状态码,如以上的200和301。

" 200 0 0 1981 " 代表正常抓取,这次抓取了1981个字节。

不同的服务器或虚拟主机设置的日志记录内容不同。

有的如:200 0 5583 207 823  我们通过多看几条记录,观察规律,可以判断第三个数字代表字节数。

有的如:200 0 0或200 0 64  这是没有记录抓取字节数。注意:200 0 0和200 0 64 没代表什么问题。所谓200 0 64代表要被K的言论没有根据,一般的网站都有64代码。

在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。

304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。

404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。

需要对日志统计分析,可以下载一些日志分析工具进行分析。

【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: