404页面分析 数据分析

来源:互联网 发布:华语网络双年奖 编辑:程序博客网 时间:2024/05/22 15:05

今天说一下大家所常见的HTTP Status Code:404,这边分享一个分析发现问题的思路,至于404页面对搜索引擎爬虫什么影响这边就不提了。

404是由客户端与服务器端交互时所产品的一个HEAP信息响应码,很多抓包都能查看到Head信息。

如:

http

当爬虫解析抓取网页时,会返回这样一些Head信息,同时当你服务器日志开启记录此信息时,就能每天及时记录这些信息,爬虫抓取返回的一些信息,这都是大家所知的基础常识。

——————————–正题—————————

情景:当你提交死链接给搜索引擎时,大家通常都会这么做,通过SEO日志分析软件把404页面筛选出来,然后上传提交到百度or谷歌站长管理工具,然后某些情况下会遇到。

【百度站长平台】
“http://SEO.xxx.cn/:
提交的1个死链文件包含活链,死链不能快速删除。2014年04月16日

您最近提交的1个死链文件因混杂较多活链,导致所有死链不能快速删除,您可以到死链删除工具查看详情。

以下是部分死链文件:

seo.xxx.cn/404_05.txt

常见原因和解决方案:

1、若错误提交了活链,请将活链从死链文件中排除。

2、若确认希望百度删除这些链接,请将链接返回状态码设为404。”

————————–还是蛮友好的一个提醒,说明这里面确实存在活链。

回顾

404链接是通过Shell批量从日志里筛选出来了,判断条件是状态码为404,理论上可以肯定的是,爬虫抓取的那个时间戳下抓取是404的。针对这个时间戳及抓取的页面,我们再看看其它爬虫在这时间戳下也是404;

【划画线这两个页面此时能正常打开返回200状态码】

log1

分析(对比分析&排除法)

Q1:是从哪个时间戳开始的? 持续了多长时间?
Q2:  服务器问题人为操作还是自然事件?

Q3:  伪静态规则出问题?

Q4:  。。。。。。。。。。。。。?


界定好分析的数据范围,关注特征,进行排除

1、3月31日是周六,对于我们来说是大周,周六要上班,因为可以 排除在工作时间断内出的问题。

2、既然服务器出错,那日志应该是有连续性的,日志行是404的,如果不是连续404,说明服务器会有短暂宕机可能性

3、以07:53  OR  07:56  查看其日志行,就能排除服务器宕机问题

log2

可以看出并非是服务器宕机问题。。。伪静态规则存在问题,倒置某些页面没规律的出现问题,接下来交由运维处理。

 

总结:这是一个SEO致命的问题,分析才能找出幕后真正问题源。SEO需要分析,需要一定技术,更需要具备一定常识。你觉得呢?

http://blog.csdn.net/ityexi

0 0
原创粉丝点击