一个查找的问题

来源:互联网 发布:mac卸载 phpmyadmin 编辑:程序博客网 时间:2024/06/15 23:00

一个查找的问题 题目大概是这样的:一个文件保存有100亿条连接请求记录(IP, 时间,按照时间排序)如果同一个IP地址10秒内有两次或以上的连接请求,那么则视其为攻击。问如何找出这些IP。比如下面的数据,应该找出 202.118.1.98

202.118.1.98 2009-01-01 12:34:56.1234

202.118.2.98 2009-01-01 12:34:56.2234

202.118.3.98 2009-01-01 12:34:56.3234

202.118.4.98 2009-01-01 12:34:56.4234

202.118.1.98 2009-01-01 12:34:56.5234

202.118.2.98 2009-01-01 12:35:56.1234

 

我的解法:

1.用一个循环链表来保存读入的记录,直到第一个读入的记录和最后一个读入的记录的时间差等于或者大于10秒,创建一个单链表链表(用来保存输出结果)

2.用第一个记录的IP在循环链表表里查找,如果没有找到,删除第一条记录,然后继续读入数据,直到第一个记录和最后一个记录 的时间差大于或者等于10秒。 如果找到同一个IP地址10秒内有两次或以上的连接请求,那么将这个IP存放到结果单链表中(存之前,先查询是否已经存在,若果已经存在,则不保存)。 接着删除第一条记录,然后继续读入数据,直到第一个记录和最后一个记录的时间差大于或者等于10秒。

3.重复步骤2,直到不再有数据读入.

4.输出结果 这样的解法有看起来比较费时间的地方就是去掉结果中的重复记录,但是正常情况下,攻击性质的连接应该是很少的,所以这样操作不会有很明显的影响。

 

不知道有没有更加好的办法,望不吝赐教。

原创粉丝点击