一个查找的问题
来源:互联网 发布:mac卸载 phpmyadmin 编辑:程序博客网 时间:2024/06/15 23:00
一个查找的问题 题目大概是这样的:一个文件保存有100亿条连接请求记录(IP, 时间,按照时间排序)如果同一个IP地址10秒内有两次或以上的连接请求,那么则视其为攻击。问如何找出这些IP。比如下面的数据,应该找出 202.118.1.98
202.118.1.98 2009-01-01 12:34:56.1234
202.118.2.98 2009-01-01 12:34:56.2234
202.118.3.98 2009-01-01 12:34:56.3234
202.118.4.98 2009-01-01 12:34:56.4234
202.118.1.98 2009-01-01 12:34:56.5234
202.118.2.98 2009-01-01 12:35:56.1234
我的解法:
1.用一个循环链表来保存读入的记录,直到第一个读入的记录和最后一个读入的记录的时间差等于或者大于10秒,创建一个单链表链表(用来保存输出结果)
2.用第一个记录的IP在循环链表表里查找,如果没有找到,删除第一条记录,然后继续读入数据,直到第一个记录和最后一个记录 的时间差大于或者等于10秒。 如果找到同一个IP地址10秒内有两次或以上的连接请求,那么将这个IP存放到结果单链表中(存之前,先查询是否已经存在,若果已经存在,则不保存)。 接着删除第一条记录,然后继续读入数据,直到第一个记录和最后一个记录的时间差大于或者等于10秒。
3.重复步骤2,直到不再有数据读入.
4.输出结果 这样的解法有看起来比较费时间的地方就是去掉结果中的重复记录,但是正常情况下,攻击性质的连接应该是很少的,所以这样操作不会有很明显的影响。
不知道有没有更加好的办法,望不吝赐教。
- 一个查找的问题
- 一个查找的问题
- 一个简单的路径查找问题
- 一个new失败问题的查找过程
- 一个new失败问题的查找过程
- 一个new失败问题的查找过程
- 一个new失败问题的查找过程
- 从一个简单查找问题看算法的魅力
- 一个有趣的查找
- 性能问题的查找
- 性能问题的查找
- 关于折半查找实现中的一个问题
- 一个关于插入查找和排序问题
- 在二分查找中的一个问题
- 一个真正的折半查找
- 二分查找的一个版本
- 一个字符串查找的函数
- 查找crontab未执行的问题,模拟一个crontab的执行环境
- 豆瓣,流行的秘密
- 中国移动到底是冷静还是一鼓作气?
- 老生不常谈之应届毕业生的优势
- 其他常用命令
- CFile和CStdioFile的文件读写使用方法
- 一个查找的问题
- Struts Action的多种角色
- vs2008 工具箱添加选项 死机
- rsync详解
- 我的第一篇文章 希望开始的地方
- 一起来HAPPY,不得不送的礼物哦!
- lucene之旅(一)——Lucene总览
- VC编程来操纵Office
- 堆和栈的区别