得罪台湾同胞的内地搜索引擎

来源:互联网 发布:对网络咨询有什么看法 编辑:程序博客网 时间:2024/04/29 04:47

转自:

http://yblog.org/archive/print.php?5862

爬虫一览表:

没办法啊,不加入搜索引擎么不好,加入么狂搜啊,google也是这样。昨天晚上它扫了我一晚~郁闷,流量啦,IIS连接数什么的。还好我的空间不限制IIS。
66.249.65.195 Mediapartners-Google/2.1 google点击广告爬虫
72.30.111.88 Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo搜索引擎爬虫
66.154.102.222 Gigabot Gigabot搜索引擎爬虫
66.154.103.167 Gigabot/2.0; http://www.gigablast.com/spider.html 被google吞并的gigabot搜索引擎
202.96.51.171 lanshanbot/1.0     有人说是中搜爬虫
202.108.1.* Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) 中搜的,不知道是干什么的
66.249.65.198 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 著名的google.com搜索引擎
/rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU) 这不是爬虫,不过还是要解释下,这是用foxmail6.0订阅了你的rss
202.160.179.35 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) yahoo音乐搜索
220.181.19.65 sogou spider 搜狗搜索引擎扫描器
220.181.8.80 OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com) 疑是搜索Email地址的,又像sohu家的
220.181.19.94 未知扫描器,不过可以放心,它不是攻击器。不过结合上面的IP可猜测,这个IP应该属于sohu家族的
InetURL:/1.0 也许是漏洞扫描器,也许是小偷程序。也有好多是广告机,灌水机。
218.90.13.32 Mozilla/3.0 (compatible; Indy Library) 广告发布机,还好Hosin blog有验证码
72.14.199.2 /rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) google的rss搜索扫描器
210.72.225.189 /rss.asp feedsky_spider http://www.feedsky.com 一款rss扫描器,有兴趣者进入此网站添加您的rss
207.46.98.139 msnbot/1.0 (+http://search.msn.com/msnbot.htm) MSN蜘蛛
61.135.146.199 Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.2.1) Gecko/20030225 这信息是某人在Linux系统上使用firefox 2.0浏览器访问。
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322) Sleipnir/2.45 使用Sleipnir浏览器,kuhanzhu也使用这款日本人开发的多页面浏览器,不过我一直用1.65版的
209.237.238.177 ia_archiver Alexa排名爬虫