招聘信息抓取系统

来源：互联网发布：淘宝clarks 编辑：程序博客网时间：2024/04/25 22:05

【http://sharong.javaeye.com/blog/245237】

上招聘网执行查找公司招聘信息，以1分钟翻动一页的速度紧盯屏幕，翻看200页内容，需要多长时间？3小时！现在可以说NO了！
本抓取系统可以抓取国内各大招聘网站的最新招聘信息，进行详尽的分类识别，将之保存在本地硬盘中。根据网站的响应快慢，平均抓取速度为15分钟4000条以上的招聘信息的数据，同时包含公司介绍和职位介绍。
您现在只需要花费15分钟时间，就可以喝着咖啡，离线浏览本软件为您获取的最新招聘信息了。

软件名称：E3Labor(Employment/Electronic/Especial Labor)
版本：1.0.2
作者：千山独行

简介：本软件使用纯Java语言开发。首先使用当前先进的web2.0平台新特性及正则表达式匹配方式，根据配置文件中指出的网址对各大网站的实时数据进行抓取；然后进行详尽的分析并储存，是一个Spider爬虫程序，同时提供了内容管理系统(CMS)的相关功能。

目前提供的功能：
1.配置简便，只需要两个配置文件即可；可对配置文件中指出的网站进行全面的深度抓取和分析；
2.配置工作完成后，可开启是否定时功能，定时对网站的内容进行抓取；
3.实时动态抓取各大招聘网站的招聘职位的详细信息并进行全面细致的分类，但是并不只限于抓取此类型网站；
4.对抓取到的元数据进行详尽的分析，可选择存储至数据库，本地硬盘或者网络硬盘等方式；
5.可对抓取的内容/网页进行七大类型的分类识别并保存（保存主要针对本地硬盘和网络硬盘），例如根据公司性质，公司规模，工作地点等进行分类；
6.对于保存至硬盘的存储方式，分类后的内容，最多可嵌套构成3级目录，保存至用户指定文件夹下；
7.使用数据字典方式对抓取的内容进行分类识别及过滤，可通过实时修改数据字典实现不同分类过滤等功能，因此可轻松应对网站改版后的实时抓取工作；
8.使用数据字典识别黑名单公司及需要重点关注的招聘单位等功能；
9.使用单线程抓取方式，对微机性能几乎没有特殊要求；初步测试在CPU为赛扬2G，内存512MB的台式机上，20分钟即可抓取，分析并分类保存6000条以上数据（此数据和网站响应速度有关）；程序运行时内存耗费始终保持在40MB左右；
10.全面使用嗅探器方式定制抓取模式，可使用嗅探器根据自身喜好抓取需要的网页。例如抓取截止日期为某年某月某日之后的网页等；
11.全程使用嗅探器进行跟踪评估，当发现抓取到的网页不符合要求时，程序会安全退出;
12.运行时异常抛出机制完备，当某条数据抓取分析错误时，并不影响整个抓取工作的进行；
13.提供可扩展接口，使用者可根据实际需要，自行开发新的抓取模式并编码实现自己的网站抓取程序，以适应千变万化的互联网站；

注：此试用版仅抓取某个国内知名招聘网站的800条销售类最新招聘数据，然后分类保存到本地硬盘名为E3LaborCareerInfo的根目录下。

实现技术：java
运行文件：E3Labor-1.0.2-eval.exe
运行平台：windows 2k，windows xp等win操作系统，需要jre1.5及后续版本的java运行环境，linux及unix系统下未进行测试