IT桔子分布式项目1

来源:互联网 发布:mac svn checkout 编辑:程序博客网 时间:2024/04/29 02:08

IT桔子是关注IT互联网行业的结构化的公司数据库和商业信息服务提供商,于2013年5月21日上线。

IT桔子致力于通过信息和数据的生产、聚合、挖掘、加工、处理,帮助目标用户和客户节约时间和金钱、提高效率,以辅助其各类商业行为,包括风险投资、收购、竞争情报、细分行业信息、国外公司产品信息数据服务等。

用于需自行对所发表或采集的内容负责,因所发表或采集的内容引发的一切纠纷、损失,由该内容的发表或采集者承担全部直接或间接(连带)法律责任,IT桔子不承担任何法律责任。

项目采集地址:http://www.itjuzi.com/company

要求:采集页面下所有创业公司的公司信息,包括以下但不限于:

# items.py# -*- coding: utf-8 -*-import scrapyclass CompanyItem(scrapy.Item):    # 公司id (url数字部分)    info_id = scrapy.Field()    # 公司名称    company_name = scrapy.Field()    # 公司口号    slogan = scrapy.Field()    # 分类    scope = scrapy.Field()    # 子分类    sub_scope = scrapy.Field()    # 所在城市    city = scrapy.Field()    # 所在区域    area = scrapy.Field()    # 公司主页    home_page = scrapy.Field()    # 公司标签    tags = scrapy.Field()    # 公司简介    company_intro = scrapy.Field()    # 公司全称:    company_full_name = scrapy.Field()    # 成立时间:    found_time = scrapy.Field()    # 公司规模:    company_size = scrapy.Field()    # 运营状态    company_status = scrapy.Field()    # 投资情况列表:包含获投时间、融资阶段、融资金额、投资公司    tz_info = scrapy.Field()    # 团队信息列表:包含成员姓名、成员职称、成员介绍    tm_info = scrapy.Field()    # 产品信息列表:包含产品名称、产品类型、产品介绍    pdt_info = scrapy.Field()

原创粉丝点击