欢迎使用CSDN-markdown编辑器

来源:互联网 发布:问道登陆器源码 编辑:程序博客网 时间:2024/06/12 12:00

家用轿车价格预测

为什么做这个?

业余时间做的一个小分析,想看看很多价值在千亿以上的品牌,有没有数据能够支撑其所带来的溢价能力

做这个有什么用?

帮助后装市场产品,发现真实的利润空间

思路:

graph LR从汽车之家获取的数据-->传统汽车组件从汽车之家获取的数据-->电子部分组件从汽车之家获取的数据-->品牌
问题 思考 对策 影响汽车价格的一定有我所采集的汽车数据以外的因素 求解的是一个含有未知域的问题 需要引入EM算法 传统组件 电子组件 品牌对汽车价格的影响,都属于回归问题,但影响可能不同 求解多元回归问题 验证线性回归,岭回归等算法,通过置信度择优 汽车性能参数与配置参数,谁更容易提炼出与价格间的规律 性能是配置表现出的结果,更接近市场的需求,是汽车整体配置的反应,引入性能参数,更容易在矩阵运算中求值 引入性能参数 算法选择 考虑到都是求解最小值问题,相比较梯度下降法,拟牛顿法更加节省运算资源 选择拟牛顿法

步骤拆分

  1. 爬取数据
  2. 结构化数据
  3. 先完成传统汽车组件的模型分析
  4. 重复1-3,完成电子组件,与品牌的模型分析
  5. 弱可学习 等价 强科学习,通过提升算法,优化模型置信度

6. 输出结论

爬取数据

发现网页规律

阿斯顿马丁http://car.autohome.com.cn/config/series/923.html标志http://car.autohome.com.cn/config/series/3068.html福克斯http://car.autohome.com.cn/config/series/364.html

使用python request页面,beatifulsoup解析页面
借鉴’星光海豚‘代码,对js混淆进行解析,得出配置参数

汽车之家使用的是前端反爬虫,不需要使用ipproxys和切换header

爬取提取输入Mongodb

保存至mongodb,便于以后提取运算

分析数据

  • 使用多元线性回归进行模型建立
收获 介绍 数据越多,置信度越大 数据从100增加至4000.置信度稳定在62%左右 数据种类越多,置信度越高 目前仅引入性能参数,配置参数,电子组件,品牌尚未引入 品牌和配置参数如何引入 独热码 one-hot-code 模型优化 引入未至域,EM线性回归模型,通过将弱可学习,不断强化,完成”提高模型”

数据格式

{"_id":{"$oid":"5950c8e42a63d60f4be9a4d0"},"工信部续航里程(km)":"-","缸径(mm)":"-","前电动机最大功率(kW)":"-","气缸排列形式":"L","车身结构":"客车","高度(mm)":"2000","进气形式":"自然吸气","厂商":"东风小康","工信部综合油耗(L/100km)":"-","车体结构":"承载式","电池充电时间":"-","长度(mm)":"4500","后电动机最大功率(kW)":"-","轴距(mm)":"3050","气缸数(个)":"4","排量(mL)":"1375","整备质量(kg)":"1320","级别":"微面","最大扭矩转速(rpm)":"5200","助力类型":"电动助力","充电桩价格":"-","宽度(mm)":"1680","最大功率转速(rpm)":"-","环保标准":"国IV","发动机":"1.4L 101马力 L4","电动机总功率(kW)":"-","发动机型号":"DK13-06","最大功率(kW)":"74","电池容量(kWh)":"-","座位数(个)":"7-9","最小离地间隙(mm)":"-","长*宽*高(mm)":"4500×1680×2000","变速箱":"5挡手动","前悬架类型":"麦迪逊式独立悬挂","前电动机最大扭矩(N・m)":"-","车门数(个)":"5","前制动器类型":"盘式","后制动器类型":"鼓式","前轮距(mm)":"1435","后悬架类型":"钢板弹簧非独立悬架","0车辆型号":"东风小康C36 2014款 1.4L基本型DK13-06","整车质保":"-","最大扭矩(N・m)":"124","最高车速(km/h)":"-","驱动方式":"前置后驱","挡位个数":"5","供油方式":"多点电喷","最大载重质量(kg)":"-","前轮胎规格":"185/80 R14","压缩比":"9.5","轮胎规格":"185/80 R14","最大马力(Ps)":"101","缸盖材料":"未知","油箱容积(L)":"55","后轮距(mm)":"1435","后电动机最大扭矩(N・m)":"-","电池组质保":"-","配气机构":"未知","后排车门开启方式":"侧滑门","行程(mm)":"-","货箱尺寸(mm)":"-","简称":"5挡手动","燃油标号":"93号(京92号)","排量(L)":"1.4","每缸气门(个)":"4","变速箱类型":"手动变速箱(MT)","电动机总扭矩(N・m)":"-","燃料形式":"汽油","缸体材料":"未知","厂商指导价":"5.18万"}

置信度展示

置信度: 0.60R-squared: 0.60置信度: 0.59R-squared: 0.59置信度: 0.61R-squared: 0.61置信度: 0.60R-squared: 0.60置信度: 0.61R-squared: 0.61置信度: 0.62R-squared: 0.62置信度: 0.61R-squared: 0.61置信度: 0.62R-squared: 0.62置信度: 0.62R-squared: 0.62置信度: 0.62R-squared: 0.62

代码 及 数据下载地址

虽然置信度还不高,但相信提高算法,可以优中选优;
更多的数据,可以有更准确的结论.

原创粉丝点击