从“估车价”看机器学习

来源:互联网 发布:淘宝的实名认证 编辑:程序博客网 时间:2024/03/29 00:03

提到机器学习,相信大家已经不再陌生,随着人工智能的火热,讲解机器学习算法的文章也铺天盖地。这里我们不再单独讨论某个算法的原理,而是看一看这些“神秘”的算法是如何有效地结合到实际场景中的。

先来看这样一个小故事:小明在北京打拼多年,一直想拥有一辆奔驰C200,但是新车价高税贵,于是他将目标瞄准在车龄较新的二手车上。为了了解市场行情,小明开始上网查找资料,他在58同城、瓜子二手车等网站上搜索了一些北京地区有关奔驰C级的帖子。小明很快发现同样车型同样车龄的帖子,价格往往比较接近,于是他重点看了车龄一年C200的帖子,发现大部分人发24-27万,而车龄为两年的帖子价格集中在22-25万。小明根据奔驰C的保值率,估算了下车龄从两年折算成一年的价格也差不多在25万左右。但小明觉得帖子还是太少了,不太放心,又查了下C180L等几个相近车型的帖子作为辅助参考,估摸着一年车龄的C200差不多就在24-26万,再搞搞价23-25万应该可以拿下。

相信很多人和小明一样,在买卖二手车之前都希望对自己的意向车型的做个估价,避免卖亏买贵。从小明的故事中我们可以看出,小明首先是要在北京买车,然后确定了自己的意向车型C200和车龄一年。而小明的目的是想根据“大部分人发的”展示价估算一下 “可以拿下”的成交价。这里,我们可以把小明“估车价”的过程抽象成一个流程图:

流程主线

小明在搜索帖子时,往往选择大部分人发的价格作为展示价。根据这样的数据特点,可以选择采用“Parzen窗”进行这一部分的去噪处理。“Parzen窗”是一种非参数估计概率密度的方法,通过这一方法,我们可以找到某车型的价格密度中心及窗口大小,以获得大部分帖子聚集的位置。

去噪过程

小明在参考其他车龄、车型的帖子时,需要获得不同维度(车龄、车型等)与价格的关系。以车龄与价格的关系(保值率)为例,通过样本的分布可以看出车龄和保值率呈线性关系,这里我们可以选择合适的多项式将其表示出来,最后利用“最小二乘法”将曲线的系数计算出来,以供折算使用。

线性回归

有经验的评估师可以通过成交价、展示价、收车价中的任一价格估出另外两个价格,为了得到这种“能力”,我们可以构建一个两层的网络,每层包含三个节点表示三种价格。训练完成后,可以通过任一输入节点推出另外两种输出节点,而评估师的“经验”便隐藏在关系层中。

神经网络

整个“估车价”的过程就是一个人的思考过程,利用机器学习的方法可以获得人的“经验”。在这个过程中,并不一定需要特别“高深”的模型和算法,有时武器越小反而越趁手,只要将每件“武器”有效地结合使用就会产生巨大的威力。在人工智能大战中,人们已经意识到机器学习里藏有很多先进的武器,能否用好这些武器将成为决定胜负的关键。

1 0