数据挖掘中的简单预测

来源：互联网发布：数据资产管理领悟编辑：程序博客网时间：2024/05/16 11:24

目前正在公司了做均价预测这一模块的算法，中间用到了一个简单的预测模型，那就是通过拟合得到有效的数据均价。
   问题的提出：假设有一批有效数据，这批数据是有均价的，但是还有一部分是没有均价的，如何去通过有均价的数据去预测未知数据的均价呢？举个例子，你跟你朋友说你到商场里买了很多衣服，有各种品牌，各种风格，各种款式，各种价位，这些因素就是所谓的特征数据，那么如何通过你说的信息去预测商场中任意的一件衣服的价格呢？最简单的方法就是求所以衣服的平均值，用这个平均值去代替任意一件衣服的价格，这当然并不合理，有没有其他方法呢？当然，有很多种，目前我们使用的是最简单的线性拟合。
   问题的解决方案：将买的衣服的特征罗列出来，统计出各种特征，比如说衣服的品牌，款式等，将这些数据进行离散化处理，比如品牌分等级：A,B,C,D,E，款式分F1，F2，F3，F4等，对于一些主观性数据还需要归一化处理，如对衣服的好坏程度，不同人的看法不一，需要处理不同的评价尺度。然后将需要预测的衣服的特征抽取出来，将需要预测的衣服与其他已有均价的衣服做相似度计算或者简单的距离计算，得到一个与需要预测的衣服相似度从大到小的排列，然后进行拟合，将所有（或者前K个，即常用的TOP K方法）已有均价的衣服价格乘以与未知均价的衣服的相似度（距离）之和相加再除以所有的相似度（距离）之和，这样就可以简单的得到一个比平均值更加合理的价格。
   后续：当然还有更好的方法那就是对衣服进行聚类等方法，以后会慢慢在此探讨..