数据挖掘含义及过程

来源：互联网发布：知乎美国大选编辑：程序博客网时间：2024/06/11 19:21

现在市面上销售的移动电话和智能手机均带有三轴磁力计，智能手机还有操作系统，可以运行编写的应用软件，十几行代码就可以让手机按照每秒上百次的频率读取磁力计的数据。除此之外，智能手机还封装了很多其他传感器，如偏航率陀螺仪、三轴加速计、温度传感器和GPS接收器，这些传感器都可以用于测量研究，比如地震预测。

移动计算和传感器产生的海量数据意味着未来我们将面临着越来越多的数据，如何从海量数据中抽取到有价值的信息就是一个非常重要的课题。居于此，进入到一个非常热的话题——数据挖掘。

如何解释数据、处理数据、从中抽取价值、展示和交流数据结果，在未来十年将是最重要的职业技能，因为我们每时每刻都在接触大量的免费信息，如何理解数据、从中抽取有价值的信息才是其中的关键。

举一个数据挖掘的实例，从众多其他鸟类中分辨出象牙啄木鸟。①选定特征：体重、翼展长度、有无脚蹼、后背颜色、种属；②数据收集。自动化收集特征下的数据。对于在附近进食的鸟类，安装多个带有照相机的喂食器，同时接入计算机用来标识前来进食的鸟。同样可以在喂食器中放置称重仪器以获取鸟的体重，利用计算机视觉技术来提取鸟的翅长、脚的类型和后背色彩。从而获得所需的全部特征信息。

接下来用机器学习中的分类算法判断飞入进食器的鸟是否为象牙啄木鸟。首先需要做的是算法训练，即学习如何分类。③通常我们为算法输入大量已分类数据作为算法的训练集。每个训练样本包含4个特征、一个目标变量。目标变量是机器学习算法的预测结果，在分类算法中目标变量的类型是标称型，在回归算法中通常是连续型的。训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。

进行机器学习时，我们通常需要两套独立的样本集：训练数据和测试数据。当机器学习程序开始运行时，使用训练样本集作为算法的输入，④训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量，由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别，就可以得出算法的实际精确度。

⑤经过测试满足精确度要求，则可以提取出知识表示。知识表示可采用规则集的形式，或采用概率分布的形式。

数据挖掘的主要任务，将机器学习算法转化为可实际运作的应用程序。机器学习解决分类问题的主要任务是将实例数据划分到合适的分类中，另一项任务是回归，它主要用于预测数值型数据。回归本质是数据拟合曲线，通过给定数据点的最优拟合曲线。分类和回归属于监督学习，是必须要知道预测什么，即目标变量的分类信息。

与监督学习相对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。无监督学习包含K-均值、最大期望算法、PCA、SVD等。注意无监督学习算法，由于不存在目标变量值，故而也不需要训练算法。

数据挖掘合适算法选择问题。如果要预测目标变量，则可以选择监督学习算法，进一步确定目标变量类型，如果目标变量是离散型，则选择分类算法，如果目标变量是连续型，则选择回归算法。

如果不预测目标变量的值，则选择监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求，则使用聚类算法；如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法。

数据挖掘知识学习的步骤

（1）收集数据。网络爬虫，设备发过来的实测数据，公开的数据源等；

（2）准备输入数据。确保数据格式符合算法要求，比如算法要求目标变量、特征值使用特定的格式；

（3）分析输入数据。查看是否有空值、异常值等。这一步的作用是确保数据集中没有垃圾数据；

（4）训练算法。将前两步得到的格式化数据输入到算法中，从中抽取知识或信息。得到的知识需要存储为计算机可以处理的格式；

（5）测试算法。实际使用第4步机器学习得到的知识信息，检验算法的成功率。如果不满意算法的输出结果，则可以回到第四步，改正并加以测试。如果问题是跟数据的收集和准备有关，则需要跳到第1步重新开始；

（6）使用算法。将机器学习算法转换为应用程序，执行实际任务，以检验上述步骤是否可以在实际环境中正常工作。如果碰到新的数据问题，则需要跳回到第1步重新开始。

1 0