机器学习实战-第一章

来源：互联网发布：模拟炒股 app 知乎编辑：程序博客网时间：2024/05/19 13:08

机器学习的价值在于发现数据背后的价值，将杂乱的数据转化为信息。

因为我们无法建立精确的模型，所以我们要应用统计学。

关键术语：

在监督学习中：特征，目标值，目标值也叫作类别。

无监督学习（我现在对无监督学习的理解就是聚类）：聚类，寻找描述数据统计值的过程称为密度估计。无监督学习可以减少数据特征的维度。

如何选择合适的算法：

1、目的：想要完成什么工作。（无监督学习情况下，如果想分成离散的组用聚类算法，如果估计数据与每个分组的相似程度用密度估计算法）

2、数据：充分了解数据可以减少算法选择的时间。

开发机器学习应用程序的步骤：

1、收集数据

2、准备输入数据

3、分析输入数据（发现垃圾数据，能用二、三维图像分析最好）

4、训练算法

5、测试算法（问题常常跟数据的收集和准备有关）

自己的理解：

1、问题跟数据的预处理有关，最终跟自己对业务的理解有关？

2、如果算法结果满意，想优化算法，那么“可以使用其他的机器学习技术来改进其性能“是什么意思？

3、第九页说的”最好的算法“是不是一个算法经过自己反复优化？自己还要改动算法？

python的有点：

1、语法清晰2、易于操作纯文本文件3、使用广泛，存在大量的开发文档

python的缺点：

效率不如c语言，前期使用python实现，后期更改为c语言（书中提供了方法）。

0 0