机器学习(一)

来源:互联网 发布:geekbar 知乎 编辑:程序博客网 时间:2024/06/10 06:30
1、什么是机器学习?
机器学习 就是把无序的数据转换成有用的信息。
2、特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本
3、机器学习的主要任务:分类、回归,分类以及回归属于监督学习。
     *无监督学习——聚类
4、选择算法:
     *使用机器学习算法的目的,想要完成何种任务;
          --预测目标变量的值:监督学习
               --目标变量类型:离散型:如,是/否、1/2/3或者红/黄/黑。选择分类算法;
                                           连续性:如,0.0~100.00、-999~999等。选择回归算法。
          --无监督学习:聚类(将数据划分为离散的组)、密度估计算法(估计数据与每个分组的相似程度)
     *需要分析或者收集什么样的数据;
          --特征值是离散还是连续变量;
          --特征值中是否存在缺失值;
          --数据是否存在异常值;
          --某个特征的频率如何。
5、开发机器学习应用程序的步骤
     *收集数据:爬虫、RSS反馈、API中得到信息、设备发送;
     *准备输入数据:为机器学习算法准备特定的数据格式;
     *分析输入数据:人工分析、图形展示——确保数据集中没有垃圾数据;
     *训练算法:主要是针对监督学习
          --无监督学习不存在目标变量值,故而也不需要训练算法;
      *测试算法:使用训练算法中得到的只是信息测试算法。
          --监督学习:必须已知用于评估算法的目标变量值;
          --无监督学习:使用其他的手段来验证;
6、用于机器学习的Python类库:SciPy、NumPy(设计较多的线性代数的知识)
*NumPy中用“.I”求矩阵的逆运算。 
0 0
原创粉丝点击