【ML--03】 第三课 机器学习基本概念

来源:互联网 发布:seo外链员 编辑:程序博客网 时间:2024/06/03 04:35

什么是机器学习
研究如何通过计算的手段,利用经验来改善系统自身的性能
通俗来讲,让代码学着干活

● 特征:自变量
● 标签:因变量

学习的种类
● 有监督学习:提供标签,分类、回归
● 无监督学习:无标签,聚类
● 增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Processes,MDP)
● 主动学习:边学习边标注
● 迁移学习:从一个域(Domain)迁移(Transfer)到另一个域
● 集成学习:Ensemble,三个臭皮匠赛个诸葛亮,Boosting和Bagging

两大痛点
● 维度灾难:数据量和特征数
● 过拟合:模型泛化能力

学习的流程
● 预处理:数据重塑、缺失值处理(补全、统计为缺失特征)
● 特征工程:特征没做好,参数调到老。在已有的特征上生成新的特征,数值、类别
● 特征选择、降维:基于MIC、Pearson相关系数、正则化方法、模型,PCA、tSNE
● 训练模型、调参:单模型,多模型融合,集成
● 评估模型:正确率(Acurracy)、准确值(Pecision)、召回值(Recall)、F值、AUC

代码实现
你需要的都在这里:http://scikit-learn.org/