要点(PPV课)机器学习 黄志洪
来源:互联网 发布:网络直播哪个好 编辑:程序博客网 时间:2024/05/02 04:57
知识参考 http://www.ppvke.com/10400.html
一、常用语言
R语言 (S语言 源于统计,数据探索、统计分析、作图的解释型语言。)
www.r-project.org
Python (瑞士军刀、通用语言、爬虫、网站、 shell)
NumPy SciPy Matplotlib
Matlab 矩阵实验室
WEKA 机器学习与数据挖掘 JAVA环境 图形界面 (hadroop大数据迁移)
二、主要方法
回归预测以及相应的降维技术:线性回归、logistics回归、主成分分析、因子分析、岭回归、LASO
分类器:决策树、朴素贝叶斯、贝叶斯信念网络、支持向量机、提高准确率的Adaboost和随机森林算法。
聚类与孤立点判别
人工神经网络
三、回归
基本思想:利用样本产生拟合方程,从而进行预测。
样本存在误差,学习器将误差也学习了,造成了过拟合问题;
线性回归分析:一元线性;多元线性(曲面、超平面);广义线性等。
非线性回归分析
困难:选定变量(多元)。避免多重共线性,避免过拟合,检验模型是否合理。
函数关系与相关关系(非确定性关系)
相关关系:背后受某种共同因素影响
相关系数 柯西不等式
RSS 残差平方和 OLS
假设检验 t统计量 阈值一般0.05
回归擅长内推插值,不擅长外推归纳
业绩预测 时间序列 季节影响
虚拟变量 (哑变量):
离散、分类变量
加法模型(分类中选n-1个,影响截距)
乘法模型(分类中选n个,影响斜率)
多元线性回归 : 变量选取
逐步回归
向前引入(一元回归开始)
向后剔除(全变量)
衡量标准 :RSS 、相关系数平方、AIC越小越好(赤池信息准则)
回归诊断:
符合正态分布假设?离群点判断;线性模型是否合理?误差是否满足独立、等方差、正态分布等假设?多重共线性?(表现为矩阵不可逆)
多重共线性 Kappa值?
广义线性模型(GLM)
二元变量 S型曲线
非线性模型:
对数法;指数法;幂函数法;(待定系数a、b)
多项式回归
非线性模型的参数估计 nls
三、假设检验
否定域 显著性水平(一般0.05) 概率密度曲线;总体期望
步骤:
- 建立原假设
- 构造检验统计量
- 确定原假设否定域
- 要点(PPV课)机器学习 黄志洪
- 机器学习模型的11个要点
- 10 种机器学习算法的要点
- 10 种机器学习算法的要点
- 机器学习在工程中使用要点
- 机器学习要点(一):梯度相关
- 机器学习要点(二):数据处理相关
- 10 种机器学习算法的要点(附 Python )
- 10 种机器学习算法的要点(转载)
- 机器学习要点(三):模型泛化相关
- 机器学习实战—朴素贝叶斯及要点注解
- 学习要点
- 学习要点
- 10 种机器学习算法的要点(附 Python 和 R 代码)
- 10 种机器学习算法的要点(附 Python 和 R 代码)
- 10 种机器学习算法的要点(附 Python 和 R 代码)
- 10 种机器学习算法的要点(附 Python 和 R 代码)
- 10 种机器学习算法的要点(附 Python 和 R 代码)
- java题(可以当作面试)
- 索引基础——B-Tree、B+Tree、红黑树、B*Tree数据结构
- 输入数据合法性测试的思考
- Apache Flink源码解析之stream-window
- nessue6.6.2安装与离线激活
- 要点(PPV课)机器学习 黄志洪
- ReportNg测试报告的定制修改(三)
- 关于“幽灵架构”的补充说明1:协议中的方法定义
- hihocoder -#1037 : 数字三角形
- 第一次盲打
- linux编程 - C/C++每线程(thread-local)变量的使用
- C++求最大公约数和最小公倍数
- mac版MySQL初始密码或者自己的密码忘了怎么办?
- MySQL 5.6 for Windows 解压缩版配置安装