batch-GD, SGD, Mini-batch-GD, Stochastic GD, Online-GD

来源:互联网 发布:上海建工房产待遇知乎 编辑:程序博客网 时间:2024/04/29 09:38

http://www.cnblogs.com/richqian/p/4549590.html


机器学习中梯度下降(Gradient Descent, GD)算法只需要计算损失函数的一阶导数,计算代价小,非常适合训练数据非常大的应用。

梯度下降法的物理意义很好理解,就是沿着当前点的梯度方向进行线搜索,找到下一个迭代点。但是,为什么有会派生出 batch、mini-batch、online这些GD算法呢?

原来,batch、mini-batch、SGD、online的区别在于训练数据的选择上:

 batchmini-batchStochasticOnline训练集固定固定固定实时更新单次迭代样本数整个训练集训练集的子集单个样本根据具体算法定算法复杂度高一般低低时效性低一般(delta 模型)一般(delta 模型)高收敛性稳定较稳定不稳定不稳定

 


0 0
原创粉丝点击