机器学习知识点(三十五)蒙特卡罗方法

来源：互联网发布：mac 3d动画制作软件编辑：程序博客网时间：2024/06/05 14:46

强化学习中免模型学习采用蒙特卡罗方法去逼近最优解，那这种采样原理是怎样的呢？

1、蒙特卡罗思想

是一类随机方法的统称。这类方法的特点是，可以在随机采样上计算得到近似结果，随着采样的增多，得到的结果是正确结果的概率逐渐加大，但在（放弃随机采样，而采用类似全采样这样的确定性方法）获得真正的结果之前，无法知道目前得到的结果是不是真正的结果。

和拉斯维加斯算法相比，经典的描述就是：

蒙特卡罗算法：采样越多，越近似最优解；尽量找好的，但不保证是最好的。
拉斯维加斯算法：采样越多，越有机会找到最优解；尽量找最好的，但不保证能找到。

这是一种采样随机的算法或原理。诞生于上个世纪40年代美国的"曼哈顿计划"，名字来源于赌城蒙特卡罗，象征概率。近似或逼近，插值等等概念不外如是。

2、蒙特卡罗数学定义

3、借案例理解-π的计算

蒙特卡罗算法表示采样越多，越近似最优解。举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个……我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法。告诉我们样本容量足够大，则最接近所要求解的概率。

如何用蒙特卡罗方法计算圆周率π。

正方形内部有一个相切的圆，它们的面积之比是π/4。

现在，在这个正方形内部，随机产生10000个点（即10000个坐标对 (x, y)），计算它们与中心点的距离，从而判断是否落在圆的内部。

如果这些点均匀分布，那么圆内的点应该占到所有点的 π/4，因此将这个比值乘以4，就是π的值。通过R语言脚本随机模拟30000个点，π的估算值与真实值相差0.07%。

阅读全文

0 0