机器学习知识点(三十五)蒙特卡罗方法

来源:互联网 发布:mac 3d动画制作软件 编辑:程序博客网 时间:2024/06/05 14:46

强化学习中免模型学习采用蒙特卡罗方法去逼近最优解,那这种采样原理是怎样的呢?


1、蒙特卡罗思想

      是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果。

      和拉斯维加斯算法相比,经典的描述就是:

     蒙特卡罗算法:采样越多,越近似最优解;尽量找好的,但不保证是最好的。
    拉斯维加斯算法:采样越多,越有机会找到最优解;尽量找最好的,但不保证能找到。

    这是一种采样随机的算法或原理。诞生于上个世纪40年代美国的"曼哈顿计划",名字来源于赌城蒙特卡罗,象征概率。近似或逼近,插值等等概念不外如是。


2、蒙特卡罗数学定义

  

  


3、借案例理解-π的计算

    蒙特卡罗算法表示采样越多,越近似最优解。举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法。告诉我们样本容量足够大,则最接近所要求解的概率。

    

如何用蒙特卡罗方法计算圆周率π。

正方形内部有一个相切的圆,它们的面积之比是π/4。

现在,在这个正方形内部,随机产生10000个点(即10000个坐标对 (x, y)),计算它们与中心点的距离,从而判断是否落在圆的内部。

如果这些点均匀分布,那么圆内的点应该占到所有点的 π/4,因此将这个比值乘以4,就是π的值。通过R语言脚本随机模拟30000个点,π的估算值与真实值相差0.07%。

    

      


原创粉丝点击