博弈论赏析

来源：互联网发布：sql中exists用法编辑：程序博客网时间：2024/04/26 06:07

——纪念大师最好的方式就是尝试了解博弈论

很早之前就想看看有关博弈论的书了，一是因为在看过《美丽心灵》后；二是由于对于博弈论异常好奇，究竟能对实际决策影响到哪种程度。

之所以用赏析一词，博弈论是一门非常另类的数学分支，因为其带有极强的社会学色彩，世上最难揣测的莫过于人心，博弈论就是要在人心决策之间做出衡量。

这是非合作均衡的基本框架结构。

囚徒困境

博弈论的最开始总是会提到这个有趣的博弈实例：

鲍勃和埃尔两个窃贼在偷盗地点附近被警察抓住，分别关押。每个窃贼必须选择是否承认罪行并指正同伙。如果二人都不认罪，将被指控非法携带武器，入狱一年。如果二人都认罪并指正同伙，将入狱10年。如果一人认罪，一人不认罪，则鉴于认罪者与警方合作的表现，无罪释放，其同伙将受到严惩，判入狱20年。两人博弈决策结果用收益矩阵表示。

对于这一博弈问题，应该这样思考：如果鲍勃认罪(10年)，则埃尔最佳选择为认罪(10年)；如果鲍勃不认罪，那么埃尔的最佳选择也应该为认罪(获得自由)。因此无论鲍勃怎么选择，埃尔的最佳选择都是认罪。同样，对于鲍勃也是一样，因此最后结果是两人都认罪，被判10年。然而如果两人都“非理性”行事，保持沉默，则只会入狱一年。

这一结果有着深远的意义，在社会学角度，以自我利益为目标的“理性”行为，最终却都得到相对较差的收益。从道路拥挤、军备竞赛、污染，到鱼类的过度捕捞等等。

当然要注意囚徒困境是一个简化、抽象的博弈实例。它忽略了如下列问题：

前提假设了两个囚犯之间没有交流
囚徒困境是二人博弈，现实中更多是多人博弈
囚徒困境中只进行了一轮博弈，重复博弈可能会有不同结果

占优战略

这里还是先抛出一个博弈实例。故事里有琼斯和史密斯两个人，两个人各在郊区拥有一套周末别墅，该地区不提供垃圾日常处理服务。他们可以共同雇一辆卡车处理垃圾，每人每年需支付500美元。此外，他们还有一个选择，琼斯可以将垃圾倒在史密斯房子旁边的一块属于自己的空地上，史密斯可以将垃圾倒在琼斯房子旁边的一块属于自己的空地上。他们要同时做出决策，且先前都没有交流。这里我们用别墅的最低出租价格来表示别墅带给他们的主观享受的货币价值。假定没有人在别墅附近到垃圾，则别墅将带来5000美元的年收益，如果有人倒垃圾，则为4000美元。

由此收益矩阵为

参照前面囚徒困境的分析方式，无论对方选择哪种策略，倾倒垃圾总是自己的最优反应。占优策略就是无论对方采取何种策略，其都是最优反应的策略。因为每个参与者都有占优策略，所有该博弈是占优战略均衡。

从本质上，此例与前面的囚徒困境是一样的，都属于社会两难。社会两难是一种存在占优战略均衡的博弈，并且采用这种均衡战略的收益比采用非均衡战略的收益要差。

但是可以肯定的是琼斯和史密斯更喜欢双方都雇卡车的结果，这会提高双方的收益，(雇卡车，雇卡车)称作该博弈的合作解。假定双方订了一个合约，合约要求双方均雇一辆卡车，不再乱倒垃圾。如果一人违约，另一人就会提起诉讼。因此，合约为解决社会两难问题提供了一个出路。

纳什均衡

这里举的实例是一个关于编写教科书的博弈。参与者是两位教授，他们都分别在编写一本博弈论的教科书，双方都认为，如果自己的教科书页数多于竞争对手，就会收到更多的收益。他们的战略是决定教科书的页数，有400页、600页和800页三种选择。收益矩阵如下所示

可以看到这里并不存在占优战略均衡。如果杰夫教授选择400页，则山姆教授会选择600页，紧接着在杰夫教授的角度上就会继续增加页数(800页)，最后山姆教授不得不选择800页。因此经过一番博弈后，双方都会选择800页。(800,800)就是这个博弈的纳什均衡。纳什均衡就是这样一个关于全部参与者所选的战略组合，在这个战略组合中，每个人的战略都是针对其他人战略的最优反应。可以看出纳什均衡是在相互连续博弈中达到的一种平衡。

纳什均衡的寻找办法

将收益矩阵中，与每一战略的最优反应战略相对应的收益数字标注下划线，如果有一个组合的两个数字都被标注了下划线，则这个战略组合就是纳什均衡。

混合战略纳什均衡

每个博弈参与者只做出一个选择并始终坚持这个选择，是纯策略。而每个参与者对于多种策略选择的方式是不可预测的，包含随机性因素，这就是混合战略——纯战略的“混合”。

混合战略纳什均衡与上面相异的是参与者所做的是一个不确定性的决策，因此相对于纯战略纳什均衡的确定效用，混合战略纳什均衡则是期望值。

这里使用一个有关节日促销的问题来详解混合战略纳什均衡。事前没有任何形式通知的销售活动，为什么销售商想要让他们的优惠销售活动不可预测呢？如果顾客知道什么时候会打折，他就会专等打折的那几天进行购买。同时，顾客也希望自己的购买活动是不可预测的，如果销售商掌握了他们的购买日期，可能就不会在那几天进行打折优惠了。现在对于双方参与者的策略就是选择是今天还是明天进行打折促销(购买商品)。以下是收益矩阵(今明天收益差距源于时间偏好)

在销售商的角度上来看，假设顾客今天来购买的概率是p，则销售商战略的期望收益如下表

如果其中一天的期望收益比另一个值大，销售商会很明显地选择期望收益更高的一天。因此顾客会调整p值使两天的期望收益一样。可以求解得到p=4/9，得到结论顾客选择今天购买的概率为4/9，明天则是5/9。

假设今天进行打折优惠活动的概率为q，依照同样的思考方式，可以解得q=1/3，即今天进行打折优惠活动的概率为1/3。当双方这样混合战略时，就达到了混合战略均衡。

混合战略的存在是基于这样的事实，若一个参与者选择纯战略(确定性的)，那么就很容易被其他参与者选择针对性的战略而战胜，为此，参与者必须要混合纯战略，通过调整概率来减少被对手战胜的机会。

参考资料：

博弈论-战略分析入门，罗杰 A.麦凯恩

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

0 0