博弈论基础

来源：互联网发布：知乎每周精选神回复编辑：程序博客网时间：2024/04/27 16:03

1.基本概念：

博弈均衡：所谓博弈均衡指博弈中所有参与者都不想改变自己的策略的这样一种状态。

占优策略(Dominant Strategy)：每一个博弈中的企业通常都拥有不止一个竞争策略，其所有策略的集合构成了该企业的策略集。在企业各自的策略集中，如果存在一个与其他竞争对手可能采取的策略无关的最优选择，则称其为占优策略(Dominant Strategy)，与之相对的其他策略则为劣势策略。占优策略是博弈论（game theory）中的专业术语，所谓的占优策略就是指无论竞争对手如何反应都属于本企业最佳选择的竞争策略。

占优策略均衡：博弈中的所有参与者的占优策略组合所构成的就是占有策略均衡。

零和博弈：是博弈论的一个概念，属非合作博弈，指参与博弈的双方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加的总和永远为“零”。双方不存在合作的可能。零和博弈的结果是一方吃掉另一方，一方的所得正是另一方的所失，整个社会的利益并不会因此而增加一分。

非零和博弈：是一种非合作下的博弈，博弈中各方的收益或损失的总和不是零值，它区别于零和博弈。在非零和博弈中，对局各方不再是完全对立的，一个局中人的所得并不一定意味着其他局中人要遭受同样数量的损失。也就是说，博弈参与者之间不存在“你之得即我之失”这样一种简单的关系。其中隐含的一个意思是，参与者这间可能存在某种共同的利益，蕴涵博弈参与才“双赢”或者“多赢”这一博弈论中非常重要的理念。譬如，在恋爱中一方受伤的时候，对方并不是一定得到满足。也有可能双方一起能得精神的满足。也有可能双方一起受伤。通常，彼此精神的损益不是零和的。正和博弈：指博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整体的利益有所增加；负和博弈：双方都有损失。

2.纳什均衡：

a、如果Ａ的选择是给定的，则Ｂ的选择是最优的；如果Ｂ的选择是给定的，则Ａ的选择是最优的；这样策略组合的均衡为纳什均衡；

b、它是这样一种战略组合，这种战略组合由所有参与人的最优战略组成，即给定别人战略的情况下，没有任何单个参与人有积极性选择其他战略，从而没有任何人有积极性打破这种均衡，即僵局。

c. 经典囚徒困境：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。
若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。
若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：

甲沉默（合作）

甲认罪（背叛）

乙沉默（合作）

二人同服刑半年

甲即时获释；乙服刑10年

乙认罪（背叛）

甲服刑10年；乙即时获释

二人同服刑2年

　　如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势策略”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

　　囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。
若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

寻找纳什均衡点：//待补充！

3.完全信息动态博弈：子博弈精炼纳什均衡

给定“历史”，每一个行动选择开始至博弈结束构成了一个博弈，称为“子博弈”。

    不可置信的威胁是博弈论里的一个概念，在动态博弈求出的纳什均衡有的均衡其实是不可能达到的，因为如果参与者都是理性的，如果参与者1为了使得参与者2的收益减小，从而选择了某个策略，比如策略a，但如果他选择b的话他的收益会大于选择a的收益，选择a就是一个不可置信的威胁，这时不能用纳什均衡概念求解了，要用子博弈凝练均衡的概念。

动态是世间万物的基本特征。完全信息静态博弈只是一种独特的理想状态。在现实中，当后一个参与人行动时，自然会根据前者的选择而调整自己的选择，而前者也会理性地预期到这一点，所以不可能不考虑自己的选择对他人的影响。1965年，泽尔腾通过对动态博弈的分析，提出了“子博弈精炼纳什均衡”的概念，它要求任何参与人在任何时间、地点的决策都是最优的，决策者应该随机应变，而不是固守前谋。这就推导出子博弈的概念。当参与人的战略在每一个子博弈中都构成纳什均衡时，则形成“子博弈精炼纳什均衡”。也就是说，组成“子博弈精炼纳什均衡”的战略必须在每一个子博弈中都是最优的。

纳什均衡允许了不可置信威胁的存在，静态博弈时不考虑自己策略对对手的影响，动态博弈时必须进行考虑。子博弈精炼纳什均衡要求参与人的决策在任何时间点上都是最优的，决策者要“应变”而不是“固守”！

逆向归纳法（Backward Induction）是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时,从最后一个子博弈开始逆推上去,这就是逆向归纳法。所以逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈均衡的方法。

//待补充！

E.g：//待补充！

4. 不完全信息静态博弈：贝叶斯纳什均衡

不完全信息静态博弈的均衡称为贝叶斯纳什均衡。在不完全信息静态博弈中，参与人同时行动，没有机会观察到别人的选择。给定其他参与人的战略选择，每个参与人的最优战略依赖于自己的类型。由于每个参与人仅知道其他参与人有关类型的分布概率，而不知道其真实类型，因而，他不可能知道其他参与人实际上会选择什么战略。但是，他能够正确地预测到其他参与人的选择与其各自的有关类型之间的关系。因此，该参与人的决策目标就是：在给定自己的类型，以及给定其他参与人的类型与战略选择之间关系的条件下，使得自己的期望效用最大化。贝叶斯纳什均衡是一种类型依赖型战略组合。

贝叶斯纳什均衡是这样一种战略组合：给定自己的类型和别人类型的概率分布的情况下，每个参与人的期望效用达到了最大化，也就是说，没有人有积极性再去选择其他战略。

E.g://待补充！

5. 不完全信息动态博弈：精炼贝叶斯纳什均衡

这个概念是完全信息动态博弈的子博弈精炼纳什均衡与不完全信息静态均衡的贝叶斯（纳什）均衡的结合。具体来说，精炼贝叶斯均衡是所有参与人战略和信念的一种结合。它满足如下条件：第一，在给定每个参与人有关其他参与人类型的信念的条件下，该参与人的战略选择是最优的。第二，每个参与人关于其他参与人所属类型的信念，都是使用贝叶斯法则从所观察到的行为中获得的。

运用子博弈精炼均衡概念的逻辑，将从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”(不同于子博弈，因为子博弈必须开始于单结信息集，并且不能切割信息集)，

一个“合理”的均衡要求，给定每一个参与人有关其他参与人类型的后验信念，参与人的战略组合在每一个后续博弈上构成贝叶斯均衡。

假定参与人(在所有可能的情况下)根据贝叶斯法则修正先验信念，并且，每个参与人都假定其他参与人选择的是均衡战略。

完美贝叶斯纳什均衡的要点是在于当事人要根本所观察到的他人的行为来修正自己的有关后者特征的“信念”（主观概率），并由此选择自己的行动。

E.g: 黔驴技穷：

贵州省的老虎从来没有见过驴子，不知道驴子到底有多大本领。老虎采取的方法是不断不断接近驴子进行试探。通过试探，修正自己对驴子的看法，从而根据试探的结果选择自己的策略。一开始，老虎见驴子没什么反映，它认为驴子本领不大；接下来老虎看见驴子大叫，又认为驴子的本领很大；然而，进一步试探的结果，老虎却发现驴子的最大本领只是踢踢而已；最后，通过不断试探，老虎得到关于驴子的准确信息，确认驴子没有什么本领，就选择了冲上去把驴子吃掉的策略。这显然是老虎的最优策略。

0 0