Yale开放课程博弈论21

来源：互联网发布：linux 显示到ip的流量编辑：程序博客网时间：2024/06/05 20:27

21. 合作与结局

这节课围绕的问题是Repeated interaction。

在一个正在进行的关系中，对于将来奖励的承诺和未来惩罚的威胁，可能会激励现在产生“好行为”。

从囚徒困境开始讲起，这个双人博弈中，双方可选的策略是合作或者背叛。

cooperationdefectcooperation2,2-1,3defect3,-10,0
找两个同学来玩游戏，与以往不同的是，我们会玩两次，即可以看成是两阶段的囚徒困境博弈。

第二阶段，每个人都会选择背叛，因为这时游戏退化为一次性的囚徒困境博弈，双方会选择占优均衡策略“defect”。

我们将下一阶段的收益加回到第一阶段（由于第二阶段两人都选择背叛，收益都是0，加回后第一阶段的收益还是一样），最终的结果还是一样都选择背叛。

我们希望连续的游戏能够得到持续的合作均衡，但是通过对子博弈的分析，得到的结果却都是背叛。

这里出问题的是前面的阶段对未来没有激励。

Lesson 1: but for this to work it helps to have a future （要有一个明确的未来）
我们知道最后的结果，就很难达到持续合作的情况，即如果我们知道一个关系要结束，不可能出现持续合作。

但是下面有一个反例，双人博弈，三种策略A,B,C，收益矩阵如下：

ABCA4,40,50,0B5,01,10,0C0,00,03,3

进行两次博弈，我们希望能够得到持续的（A,A）结果，这样对双方来说都是最好的。
但是在一次性博弈中（A,A）并不是纳什均衡，因为一者选择A的话，另外一个最好的对策是选择B。

纯策略的纳什均衡有(B,B)和(C,C)。

第二阶段是一次性的，无法得到(A,A)，也就得不到我们预想的结果。

下面考虑这样的策略：如果第一阶段出现(A,A)那么第二阶段再选择C，否则选择B （给予参与者指导的策略）。

如果两个参与者都采用这样的策略，是纳什均衡的吗？看看子博弈是否为理想的均衡博弈。

在（A,A）之后的第二阶段，这个策略会促使（C,C）发生，是纳什均衡；在第一阶段的其他选项后，这个策略会导致（B,B），也是纳什均衡。

在整个博弈中，如果对方选择A的话，我们选择A，收益是4，之后我们都选择C，连续收益是3，总共得到的收益是7；如果我选了背叛的B，第一阶段我会得到5的收益，之后两者都会选择B，收益是1，总收益则是6。7>6，所以我会选择A。

Lesson 2: 即使在有限的重复博弈中，我们也可以得到持续合作。

但是我们需要多个纳什均衡，其中一个作为奖励，一个作为惩罚。

我们可以通过预测不同策略造成的结果，来为下一次的行动提供激励（奖励或者惩罚）。

这又有多少合理性呢？

即使第一次被背叛了，为什么第二次不能都选择C，而是形成(B,B)的均衡呢？

如果可以重新谈判，在第一次博弈之后，两者通过重新谈判促成（C,C）的结局不是双赢吗！
但是我们这里因为在后面的游戏中为了惩罚他之前的背叛，我也得惩罚自己，不会允许重新谈判。

继续囚徒困境的博弈，但不同的是一次博弈之后，抛硬币两次头像的话结束游戏，否则继续。

结果就是，只要双方选择了合作，接下来的博弈两者都选择合作，直至有背叛出现就会一直选择背叛。这里有一个专业名词Grime trigger strategy。

下面是wiki的解释：

In game theory, grim trigger (also called the grim strategy or just grim) is a trigger strategy for a repeated game, such as an iterated prisoner's dilemma. Initially, a player using grim trigger will cooperate, but as soon as the opponent defects (thus satisfying the trigger condition), the player using grim trigger will defect for the remainder of the iterated game. Since a single defect by the opponent triggers defection forever, grim trigger is the most strictly unforgiving of strategies in an iterated game.

0 0