合作的进化——斗争与合作

来源：互联网发布：ps淘宝详情页字体大小编辑：程序博客网时间：2024/04/28 06:45

北京天则经济研究所第139次双周学术讨论会由吴坚忠博士作主题发言，研讨
　　了美国学者艾克斯罗德提出的《合作的进化》问题，艾克斯罗德通过对多人多
　　次重复博弈的对策研究，指出在博弈中产生合作的必要条件和获胜策略的主要
　　特征。当策略群体是按各种策略的得分进行淘汰和进化时，艾克斯罗德发现，
　　群体以一种不可逆转的方式向合作的方向进化，也就是说，群体的合作性随进
　　化过程越来越大。与会学者在主题发言之后展开了热烈的讨论。以下是这次学
　　术讨论会的综合观点。
　　
　　　
　　
　　一、博弈中最优策略的产生
　　
　　艾克斯罗德在开始研究合作之前，设定了两个前提：一、每个人都是自私的；
　　二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的
　　企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；
　　第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你
　　合作。
　　
　　
　　社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关
　　税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失
　　了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利
　　益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问
　　题。
　　
　　
　　A和B各表示一个人，他们的选择是完全无差异的。选择C代表合作，选择D代表
　　不合作。如果AB都选择C合作，则两人各得3分；如果一方选C，一方选D，则选
　　C的得零分，选D的得5分；如果AB都选D，双方各得1分。
　　
　　
　　显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，
　　一方选D，总体得5分。如果两人都选D，总体得2分。
　　
　　
　　
　　对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益
　　最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对
　　方选C，他选D得5分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，
　　无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两
　　个优超策略相遇，即A，B都选D时，结果是各得1分。这个结果在矩阵中并非最优。
　　困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托
　　最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决
　　策的矩阵没有最优解。
　　
　　
　　如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背
　　叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的
　　多次博弈中，对策者没有一次会合作。
　　
　　
　　如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作
　　并达成默契时，对策者就能持续地各得3分，但如果持续地不合作的话，每个人就
　　永远得1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的
　　收益多一个折现率W，W越大，表示未来的收益越重要。在多人对策持续进行下去，
　　且W比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某
　　人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策
　　者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么
　　总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的
　　策略。
　　
　　
　　艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什
　　么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程
　　序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。
　　
　　
　　第一轮游戏有14个程序参加，再加上艾克斯罗德自己的一个随机程序(即以50%的概
　　率选取合作或不合作)，运转了300次。结果得分最高的程序是加拿大学者罗伯布写
　　的"一报还一报"(tit for tat)。这个程序的特点是，第一次对局采用合作的策略，
　　以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次
　　不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：
　　第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能
　　总是合作，即"可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后
　　人家只要改为合作，你也要合作，即"宽容性"。
　　
　　
　　为了进一步验证上述结论，艾氏决定邀请更多的人再做一次游戏，并把第一次的结
　　果公开发表。第二次征集到了62个程序，加上他自己的随机程序，又进行了一次竞
　　赛。结果，第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是：第一，"一报
　　还一报"仍是最优策略。第二，前面提到的三个特点仍然有效，因为63人中的前15名
　　里，只有第8名的哈灵顿程序是"不善良的"，后15名中，只有1个总是合作的是"善良
　　的"。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是"清
　　晰性"，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。"一报还一报"
　　就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。
　　
　　　
　　
　　二、合作的进行过程及规律
　　
　　"一报还一报"的策略在静态的群体中得到了很好的分数，那么，在一个动态的进化的群
　　体中，这种合作者能否产生、发展、生存下去呢？群体是会向合作的方向进化，还是向
　　不合作的方向进化？如果大家开始都不合作，能否在进化过程中产生合作？为了回答这
　　些疑问，艾氏用生态学的原理来分析合作的进化过程。
　　
　　
　　假设对策者所组成的策略群体是一代一代进化下去的，进化的规则包括：一，试错。人
　　们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好
　　就照哪个去做。第二，遗传。一个人如果合作性好，他的后代的合作基因就多。第三，
　　学习。比赛过程就是对策者相互学习的过程，"一报还一报"的策略好，有的人就愿意学。
　　按这样的思路，艾氏设计了一个实验，假设63个对策者中，谁在第一轮中的得分高，他
　　在第二轮的群体中所占比例就越高，而且是他的得分的正函数。这样，群体的结构就会
　　在进化过程中改变，由此可以看出群体是向什么方向进化的。
　　
　　
　　实验结果很有趣。"一报还一报"原来在群体中占1/63，经过1000代的进化，结构稳定下
　　来时，它占了24%。另外，有一些程序在进化过程中消失了。其中有一个值得研究的程序，
　　即原来前15名中唯一的那个"不善良的"哈灵顿程序，它的对策方案是，首先合作，当发
　　现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对
　　方仍然合作，它就继续背叛。这个程序一开始发展很快，但等到除了"一报还一报"之外的
　　其它程序开始消失时，它就开始下降了。因此，以合作系数来测量，群体是越来越合作的。
　　
　　
　　进化实验揭示了一个哲理：一个策略的成功应该以对方的成功为基础。"一报还一报"在两
　　个人对策时，得分不可能超过对方，最多打个平手，但它的总分最高。它赖以生存的基础
　　是很牢固的，因为它让对方得到了高分。哈灵顿程序就不是这样，它得到高分时，对方必
　　然得到低分。它的成功是建立在别人失败的基础上的，而失败者总是要被淘汰的，当失败
　　者被淘汰之后，这个好占别人便宜的成功者也要被淘汰。
　　
　　
　　那么，在一个极端自私者所组成的不合作者的群体中，"一报还一报"能否生存呢？艾氏发
　　现，在得分矩阵和未来的折现系数一定的情况下，可以算出，只要群体的5%或更多成员是
　　"一报还一报"的，这些合作者就能生存，而且，只要他们的得分超过群体的总平均分，这
　　个合作的群体就会越来越大，最后蔓延到整个群体。反之，无论不合作者在一个合作者占
　　多数的群体中有多大比例，不合作者都是不可能自下而上的。这就说明，社会向合作进化
　　的棘轮是不可逆转的，群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结
　　论，突破了"囚犯困境"的研究困境。
　　
　　
　　在研究中发现，合作的必要条件是：第一、关系要持续，一次性的或有限次的博弈中，对
　　策者是没有合作动机的；第二、对对方的行为要做出回报，一个永远合作的对策者是不会
　　有人跟他合作的。
　　
　　
　　那么，如何提高合作性呢？首先，要建立持久的关系，即使是爱情也需要建立婚姻契约以
　　维持双方的合作。第二、要增强识别对方行动的能力，如果不清楚对方是合作还是不合作，