合作的进化——斗争与合作

来源:互联网 发布:ps淘宝详情页字体大小 编辑:程序博客网 时间:2024/04/28 06:45
                北京天则经济研究所第139次双周学术讨论会由吴坚忠博士作主题发言,研讨
  了美国学者艾克斯罗德提出的《合作的进化》问题,艾克斯罗德通过对多人多
  次重复博弈的对策研究,指出在博弈中产生合作的必要条件和获胜策略的主要
  特征。当策略群体是按各种策略的得分进行淘汰和进化时,艾克斯罗德发现,
  群体以一种不可逆转的方式向合作的方向进化,也就是说,群体的合作性随进
  化过程越来越大。与会学者在主题发言之后展开了热烈的讨论。以下是这次学
  术讨论会的综合观点。
  
   
  
  一、 博弈中最优策略的产生
  
  艾克斯罗德在开始研究合作之前,设定了两个前提:一、每个人都是自私的;
  二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的
  企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;
  第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你
  合作。
  
  
  社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关
  税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失
  了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利
  益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问
  题。
  
  
  A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表
  不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选
  C的得零分,选D的得5分;如果AB都选D,双方各得1分。
  
  
  显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,
  一方选D,总体得5分。如果两人都选D,总体得2分。
  
  
  
  对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益
  最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对
  方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,
  无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两
  个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。
  困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托
  最优的,这个结果体现了个体理性与群体理性的矛盾。在数学上,这个一次性决
  策的矩阵没有最优解。
  
  
  如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背
  叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的
  多次博弈中,对策者没有一次会合作。
  
  
  如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作
  并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就
  永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的
  收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,
  且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某
  人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策
  者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么
  总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的
  策略。
  
  
  艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什
  么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程
  序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。
  
  
  第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概
  率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写
  的"一报还一报"(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,
  以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次
  不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:
  第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能
  总是合作,即"可激怒的";第三,不能人家一次背叛,你就没完没了的报复,以后
  人家只要改为合作,你也要合作,即"宽容性"。
  
  
  为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结
  果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞
  赛。结果,第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是:第一,"一报
  还一报"仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名
  里,只有第8名的哈灵顿程序是"不善良的",后15名中,只有1个总是合作的是"善良
  的"。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是"清
  晰性",能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。"一报还一报"
  就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
  
   
  
  二、 合作的进行过程及规律
  
  "一报还一报"的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群
  体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向
  不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这
  些疑问,艾氏用生态学的原理来分析合作的进化过程。
  
  
  假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人
  们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好
  就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,
  学习。比赛过程就是对策者相互学习的过程,"一报还一报"的策略好,有的人就愿意学。
  按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他
  在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会
  在进化过程中改变,由此可以看出群体是向什么方向进化的。
  
  
  实验结果很有趣。"一报还一报"原来在群体中占1/63,经过1000代的进化,结构稳定下
  来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,
  即原来前15名中唯一的那个"不善良的"哈灵顿程序,它的对策方案是,首先合作,当发
  现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对
  方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了"一报还一报"之外的
  其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
  
  
  进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。"一报还一报"在两
  个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础
  是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必
  然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败
  者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。
  
  
  那么,在一个极端自私者所组成的不合作者的群体中,"一报还一报"能否生存呢?艾氏发
  现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的5%或更多成员是
  "一报还一报"的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这
  个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占
  多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化
  的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结
  论,突破了"囚犯困境"的研究困境。
  
  
  在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对
  策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会
  有人跟他合作的。
  
  
  那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以
  维持双方的合作。第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,
原创粉丝点击