往往是两个人都选择了坦白。因为两个人都会想,如果我不坦白而对方坦白的话,我就倒大霉了,但是如果我坦白而对方不坦白的话,我就会获得很大的好处。也就是说,两个囚徒为了追求自身的最大利益而选择了坦白这一策略,最后却获得了对双方来说都不是最好的结果。这就是经典的“囚徒悖论”。也许正是因为谙熟囚徒悖论的逻辑,中国人才会有这么一句俗语:“两个人偷一头牛不如一个人偷一只鸡”。
在博弈论中,这种囚徒博弈被称为“二人一次性囚徒悖论博弈”(two-person one-shot prisoner dilemma game) 。以此为基础,哈丁把奥尔森的搭便车困境理论表述为一个囚徒博弈模型。我们假定一个社会运动(比如是一次为增加工资而进行的罢工) 有n 个人参加。假定这n 个人全都参加了这次罢工,结果人多势众,罢工成功,大家工资都上涨10 个单位( + 10) 。但是,罢工期间是没有工资的,参加罢工还要冒其他风险,所以可能会有一个人不想参加罢工,企图坐享其成,这就形成了一人不参加而其他人都参加的情况。但是,当参加罢工人数很多时,一个人参加与否无关大局,因此这场罢工最终还是会取得胜利。胜利后,不管参加还是没有参加罢工,所有人的工资都会增加。这时,参加罢工的人的收获是10 个单位( + 10) ,而没有参加罢工的人因为没有付出任何代价就涨了工资,我们假定他的收益为15 个单位( + 15) 。既然这样,就有可能出现这种情况,即大多数人都想搭便车,让人家去奋斗而自己坐享其成,以达到最大收益。结果,大家都选择不去参加罢工,并因此而什么也得不到(0) 。或者说,因为每个人都想得到15 个单位的收益,结果每个人什么也没得到。从囚徒博弈模型来看,奥尔森的搭便车困境理论仅仅是一种特殊的囚徒博弈模型,即“n 人一次性囚徒悖论博弈”。
相对于传统的数学方法,我们能够较为容易地改变囚徒博弈模型的结构,并在模型中加入不同的变量和假设。这样,关于公共物品问题的分析就进入了一个新天地。近年来,以囚徒博弈模型为基础的计算机模拟模型(simulation modeling) 在社会科学中得到了很大发展。一方面,我们可以在模型中加入各种社会结构变量以研究各种假设条件下人的行为的改变, 这就是通常所说的“限制性理性”( bounded rationality) 。哈丁本人在这方面做了许多开创性的工作。另一方面,我们也可以在人的行为模式上做文章,依这条路径发展起来的就是目前在美国逐渐走红的社会行动者模拟模型( agent-based simulationmodeling) 。在这方面,一个最为出色的开创性著作是阿克塞罗德的《合作行为的发生》(Axelrod ,1984) 。
阿克塞罗德是密歇根大学政治系教授。其全书的论点都是以下面这个试验为基础的:他邀请了不同学科的学者参加一个竞赛,参赛者需要与他人玩一个多次博弈的游戏,每一个参赛者在每次博弈时可选择与对方合作或者不合作。在二人博弈的情况下,每一次游戏结果的得失矩阵与图1 基本相同。不同的是在这个例子中,图1 中的囚徒A 和囚徒B 需改成参赛者A 和B ,不坦白须改成合作,坦白须改成背叛。由于阿克塞罗德把哈丁的n 人一次性模型改成了一个2 人m 次模型,所以参赛者可以根据自己不同的知识背景来设计整个博弈过程的行为策略。有人可能在m 次博弈中每次都选择合作,有人可能会每次都选择背叛,有人甚至会让计算机帮他(她) 随机选择策略,不一而足。阿克塞罗德想知道比赛结束后,采取哪一类策略的人总得分最高。结果是,当博弈次数很大(或者说博弈链很长) 时,总得分最高的策略并不是我以上所列举的那些策略,而是一种被称为“一报还一报”(tit-for-tat) 的策略。这种策略很简单,就是第一次总是采取合作,以后就跟着对方的上一次策略走。如果对方上一次采取的是合作,那么我这一次仍然采取合作;如果对方上一次采取的是不合作,那么我这一次就采取不合作。可以看出, “一报还一报”的策略与做一个有原则的好人的原则差不多,即做人首先要与人为善,如果对方对你做了坏事你绝不能姑息养奸;但对方一旦承认错误,你就应该原谅他。
得到这一结果后,阿克塞罗德把它公布了出来,并邀请各学科的学者再次参加同样一个比赛。不同的是,这一次大家都知道“一报还一报”的策略在上一次比赛中获得了第一名,于是专门针对这种策略去设计策略,就像打擂台一样,想办法打败它。尽管如此,第二次比赛的结果还是“一报还一报”策略的总得分最高。于是阿克塞罗德就下了这样一个结论:由于“一报还一报”这一策略显然是一个最优策略,因此,当博弈次数很大时,只要博弈的一方有理性学习能力,或者说虽然博弈的一方没有理性学习能力,但其“总得分”的高低能够转化成某种进化压力,迫使其行为产生“突变”的话,那么,在多次博弈过程中,博弈各方的行为就会趋同,即逐渐在博弈中采取合作这一策略。由于人类社会的基础就是各类合作性的集体行动,因此阿克塞罗德认为,他的这个实验揭示了人类合作行为得以形成和发展的基本动力。阿克塞罗德认为,只要博弈的次数足够多,即使是敌对的双方也会走向合作。一个比较典型的例子是第一次世界大战时欧洲战场上的壕沟战。那时壕沟挖得比较浅,在壕沟中走路时如果不小心把头抬起来就会遭到敌方士兵的冷枪。战争开始时,法、德两国的士兵互相用这一方法打死了对方许多人。但是到战争后期,双方士兵的行为都起了变化:如果一方的士兵头抬得太高,对方就朝他头的上方打一枪警告一下,而不是把他打死。其中的逻辑是,这次如果我把人家打死了,下次我不经意间把头露出战壕时,人家也会把我打死。按照这一逻辑,双方士兵在敌对的场合下达成了实际的合作。阿克塞罗德强调,他的模拟结果不但能够用来解释人类社会中合作现象的产生,而且能够用于解释生物的合作性行为的产生。的确,生物学中有一个重要现象,即协同进化。其中一种协同进化现象是,生物之间的捕食与被捕食关系在进化过程中可能发生如下演变:从捕食与被捕食关系(A 消灭了B) ,逐渐转变为寄生与被寄生关系(A 仍然容许B 的存活) ,并最后转化为共生关系(A 和B 互相为对方提供增进存活的条件) 。
与奥尔森的搭便车困境理论一样,阿克塞罗德的理论对我们理解现实生活中的许多现象很有启迪。比如,假冒伪劣、抄袭剽窃等机会主义行为目前在中国学术、生活和商业等许多领域非常盛行。这些问题的一个重要根源正是中国社会变迁太快,各种社会规则或者正在失去效力,或者尚未确立,或者时刻在变,现在大家遵守的某一规则,两年后可能就必须遵守另外一种规则。从阿克塞罗德理论的角度看,中国社会目前的迅速变化造成了人与人之间的博弈链非常短(或者说博弈次数m 非常小) ,这使机会主义行为成了事实上的最优选择,尽管这种行为给社会的稳定和发展造成了非常大的危害。机会主义行为在多变环境中是优势行为这一理论在生物学中也可以找到例子。在生物与环境的互动关系中,当环境多变时(相当于博弈链很短) ,许多物种就会采取机会主义的r 策略;当环境稳定时(相当于博弈链较长) ,许多物种就会采取k 策略。采取r 策略的物种,寿命较短,个体较小,大规模生殖,对后代却不照管,其生存行为可类比为不合作行为;采取k 策略的物种,其生存策略正好与采取r 策略的物种
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页