人们通过合作可以实现1+1>2的效果,但并不是所有人在面对选择时都会采取合作,合作背后的机理是什么?在这一篇中我们通过囚徒困境的例子对合作的行为进行建模分析。

囚徒困境

人们在面对和他人相处时有两个最基本的选择,合作(为了共同的利益)以及背叛(只顾及自己的利益)。

囚徒困境博弈的名称源于如下故事。有两个人,被控共同犯下了某种罪行。有关当局只掌握了间接证据,因此给他们每个人都提供了认罪减刑的机会。两人因此面临着两难选择:如果两人都不认罪,那么每个人都会(根据现有证据)受到轻微的惩罚;如果只有一人认罪,那么认罪的这个人不会受到惩罚,而另一个人则会受到很严厉的惩罚;如果两人都认罪,那么两人都会受到较严厉的惩罚,但是不会像只有一个人认罪时那么严厉。

下图将这个故事变成一个双人博弈,合作带来的总体收益最大,但是不能达到个人利益最大化。当一个人背叛另一个人合作,可以使得背叛的人达到最大的利益,但是合作的人则获得最小的收益当两人都背叛,所获得的总体收益最小。

将其中的数字抽象,并且将两者都背叛的利益都看作0。下面的不等式反映了之间收益的差距。

维持合作

在讨论维持合作时,我们假设参与博弈的人都采用一种策略:只要一方背叛,另一方将持续背叛。

对于理性的人,当博弈会重复发生的时候,持续的合作就有可能发生。当博弈以P的概率发生时,当以下条件满足:

$$P > \frac{(T-R)}{T}$$

换句话说,当人们知道对方在自己背叛一次后将不会再次合作,为了能够拿到持续的收益,将会好好考虑再次出现博弈的概率和自己可能的收益。如果博弈再次发生的概率很小,那么人们就可能为了更大的利益而采取背叛。当T变大或者R变小,人们都更可能选择背叛。

这个模型还有一个假设,那就是博弈会永远进行下去。如果博弈是有限次数的话,那么博弈的策略就是背叛。因为理性的博弈者在最后一个回合就会采取背叛,来获得最大收益。当双方知道对方会在最后一个回合背叛时,也就会在倒数第二回合背叛以扩大自己的利益。以此类推,这样的唯一策略就是持续背叛。

另一个可以保证维持合作的模型是声誉模型,当人在一个社群中与其他人进行重复的两两博弈,如果一个人背叛的消息被下一个博弈的人知道,那么别人也将不会和他采用合作的策略。这里假设其被别人知道的概率是$P_D$,那么其也满足之前的不等式。

$$P_D > \frac{(T-R)}{T}$$

在这里影响$P_D$因素比较多,例如社群里的网络结构以及信息的传播能力等等。

行为人的合作

行为人就是指人们会通过指定的策略进行博弈,这里有5种不同的策略

  • 始终合作(C)
  • 始终背叛(D)
  • 冷酷触发(GRIM):冷酷触发策略是一开始选择合作,后面也一直继续合作,直到另一个博弈参与者背叛为止,然后就一直背叛。
  • 针锋相对(TFT):针锋相对(或一报还一报)是指在第一次合作,然后每一次都复制另一个博弈参与者在前一次中的行为,两个人都使用针锋相对策略的博弈参与者将永远合作。
  • 欺负好人(TROLL):欺负好人策略则剥削始终合作的博弈参与者,更具体地说,这种策略是,在前两次选择背叛,如果另一个博弈参与者在这两次都没有背叛过,那么就选择永远背叛;而如果另一个博弈参与者在前两次已经背叛过了,那么就先转而在接下来的两次选择合作,然后一直采用冷酷触发策略。

我们先计算始终背叛这个策略在面对各种策略时的收益。如果面对的是始终合作这个策略,那么它在每一轮博弈中都可以得到的收益为4。与此对应,在这些博弈中,始终合作所能得到的平均收益则为1。如果始终背叛策略“对阵”的是针锋相对策略或冷酷触发策略,那么它在第一轮博弈中获得的收益为4,之后每一轮博弈中都获得2的收益。如果我们假设博弈会重复多次,那么所有轮次博弈的平均收益将只能略超过2,我们将它记为2+。而如果始终背叛策略与欺负好人策略相遇,前两轮博弈双方都背叛,然后欺负好人策略在第三轮和第四轮博弈中合作,但是此后一直背叛。因而始终背叛策略还是可以获得2+的平均收益;同时欺负好人策略的平均收益则略低于2,我们将它记为2。

以此类推可以得到这个表格, 其中的数字是博弈者的收益情况。

可以发现,这五种策略中其实有四种是在与自己合作的,因此我们可以将这些策略视为潜在的合作策略。只有针锋相对这一种策略是所有这四种潜在的合作策略都能合作的策略。因此,如果这四种策略的任何一个组合在人口中占了大部分,那么针锋相对策略就能够表现得非常好。合作出现或发展的一个必要条件是,合作带来的收益超过了背叛者能够获得的收益。否则,选择和学习都会导致整个种群趋向背叛。

群体选择

在一个群体内部,我们可以假设其中的每个个体都会选择合作或背叛。我们也为每个群体分配一个表现等于这个群体的平均表现。群体选择模型假设选择是在群体与群体之间进行的,表现好的群体将会替代表现差的群体。

假设一个群体里有10个人,8个人背叛,2个人合作。如果两人合作的话可以得到各得到2点收益,损失1点的成本。一人背叛另一人合作,背叛拿到2点收益,合作者损失1点的成本。两人都背叛则一点收益都没有。每个背叛者可以拿到4点好处,每个合作者的成本是9,收益是2。所有成员的平均绩效是1.8。

如果另一个群体2人背叛,其他人都合作。背叛者可以拿到16点好处,合作者成本是9,收益是14。所以在这个群体的平均绩效是7.2。

这些计算结果揭示了一个矛盾:在每个群体内部,背叛者对合作者有优势,但是表现更好的群体却必须包含更多的合作者。这里的张力是非常明显的:个体选择有利于背叛,但是群体选择却有利于合作。

群体选择拥有促进合作的潜力,这个结论还可以应用到组织内部。大多数组织主要根据个人绩效来分配薪酬。将员工分成若干相互竞争的团队,并根据团队绩效分配奖金和机会,能够诱导合作行为的出现。如果资源流向团队,个人就有动力在这些团队中努力工作,即相互合作。如果合作带来的好处很大,并且团队规模相对于团队数量来说很小,那么这种激励措施应该能够增进团队内部的合作。

小结

生活中处处存在着博弈的情况,在外卖领域,平台和骑手之间就存在着博弈。对此我也利用这章的理论进行了分析,欢迎阅读 知乎链接

当博弈会永远进行下去时,在考虑自己的收益情况下,理性的博弈者可能会出现持续的合作。声誉模型也是可以对背叛者的行为进行一定的惩罚,鼓励大家采用合作的方法。

群体选择发现在群体内部,背叛者获益较大,但是当需要群体总体收益较大时,合作者更多才能达成这个目的。