这一章我们来讨论人们学习的过程,人们是如何在很多选择中做出最优选择。

个体学习:强化学习模型

在强化学习中,个体要根据各个行动的不同权重来选择行动。权重较大的行动比权重较小的行动更经常被选中。分配给某个行动的权重取决于这个个体在过去采取这个行动时所获得的奖励(收益)。这种高回报收益的强化可以导致个体选择更好的行动。但是这是总是成立的吗?当这个收益是可以用数值计算的,人们很容易选择最优的选项。但如果不是数值形式,如对于餐厅的喜爱程度,往往需要人们的记忆。在强化学习模型中,分配给一个所选备选方案的权重,是根据该备选方案在何种程度上超过了预期,即“渴望水平”来进行调整的。

在这里我们考虑有N个方案的集合[A, B, C, D, E, .. N]。每个选项的奖励是$\pi(A), \pi(B),\pi(C),\pi(D) .. \pi(N)$, 对应的权重是${w(A), w(B), w(C), w(D), .. w(N)}$, 选中备选方案K的概率是

$$ P(K) = \frac{w(K)}{w(A)+w(B)+w(C)+w(D)+ … + w(N)}$$

在选中方案K后,$w(K)$会增大 $\gamma * P(K) * (\pi(K) - A)$,其中$\gamma$是调整速率,大于0。其中A是渴望水平。也就是说如果这个选择超过了期望,我们就会更多的选择这个选项。当选择低于期望时,我们就会减少选择这个选项的概率。注意这里的$A < max(\pi_{1<K<N}(K))$

当A小于所有$\pi(k)$时,即做任何事情可以增加这件事情的权重,这个可以用来刻画习惯的形成。之所以更频繁地做某件事情,只是因为我们在过去已经做过这件事情。而且,即便将渴望水平设定得很低,会带来最高水平奖励的那个备选方案也会以最快的速度增加权重,因此从长远来看,最优备选方案将会胜出。但是,要收敛到最优备选方案上,所需的时间可能会很长。另外,当我们增加了更多的备选方案时,收敛时间也会变长。

我们也可以构造内在愿望,将上述模型中的渴望水平设置为平均奖励,从而让它随时间推移而不断调整。我们很容易就可以证明,强化学习将趋向于以概率1选择最优备选方案。这个结论意味着,与所有其他备选方案的权重相比,最优备选方案的权重将会变得任意大。

社会学习:复制者动态

强化学习假设个体是孤立采取行动的。但是,人们也会通过观察他人来学习。社会学习模型假设个体能够观察到他人的行动和奖励,这可以加快学习速度。复制者动态模型假设采取某个行动的概率取决于该行动的奖励和它的受欢迎程度。

在这里我们考虑有N个方案的集合[A, B, C, D, E, .. N]。每个选项的奖励是$\pi(A), \pi(B),\pi(C),\pi(D) .. \pi(N)$, 对应的权重是${w(A), w(B), w(C), w(D), .. w(N)}$, 一个种群选中备选方案K的在时间t上的概率是$P_{t}(K)$,这个概率随着时间改变。

$$P_{t+1}(K) = P_{t}(K) * \frac{\pi(K)}{\bar{\pi_t}}$$

复制者动态同时包括了从众效应(更受欢迎的备选方案更有可能被复制)以及奖励效应。从长期来看,奖励效应占主导地位,因为高奖励的备选方案总是会与奖励水平成比例增长。在复制者动态中,平均奖励发挥的作用,与强化学习中当渴望水平随着平均奖励水平而调整时、渴望水平所发挥的作用类似。两者之间唯一的区别是,在复制者动态中,我们要计算整个种群的平均奖励,而在强化学习中,渴望水平等于个体的平均奖励。只要种群是一个相当大的样本,这种区别就是很重要的。因此,复制者动态产生的路径依赖要远小于强化学习。

在学会从一个有限的备选方案集中选择最好的备选方案的过程,无限种群复制者动态几乎总是收敛到整个种群都选择最优备选方案。

慷慨/妒忌博弈中的学习

在这个博弈中,有N个博弈参与者,每一个博弈参与者都要选择:是慷慨(G),还是妒忌(S)。

收益$(G,N_G)=1+2×N_G$ 收益$(S,N_G)=2+2×N_G$

如果我们应用强化学习规则,假设现在博弈参与者处于几乎已经收敛到均衡的状态了,$N_G$个博弈参与者都选择了慷慨的行动。这时,如果有一个妒忌的博弈参与者,那么他可以获得$2+2×N_G$的收益。这将成为他的渴望水平。如果他选择的是G(哪怕发生概率很小),那么他的收益为$1+2×(N_G+1)=3+2×N_G$,这比他的渴望水平还要高。因此,他将更有可能变成慷慨的。不断应用这种逻辑,我们就会发现所有的博弈参与者都将学会慷慨。

但是,如果我们在慷慨/妒忌博弈中应用复制者动态,人们就会学会做一个妒忌的人。只要仔细观察一下复制者动态方程,就可以得出这个结论。在每一期,选择妒忌行动的那些博弈参与者所获得的收益都要高于选择慷慨行动的博弈参与者。因此,在每一期,选择妒忌行动的博弈参与者的比例都会上升。

这些结果突显了个体学习与社会学习之间的关键差异。个体学习会引导人们选择更好的行动,因此人们会学会采取占优行动(如果占优行动存在的话)。而社会学习则引导人们选择相对于其他行为来说表现更好的行动。在大多数情况下,这些行动通常也会产生更高的收益。但是,在慷慨/妒忌博弈中却并不是这样。在这种模型中,妒忌行动的平均收益更高,但是占优的却是慷慨行动。