模型思维(23)--多臂老虎机模型

2020年12月3日

| 模型思维

在多臂老虎机模型中，我们在不同备选方案的奖励中加入不确定性。在一个多臂老虎机问题中，不同备选方案的奖励源于一个分布，而不是固定的金额。在面对一个多臂老虎机问题时，人们必须对各个备选方案多加尝试，以便通过这种学习过程来了解收益的分布。我们必须在探索(寻找最佳备选方案)和利用(选择迄今为止表现最佳的备选方案)之间善加权衡。在探索与利用权衡中找到最优平衡点，需要非常精妙复杂的规则和行为。伯努利多臂老虎机问题在这类多臂老虎机问题中，每个备选方案都能以固定的概率产生成功的结果。因此，这类多臂老虎机问题相当于在一系列伯努利瓮之间进行选择，且每个瓮都包含着不同比例的灰球和白球。因此，我们将这类多臂老虎机问题称为伯努利多臂老虎机问题，也经常被称为频率问题，因为决策者对分布一无所知。一个备选方案集{A，B，C，D，…，N}中的每一个备选方案都能够产生一个成功的结果，但是各自的概率${P_A，P_B，P_C，P_D，…，P_N}$都是未知的。在每一个时期，决策者选择一个备选方案K，并以概率$P_K$得到一个成功的结果。比如说有三个餐厅A，B，C。我去A家时10次有8次是好吃的，我去B家3次有2次是好吃的，没去过C家。这时我是应该去C家多多探索，还是多去B家看看是不是菜品是否稳定，还是认定A家呢？于是，我们面临着在利用(选择最有效的备选方案)或探索(回过头去继续尝试其他两家餐厅以获得更多信息)之间的权衡。为了进一步深入理解这种探索-利用权衡，我们比较了两种启发式。第一种启发式是取样并择优启发式(sample-then-greedy)，即先对每个备选方案都尝试固定的次数M，然后选择具有最高平均收益的备选方案。我们可以利用标准差规则来判定不同方法是否达到了显著差异。第二种启发式称为自适应探测率启发式(adaptive exploration rate heuristic)。它的程序是，第一阶段，先让每种备选方案各完成10次试验。第二阶段，再进行总共20次试验，但是试验次数根据各备选方案在第一阶段的成功率按比例分配。之所以这么做是因为当我们发现有一种方法效果不好就不用再浪费实验测试那一种方法了。……

阅读全文

模型思维(22)--学习模型

2020年11月10日

| 模型思维

这一章我们来讨论人们学习的过程，人们是如何在很多选择中做出最优选择。个体学习：强化学习模型在强化学习中，个体要根据各个行动的不同权重来选择行动。权重较大的行动比权重较小的行动更经常被选中。分配给某个行动的权重取决于这个个体在过去采取这个行动时所获得的奖励（收益）。这种高回报收益的强化可以导致个体选择更好的行动。但是这是总是成立的吗？当这个收益是可以用数值计算的，人们很容易选择最优的选项。但如果不是数值形式，如对于餐厅的喜爱程度，往往需要人们的记忆。在强化学习模型中，分配给一个所选备选方案的权重，是根据该备选方案在何种程度上超过了预期，即“渴望水平”来进行调整的。在这里我们考虑有N个方案的集合[A, B, C, D, E, .. N]。每个选项的奖励是$\pi(A), \pi(B),\pi(C),\pi(D) .……

阅读全文

模型思维(21)--信号模型

2020年10月21日

| 模型思维

信号模型就是指人们发送一些成本高的信号来揭示自己所拥有的信息。人们每天都在向外界发出很多信号，尤其是在社交网络诞生后这变得更加容易了。“炫耀性消费”就是对信号模型的一个很好的例子，人们经常会去买一些昂贵但是太多实际价值的东西来表明自己的社会地位，例如豪华跑车，陈年美酒，奢侈品等等。人们购买这些东西，并不是仅仅为了使用，而是发出信号，告诉大家自己的地位。离散信号模型在这种模型中，个体可以选择发送信号或不发送信号；同时，不同的个体发送信号的成本也不相同。要让信号发挥作用，它们就必须是昂贵的（有成本的）或可验证的。模型假设有两种类型的人，强者和弱者。对于同一件事，强者和弱者所需要付出的成本是不同的。例如身体强壮的人，跑马拉松是可能的。而对于身体较弱的人，跑马拉松所付出的代价太大，所以也不会去做。在这个模型里，信号的发出不能半途而废，要么发送，要么不发送。模型可能产生三种不同的结果：混同（所有人都发送相同的信号）、分离（每种类型的人发送独特的信号）、部分混同（一些类型区分开来了，其他类型则没有区分开来）。一个规模为N的种群由S个强者类型的个体和W个弱者类型的个体组成；这两种类型的个体发送信号的成本分别为c和C，且c < C。种群中所有发送信号的成员平均分配B的收益（B > 0）。这个模型有三种可能的结果：混同 $C < \frac{B}{N}$ 分离 $c < \frac{B}{S}$ 且 $\frac{B}{S+1} < C$ 只有强者发送信号部分混同 $c < \frac{B}{N} < C < \frac{B}{S+1}$ 所有强者和部分弱者发送信号下面用一个例子来解释这个模型，假设在一个10人团队，有5个强者和5个弱者。假设强者完成的成本是2000元，弱者完成的成本是5000元。……

阅读全文

模型思维(20)--与机制设计有关的模型

2020年9月30日

| 模型思维

怎么设计一个机制可以保证参与者的之间的公平以及达到最优分配，这是我们这篇想讨论的内容。社会机制的性质一种机制由六个部分组成：一个环境（世界的相关特征）、一个结果集、一个行动集（也称为消息空间）、一个行为规则（人们根据这个规则来做出行动）、将行动映射到结果的结果函数，以及将环境映射到一组希望得到的结果的社会选择对应。社会选择对应是指一种理想状态，达到最大化每个参与者效用的结果。帕雷托最优也可以定义这个状态，即不可能在不使任何其他人受损的情况下再改善某些人的境况。上图是芒特-赖特图，描述了一个机制的基本组成部分。图的顶部是社会选择对应，它描述了我们希望得到的规范的结果。在图的底部，则列出了我们在现实世界中能做的事情——人们应用他们的行为规则来发送消息或采取行动。结果函数将这些行动映射到结果中去。在理想情况下，下部这个更加复杂的路径会产生与上部路径相同的结果。一个机制的成功需要满足一些性质，这里探讨5个性质：第一，我们会希望这种机制的均衡结果与社会选择对应一致（帕雷托最优）。第二，在理想情况下，参与者将会采用占优策略，即他们的最优行动不依赖于他人的行动。如果是这样，就说有效的结果是占优策略可实施的。第三，我们不想强迫人们参与这种机制（自愿参与）。第四，如果这种机制涉及资源的转移或支付，我们不希望增加额外成本或破坏资源（预算平衡）。第五，在许多情况下，我们希望参与者讲真话。我们希望人们发送的消息能够揭示他们的真实信息或真实类型。……

阅读全文

模型思维(19)--与集体行动有关的模型

2020年9月22日

| 模型思维

在我们的生活中，有很多的公共物品，例如公园、公路、图书馆等等。这些东西其实只是一部分人出资，而剩下的人都可以享用。但是如果每个人都想享用，就会出现没人想出资的情况。我们也可以把这个问题放到团队合作中，个体有很强的动机去“搭便车”——自己偷懒卸责，让别人去努力工作，他们也会对共享工作空间提出过度需求，以确保自己的团队有足够的工作空间。这里我们就研究一下集体和个体的贡献问题。集体行动问题在集体行动问题中，每个人都可以在做贡献与免费搭便车之间进行选择。搭便车符合个人利益最大化动机，因为这能为个人带来更高的收益。然而，当每个人都做出贡献时，整个群体能够获得更大的收益。在集体行动问题中，N个人中的每个人都要选择是搭便车（f）还是为集体行动做贡献（c）。个人的收益取决于自己的行动和合作者的总数。个人可以通过搭便车获得更高的收益，即，Payoff(f，C)>Payoff(c，C+1)，但是当每个人都做出贡献时，所有人的收益总和实现最大化。这里的C是所有人的贡献。公共物品供应问题公共物品是与私人物品相对应的一个概念，消费具有非竞争性和非排他性特征，一般不能有效通过市场机制由企业和个人来提供，主要由政府来提供。非竞争性是指在消费过程中一些人对某一产品的消费不会影响另一些人对这一产品的消费，受益者之间不存在利益冲突。消费的非排他性，即任何人都不能因为自己的消费而排除他人对该物品的消费。公共物品的非排他性和非竞争性导致了集体行动问题。这个问题的出现，不是因为人们不想做出贡献，而是在于人们低估了贡献的价值。每个人的贡献都可以增加每个人的效用。有N个人，每人要将自己的收入I（I>N）配置到一种公共物品（PUBLIC）和一种私人物品（PRIVATE）上，每个单位的成本为1美元。每个人都有以下形式的效用函数： $$Utility(PUBLIC, PRIVATE) = 2\sqrt(PUBLIC) + PRIVATE$$……

阅读全文

模型思维(18)--合作模型

2020年9月7日

| 模型思维

人们通过合作可以实现1+1>2的效果，但并不是所有人在面对选择时都会采取合作，合作背后的机理是什么？在这一篇中我们通过囚徒困境的例子对合作的行为进行建模分析。囚徒困境人们在面对和他人相处时有两个最基本的选择，合作(为了共同的利益)以及背叛(只顾及自己的利益)。囚徒困境博弈的名称源于如下故事。有两个人，被控共同犯下了某种罪行。有关当局只掌握了间接证据，因此给他们每个人都提供了认罪减刑的机会。两人因此面临着两难选择：如果两人都不认罪，那么每个人都会（根据现有证据）受到轻微的惩罚；如果只有一人认罪，那么认罪的这个人不会受到惩罚，而另一个人则会受到很严厉的惩罚；如果两人都认罪，那么两人都会受到较严厉的惩罚，但是不会像只有一个人认罪时那么严厉。下图将这个故事变成一个双人博弈，合作带来的总体收益最大，但是不能达到个人利益最大化。当一个人背叛另一个人合作，可以使得背叛的人达到最大的利益，但是合作的人则获得最小的收益当两人都背叛，所获得的总体收益最小。将其中的数字抽象，并且将两者都背叛的利益都看作0。下面的不等式反映了之间收益的差距。维持合作在讨论维持合作时，我们假设参与博弈的人都采用一种策略：只要一方背叛，另一方将持续背叛。对于理性的人，当博弈会重复发生的时候，持续的合作就有可能发生。当博弈以P的概率发生时，当以下条件满足： $$P > \frac{(T-R)}{T}$$……

阅读全文

模型思维(17)--博弈论模型

2020年8月26日

| 模型思维

博弈论是研究面对不同情况如何进行对策的科学，在这一篇中将简单的介绍两种博弈形式。零和博弈在零和博弈中，每个参与者选择一个行动，并根据自己的行动和对手的行动获得一定的收益，双方的收益总和为0。例如下图这个两个人选硬币正反的博弈，如果两人的选择结果相同，一个玩家获胜，如果不同那么另一个玩家获胜。提到决策策略，那么就要提到纳什均衡了。这个是指有一种策略，它们能够使每个博弈参与者的策略在给定其他博弈参与者策略的情况下是最优的。在这个游戏中，存在一个唯一的均衡策略，那就是，两个博弈参与者都以相同的概率在两个行动之间进行随机化。如果行博弈参与者以1/2的概率选择正面朝上、1/2的概率选择背面朝上，无论他的选择到底是什么，列博弈参与者的收益都为零。正因为如此，随机化是列博弈参与者的最优策略。根据对称性，随机化也是列博弈参与者的最佳选择。其实这也可以应用在我们玩的石头剪刀布上，如果我们不是随机选择的话，那么任何非随机性都可能会被对手利用。序贯博弈在序贯博弈中，博弈参与者按照某个特定的顺序采取行动。由此，可以用一棵博弈树（gametree）来表示一个序贯博弈。博弈树由节点和边组成，每个节点对应于博弈参与者必须采取行动的时刻，该节点的每条边分别表示可以采取的某个行动。在博弈树最末尾的分支上，我们写下相应行动路径的收益。在市场进入博弈中，有两个博弈参与者：拟进入者和现有企业。如果拟进入者选择不进入市场（博弈树的左侧分支），那么它的收益为零，现有企业的收益为5。如果拟进入者决定进入市场，那么现有企业必须做出选择：是接受新进入者，同时自己的收益从5下降为2，还是发动与新进入者的商战，但这会导致自己的收益变为零，同时令新进入者的收益为负。之所以假设这种情况下新进入者的收益为负，因为它必须为进入市场付出一定的成本。在序贯博弈中，可以选择子博弈完美均衡来做选择。运用逆向归纳法来求解子博弈均衡：从最末端的节点开始，并在每个节点处选择最优行动。然后沿着博弈树逆向倒推，假设每个博弈参与者会在给定另一个博弈参与者在后续节点上的行动时选择最优行动。例如，在市场进入博弈中，我们从现有企业的末端节点开始推导。它有一个最优行动，即接受对方进入。然后移动到博弈树上面的节点，不难发现拟进入者的最优策略是进入。……

阅读全文

模型思维(16)--空间竞争模型与享受竞争模型

2020年8月18日

| 模型思维

这两个模型主要可以用来研究人们在做选择的两种模式，可以用来刻画消费者的选择行为。我们会将某些属性描述为空间属性，而将其他属性描述为享受属性。空间属性，例如夹克的颜色或一片面包的厚度，没有最优值。每个人都喜欢某种特定“数量”的这类属性：一个购买猪排的消费者有自己喜欢的辣度，一个业余滑雪运动员在滑下斜坡时有自己喜欢的下降角度。产品的属性越接近理想水平，消费者对产品的评价就越高，而且理想水平因人而异：一个人可能比另一个人更喜欢辣一些的猪排。在享受属性上，更多（或者在某些情况下更少）总是意味着更好。人们喜欢智能手机的待机时间更长一些，房间的面积更大一些，皮鞋的鞋底更耐磨一些，自己的汽车更省油一些。不过，在现实世界中，大多数选择都是“混合型”的：人们既会考虑空间属性，也会考虑享受属性。空间竞争模型空间竞争模型假设备选项可以用一组属性来定义，消费者则可以用一系列理想点来定义。假设用户只在一个属性上做选择，可以把用户的兴趣在数轴上做出反应。而提供商品的商家假设只有一个商品，可以满足这个属性的一个值。在下图中a和b可以看作是两个商家，距离a和b越近的用户就会选择他们。所以中间存在一个分界点d，分割不同的用户选择。一般的空间竞争模型可以包括任意数量的属性。一个物品总是有不同的属性的，比如，沙发可以通过多个物理维度来描述：长度、宽度和深度，结构类型，以及室内装饰类型。消费者从产品中获得的价值（或效用）取决于产品在各个维度上与理想点的距离。我们可以用实际与用户理想点的距离来表现其竞争力。唐斯空间竞争模型接下来，我们应用空间竞争模型来分析政治候选人的意识形态立场“定位”。为了便于讨论，假设候选人都是追求投票最大化，也就是说，他们的首要目标是赢得选举。我们可以从一个简单的例子开始考虑，思考候选人的动机。如下图，候选人之间首先有一定的意见差距，获得其选民的选票。为了获得更多的选票，两个候选人都在往中间靠近为了争抢对方的选民支持。在下图中，可以看到两人的意见其实已经很接近了。这也是在美国大选中双方都需要争抢摇摆州的选票的原因。享受竞争模型在享受竞争模型中，各备选项（通常是各种产品）也是用属性来表示的。但是，在这种模型中，属性包括了质量、效率或价格，而且更多或者更少总是更受欢迎的。为了刻画每个属性的不同，享受竞争模型允许个体给不同维度赋予不同的权重。……

阅读全文

模型思维(15)--基于阈值的模型

2020年8月3日

| 模型思维

基于阈值的模型就是指当外部变量超过或低于特定的阈值时，人们的行为所发生的变化，引起整体的改变。基于阈值的行为很直观，也很容易产生临界点，例如当一个人加入社交活动的决定取决于已经参与了该项活动的人数时，随着越来越多的人参与该活动，参与者的总人数也超过了其他人的阈值，从而导致了参与的人越来越多。骚乱模型在基于阈值的模型中，个体根据某个总量变量是否超过阈值而决定采取两种行动中的哪一种。如果变量的值超过阈值，个体就采取一个行动，否则，就会采取另一个行动。骚乱模型为每个人分配一个阈值。当参加骚乱的人数超过那个阈值时，这个人就会参加骚乱。一开始，只有那些阈值为零的人才会参加骚乱。这里所说的“骚乱”是一般的社会活动而不是暴乱，因此在这种情况下，参加骚乱也仅是指参与聚会。举个例子：假设第一天，有200个阈值为零的人发动了一场社会活动。第二天，这200人继续参加，于是参与阈值低于200的人也加入了他们的行列。假设第二天新加入的人有500人，那么第三天，阈值低于700的人也会加入。而这可能会涉及好几千人。那么什么样的群体可以使得参与的人最多呢？聪明的读者可能觉得如果这个群体的平均阈值比较低，那么所有人加入的可能性越大。对于这个问题，我们可以通过如下三种可能的情形对于此进行分析，假设一共有1000个人可能参与这个活动：所有人的阈值都是10。有5个人的阈值为零，10个人的阈值为1，其他人的阈值均为20。这1000人中每个人都有一个独特的阈值，范围为从0到999。对于第一种情况，没有人会参与活动，因为无法达到阈值。……

阅读全文

模型思维(14)--系统动力学模型

2020年7月27日

| 模型思维

在现实生活中，我们会遇到很多复杂的系统。其中各个部分存在正负反馈和相互依赖，我们可以通过系统动力学模型建立各个部分的关系，使得分析事情之间变化更加容易。基本概念系统动力学模型可以同时包括正反馈和负反馈。当变量或属性的增加导致同一变量或属性的更大增加时，就会出现正反馈。负反馈会抑制趋势，当一个变量出现快速增长，负反馈往往可以通过其他途径的作用将其变低。负反馈可以有助于系统层面的稳定性。任何一个系统动力学模型都由源、汇、存量和流量组成。源产生存量；存量是某个变量的数量或水平；流量描述了存量水平的变化；汇能够捕获来自存量的流量输出；汇和源是不包含在模型中的过程的“占位符”；存量水平会根据源和流量随时间推移而变化。下图的符号表明了系统动力模型的组成部分这里我们利用面包师、面包和顾客组成的简单的面包店系统动力学模型：面包师制作面包，顾客购买面包。如果面包师生产面包的速度超过了顾客购买面包的速度，面包的库存量就会增加，面包店将会堆满面包。在这幅图中，包括了一个从面包库存量到面包师生产面包的速度的流量（一个箭头）。我们在这个箭头上放了一个负号，以表示随着面包库存量的增加，生产面包的速度会下降。如果适当地调整速度，模型将产生一个均衡，使面包生产速度收敛于顾客购买面包的速度。捕食者-猎物模型我们现在介绍捕食者猎物模型，这是一个用来刻画野兔数量（猎物）与狐狸数量（捕食者）之间关系的生态模型。这个模型包括两个正反馈：野兔生下野兔、狐狸生下狐狸。它还包括一个负反馈：狐狸吃野兔。该模型假设野兔的存量水平很高，狐狸会产生更多的后代。从图中可以看出，随着狐狸数量的增加，野兔数量的减少，从而又导致狐狸数量减少。而随着狐狸数量的下降，野兔数量应该增加，进而导致更多的狐狸。逻辑表明了循环的可能性，也可能是均衡，但我们无法确定。……

阅读全文

包含标签 book 的文章

模型思维(23)--多臂老虎机模型

模型思维(22)--学习模型

模型思维(21)--信号模型

模型思维(20)--与机制设计有关的模型

模型思维(19)--与集体行动有关的模型

模型思维(18)--合作模型

模型思维(17)--博弈论模型

模型思维(16)--空间竞争模型与享受竞争模型

模型思维(15)--基于阈值的模型

模型思维(14)--系统动力学模型

最近文章

分类

标签

其它