模型思维(23)--多臂老虎机模型

在多臂老虎机模型中,我们在不同备选方案的奖励中加入不确定性。在一个多臂老虎机问题中,不同备选方案的奖励源于一个分布,而不是固定的金额。在面对一个多臂老虎机问题时,人们必须对各个备选方案多加尝试,以便通过这种学习过程来了解收益的分布。我们必须在探索(寻找最佳备选方案)和利用(选择迄今为止表现最佳的备选方案)之间善加权衡。在探索与利用权衡中找到最优平衡点,需要非常精妙复杂的规则和行为。 伯努利多臂老虎机问题 在这类多臂老虎机问题中,每个备选方案都能以固定的概率产生成功的结果。因此,这类多臂老虎机问题相当于在一系列伯努利瓮之间进行选择,且每个瓮都包含着不同比例的灰球和白球。因此,我们将这类多臂老虎机问题称为伯努利多臂老虎机问题,也经常被称为频率问题,因为决策者对分布一无所知。 一个备选方案集{A,B,C,D,…,N}中的每一个备选方案都能够产生一个成功的结果,但是各自的概率${P_A,P_B,P_C,P_D,…,P_N}$都是未知的。在每一个时期,决策者选择一个备选方案K,并以概率$P_K$得到一个成功的结果。 比如说有三个餐厅A,B,C。我去A家时10次有8次是好吃的,我去B家3次有2次是好吃的,没去过C家。这时我是应该去C家多多探索,还是多去B家看看是不是菜品是否稳定,还是认定A家呢?于是,我们面临着在利用(选择最有效的备选方案)或探索(回过头去继续尝试其他两家餐厅以获得更多信息)之间的权衡。 为了进一步深入理解这种探索-利用权衡,我们比较了两种启发式。第一种启发式是取样并择优启发式(sample-then-greedy),即先对每个备选方案都尝试固定的次数M,然后选择具有最高平均收益的备选方案。我们可以利用标准差规则来判定不同方法是否达到了显著差异。 第二种启发式称为自适应探测率启发式(adaptive exploration rate heuristic)。它的程序是,第一阶段,先让每种备选方案各完成10次试验。第二阶段,再进行总共20次试验,但是试验次数根据各备选方案在第一阶段的成功率按比例分配。之所以这么做是因为当我们发现有一种方法效果不好就不用再浪费实验测试那一种方法了。……

阅读全文

每周分享第 78 期

每周分享第 78 期 2020 week 48 你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。 本周摄影 在外面玩了8天还是很累了… 国内经济 【1】国务院扶贫办:全国所有省份的农村低保标准都超过了脱贫收入标准……

阅读全文

每周分享第 77 期

每周分享第 77 期 2020 week 47 你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。 本周摄影: 无人机真好玩,希望不要很快炸机。。。 国内新闻 【1】人民币兑美元中间价近6.……

阅读全文

每周分享第 76 期

每周分享第 76 期 2020 week 46 你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。 本周摄影: 国内经济 【1】习近平:要加快在集成电路等领域打造世界级产业集群……

阅读全文

模型思维(22)--学习模型

这一章我们来讨论人们学习的过程,人们是如何在很多选择中做出最优选择。 个体学习:强化学习模型 在强化学习中,个体要根据各个行动的不同权重来选择行动。权重较大的行动比权重较小的行动更经常被选中。分配给某个行动的权重取决于这个个体在过去采取这个行动时所获得的奖励(收益)。这种高回报收益的强化可以导致个体选择更好的行动。但是这是总是成立的吗?当这个收益是可以用数值计算的,人们很容易选择最优的选项。但如果不是数值形式,如对于餐厅的喜爱程度,往往需要人们的记忆。在强化学习模型中,分配给一个所选备选方案的权重,是根据该备选方案在何种程度上超过了预期,即“渴望水平”来进行调整的。 在这里我们考虑有N个方案的集合[A, B, C, D, E, .. N]。每个选项的奖励是$\pi(A), \pi(B),\pi(C),\pi(D) .……

阅读全文

每周分享第 75 期

每周分享第 75 期 2020 week 45 你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。 本周摄影 漫长的一周过去了,美国大选的结果竟然等了那么久才知晓。接下来4年的政策会如何改变我们将拭目以待。 国内新闻 【1】央行主管金融时报刊文:大互联网企业开展金融业务更易触发系统性风险……

阅读全文

从GoogleSheet同步到GoogleCal

这篇主要介绍如何Google sheet里批量创建日历项目并同步到Google calendar的方法。 启发 在本科的时候我就研究了各种办法希望可以快速的创建各种日程,先后尝试过生成csv上传,使用Python API等等,但都比较麻烦。知道了Google sheet可以运行app script就一直想试试。在看了Google官方的博文后,决定实现一下,发现还是比较容易实现的,下面给大家介绍一下。 Step 1:新建脚本 初始表格如下:……

阅读全文

每周分享第 74 期

每周分享第 74 期 2020 week 44 你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。 本周摄影: 美国大选下周就要到来了,这里分享一下538网站对于结果的分析,川普赢的概率只有10%。下周结果如何我们拭目以待。 国内经济 【1】全国芯片企业4.……

阅读全文

每周分享第 73 期

每周分享第 73 期 2020 week 43 你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。 每周摄影: 金门大桥 这周在科技界有一件大事,美国司法部联合11州起诉 Google 违反反垄断法。上一次史诗级的反垄断诉讼,是在 20 余年前针对微软,史称 “合众国诉微软案”,从 1990 年开始展开调查,到 1998 年美国司法部部长和 20 个州的总检察官对微软提出反垄断诉讼,直至 2002 年才达成和解。司法部认为,Google现在是通往互联网的垄断门户,无数的广告商必须为谷歌搜索广告和搜索文字广告的垄断性付出代价;美国消费者被迫接受谷歌制定的相关政策、隐私惯例和个人数据的使用;拥有创新业务模式的新公司无法摆脱谷歌的垄断打压。Google方面自然是不认同这些质控,认为用户们一再表明了他们对谷歌搜索工具的偏爱。不论结果如何,这场官司必然会持续很久,而且Google可能因此会做出一些改变。其他几家大公司也很有可能会遭遇相同的命运。……

阅读全文

模型思维(21)--信号模型

信号模型就是指人们发送一些成本高的信号来揭示自己所拥有的信息。人们每天都在向外界发出很多信号,尤其是在社交网络诞生后这变得更加容易了。“炫耀性消费”就是对信号模型的一个很好的例子,人们经常会去买一些昂贵但是太多实际价值的东西来表明自己的社会地位,例如豪华跑车,陈年美酒,奢侈品等等。人们购买这些东西,并不是仅仅为了使用,而是发出信号,告诉大家自己的地位。 离散信号模型 在这种模型中,个体可以选择发送信号或不发送信号;同时,不同的个体发送信号的成本也不相同。要让信号发挥作用,它们就必须是昂贵的(有成本的)或可验证的。模型假设有两种类型的人,强者和弱者。对于同一件事,强者和弱者所需要付出的成本是不同的。例如身体强壮的人,跑马拉松是可能的。而对于身体较弱的人,跑马拉松所付出的代价太大,所以也不会去做。在这个模型里,信号的发出不能半途而废,要么发送,要么不发送。 模型可能产生三种不同的结果:混同(所有人都发送相同的信号)、分离(每种类型的人发送独特的信号)、部分混同(一些类型区分开来了,其他类型则没有区分开来)。 一个规模为N的种群由S个强者类型的个体和W个弱者类型的个体组成;这两种类型的个体发送信号的成本分别为c和C,且c < C。种群中所有发送信号的成员平均分配B的收益(B > 0)。这个模型有三种可能的结果: 混同 $C < \frac{B}{N}$ 分离 $c < \frac{B}{S}$ 且 $\frac{B}{S+1} < C$ 只有强者发送信号 部分混同 $c < \frac{B}{N} < C < \frac{B}{S+1}$ 所有强者和部分弱者发送信号 下面用一个例子来解释这个模型,假设在一个10人团队,有5个强者和5个弱者。假设强者完成的成本是2000元,弱者完成的成本是5000元。……

阅读全文