2020年12月13日
每周分享第 80 期 2020 week 50
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
本周摄影
2020还剩2周啦!疫苗也通过了各国审批,希望早日能接种。
国内新闻 【1】港警拘八人,指他们涉中大毕业礼游行期间非法集结、煽动分裂国家……
阅读全文
2020年12月10日
这篇我们将讨论崎岖景观模型,这个模型的目标是通过修改物体的某些属性来达到物体总价值的最大。
适合度景观模型 适合度景观模型假设物种拥有能够促进其适合度的特征或性状,当特征的程度不同时,就和给物种带来不同的适合度。如果用横轴表示性状,用纵轴表示物种的适合度,就可以绘出一张适合度景观的图,其中高海拔点对应高适合度。
假设一只土狼的尾巴有助于土狼在跳跃时保持平衡,而且土狼可以将它作为表示幸福、恐惧或即将发动攻击的信号。我们从横轴的最左侧开始,在那里,尾巴长度为零,这种情况下它不能执行任何一种功能,因此它的适合度为零。随着尾巴长度的增加,维持平衡和传递信号的功能也随之提高。因此,适合度先是随尾巴长度的增加而上升的。 但是,到了某一点上,比如当尾巴长到18英寸时,可能就是有助于土狼保持平衡的最理想长度。如果尾巴变得更长,土狼运动的敏捷度将会下降。不过,更长的尾巴可能还会继续提高它传递信号的价值,因此,长度为20英寸的尾巴可能会产生最大的整体适合度。一旦尾巴的长度超过了20英寸,适合度就会开始下降。结果如图所示,它具有一个单峰。
这种单峰景观被称为富士山景观。在现实世界中,这样的景观是经常出现的。有富士山景观的问题通常是比较容易解决的问题,我们比较容易找到全局最优解,任何一个爬山算法都可以找到这个山峰。
崎岖景观 当我们同时考虑多个属性并且允许一个属性的贡献与其他属性的贡献相互作用时,就会得到一个崎岖景观,也就是具有多个山峰的景观。考虑一个设计沙发的问题,我们必须决定坐垫的厚度和扶手的宽度。我们用沙发在市场上的预期销售额来代表设计的价值,而沙发的销售额与设计的美感相关。如果沙发有厚厚的垫子,那么较宽阔的扶手可能会使沙发更具美感。如果沙发的垫子很薄,那么扶手窄一点会更好。作为扶手宽度和坐垫厚度的函数,预期销售的二维图将具有两个山峰。一个山峰对应于窄扶手、薄垫子的沙发设计;另一个山峰则对应于宽扶手、厚垫子的沙发设计。
变量之间的相互作用,使得我们除了全局最优以外还会有多个局部最优。如果从不同的起点出发,也可能会找到不同的山峰。因此,崎岖性导致了对初始条件的敏感性和路径依赖的可能性。而这些都意味着,景观的崎岖性有助于结果的多样性。崎岖性也意味着出现次优结果的可能性,在崎岖景观中,次优结果表现为局部高峰。
如果我们用梯度启发法,从最左侧开始,那么梯度启发式将定位于局部高峰1上,但它不是最优的。在图中除了全局吸引盆外的其他地方开始,都是很难找到全局最高点。……
阅读全文
2020年12月6日
每周分享第 79 期 2020 week 49
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
本周摄影
加州又是新一轮的居家令,大家注意保持健康呀。
国内经济 【1】全国11月制造业PMI升至逾三年高点……
阅读全文
2020年12月3日
在多臂老虎机模型中,我们在不同备选方案的奖励中加入不确定性。在一个多臂老虎机问题中,不同备选方案的奖励源于一个分布,而不是固定的金额。在面对一个多臂老虎机问题时,人们必须对各个备选方案多加尝试,以便通过这种学习过程来了解收益的分布。我们必须在探索(寻找最佳备选方案)和利用(选择迄今为止表现最佳的备选方案)之间善加权衡。在探索与利用权衡中找到最优平衡点,需要非常精妙复杂的规则和行为。
伯努利多臂老虎机问题 在这类多臂老虎机问题中,每个备选方案都能以固定的概率产生成功的结果。因此,这类多臂老虎机问题相当于在一系列伯努利瓮之间进行选择,且每个瓮都包含着不同比例的灰球和白球。因此,我们将这类多臂老虎机问题称为伯努利多臂老虎机问题,也经常被称为频率问题,因为决策者对分布一无所知。
一个备选方案集{A,B,C,D,…,N}中的每一个备选方案都能够产生一个成功的结果,但是各自的概率${P_A,P_B,P_C,P_D,…,P_N}$都是未知的。在每一个时期,决策者选择一个备选方案K,并以概率$P_K$得到一个成功的结果。
比如说有三个餐厅A,B,C。我去A家时10次有8次是好吃的,我去B家3次有2次是好吃的,没去过C家。这时我是应该去C家多多探索,还是多去B家看看是不是菜品是否稳定,还是认定A家呢?于是,我们面临着在利用(选择最有效的备选方案)或探索(回过头去继续尝试其他两家餐厅以获得更多信息)之间的权衡。
为了进一步深入理解这种探索-利用权衡,我们比较了两种启发式。第一种启发式是取样并择优启发式(sample-then-greedy),即先对每个备选方案都尝试固定的次数M,然后选择具有最高平均收益的备选方案。我们可以利用标准差规则来判定不同方法是否达到了显著差异。
第二种启发式称为自适应探测率启发式(adaptive exploration rate heuristic)。它的程序是,第一阶段,先让每种备选方案各完成10次试验。第二阶段,再进行总共20次试验,但是试验次数根据各备选方案在第一阶段的成功率按比例分配。之所以这么做是因为当我们发现有一种方法效果不好就不用再浪费实验测试那一种方法了。……
阅读全文
2020年11月29日
每周分享第 78 期 2020 week 48
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
本周摄影
在外面玩了8天还是很累了…
国内经济 【1】国务院扶贫办:全国所有省份的农村低保标准都超过了脱贫收入标准……
阅读全文
2020年11月22日
每周分享第 77 期 2020 week 47
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
本周摄影:
无人机真好玩,希望不要很快炸机。。。
国内新闻 【1】人民币兑美元中间价近6.……
阅读全文
2020年11月15日
每周分享第 76 期 2020 week 46
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
本周摄影:
国内经济 【1】习近平:要加快在集成电路等领域打造世界级产业集群……
阅读全文
2020年11月10日
这一章我们来讨论人们学习的过程,人们是如何在很多选择中做出最优选择。
个体学习:强化学习模型 在强化学习中,个体要根据各个行动的不同权重来选择行动。权重较大的行动比权重较小的行动更经常被选中。分配给某个行动的权重取决于这个个体在过去采取这个行动时所获得的奖励(收益)。这种高回报收益的强化可以导致个体选择更好的行动。但是这是总是成立的吗?当这个收益是可以用数值计算的,人们很容易选择最优的选项。但如果不是数值形式,如对于餐厅的喜爱程度,往往需要人们的记忆。在强化学习模型中,分配给一个所选备选方案的权重,是根据该备选方案在何种程度上超过了预期,即“渴望水平”来进行调整的。
在这里我们考虑有N个方案的集合[A, B, C, D, E, .. N]。每个选项的奖励是$\pi(A), \pi(B),\pi(C),\pi(D) .……
阅读全文
2020年11月8日
每周分享第 75 期 2020 week 45
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
本周摄影
漫长的一周过去了,美国大选的结果竟然等了那么久才知晓。接下来4年的政策会如何改变我们将拭目以待。
国内新闻 【1】央行主管金融时报刊文:大互联网企业开展金融业务更易触发系统性风险……
阅读全文
2020年11月1日
这篇主要介绍如何Google sheet里批量创建日历项目并同步到Google calendar的方法。
启发 在本科的时候我就研究了各种办法希望可以快速的创建各种日程,先后尝试过生成csv上传,使用Python API等等,但都比较麻烦。知道了Google sheet可以运行app script就一直想试试。在看了Google官方的博文后,决定实现一下,发现还是比较容易实现的,下面给大家介绍一下。
Step 1:新建脚本 初始表格如下:……
阅读全文