2020年6月21日
每周分享第 55 期 2020 week 25
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
疫情在全球各国都出现了反复,只要人们一放开隔离,感染率就会上升,真是防不胜防啊。。。
国内新闻 北京疫情 【1】丰台区副区长周宇清、丰台区花乡党委书记王华被免职,新发地农产品批发市场总经理张月琳被责令免职……
阅读全文
2020年6月18日
上一篇我们讲到随机走动,这一篇我们将继续延伸这个话题。如果每次的行动与之前的行为结果相关,我们就可以得到路径依赖模型。在生活中,我们穿的衣服、读的书、看的电影,以及任何需要我们付出时间的活动,都可以应用路径依赖来分析。
波利亚过程 我们利用波利亚过程来刻画正反馈的效应。这里我们依旧使用从瓮里取白球和灰球的实验。一只瓮里面装着一个白球和一个灰球。每一周期,都随机抽取出一个球并将这个球与和它颜色相同的另一个球一起放回到瓮中。抽取出来的球的颜色表示结果。
波利亚过程可以用来刻画各种社会和经济现象。一个人选择学习打网球,还是打篮球,可能取决于其他人的选择。如果更多的朋友选择学习打网球,那么这个人就更有可能也选择学习打网球,因为这会增加他找到伙伴打比赛的机会。与此类似,一个人决定购买什么类型的软件、学习哪种语言或购买哪款智能手机,也可能取决于他的朋友以前做出的选择。
波利亚过程可以得到两个性质:
具有相同数量的白色结果的任何序列都会以相同的概率发生 P(GWWW) = P(WWWG) 白球和灰球的每个分布都以相同的概率发生 P(白球出现1次) = P(白球出现n次) 第二个性质就可以说明极端情况的可能性,白球只出现1%和白球出现50%的可能性是一样的。我们可以通过实验这个结果,初始只有两个球,之后进行100次抽取,统计其中白球的数量。将此实验重复10000次,理论上每一种白球的分布出现次数在100次左右。结果如图,发现每一种可能都是在100次的上下波动。……
阅读全文
2020年6月14日
每周分享第 54 期 2020 week 24
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
国内新闻 灾情 【1】南方遭入汛以来最强降雨# 南方的雨到底有多猛?这雨下到什么时候才算完?……
阅读全文
2020年6月10日
我们在这篇研究随机走动(random walk)。想象有一个点,每次可以随机的前进或退后一步,之后记录其与原点的距离。看似这个过程很简单,却可以利用其结论分析一些时间序列,例如销售额,股票价格等等。随机走动最初是用在研究物理学中液体和气体中粒子的运动,后来发现在生活中的很多现象也符合随机走动。
伯努利瓮模型 我们这里首先利用伯努利瓮模型研究随机走动。假设有一个装了灰球和白球的瓮,其中灰球有G个,白球W个。每一次从中取出一个球,记录抽取出来球的颜色。在下一次抽取之前,球要放回瓮中。每次抽到灰球的概率是 $P = \frac{G}{G + W}$。在抽取N次的情况下,可以计算出抽取出来的灰球的期望数量是$N_G$, 其标准差是 $\sigma_{N_G}$……
阅读全文
2020年6月7日
每周分享第 53 期 2020 week 23
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
这里可以回顾第一期的新闻分享:每周分享第 1 期……
阅读全文
2020年6月3日
这一篇我们来讨论“熵”的概念。熵可以用来计算一个系统中的失序现象,即混乱程度。简单来说,一个事件的熵越高,其可能带来的惊喜越大,因为其结果是无序,不可预测的。熵是一个用来描述系统状态的函数,在控制论、概率论、天体物理、生命科学中等领域都有应用。这里我们研究其在信息中的定义和应用。
信息熵 熵可以度量与结果概率分布相关的不确定性。我们可以利用抛硬币来进行理解,对于抛硬币的结果,只有正反面两种可能,其概率都是1/2,其不确定性较小,无论怎么猜都有50%的概率回答正确。但如果抛三次硬币,其可能出现的序列就有8种,如果我们想猜对的难度就大大增加。
给定一个概率分布$(p_1, p_2, p_3, p_4 … P_N)$,其信息熵H等于:
$$H(p_1, p_2, p_3, p_4 … P_N) = - \sum ^N_{i=1} p_i log_2(p_i)$$……
阅读全文
2020年5月31日
每周分享第 52 期 2020 week 22
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
这个每周分享我已经做了1年,这一年发生了很多,也见证了这个历史变革时期很多的事情。从贸易战开始,到香港问题和特朗普对中国越来越多的敌对举措。在未来的很长时间内,中美之间的冲突都将持续。这个历史的进程可能会影响到每一个人。
与此同时,人类首个商业载人航天飞船发射成功,马斯克称希望这是通向火星文明的第一步,人类生活将首次变得星际化,“希望未来能有上百万人能做星际旅行,这是我们将来要塑造的生活方式。这个目标很宏远,但今天发生的一切让实现目标变得真切起来。” 希望有生可以前往太空!……
阅读全文
2020年5月27日
这里我们将讨论三种传播模型,和目前世界正在经历的covid-19息息相关。这些模型同时也可以用来研究信息、技术、行为在人群中的传播,模型会将人群分为两部分,分别是知道的(感染的),不知道的(健康的),通过定义一些参数研究其中互相转换的关系。
广播模型 我们假定有一个固定人数的群体,其总人数是$N$。我们将$t$时刻知道这个信息的人看作$I_t$,除了这些知道信息的人以外,剩下的人都是可能获取信息的人,我们称作$S_t$。总人数 $N = S_t + I_t$。
$$ I_{t+1} = I_t + P_{broad} \times S_t$$……
阅读全文
2020年5月24日
每周分享第 51 期 2020 week 21
你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。
国内新闻 国内政策 【1】全国政协今日开幕……
阅读全文
2020年5月20日
生活中处处有网络模型的存在,从传染病的传播到网络中站点连接,都可以抽象成一张张网络,将不同的节点连接起来。这篇将走进网络的基本结构,帮助大家理解一些生活中的现象。
网络的基本术语 网络是由节点和边组成的。每一个节点都可以通过边的连接到达另一个节点,这两个节点互为邻居。如果从一个节点可以到任意一个节点,我们称之为连接的网络。
在无向网络中,我们对于每个节点的连接数可以定义为节点的度(degree)。度分布可以告诉我们某个节点是不是比其他的节点连接的更多。
路径长度是指两个节点中的最短路径长度,与度成反比。当增加边的时候,就缩短了节点之间的平均长度。介数是指通过该节点的最小路径的百分比。在社交网络中,介数得分高的人掌握更多信息并且拥有更多权力。
最后一个基本术语是聚类系数,这个统计了一个节点的邻居们互相连接的比例。例如,一个人有10个朋友,这些朋友可以组成45个对。如果在这45个对当中,有15个对本身也是朋友,那么这个人的聚类系数就等于1/3。如果所有这45对都是朋友,那么这个人的聚类系数就等于1,这也是最大的聚类系数。整个网络的聚类系数等于各个节点聚类系数的平均值。
下面用中心辐射网络和地理网络举个例子:
中心辐射网络是所有节点和中心节点相连,但是都不互相连接。其基本的统计术语也比较好理解。
地理网络是每个节点都连接到位于它右侧和左侧的两个节点。每个节点具有相同的度,都是4。由于网络是对称的,所以每一个节点的介数也是相同的。这里一共12个节点,可以组成 12*11/2 = 66 个邻居对。其中一个节点是有6对邻居经过其是最短路径,所以介数是1/12。每个节点都有4个邻居,可以构成6个对。在这6个对中,恰好有3对是相互连接的:直接靠着该节点的左右两个节点分别连接到再外一点的节点,并相互连接。因此,聚类系数等于1/2。……
阅读全文