模型通常是假定变量之间存在特定的函数关系,而线性关系是最简单也是应用最广泛的。

线性模型

在线性模型里,有自变量和应变量,应变量随着自变量的改变而改变。举一个例子,假如树木的高度与树木的年龄呈线性关系,那么树木每年生长的高度相同。线性模型用数学语言描述如下:

在线性模型中,自变量x的变化,会导致因变量y的线性变化:

$$y = mx + b$$

其中,m等于直线的斜率,b等于截距,即当自变量等于0时的因变量值。

线性回归模型的目标是找到能够最小化到各数据点的直线。我们可以利用最小二乘法得到这条直线,回归线越靠近数据,模型解释的数据越多,$R^2$ 就越大,如果数据完全在线上,那么$R^2$就是100%。对于这个概念的具体定义可以看这里

线性模型所揭示的是变量之间的相关关系,而不是因果关系。这是一个很重要的概念也是会使很多人误解的点。在新冠疫情发生后,西方有一种阴谋论是说5G是导致疫情爆发的原因,因为爆发的地点:武汉,意大利等地都是积极发展5G的城市,在荷兰甚至发生了火烧基站的事情。这个看似匪夷所思的事情但是很多人相信,因为这两件事情是相关的,很多人就认为是因果的。

这里介绍一个线性模型的有趣应用,实力-运气方程:

$$成功 = \alpha * 实力 + (1 - \alpha)* 运气$$

当我们给实力和运气分配适当的权重,我们可以预测结果。对于不同的职业,这个比例系数是不同的。例如对于销售来说,每个月的销售成绩其实是受运气影响很大的,所以这里的$\alpha$就比较小,在给销售工资的时候就需要考虑多月的平均值而不是某一个月的成绩。对于运气成分比较小的工作,比如程序员,就可以利用绩效来判定其实力了。总的来说,要奖励实力,而不是奖励运气。

而在比赛中,如果大家的实力都差不多,成功最后由运气决定的可能性就大大增加了。例如在奥运会的决赛圈,大家都是有实力拿奖牌的,最后谁能赢,其实是看当时每个人的发挥,也就是运气。

大系数和新常态

一个线性模型可以有很多自变量,也就是多元线性模型。

$$y = \beta_0 + \beta_1 x_1 + \cdots + \beta_px_p + \epsilon$$

如果某一个$\beta_i$ 比其他的大很多,我们可以认为当这个对应的自变量改变时,对于因变量的变化会大大高于其他的自变量。所以当我们想改变y的时候,可以花更多的精力在这个自变量上。例如有人说,减肥七分靠吃,三分靠动。注意自己的摄入对于减肥的成功起关键的作用。

新常态则是另一个思考的方向,已有的线性模型只反映了当前的状态,当我们将整个环境改变时,则也可以改变应变量。例如有一个线性模型是关于少年交通事故的发生概率和不同因素的关系,发现年龄的因素是最大的,这意味着提高驾驶年龄的政策也许能起到一定作用。但是如果设定一些政策,如禁止少年夜间驾驶,或者限制青少年驾驶汽车的乘客数量也是可以解决这个问题的。

线性模型只是反映目前的这些因素的相关性,并不代表只有这些因素会对结果有影响,所以从其他的角度思考,尝试改变整个环境也是一种方法。