模型思维(23)--多臂老虎机模型
在多臂老虎机模型中,我们在不同备选方案的奖励中加入不确定性。在一个多臂老虎机问题中,不同备选方案的奖励源于一个分布,而不是固定的金额。在面对一个多臂老虎机问题时,人们必须对各个备选方案多加尝试,以便通过这种学习过程来了解收益的分布。我们必须在探索(寻找最佳备选方案)和利用(选择迄今为止表现最佳的备选方案)之间善加权衡。在探索与利用权衡中找到最优平衡点,需要非常精妙复杂的规则和行为。
伯努利多臂老虎机问题 在这类多臂老虎机问题中,每个备选方案都能以固定的概率产生成功的结果。因此,这类多臂老虎机问题相当于在一系列伯努利瓮之间进行选择,且每个瓮都包含着不同比例的灰球和白球。因此,我们将这类多臂老虎机问题称为伯努利多臂老虎机问题,也经常被称为频率问题,因为决策者对分布一无所知。
一个备选方案集{A,B,C,D,…,N}中的每一个备选方案都能够产生一个成功的结果,但是各自的概率${P_A,P_B,P_C,P_D,…,P_N}$都是未知的。在每一个时期,决策者选择一个备选方案K,并以概率$P_K$得到一个成功的结果。
比如说有三个餐厅A,B,C。我去A家时10次有8次是好吃的,我去B家3次有2次是好吃的,没去过C家。这时我是应该去C家多多探索,还是多去B家看看是不是菜品是否稳定,还是认定A家呢?于是,我们面临着在利用(选择最有效的备选方案)或探索(回过头去继续尝试其他两家餐厅以获得更多信息)之间的权衡。
为了进一步深入理解这种探索-利用权衡,我们比较了两种启发式。第一种启发式是取样并择优启发式(sample-then-greedy),即先对每个备选方案都尝试固定的次数M,然后选择具有最高平均收益的备选方案。我们可以利用标准差规则来判定不同方法是否达到了显著差异。
第二种启发式称为自适应探测率启发式(adaptive exploration rate heuristic)。它的程序是,第一阶段,先让每种备选方案各完成10次试验。第二阶段,再进行总共20次试验,但是试验次数根据各备选方案在第一阶段的成功率按比例分配。之所以这么做是因为当我们发现有一种方法效果不好就不用再浪费实验测试那一种方法了。……