2020-10-28课程笔记8 分钟读完 (大约 1252 个字) 0次访问

CMSC 5728 Decision Analysis & Game Theory - Lecture 08

MAB: Stochastic (IID)
Adversarial MAB
Stochastic but not IID
MAB Problem definion
Stochastic Reward model
Regret
Concentration Bounds
Markov’s Inequality

MAB: Stochastic (IID)

对每个 arm i ∈ {1, …, N}，reward 从固定但未知的分布 vi （如正态分布或均匀分布）中独立且相同地生成，平均值为 μi
我们定义历史为 Ht-1 来包括时间 t 之前做出的所有决定和观察
给定历史 Ht-1，在时间 t 选择 arm It = i

此时，你获得的 reward rt 是跟随 random variable vi 的，这个 random variable 的平均值是 μi。

我们在上节课讲过，如果我们知道所有的 μ，我们只要每次选择最大的 μ，就是最优选择，但现在我们不知道，那么要怎么去选择呢？

How to evaluate

Regret：算法的总 reward 与 “benchmark” 算法之间的差距
benchmark algorithm：借助分布知识来构建最佳策略（即使它们可能无法实现，不在我们的 μ 中）
- 总是采取我们所知道的 μi 中最高那个
  
  在时间 T （总时间）积累的平均 reward，即在 T 中一直选择最优的 μi 的和
在 T 中的 regret
即使是确定性的选臂策略，其数量也是随机的（？）
目标：限定预期的 regret 或高概率的界限

Adversarial MAB

我们部队 reward 产生过程做任何假设：除了数量上的界限（？）
任意未知序列：
在时间 t 选择 arm It，我们算法的 reward 是
什么是 adversary
仅仅意味着奖励生成过程是对抗性的，并为你的算法提供了最坏的奖励序列
一般情况下，这是个绝望的问题
- 未来与过去无关
- 不管你在时间 t 做出了什么决定，adversary 会做出最坏的决定
更为谦虚的目标
- 事后我们能否与 SINGLE BEST ARM 竞争？
在时间 T 的 regret

Stochastic but not IID

Markovian inputs:

不同 arm 的奖励是独立的
arm 的 reward 分布仅取决于过去的可观察 arm 状态，并且 arm 的状态可以更改，例如 Markov chain
状态转换的不确定性和给予的 reward 状态
每次拉 arm 时，都会观察到其 reward 和状态转换

MAB Problem definition

N arms
在每个时间点 t = 1, 2, 3, …，拉一个 N 中的 arm
令 It ∈ {1, 2, …, N} 作为在第 t 个时间点拉的 arm
在拉 arm 之后，我们可以观察（或收到）一个 reward rt ∈ [0, 1]（Bernouli R.V.）
对于一个固定的 T，我们的目标是最大化

Stochastic Reward model

随即假设与 IID 模型
来自 arm i 的 reward 遵循均值 μi 的概率分布 vi
在我们之前的 formulation 中，vi 遵循 Bernoulli distribution
当拉一个 arm 时，reward 会从分布 vi 中产生（正态分布或均匀分布或exp分布）
令表示直到时间点 t - 1 的历史，我们可以写作
那么我们在 reward 的假设可以写作
这也暗示：
或者，给定截止时间 t - 1 并选择 arm It 的历史记录，将独立于所选 arm 的分布来获取奖励

Performance Evaluation: Regret

任何 arm 选择算法都会与 oracle 进行比较
oracle 了解概率分布 vi i ∈ {1, …, N} 并且在所有时间点选择最好的 arm。或者和分别是最佳 arm 的索引和最佳 arm 的平均 reward
在时间 T 的 regret 是
我们的目标是最小化 R(T)。注意 R(T) 是一个随机变量，因为 It 是随机的。（E[R(T)] 是 average total mistakes）
定义期望的 regret
通常，我们想要 regret E[R(T)] 是 sub-linear。

Concentration Bounds

不失一般性，考虑我们要估计 arm 1 的获胜概率
我们知道它的 reward 是 Bernoulli 随机变量 X，有 0 或 1，并且概率分别是 (1 - μ) 和 μ
所以平均 reward 是 0 × (1 - μ) + 1 × μ = μ
令 X1, X2, …, Xn 为一系列独立且分布均匀的随机变量（它们是 X 的 IID）。换句话说，Xi 是 arm 1 输出的第 i 个样本（或观察）
此外，令均值 μ = E[Xi] ＜无限，并且对于所有 i ∈ {1,2, …, n}，方差是 = E[Xi] < 无限
为了估计 μ，使用 empirical mean
这是一个随机变量，因为 Xi 有随机变量的值
同时还是 μ 的 unbiased estimator
因为 Xi 是 IID，变量

Markov’s Inequality

Lemma

对于任意随机变量 X 并且 ε > 0，我们有

Proof

令 Y = |X|，所以注意 Y 是一个非负随机变量

所以我们有

另一种方法

考虑一个非负离散随机变量 X，E[X] =

所以会变成

用图来观察

#决策论与博弈论

评论