关于 Return

之前说过 return 能够衡量 trajectory 的收益，这里用一个例子来具体说明。

从状态 $s_1$ 出发到 $s_4$ ，上图从左至右的回报依次是：

$\begin{align} \text{return}_1 &=0+\gamma1+\gamma^21+\gamma^31+\dots=\gamma(1+\gamma+\gamma^2+\dots)=\frac{\gamma}{1-\gamma}\\ \text{return}_2&=-1+\gamma1+\gamma^21+\gamma^31+\dots=-1+\gamma(1+\gamma+\gamma^2+\dots)=-1+\frac{\gamma}{1-\gamma}\\ \text{return}_3&=0.5\left(\frac{\gamma}{1-\gamma}\right)+0.5\left(-1+\frac{\gamma}{1-\gamma}\right)=-0.5+\frac{\gamma}{1-\gamma} \end{align}$

其中 $\text{return}_3$ 为两个 trajectory 的加权均值。

由 $\text{return}_1>\text{return}_3>\text{return}_2$ 可得左一的 policy 是最优的。因此 return 能够用来评价 policy。

State value

在时间步 $t$ 时，设智能体在状态 $S_t$ 处，由策略 $\pi$ 指导的下一个动作是 $A_t$ 。设下一个状态是 $S_{t+1}$ ，即时奖励是 $R_{t+1}$ ，则该转移过程可表示为

$S_t\overset{A_t}{\rightarrow}S_{t+1},R_{t+1}$

其中 $S_{t},S_{t+1},A_{t},R_{t+1}$ 都是随机变量，且 $S_{t},S_{t+1}\in\mathcal{S}$ ， $A_{t}\in\mathcal{A}(S_{t})$ ， $R_{t+1}\in\mathcal{R}(S_{t},A_t)$ 。

那么从 $t$ 开始，能够得到一条 state-action-reward trajectory 为

$S_t\overset{A_t}{\to}S_{t+1},R_{t+1}\overset{A_{t+1}}{\to}S_{t+2},R_{t+2}\overset{A_{t+2}}{\to}S_{t+3},R_{t+3}\dots$

该 trajectory 的 discounted return 为

$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\dots=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

由于 $R_{t+1},R_{t+2},R_{t+3},\dots$ 均为随机变量，因此 $G_t$ 也是随机变量。所以可以计算出 $G_t$ 在初始状态 $s$ 下的期望值：

$\begin{align} v_{\pi}(s)&=\mathbb{E}\left[G_t\mid S_t=s\right]\\ &=\mathbb{E}\left[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}\mid S_t=s\right] \end{align}$

其中， $v_{\pi}(s)$ 称为 state-value function（状态价值函数）或简称为状态 $s$ 的 state value（状态价值）。state value 被定义为初始状态 $s$ 的折扣回报的期望，上式即为 state value 的定义式。

可以看到， $v_{\pi}(s)$ 的值依赖于初始状态 $s$ 和策略 $\pi$ ，但不依赖于初始的时间步 $t$ 。

贝尔曼公式

贝尔曼公式是用来分析 state values 的一个工具。

注意到 $G_t$ 可以被写成

$\begin{align} G_t &= R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\dots\\ &= R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\dots)\\ &=R_{t+1}+\gamma G_{t+1} \end{align}$

由此建立了 $G_t$ 与 $G_{t+1}$ 的联系。因此， $v_{\pi}(s)$ 可以被写成

$\begin{align} v_{\pi}(s) &=\mathbb{E}[G_t|S_t=s]\\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \end{align}$

由此可见，要计算 $v_{\pi}(s)$ 只要分别计算 $\mathbb{E}[R_{t+1}|S_t=s]$ （初始状态 $s$ 下的即时奖励 $R_{t+1}$ 的期望）和 $\mathbb{E}[G_{t+1}|S_t=s]$ （初始状态 $s$ 下的下一个状态的折扣回报 $G_{t+1}$ 的期望）：

$\begin{align} \mathbb{E}[R_{t+1}|S_t=s]&=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot\mathbb{E}[R_{t+1}|S_t=s,A_t=a]\\ &=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot \sum_{r\in\mathcal{R}(s,a)}p(r|s,a)r \end{align}$

$\begin{align} \mathbb{E}[G_{t+1}|S_t=s]&=\sum_{s'\in\mathcal{S}}p(s'|s)\cdot\mathbb{E}[G_{t+1}|S_t=s,S_{t+1}=s']\\ &=\sum_{s'\in\mathcal{S}}p(s'|s)\cdot\mathbb{E}[G_{t+1}|S_{t+1}=s']\\ &=\sum_{s'\in\mathcal{S}}p(s'|s)\cdot v_{\pi}(s')\\ &=\sum_{s'\in\mathcal{S}}\sum_{a\in\mathcal{A}(s)}p(s'|s,a)\pi(a|s)\cdot v_{\pi}(s')\\ &=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s') \end{align}$

其中 $\mathbb{E}[G_{t+1}|S_t=s]$ 推导的第二个等式是由于 Markov property，最后一个等式交换求和顺序。

Elementwise form

于是，得到 $v_{\pi}(s)$ 为

$\begin{align} v_{\pi}(s)&=\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s]\\ &=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot \sum_{r\in\mathcal{R}(s,a)}p(r|s,a)r+\gamma\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\\ &=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot\left[\sum_{r\in\mathcal{R}(s,a)}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\right],&&\text{for all }s\in\mathcal{S} \end{align}$

上述等式即为 Bellman equation（贝尔曼公式），体现了 state values 之间的关系。

Matrix-vector form

设状态空间为 $\mathcal{S}=\{s_{i}\mid 1\le i\le n\}$ 。由于贝尔曼公式对任意状态 $s\in\mathcal{S}$ 都成立，因此列出所有的状态价值 $v_{\pi}(s_1),v_{\pi}(s_2),\dots,v_{\pi}(s_n)$ 可以得到 $n$ 个等式，其中 $n=|\mathcal{S}|$ 为状态空间的大小，进而可以用矩阵-向量的形式去表示贝尔曼公式。

首先将 element-wise 形式的贝尔曼公式改写为

$v_{\pi}(s)=r_{\pi}(s)+\gamma\sum_{s'\in\mathcal{S}}p_{\pi}(s'|s)v_{\pi}(s')$

其中

$\begin{align} r_{\pi}(s) &=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot \sum_{r\in\mathcal{R}(s,a)}p(r|s,a)r\\ p_{\pi}(s'|s) &=\sum_{a\in\mathcal{A}(s)}\pi(a|s)\cdot p(s'|s,a) \end{align}$

事实上，这里 $r_{\pi}(s)$ 表示状态 $s$ 下的即时奖励 $R_{t+1}$ 的期望值，而 $p_{\pi}(s'|s)$ 表示状态 $s$ 转移到状态 $s'$ 的概率。

则对于任意状态 $s_i$ ，有

$v_{\pi}(s_i)=r_{\pi}(s_i)+\gamma\sum_{s_j\in\mathcal{S}}p_{\pi}(s_j|s_i)v_{\pi}(s_j)$

令 $v_{\pi}=\left[v_{\pi}(s_1),v_{\pi}(s_2),\dots,v_{\pi}(s_n)\right]^T\in\mathbb{R}^n$ ， $r_{\pi}=\left[r_{\pi}(s_1),r_{\pi}(s_2),\dots,r_{\pi}(s_n)\right]^T\in\mathbb{R}^n$ ，以及 $P_{\pi}\in\mathbb{R}^{n\times n}$ ，其中 $[P_{\pi}]_{ij}=p_{\pi}(s_j|s_i)$ （事实上，这里的 $P_{\pi}$ 就是当前环境与策略下的状态转移概率矩阵）。则 $n$ 个 $v_{\pi}(s_i)$ 的等式可以写为矩阵-向量的形式：

$v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}$

其中 $v_{\pi}$ 为未知量，而 $r_{\pi},\gamma,P_{\pi}$ 均为已知量。

例子

下面用 $n=4$ 的例子来更直观地说明：

四个状态 $s_1,s_2,s_3,s_4$ 对应的贝尔曼公式的四个等式的矩阵形式如下：

$\underbrace {\left[ \begin{array}{l} v _ {\pi} \left(s _ {1}\right) \\ v _ {\pi} \left(s _ {2}\right) \\ v _ {\pi} \left(s _ {3}\right) \\ v _ {\pi} \left(s _ {4}\right) \end{array} \right]} _ {v _ {\pi}} = \underbrace {\left[ \begin{array}{l} r _ {\pi} \left(s _ {1}\right) \\ r _ {\pi} \left(s _ {2}\right) \\ r _ {\pi} \left(s _ {3}\right) \\ r _ {\pi} \left(s _ {4}\right) \end{array} \right]} _ {r _ {\pi}} + \gamma \underbrace {\left[ \begin{array}{l l l l} p _ {\pi} \left(s _ {1} \mid s _ {1}\right) & p _ {\pi} \left(s _ {2} \mid s _ {1}\right) & p _ {\pi} \left(s _ {3} \mid s _ {1}\right) & p _ {\pi} \left(s _ {4} \mid s _ {1}\right) \\ p _ {\pi} \left(s _ {1} \mid s _ {2}\right) & p _ {\pi} \left(s _ {2} \mid s _ {2}\right) & p _ {\pi} \left(s _ {3} \mid s _ {2}\right) & p _ {\pi} \left(s _ {4} \mid s _ {2}\right) \\ p _ {\pi} \left(s _ {1} \mid s _ {3}\right) & p _ {\pi} \left(s _ {2} \mid s _ {3}\right) & p _ {\pi} \left(s _ {3} \mid s _ {3}\right) & p _ {\pi} \left(s _ {4} \mid s _ {3}\right) \\ p _ {\pi} \left(s _ {1} \mid s _ {4}\right) & p _ {\pi} \left(s _ {2} \mid s _ {4}\right) & p _ {\pi} \left(s _ {3} \mid s _ {4}\right) & p _ {\pi} \left(s _ {4} \mid s _ {4}\right) \end{array} \right]} _ {P _ {\pi}} \underbrace {\left[ \begin{array}{l} v _ {\pi} \left(s _ {1}\right) \\ v _ {\pi} \left(s _ {2}\right) \\ v _ {\pi} \left(s _ {3}\right) \\ v _ {\pi} \left(s _ {4}\right) \end{array} \right]} _ {v _ {\pi}}$

将具体值代入就是：

$\left[ \begin{array}{l} v _ {\pi} \left(s _ {1}\right) \\ v _ {\pi} \left(s _ {2}\right) \\ v _ {\pi} \left(s _ {3}\right) \\ v _ {\pi} \left(s _ {4}\right) \end{array} \right] = \left[ \begin{array}{c} 0. 5 (0) + 0. 5 (- 1) \\ 1 \\ 1 \\ 1 \end{array} \right] + \gamma \left[ \begin{array}{c c c c} 0 & 0. 5 & 0. 5 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \end{array} \right] \left[ \begin{array}{l} v _ {\pi} \left(s _ {1}\right) \\ v _ {\pi} \left(s _ {2}\right) \\ v _ {\pi} \left(s _ {3}\right) \\ v _ {\pi} \left(s _ {4}\right) \end{array} \right]$

求解贝尔曼公式

由贝尔曼公式的定义可以发现，如果能够求解出贝尔曼公式，就能够得到所有的状态价值函数。所以说贝尔曼公式是分析 state values 的一个很好的工具。求解贝尔曼方程有两种方法，一个是 closed-form（封闭形式）解，另一个是 iterative（迭代）解。

closed-form solution

根据矩阵-向量形式的贝尔曼公式 $v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}$ ，可以得到 $v_{\pi}$ 的解析解：

$v_{\pi}=(I-\gamma P_{\pi})^{-1}r_{\pi}$

但在实际使用中，除非状态空间极小且已知所有概率，否则贝尔曼方程组通常不能直接写出封闭解（因为矩阵求逆复杂度 $O(|\mathcal{S}|^3)$ 过高），因此需要用迭代方法进行数值求解。

iterative solution

根据矩阵-向量形式的贝尔曼公式 $v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}$ ，可以得到求解 $v_{\pi}$ 的迭代公式：

$v_{k+1}=r_{\pi}+\gamma P_{\pi}v_{k}$

通过该迭代公式，并赋初值 $v_{0}\in\mathbb{R}^n$ ，得到值序列 $v_0,v_1,v_2,\dots,v_k,\dots$ 。可以证明当 $k\to\infty$ 时有

$v_{k}\to v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}$

证明如下：

Action value

action value 表示在某一个状态下采取某一个动作所带来的价值。对于状态 $s$ 和采取的动作 $a$ ，其 action value 定义为折扣回报的期望：

$\begin{align} q_{\pi}(s,a)&=\mathbb{E}\left[G_{t}|S_t=s,A_t=a\right]\\ &=\mathbb{E}\left[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}\mid S_t=s,A_t=a\right] \end{align}$