参数化值函数近似

针对之前的模型

都是基于创建一个查询表，再表中维护状态值函数或状态-动作值函数。

当处理大规模的 MDP 时

状态/状态-动作空间非常大
连续的状态或动作空间

维护起来代价太大

处理大规模 MDP 的解决方法

对状态/动作进行离散化或粪桶
构建参数化的值函数估计

对状态/动作进行离散化

例如：在一个二维平面空间中，使用网格对状态空间进行切分，从而转化成离散值

对于一个大型的 MDP，可以对状态值进一步分桶以进行采样聚合

优点

操作简洁直观
高效
在处理许多问题时有较好的效果

缺点

过于简单表示价值函数 V
可能为每个离散区间假设一个常数值
维度灾难

参数化价值函数

参数化值函数近似

构建参数化（可学习的）函数来近似值函数
$V_\theta(s)\simeq V^\pi(s)$
$Q_\theta(s,a)\simeq Q^\pi(s,a)$
- θ 时近似函数的参数，可通过 RL 进行更新
- 参数化的方法将现有可见的状态泛化到没有见过的状态上

值函数近似的主要形式

一些函数近似
- 线性模型
- 神经网络
- 决策树
- 最近邻
- 傅里叶/小波基底
可微函数
- 线性模型
- 神经网络
希望模型适合在非静态的、非独立同分布的数据上训练

基于随机梯度下降 SGD 的值函数近似

目标：找到参数向量 θ 最小化值函数近似值与真实值之间的均方误差
$J(\theta)=\mathbb E_\pi[\frac{1}{2}(V^\pi(s)-V_\theta(s))^2]$
误差减小的梯度方向
$-\frac{\partial J(\theta)}{\partial \theta}=\mathbb E_\pi[(V^\pi(s)-V_\theta(s))\frac{\partial V_\theta(s)}{\partial \theta}]$
单次采样随机梯度下降
$\theta\leftarrow\theta-\alpha\frac{\partial J(\theta)}{\partial\theta}$
$=\theta+\alpha(V^\pi(s)-V_\theta(s))\frac{\partial V_\theta(s)}{\partial\theta}$

特征化状态

用一个特征向量表示状态

价值函数近似算法

状态值函数近似

用特征的线性组合表示价值函数 $V_\theta(s)=\theta^Tx(s)$

目标函数是参数的 θ 的二次函数 $J(\theta)=\mathbb E_\pi[\frac{1}{2}(V^\pi(s)-\theta^Tx(s))^2]$

因此随机梯度下降能够收敛到全局最优解上

$\theta\leftarrow\theta-\alpha\frac{\partial J(\theta)}{\partial\theta}$
$=\theta+\alpha(V^\pi(s)-V_\theta(s))x(s)$
α 是步长，中间的差值是预测误差，x(s) 是特征值

使用蒙特卡洛状态值函数近似，蒙特卡洛预测至少能收敛到一个局部最优解

使用时序差分值函数近似

状态 - 动作值函数近似

对动作 - 状态值函数进行近似 $Q_\theta(s,a)\simeq Q^\pi(s,a)$

最小均方误差 $J(\theta)=\mathbb E_\pi[\frac{1}{2}(Q^\pi(s,a)-Q_\theta(s,a))^2]$

在单个样本上进行随机梯度下降

$\theta\leftarrow\theta-\alpha\frac{\partial J(\theta)}{\partial\theta}$
$=\theta+\alpha(Q^\pi(s,a)-Q_\theta(s,a))\frac{\partial Q_\theta(s,a)}{\partial\theta}$

线性状态 - 动作值函数近似

使用特征向量表示状态 - 动作对

线性情况下，参数化 Q 函数 $Q_\theta(s,a)=\theta^Tx(s,a)$

利用随机梯度下降更新

时序差分状态 - 动作值函数近似

对于蒙特卡洛学习，目标是累计奖励

对于时序差分，目标是当前奖励和未来预测奖励之和

策略梯度

参数化策略

$\pi_\theta(a|s)$ ，策略可以是确定的 $a=\pi_\theta(s)$ ，也可以是随机的 $\pi_\theta(a|s)=P(a|s;\theta)$ 。

$\theta$ 是策略的参数
将可见的已知状态泛化到位置的状态上

基于策略的强化学习

优点

更好的收敛性质
高维度或连续动作空间中更有效
能学习出随机策略

缺点

通常或收敛到局部最优
评估一个策略通常不够高效率并且具有较大的方差

策略梯度

对于随机策略 $\pi_\theta(a|s)=P(a|s;\theta)$

降低低价值/奖励动作出现的概率，提高高价值/奖励动作出现的概率。

单步马尔可夫决策过程的策略梯度

考虑一个但不马尔可夫决策过程

起始状态 $s\sim d(s)$
决策过程在进一步决策后结束，获得奖励值 $r_{sa}$

策略的价值期望

$J(\theta)=\mathbb E_{\pi_\theta}[r]=\sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(a|s)r_{sa}$

$\frac{\partial J(\theta)}{\partial\theta}=\sum_{s\in S}d(s)\sum_{a\in A}\frac{\partial\pi_\theta(a|s)}{\partial\theta}r_{sa}$

trick: 似然比 Likelihood Ratio

$\frac{\partial\pi_\theta(a|s)}{\partial\theta}=\pi_\theta(a|s)\frac{1}{\pi_\theta(a|s)}\frac{\partial\pi_\theta(a|s)}{\partial\theta}$

$=\pi_\theta(a|s)\frac{\partial\log\pi_\theta(a|s)}{\partial\theta}$

因此， $\frac{\partial J(\theta)}{\partial\theta}=\sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(a|s)\frac{\partial\log\pi_\theta(a|s)}{\partial\theta}r_{sa}$

$=\mathbb E_{\pi_\theta}[\frac{\partial\log\pi_\theta(a|s)}{\partial\theta}r_{sa}]$

这一结果可以通过 $d(s)$ 中采样状态 $s$ 和从 $\pi_\theta$ 中采样动作 $a$ 来近似估计

策略梯度定理

将似然比推导过程泛化到马尔可夫决策过程

长期价值函数 $Q^{\pi_\theta}(s,a)$ 替换 $r_{sa}$

起始状态目标函数 $J_1$ ，平均奖励目标函数 $J_{avR}$ ，平均价值目标函数 $J_{avV}$

定理：对任意可微的策略 $\pi_\theta(a|s)$ ，任意策略的目标函数 $J=J_1$ , $J_{avR}$ , $J_{avV}$ ，其策略梯度为：

$\frac{\partial J(\theta)}{\partial\theta}=\mathbb E_{\pi_\theta}[\frac{\partial\log\pi_\theta(a|s)}{\partial\theta}Q^{\pi_\theta}(s,a)]$

蒙特卡洛策略梯度（REINFORCE）

随机梯度上升

策略梯度定理

利用累计奖励值 $G_t$ 作为 $Q^{\pi_\theta}(s,a)$ 的无偏采样。

$\Delta\theta_t=\alpha\frac{\partial\log\pi_\theta(a_t|s_t)}{\partial\theta}G_t$

Softmax 随机策略

非常常用的随机策略 $\pi_\theta(a|s)=\frac{e^{f_\theta(s,a)}}{\sum_{a'}e^{f_\theta(s,a')}}$

$f_\theta(s,a)$ 是 $\theta$ 参数化的状态-动作对得分函数，可预定义。

其对数似然梯度为 $\frac{\partial\log f_\theta(s,a)}{\partial\theta}-\mathbb E_{a'\sim\pi_\theta(a'|s)}[\frac{\partial f_\theta(s,a')}{\partial\theta}]$

Actor-Critic

同时基于价值函数和策略梯度的算法

REINFORCE存在的问题

基于片段式数据的任务
通常情况下，任务需要终止状态，REINFORCE才能直接计算累计折扣黄历
低数据利用效率
需要大量训练数据
高训练方差（重要缺陷）
从单个或多个片段中采样得到的值函数具有很高的方差

AC算法的引入

为什么不建立一个可训练的值函数 $Q_\phi$ 完成 $Q(s,a)$ 的评估过程

演员 $\pi_\theta(a|s)$ 采取动作使评论家满意的策略

学会采取是评论家满意的动作
$J(\theta)=\mathbb E_{s\sim p,\pi_\theta}[\pi_\theta(a|s)Q_\Phi(s,a)]$
$\frac{\partial J(\theta)}{\partial\theta}=\mathbb E_{\pi_\theta}[\frac{\partial\log\pi_\theta(a|s)}{\partial\theta}Q_\Phi(s,a)]$