授课老师:张伟楠 STJU
强化学习简介
Review:两种机器学习类型
预测型
- 根据数据预测所需输出(有监督)
根据 \(P(x)\) 预测 \(P(y|x)\)
- 生成数据实例(无监督):\(P(x,y)\)
决策型
在动态环境中采取行动(强化学习),此处行动会引起环境中的改变
- 转变到新的状态
- 获得即时奖励
- 随着时间的推移最大化累计奖励
强化学习的定义
通过从交互中学习来实现目标的计算方法 (Learning from the interaction with environment)
智能体(agent)通过观察(observation),决策行动(action)以获得奖励(reward)。
智能体和非智能体的区别:能通过行动改变环境,不仅仅是预测
三个方面:
- 感知:在某种程度上感知环境的状态
- 行动:可以采取行动来影响状态或达到目标
- 目标:随着时间推移最大化累积奖励
强化学习交互过程
在每一步 \(t\),
- 智能体:获得观察 \(O_t\),获得上一轮到这一轮的奖励 \(R_t\),执行行动 \(A_t\)
- 环境:获得行动 \(A_t\),给出观察 \(O_{t+1}\),给出奖励 \(R_{t+1}\)
- \(t\) 在环境这一步增加为 \(t+1\)
强化学习系统要素
历史
观察、行动和奖励的序列:\(H_t=O_1,R_1,A_1,O_2,R_2,A_2,...,O_{t-1},R_{t-1},A_{t-1},O_t,R_t,A_t\)
- 即一直到时间 \(t\) 为止的所有可观测变量
- 根据这个历史可以决定接下来会发生什么
- 智能体选择行动
- 环境选择观察和奖励
状态(state)
- 是一种用于确定接下来会发生的事情(action、observation、award)的信息
状态时关于历史的函数 \(S_t=f(H_t)\)
策略(policy)
智能体在特定时间的行为方式
- 是从状态到行动的映射
- 确定性策略(Deterministic Policy):\(a=\pi(s)\)
- 随机策略(Stochastic Policy):\(\pi(a|s)=P(A_t=a|S_t=s)\),是一个条件分布
奖励(Reward)
- 一个定义强化学习目标的标量
- 能立即感知到什么是“好”的
价值函数(Value Function)
用于评估给定策略下状态的好坏
-
状态价值是一个标量,用于定义对长期来说什么是“好”的
-
价值函数是对于未来累计奖励的预测
-
用于评估在给定策略下,状态的好坏
\(v_{\pi}(s)=\mathbb{E}_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+...+|S_t=s]\),其中 \(\gamma\in(0,1)\)
环境的模型(Model)
用于模拟环境的行为
- 预测下一个状态
\(\mathcal{P}_{ss'}^a=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a]\)
- 预测下一个(立即)奖励
\(\mathcal{R}_s^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]\)
以迷宫为例
状态:智能体的为止
行动:N E S W
状态转移:根据行动方向朝下一格移动(如果行动方向是墙则不动)
奖励:每一步为 -1
给定一个确定性策略,根据策略可以反推各个状态下的价值函数
强化学习智能体分类
根据是否已知(环境)模型两类
基于模型的强化学习(model-based)
- 策略(和/或)价值函数
- 环境模型已知
- 比如:迷宫游戏、围棋等
模型无关的强化学习(model-free)
更接近真实情况,真正和环境进行交互(更难、更加 data-hungry)
- 策略(和/或)价值函数
- 没有环境模型
- 比如:Atari 游戏的通用策略:
- 游戏规则未知
- 从交互游戏中学习
- 在操纵杆上选择行动并查看分数和像素画面
基于价值还是基于策略?
-
基于价值:没有策略(隐含)、有价值函数
-
基于策略:有策略、没有价值函数
-
Actor-Critic:有策略、也有价值函数
探索与利用
探索与利用
序列决策任务中的一个基本问题
基于目前策略获取已知最优收益还是尝试不同的决策
- exploitation (利用)执行能够获得已知最优收益的决策
- exploration(探索)尝试更多可能的决策,不一定会是最优收益
当前策略不一定是最优策略,通过探索与利用,更新当前策略,以接近最优策略。
根据 \(\epsilon_t=\{\pi_t^i|i=1,2,...,n\}\) 探索 \(\epsilon_{t+1}=\{\pi_t^i|i=1,...,n\}\cup\{\pi_e^j|j=1,...,m\}\)
\(\exists V^*(\cdot|\pi_t^i\sim\epsilon_t)\leq V^*(\cdot|\pi_{t+1}^i\sim\epsilon_{t+1})\),其中,\(\pi_{t+1}^i\sim\{\pi_e^i|i=1,...,m\}\)
探索:可能发现更好策略
策略探索的一些原则
朴素方法(Naive Exploration):添加策略噪声 \(\epsilon-greddy\)
积极初始化(Optimistic Initialization)
基于不确定性的度量(Uncertainty Measurement)
- 尝试具有不确定收益的策略,可能带来更高的收益
概率匹配(Probability Matching)
- 基于概率选择最佳策略
状态搜索(State Searching)
- 探索后续状态可能带来更高收益的策略
多臂老虎机(multi-arm bandit)
形式化描述
动作集合:\(a^i\in\mathcal A,i=1,...,K\)
收益(反馈)函数分布:\(\mathcal R(r|a^i)=\mathbb P(r|a^i)\)
\(<\mathcal A,\mathcal R>\)
最大化累积时间的收益:\(\max\sum_{t=1}^Tr_t,r_t\sim\mathcal R(\cdot|a)\)
收益估计
- 期望收益和采样次数的关系
\(Q_n(a^i)=\frac{r_1+r_2+...+r_{n-1}}{n-1}\)
- 缺点:每次更新的空间复杂度是 \(O(n)\)
改进:增量实现
\(Q_{n+1}(a^i)=\frac{1}{n}\sum_{i=1}^nr_i=\frac{1}{n}(r_n+\frac{n-1}{n-1}\sum_{i=1}^{n-1}r_i)=\frac{1}{n}r_n+\frac{n-1}{n}Q_n=Q_n+\frac{1}{n}(r_n-Q_n)\)
误差项:\(\Delta_n^i=r_n-Q_n\)
空间复杂度为 \(O(1)\)
算法:多臂老虎机
- 初始化:\(Q(a^i)=c^i,N(a^i)=0,i=1,...,n\)
- 主循环 \(t=1:T\)
- 利用策略 \(\pi\) 选取某个动作 \(a\)
- 获取收益:\(r_i=Bandit(a)\)
- 更新计数器:\(N(a)=N(a)+1\)
- 更新估值:\(Q(a)=Q(a)+\frac{1}{N(a)}[r_t-Q(a)]\)
应当选取什么样的策略 \(\pi\)?
Regret 函数
- 决策的期望收益:\(Q(a^i)=\mathbb E_{r\sim\mathbb P(r|a^i)}[r|a^i]\)
- 最优收益:\(Q^*=\max_{a^i\in\mathcal A}Q(a^i)\)
Regret
- 决策与最优决策的收益差:\(R(a^i)=Q^*-Q(a^i)(>0)\)
- Total Regret 函数:\(\sigma_R=\mathbb E_{a\sim\pi}[\Sigma_{t=1}^TR(a_t^i)]\)
等价性
- \(\min\sigma_R=\max\mathbb E_{a\sim\pi}[\Sigma_{t=1}^TQ(a_t^i)]\)
必须要一直探索吗?
如果一直探索新策略:\(\sigma_R\propto T\cdot R\),total regret 将线性递增,无法收敛
如果一直不探索新策略:\(\sigma_R\propto T\cdot R\),total regret 将线性递增
是否存在一个方法具有次线性 (sublinear) 收敛保证的 regret?
下界(Lai & Robbins)
使用 \(\Delta_a=Q^*-Q(a)\) 和反馈函数分布相似性:\(D_{KL}(\mathcal R(r|a)||\mathcal R^*(r|a))\) 描述。
\(\lim_{T\rightarrow\infty}\sigma_R\ge\log T\sum_{a|\Delta_a>0}\frac{\Delta_a}{D_{KL}(\mathcal R(r|a)||\mathcal R^*(r|a))}\)
贪心策略和 ε-greedy 策略
贪心策略是线性增长的 Total regret
ε-greedy 策略
- 以 1-ε 概率去采样 argmax Q(a),以 ε 概率做 uniform 的探索
- 常量 ε 保证 total regret 满足 \(\sigma_R\ge\frac{\epsilon}{|\mathcal A|}\sum_{a\in\mathcal A}\Delta_a\)
- total regret 仍然是线性递增的,知识增长率比贪心策略小
衰减贪心策略
- ε-greedy 策略的变种,ε 随着时间衰减
- 理论上对数渐进收敛
- 但是很难找到合适的衰减规划
积极初始化
- 给 \(Q(a^i)\) 一个较高的初始化值
- 增量式蒙特卡洛估计更新 \(Q(a^i)\)
- 有偏估计,但是随着采样增加,偏差带来的影响会越来越小
- 仍然可能陷入局部最优
显式考虑动作的价值分布
- 显示鼓励不确定性
- 直接根据分布采样来选择
基于不确定性测度
不确定性越大的 \(Q(a^i)\),越具有探索价值,越有可能是最好的策略
一个经验性的指导:
- N(a) 大,U(a) 小
- N(a) 小,U(a) 大
- 策略 \(\pi\):\(a=\arg\)\(\max_{a\in\mathcal A}\hat{Q}(a)\)\(+\hat U(a)\)
也成为 UCB:上置信界法 upper confidence bounds
(数学证明略,听不懂)
Thompson Sampling 方法
根据每个动作成为最优的概率来选择动作
(公式一大坨,看不懂)
实现:根据当前每个动作的价值概率分布来采样到其价值,选择价值最大的动作
总结
- 探索与利用是强化学习中 trail-and-error 中的必备技术
- 多臂老虎机可以被看成是无状态强化学习
- 躲避老虎机是研究探索和利用技术理论的最佳环境
- ε-greedy、UCB 和 Thompson Sampling 方法在多臂老虎机任务中十分常用,在强化学习探索中也十分常用,最常见的是 ε-greedy