动手强化学习 第四章 无模型控制方法
SARSA SARSA 对于当前策略执行每个(状态→动作→奖励→状态→动作)元组 SARSA 更新状态-动作值函数为:Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) 使用 SARSA 的在线策略(on-policy)可控制 对于每个时间步长 评估策略:Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) 策略改进:ϵ−greedy\epsilon-greedyϵ−greedy 方法 算法具体步骤 初始化 Q(s,a)Q(s,a)Q(s,a) 循环(for each episode) 初始化 S 基于已有的 Q(ϵ−gre ...
动手强化学习 第三章 值函数估计
蒙特卡洛方法 模型无关的强化学习 在现实问题中,通常没有明确给出状态转移和奖励函数 比如,我们只看到了一些 episodes(采样): Episode1: s0(1)→a0(1),R(s0)(1)s1(1)→a1(1),R(s1)(1)s2(1)⋯sT(1)s_0^{(1)}\xrightarrow{a_0^{(1)},R(s_0)^{(1)}}s_1^{(1)}\xrightarrow{a_1^{(1)},R(s_1)^{(1)}}s_2^{(1)}\cdots s_T^{(1)}s0(1)a0(1),R(s0)(1)s1(1)a1(1),R(s1)(1)s2(1)⋯sT(1) Episode2: s0(2)→a0(2),R(s0)(2)s1(2)→a1(2),R(s1)(2)s2(2)⋯sT(2)s_0^{(2)}\xrightarrow{a_0^{(2)},R(s_0)^{(2)}}s_1^{(2)}\xrightarrow{a_1^{(2)},R(s_1)^{(2)}}s_2^{(2)}\cdots s_T^{(2)}s0(2)a0(2) ...
动手强化学习 第二章 马尔可夫决策过程
马尔可夫决策过程 马尔可夫决策过程 Markov Decision Process, MDP 提供了一套为在结果部分随机,部分在决策者的控制下的决策过程建模的数学框架 MDP 形式化地描述了一种强化学习环境 环境完全可测(不用知道是之前是由怎么样来到当前状态的) 当前状态可以完全表征过程(马尔可夫性质) 马尔可夫性质 The future is independent of the past given the present 定义 状态 StS_tSt 是马尔可夫的,当且仅当 P[St+1∣St]=P[St+1∣S1,...,St]\mathbb P[S_{t+1}|S_t]=\mathbb P[S_{t+1}|S_1,...,S_t]P[St+1∣St]=P[St+1∣S1,...,St]。 (St=f(Ht)S_t=f(H_t)St=f(Ht)) 性质 状态从历史中捕获到了所有相关信息 当状态已知的时候,可以抛开历史不管 i.e. 当前状态是未来的充分统计量 MDP 五元组 MDP可以由一个五元组表示:(S,A,{Psa},γ,R) ...
动手强化学习 第一章 强化学习简介
授课老师:张伟楠 STJU 强化学习简介 Review:两种机器学习类型 预测型 根据数据预测所需输出(有监督) 根据 P(x)P(x)P(x) 预测 P(y∣x)P(y|x)P(y∣x) 生成数据实例(无监督):P(x,y)P(x,y)P(x,y) 决策型 在动态环境中采取行动(强化学习),此处行动会引起环境中的改变 转变到新的状态 获得即时奖励 随着时间的推移最大化累计奖励 强化学习的定义 通过从交互中学习来实现目标的计算方法 (Learning from the interaction with environment) 智能体(agent)通过观察(observation),决策行动(action)以获得奖励(reward)。 智能体和非智能体的区别:能通过行动改变环境,不仅仅是预测 三个方面: 感知:在某种程度上感知环境的状态 行动:可以采取行动来影响状态或达到目标 目标:随着时间推移最大化累积奖励 强化学习交互过程 在每一步 ttt, 智能体:获得观察 OtO_tOt,获得上一轮到这一轮的奖励 RtR_tRt,执行行动 AtA_tAt ...
感知技术期末复习 第4章 常用物理效应与器件
感知技术期末考前复习 第 4 章 传感器中常用的物理效应与器件 4.1 概述 4.1.2 功能材料类型与特点 制作传感器的材料要求:变换功能大、感应范围广、灵敏度和精度高、稳定性和再现性好、体积小、结构简单、使用寿命长 制作材料:贵金属(用得最多);半导体;功能陶瓷;功能高分子 无机功能材料 金属功能材料 磁功能材料 电功能材料 热功能材料 力功能材料 化学功能材料 非金属功能材料(半导体、玻璃、陶瓷、其它) 磁功能材料 电功能材料 热功能材料 力功能材料 光功能材料 有机功能材料(高分子材料) 电功能材料 光功能材料 力功能材料 化学功能材料 复合功能材料 高分子系复合功能材料 金属系复合功能材料 陶瓷系复合功能材料 4.2 弹性效应和弹性元件 4.2.1 弹性敏感元件的基本特性 输出-输入特性一般可表示为:y=∑i=0∞aixiy=\sum_{i=0}^\infty a_ix^iy=∑i=0∞aixi 弹性元件的特性 刚度:弹性元件受外力作用下变形大小的量度表示。 刚度 k=limΔω→∞(ΔFΔω)=dFdωk=\underset{ ...
感知技术期末复习 第3章 电传感原理与测量方法
感知技术期末考前复习 第 3 章 电阻、电容和电感的传感原理与测量方法 梦回高中物理(bushi) 3.2 电阻传感器与电阻参数的测量(重点⚠️) 3.2.1 电阻传感器原理与电阻测量问题 电阻传感器的基本原理时将被测物理量或化学量变化转换成电阻值的变化,再通过测量阻值变化得到被测信号。 低阻(需要考虑引线电阻和接触电阻)、中阻、高阻、超高阻。 3.2.2 测量电阻时需要考虑的问题和方法 1. 考虑主要问题——自热、引线电阻、非线性 以电阻值变化为特征的敏感器件,检测电路需满足两项基本要求: 电阻变化本事不能提供信号输出必须为敏感电阻提供驱动电压或电流 电流流过电阻会发热,必须考虑电阻自热因素 导体电阻与温度间的关系可表示为: R=R0[1+α1(T−T0)+α2(T−T0)2+...+αn(T−T0)n]R=R_0[1+\alpha_1(T-T_0)+\alpha_2(T-T_0)^2+...+\alpha_n(T-T_0)^n]R=R0[1+α1(T−T0)+α2(T−T0)2+...+αn(T−T0)n] 其中,R0R_0R0 是参考温度 T0T_0 ...
感知技术期末复习 第2章 传感器的性能与评价
感知技术期末考前复习 第 2 章 传感器的性能与评价 2.2 传感器的误差 2.2.1 理想传感器与实用中局限性 理想传感器 输出量仅对输入量敏感 输入量与输出量呈唯一、稳定的关系(最好线性关系) 输出量可实时反应输入量的变化 实际上不可能达到,只能尽可能控制各种不利因素,使传感器性能尽可能接近理想特性 2.2.2 误差及其来源(重点⚠️) 误差的来源可分为两方面 一方面,传感器本身的误差:非线性、滞后、重复性、漂移(原理、结构设计、生成工艺决定) 另一方面,应用过程中引入:电磁干扰、温度波动、冲击震动、电源波动等。 误差的来源可分为五类 介入误差。传感器元件介入被测系统中得到的测量值和真实值之间的误差。所有的传感器都存在此误差。 应用误差。使用者使用不当;测量系统设计缺陷。 特性参数误差。传感器本事的特性参数决定。 动态误差。动态特性导致:所测参数发生变化后,传感器的反应存在滞后。 环境误差。环境参量:温度、冲击、震动、电磁场、化学腐蚀、电源电压震动 2.3 传感器的静态特性 2.3.1 输出与输入的静态函数关系 输入的两种形态:常量或随时间变化缓慢的量 ...
“一生一芯”计划 预学习阶段
“一生一芯”计划 预学习阶段 贯穿计算机专业本科课程(数字逻辑、计算机组成原理、计算机体系结构、操作系统、计算机系统设计)很厉害的项目。 难度较大,希望自己能够坚持下去。 阅读两篇关于如何提问的文章并编写一篇不少于800字的读后感(2022.7.5) 已完成阅读,读后感见 (隐私手动打码)-提问的智慧读后感.pdf。 Linux 系统安装 (PA0) 和基本使用(2022.7.5) 安装 Linux 操作系统 暂时使用虚拟机 VMware 中安装 64 位的 Ubuntu 21.04。 根据 PA0 讲义 安装好这些工具 12345678apt-get install build-essential # build-essential packages, include binary utilities, gcc, make, and so onapt-get install man # on-line reference manualapt-get install gcc-doc # on-line reference ...
Codeforces Round 805 (Div. 3) G Passable Paths
This is a hard version of the problem. The only difference between an easy and a hard version is in the number of queries. Polycarp grew a tree from n vertices. We remind you that a tree of nnn vertices is an undirected connected graph of nnn vertices and n−1n−1n−1 edges that does not contain cycles. He calls a set of vertices passable if there is such a path in the tree that passes through each vertex of this set without passing through any edge twice. The path can visit other vertices (not ...
感知技术期末复习 第1章 绪论
感知技术期末考前复习 第 1 章 绪论 传感器的应用领域:国防、航空、航天、交通运输、能源、电力、机械、石油、化工、轻工、纺织等工业部门和环境保护、生物医学工程等领域、办公设备、家用电器、农业发展、个人消费电子终端产品。 1.2 传感器相关概念 1.2.1 测量系统(重点⚠️) 测量是指以确定对象属性和量值为目的的全部操作。 测量:被测参量和同种性质的标准量进行比较,确定被测量对标准量的倍数。 测试/检测:具有实验性质的测量,测量与实验的综合 测量需要借助专门的设备、仪器等测量工具或测量系统,采用适当的测量方法并通过信号分析处理,才能得到有关的,可显示/输出的信息量值。 测量系统 表征客观事物属性的物理或化学参量 作用是:以客观和实验的方式对客体或事件的特性、品质加以定量或定性的描述。 1.2.2 传感器的定义 将被测量按一定规律转换成可输出信号的期间或装置。 传感器是测量装置 输入量:物理量/化学量/生物量 输出量:某种便于转换、传输、处理、显示的量(电量) 输出量和输入量有确定的对应关系 1.2.3 传感器的分类 检测时是否需要外界能源 无源传感器(无 ...