动手强化学习 第七章 深度强化学习价值方法
深度强化学习 价值和策略近似 是否可以通过深度神经网络直接近似价值/策略函数? 端到端强化学习 标准的 传统的 计算机视觉 需要 特征提取 中级特征提取 分类…… 而 AlexNet 的提出,深度学习的出现,使得 计算机视觉称为端到端的 相同的,深度强化学习使强化学习算法能够以端到端的方式解决复杂问题 深度强化学习 利用深度神经网络进行价值函数和策略近似 使得算法能够以端到端的方式解决复杂问题 2013,DeepMind 首次提出,用深度强化学习玩 Atari 游戏。 深度学习和强化学习结合 价值函数和策略编程深度神经网络 高维的参数空间 难以稳定训练 容易过拟合 需要大量数据 需要高性能计算 CPU 收集经验数据 - GPU 训练神经网络 trade-off 深度强化学习的分类 基于价值:深度 Q 网络及其变种 基于随机策略的方法:策略梯度、自然策略梯度、信任区域策略优化 TRPO、近端策略优化 PPO、A3C 确定性策略梯度 DPG,DDPG 深度 Q 网络 DQN 复习 Q learning 不直接更新策略 基于值的方法 Q learni ...
动手强化学习 第六章 规划与学习
learning by planing 入门算法与介绍 模型是什么 给定一个状态和动作,模型能够预测下一个状态和奖励的分布,即P(s′,r∣s,a)P(s',r|s,a)P(s′,r∣s,a) s, a:给定的状态和动作 s’, r:下一个状态和奖励 模型的分类:分布模型(distribution model,类似于白盒模型)、样本模型(sample model,黑盒模型) 以掷骰子为例:分布模型指的是得到骰子数字总和的所有可能性及其概率;样本模型之采样得到一种骰子的数字综合 模型的作用:得到模拟的经验数据(simulated experiences) 规划是什么 规划 planning 输入一个模型,输出一个策略的搜索过程 状态空间的规划 state-space planning 规划空间的规划 plan-space planning 规划的通用框架 模型→模拟经验→值函数→策略 规划的好处 任何时间点都可以被打断或重定向 复杂问题下进行小而增量式的时间步规划是很有效的 规划和学习 不同点:规划用模型产生的模拟经验;学习用环境产生的真实经验 相同点: ...
德语学习 B1 Lektion 3 Freizeit und Fitness
Konzept Freizeit und Fitness Ratschläge mit sollte Argumente vorbringen Präpositionen bei Zeitangaben Komparation, Konjunktiv II 3-1 Freizeitbeschäftigung der Film-e 胶片 der Kopfhörer- 耳机 Nickerchen machen 小憩 das Bungeespringen 蹦极 klettern 攀岩 der Tennisschläger- 网球拍 radeln 骑自行车 zappen 换电视台 der Gesellschaftstanz 国标,交谊舞 das Sonnenbad 日光浴 entspannend 令人放松的 adj meditieren 冥想 erholsam 养神的 adj das Rafting 漂流 sich abspielen = stattfinden 举行,进行,发生 hauptsächlich 主要的,重要的 der Terminkalender- 记事日历,备忘日历 r ...
德语学习 B1 Lektion 2 Orte
Konzept Orte Häuser beschreiben, Mengenanteile ausdrücken Konjunktiv II: Irrealis, Passiv mit Modalverb Adjektivdeklination, Komposita: Nomen 2-1 Wo würden Sie gern wohnen? das Baumhaus 书屋 der Leuchtturm-"e 灯塔 das Bauernhaus 农舍 der Bauernhof-"e 农场 das Schloss-"er 城堡(居住用的) die Burg-en 城堡(军事上的) das Designerhaus 豪宅 der Bauwagen 房车 第二虚拟式 Wünsche und Verlieben 愿望 Am liebsten würde ich in einem Leuchtturm wohnen. Ratschläge 建议 Du solltest wirklich nicht in diesen Leuchtturm ...
德语学习 B1 Lektion 1 Kennen lernen
Konzept Kennen lernen Sich verstellen, Begrüßung Verhalten beschreiben, Heikle Situationen entschärfen 描述行为方式,化解尴尬棘手的场景 Reflexiv- und Reziprokpronomen 反身动词和反身代词 Verben mit Präpositionen 带有介词的动词 1-1 Lernen Sie sich kennen mit… + Dativ beginnen 开始,着手进行某事 müssten 第二虚拟式表委婉的强烈推测 dran sein 轮到了 das Zertifikat-e 考试合格证书,文凭 der Prüfer- 考官 nach + Dativ 根据,在……之后 damit + 从句 表目的 das Warten-/ 等待(动名词) Zeitplan einhalten 遵守时间计划 helfen + Dativ 帮助某人 ich helfe - du hilfst - er/sie/es hilft - haben geholfen höff ...
德语学习 A2 Kapitel 24 Bei uns und bei euch
24-1 Benehmen (1) 礼仪 passieren 发生 - sein passiert eingestellt 调整的,设定的 adj wissen 知道 - haben gewusst mitbringen 带来 - haben mitgebracht Es macht Ihnen nitchts aus. 您对此不会有意见。 bellen 吠,吼 v gerade 正在,刚刚,正好 adv still 寂静的,宁静的 adj 24-2 Benehmen (2) 礼仪 in Ruhe 安静地,私下地 nahetreten + Dativ 与……接近 stören 打扰,干扰 intim 亲密的,男女关系的 adj das Benehmen-/ 举止,行为 schlimm 糟糕的,恶劣的 die Verhaltensweise-n 行为方式 nennen 称呼,叫,举例 - haben genannt der Gesprächspartner对话者,谈话的对方 ausreden 把话说完 可分v sich ausreden 找借口 ausspucken 吐痰 可分v b ...
德语学习 A2 Kapitel 23 Politik und ich
23-1 Politikwörter 词汇:政治 der Bundestag / das Parlament 德国联邦议院/德国国会 der Bund 联邦 die Bundesrepublik 联邦共和国 der Bundesadler- 德国之鹰 das Wappen- 徽章 das Wappentier-e 绘制在徽章上的动物 z. B. Der Bundesadler ist das Wappentier der Bundesrepublik. die Bundesregierung 联邦政府 der/die Bundeskanzler*in 联邦总理 der/die Minister*in 部长 der/die Abgeordnete-n 议员,人大代表 die Partei-en 政党,党派 die Regierungspartei 执政党 die Opposition 反对党,在野党 der/die Bundespräsident*in 联邦总统 die Bundestagswahl 联邦选举 die Koalition 联合执政 das Bundesland-&quo ...
动手强化学习 第五章 近似逼近方法
参数化值函数近似 针对之前的模型 都是基于创建一个查询表,再表中维护状态值函数或状态-动作值函数。 当处理大规模的 MDP 时 状态/状态-动作空间非常大 连续的状态或动作空间 维护起来代价太大 处理大规模 MDP 的解决方法 对状态/动作进行离散化或粪桶 构建参数化的值函数估计 对状态/动作进行离散化 例如:在一个二维平面空间中,使用网格对状态空间进行切分,从而转化成离散值 对于一个大型的 MDP,可以对状态值进一步分桶以进行采样聚合 优点 操作简洁直观 高效 在处理许多问题时有较好的效果 缺点 过于简单表示价值函数 V 可能为每个离散区间假设一个常数值 维度灾难 参数化价值函数 参数化值函数近似 构建参数化(可学习的)函数来近似值函数 Vθ(s)≃Vπ(s)V_\theta(s)\simeq V^\pi(s)Vθ(s)≃Vπ(s) Qθ(s,a)≃Qπ(s,a)Q_\theta(s,a)\simeq Q^\pi(s,a)Qθ(s,a)≃Qπ(s,a) θ 时近似函数的参数,可通过 RL 进行更新 参数化的方法将现有可见的状态泛化到没有见过的 ...
德语学习 A2 Kapitel 22 Alltag und Medien
22-1 Medien 媒体 das Radio-s 收音机 das Buch-"er 书 die Sendung-en 节目 anschalten 打开(电器) ausschalten 关闭(电器) hören 听 die Zeitung-en 报纸 das Telefon-e 电话机 telefonieren 打电话 mit + Dativ Ich telefonieren mit dir. anrufen 致电 + Akkusativ Ich rufe dich später noch mal an. Ruf mich bitte zurück. 请给我回电。 Es war immer besetzt. 总是占线。 der Anrufbeantworter- 电话答录机 der MP3-Play MP3 播放器 herunterladen 下载 可分v hochladen 上传 可分v lade - lädst - lädt - laden - ladet - laden - haben (herunter/hoch)geladen abschicken ...
留学申请就是大撒币
专门开一篇来记录一下留学准备留学到学校 Zulassung 下来的花费 i.e. 算总账 (外币统统换算为人民币,以其为单位) 语言考试 2021 年暑假的雅思考试(口语考试迟到,直接白给):2170 2022 年初隔离结束后的雅思考试:2170 (待更新……说不定之后考 TestDaf 还要花钱) 留学咨询 半 DIY,请人弄文书+答疑等等等等,9000 申请费用 瑞典申请系统,900 瑞典克朗:约 615 奥胡斯大学申请费,750 丹麦克朗:约 740 丹麦科技大学申请费,750 丹麦克朗:约 746 哥本哈根大学申请费,750 丹麦克朗:约 746 (待更新……) 学信网成绩单认证 aka CSSD verified transcript,用于芬兰的学校申请:300 用于德、奥国家的 APS 用于 APS 公证 高中毕业证中英双语翻译公证件:255 大学录取花名册中英双语翻译公证件:279 🇩🇪 APS 面谈费用 邮寄 APS 面谈所需材料快递费:15 APS 一般国内申请人程序费用:2500 12 月 7 日至 12 月 23 日在北京的住宿开销:3264 ...