动手强化学习 第八章 深度强化学习策略方法
A3C Actor-Critic 演员采取动作使评论家满意 评论家学会准确估计演员策略所采取动作价值的值函数 A2C Advantage Actor-Critic 通过减去一个基线函数来优化评论家的打分 更多信息指导:降低较差动作概率,提高较优动作概率 进一步降低方差 优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ(s,a)=Qπ(s,a)−Vπ(s) A3C:异步 A2C 方法 Asynchronous Advantage Actor-Critic 异步:算法涉及并执行一组环境 优势:策略梯度的更行使用优势函数 动作评价 Global Network 是表演者和评论家的所在 这些 Workers 学习完一段时间后,产生梯度,传到 global network 中去。更新完全局网络后参数又同步到所有 workers 上去。这样的好处是并行化,提升性能。 确定性策略梯度 DPG 随机策略与确定性策略 随机策略 对于离散动作:π(a∣s;θ)=exp{Qθ(s,a)}Σa′exp{Qθ ...
德语学习 B1 Lektion 5 Ausbildung und Beruf
Konzept Ausbildung und Beruf Vergleichen und kommentieren/Um Rat bitten, Ratschläge geben Informationen zusammenfassen “lassen” obwohl, trotzdem/Konjunktiv II der Vergangenheit 5-1 Ausbildung und Beruf (1) der Landwirt-e 农民,农场主 = 英文的 farmer der Bauer- 农民,乡巴佬 = 英文的 peasant der Farmer- 农民 der Schlosser- 钳工 der Metallverarbeiter- 机械工 der Postbote-n 邮递员 der Briefträger- 邮差 der Zusteller- 快递员 der Experte-n 专家 der Servierer- 服务生 der Aufwärter- 仆人,侍者 der Sänger- 歌唱家 der Musiker- 音乐家 der Kom ...
德语学习 B1 Lektion 4 Tägliches Leben
Konzept Tägliches Leben Über Gewohnheiten sprechen, Party organisieren Reflexivpronomen im Akkusativ und im Dativ, Relativpronomen und Präposition Wortbildung: Nomen + Adjektiv/Adverb je …, desto … 4-1 Tägliches Leben 时间副词、频率副词 der Morgen → morgens 每天早晨 der Vormittag → vormittags 每天上午 der Mittag → mittags 每天中午 der Nachmittag → nachmittags 每天下午 der Abend → abends 每天晚上 die Nacht → nachts 每天夜晚 时间副词可以表示一次性的事件,也可以表示一定周期的重复性 der Montag → montags 每周一 der Samstagabend → samstagabends 每周六晚 de ...
动手强化学习 第七章 深度强化学习价值方法
深度强化学习 价值和策略近似 是否可以通过深度神经网络直接近似价值/策略函数? 端到端强化学习 标准的 传统的 计算机视觉 需要 特征提取 中级特征提取 分类…… 而 AlexNet 的提出,深度学习的出现,使得 计算机视觉称为端到端的 相同的,深度强化学习使强化学习算法能够以端到端的方式解决复杂问题 深度强化学习 利用深度神经网络进行价值函数和策略近似 使得算法能够以端到端的方式解决复杂问题 2013,DeepMind 首次提出,用深度强化学习玩 Atari 游戏。 深度学习和强化学习结合 价值函数和策略编程深度神经网络 高维的参数空间 难以稳定训练 容易过拟合 需要大量数据 需要高性能计算 CPU 收集经验数据 - GPU 训练神经网络 trade-off 深度强化学习的分类 基于价值:深度 Q 网络及其变种 基于随机策略的方法:策略梯度、自然策略梯度、信任区域策略优化 TRPO、近端策略优化 PPO、A3C 确定性策略梯度 DPG,DDPG 深度 Q 网络 DQN 复习 Q learning 不直接更新策略 基于值的方法 Q learni ...
动手强化学习 第六章 规划与学习
learning by planing 入门算法与介绍 模型是什么 给定一个状态和动作,模型能够预测下一个状态和奖励的分布,即P(s′,r∣s,a)P(s',r|s,a)P(s′,r∣s,a) s, a:给定的状态和动作 s’, r:下一个状态和奖励 模型的分类:分布模型(distribution model,类似于白盒模型)、样本模型(sample model,黑盒模型) 以掷骰子为例:分布模型指的是得到骰子数字总和的所有可能性及其概率;样本模型之采样得到一种骰子的数字综合 模型的作用:得到模拟的经验数据(simulated experiences) 规划是什么 规划 planning 输入一个模型,输出一个策略的搜索过程 状态空间的规划 state-space planning 规划空间的规划 plan-space planning 规划的通用框架 模型→模拟经验→值函数→策略 规划的好处 任何时间点都可以被打断或重定向 复杂问题下进行小而增量式的时间步规划是很有效的 规划和学习 不同点:规划用模型产生的模拟经验;学习用环境产生的真实经验 相同点: ...
德语学习 B1 Lektion 3 Freizeit und Fitness
Konzept Freizeit und Fitness Ratschläge mit sollte Argumente vorbringen Präpositionen bei Zeitangaben Komparation, Konjunktiv II 3-1 Freizeitbeschäftigung der Film-e 胶片 der Kopfhörer- 耳机 Nickerchen machen 小憩 das Bungeespringen 蹦极 klettern 攀岩 der Tennisschläger- 网球拍 radeln 骑自行车 zappen 换电视台 der Gesellschaftstanz 国标,交谊舞 das Sonnenbad 日光浴 entspannend 令人放松的 adj meditieren 冥想 erholsam 养神的 adj das Rafting 漂流 sich abspielen = stattfinden 举行,进行,发生 hauptsächlich 主要的,重要的 der Terminkalender- 记事日历,备忘日历 r ...
德语学习 B1 Lektion 2 Orte
Konzept Orte Häuser beschreiben, Mengenanteile ausdrücken Konjunktiv II: Irrealis, Passiv mit Modalverb Adjektivdeklination, Komposita: Nomen 2-1 Wo würden Sie gern wohnen? das Baumhaus 书屋 der Leuchtturm-"e 灯塔 das Bauernhaus 农舍 der Bauernhof-"e 农场 das Schloss-"er 城堡(居住用的) die Burg-en 城堡(军事上的) das Designerhaus 豪宅 der Bauwagen 房车 第二虚拟式 Wünsche und Verlieben 愿望 Am liebsten würde ich in einem Leuchtturm wohnen. Ratschläge 建议 Du solltest wirklich nicht in diesen Leuchtturm ...
德语学习 B1 Lektion 1 Kennen lernen
Konzept Kennen lernen Sich verstellen, Begrüßung Verhalten beschreiben, Heikle Situationen entschärfen 描述行为方式,化解尴尬棘手的场景 Reflexiv- und Reziprokpronomen 反身动词和反身代词 Verben mit Präpositionen 带有介词的动词 1-1 Lernen Sie sich kennen mit… + Dativ beginnen 开始,着手进行某事 müssten 第二虚拟式表委婉的强烈推测 dran sein 轮到了 das Zertifikat-e 考试合格证书,文凭 der Prüfer- 考官 nach + Dativ 根据,在……之后 damit + 从句 表目的 das Warten-/ 等待(动名词) Zeitplan einhalten 遵守时间计划 helfen + Dativ 帮助某人 ich helfe - du hilfst - er/sie/es hilft - haben geholfen höff ...
德语学习 A2 Kapitel 24 Bei uns und bei euch
24-1 Benehmen (1) 礼仪 passieren 发生 - sein passiert eingestellt 调整的,设定的 adj wissen 知道 - haben gewusst mitbringen 带来 - haben mitgebracht Es macht Ihnen nitchts aus. 您对此不会有意见。 bellen 吠,吼 v gerade 正在,刚刚,正好 adv still 寂静的,宁静的 adj 24-2 Benehmen (2) 礼仪 in Ruhe 安静地,私下地 nahetreten + Dativ 与……接近 stören 打扰,干扰 intim 亲密的,男女关系的 adj das Benehmen-/ 举止,行为 schlimm 糟糕的,恶劣的 die Verhaltensweise-n 行为方式 nennen 称呼,叫,举例 - haben genannt der Gesprächspartner对话者,谈话的对方 ausreden 把话说完 可分v sich ausreden 找借口 ausspucken 吐痰 可分v b ...
德语学习 A2 Kapitel 23 Politik und ich
23-1 Politikwörter 词汇:政治 der Bundestag / das Parlament 德国联邦议院/德国国会 der Bund 联邦 die Bundesrepublik 联邦共和国 der Bundesadler- 德国之鹰 das Wappen- 徽章 das Wappentier-e 绘制在徽章上的动物 z. B. Der Bundesadler ist das Wappentier der Bundesrepublik. die Bundesregierung 联邦政府 der/die Bundeskanzler*in 联邦总理 der/die Minister*in 部长 der/die Abgeordnete-n 议员,人大代表 die Partei-en 政党,党派 die Regierungspartei 执政党 die Opposition 反对党,在野党 der/die Bundespräsident*in 联邦总统 die Bundestagswahl 联邦选举 die Koalition 联合执政 das Bundesland-&quo ...