德语学习 B1 Lektion 7 Zwischenmenschliche Beziehungen
Konzept Zwischenmenschliche Beziehungen Auffordern Ratschläge geben Um einen Gefallen bitten Streiten und beschwichtigen Imperativ und andere Aufforderungsformen Finalsätze: um zu…, damit… 7-1 Zwischenmenschliche Beziehungen wütend 气愤的,生气的 frohgestimmt 很开心 egoistisch 自私的 erschrocken 惊吓的 schockiert 受惊吓的 neugierig 好奇的 ahnungslos 一无所知的 herzlos 无所谓的 unschuldig 冤枉的,无辜的 hilflos 无助的 die Menschenkenntnis-/ 人性知识 einordnen 分类,排列 可分v beurteilen 判断,评价 das Gegenüber- 面对面的人 bewegen 挪动,移动;打动 anhand ...
德语学习 B1 Lektion 6 Lernen
Konzept Lernen Personen beschreiben Ein Ereignis erzählen Konjunktionen: als, wenn Konjunktionen: bevor, nachdem Plusquamperfekt Antonyme mit -un 6-1 als wenn wann als Er hat einen Job als Taxifahrer “作为”(Rolle, Beruf, Funktion) Ich bin jünger als meine Schwester. “比”(Vergleich) Als wir oben ankamen, waren wir sehr stolz. “当……的时候” wenn “如果”(Bedingung, irreale Aussage) Wenn er nicht arbeiten muss, kommt er zu meiner Feier. Wenn er mehr Zeit hätte, würde er eine Fremdsprache lernen. ...
动手强化学习 第十四章 多智能体强化学习
MARL 简介 强化学习:智能体与环境交互,智能体感知环境结果,做出动作,得到环境反馈的奖励。 环境要是稳态的:某些分布是确定不变的,否则不能保证强化学习的收敛性 MARL 的例子 去中心化的游戏人工智能 为复杂的集体游戏智能设计多智能体通信和协同学习的算法 英雄联盟、星际争霸等 城市交通 车辆路由策略 交通灯控制 车队管理以及出租车调度 分拣机器人 MARL 的难点 原理上困难 多智能体不仅要与环境交互,还要相互进行交互 将其它智能体当作环境的一部分进行学习,会导致训练出的智能体不稳定!因为理论上这样定义环境不稳定(数据分布非稳态),训练过程不收敛 MARL 问题定义 环境的稳态:条件概率的分布是固定的 序贯决策的三种问题 马尔可夫决策过程 一个智能体 多个状态 重复博弈 多个智能体 一个状态 随机博弈(马尔可夫博弈) 多个智能体 多个状态 MARL 的任务属于随机博弈 随机博弈 表格型强化学习设置下,每个状态对应一个博弈表格 每个时间步,所有智能体在当前博弈表格中同时选择自己的动作 根据智能体共同决定的博弈表格单元分配给智能体 ...
动手强化学习 第八章 深度强化学习策略方法
A3C Actor-Critic 演员采取动作使评论家满意 评论家学会准确估计演员策略所采取动作价值的值函数 A2C Advantage Actor-Critic 通过减去一个基线函数来优化评论家的打分 更多信息指导:降低较差动作概率,提高较优动作概率 进一步降低方差 优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ(s,a)=Qπ(s,a)−Vπ(s) A3C:异步 A2C 方法 Asynchronous Advantage Actor-Critic 异步:算法涉及并执行一组环境 优势:策略梯度的更行使用优势函数 动作评价 Global Network 是表演者和评论家的所在 这些 Workers 学习完一段时间后,产生梯度,传到 global network 中去。更新完全局网络后参数又同步到所有 workers 上去。这样的好处是并行化,提升性能。 确定性策略梯度 DPG 随机策略与确定性策略 随机策略 对于离散动作:π(a∣s;θ)=exp{Qθ(s,a)}Σa′exp{Qθ ...
德语学习 B1 Lektion 5 Ausbildung und Beruf
Konzept Ausbildung und Beruf Vergleichen und kommentieren/Um Rat bitten, Ratschläge geben Informationen zusammenfassen “lassen” obwohl, trotzdem/Konjunktiv II der Vergangenheit 5-1 Ausbildung und Beruf (1) der Landwirt-e 农民,农场主 = 英文的 farmer der Bauer- 农民,乡巴佬 = 英文的 peasant der Farmer- 农民 der Schlosser- 钳工 der Metallverarbeiter- 机械工 der Postbote-n 邮递员 der Briefträger- 邮差 der Zusteller- 快递员 der Experte-n 专家 der Servierer- 服务生 der Aufwärter- 仆人,侍者 der Sänger- 歌唱家 der Musiker- 音乐家 der Kom ...
德语学习 B1 Lektion 4 Tägliches Leben
Konzept Tägliches Leben Über Gewohnheiten sprechen, Party organisieren Reflexivpronomen im Akkusativ und im Dativ, Relativpronomen und Präposition Wortbildung: Nomen + Adjektiv/Adverb je …, desto … 4-1 Tägliches Leben 时间副词、频率副词 der Morgen → morgens 每天早晨 der Vormittag → vormittags 每天上午 der Mittag → mittags 每天中午 der Nachmittag → nachmittags 每天下午 der Abend → abends 每天晚上 die Nacht → nachts 每天夜晚 时间副词可以表示一次性的事件,也可以表示一定周期的重复性 der Montag → montags 每周一 der Samstagabend → samstagabends 每周六晚 de ...
动手强化学习 第七章 深度强化学习价值方法
深度强化学习 价值和策略近似 是否可以通过深度神经网络直接近似价值/策略函数? 端到端强化学习 标准的 传统的 计算机视觉 需要 特征提取 中级特征提取 分类…… 而 AlexNet 的提出,深度学习的出现,使得 计算机视觉称为端到端的 相同的,深度强化学习使强化学习算法能够以端到端的方式解决复杂问题 深度强化学习 利用深度神经网络进行价值函数和策略近似 使得算法能够以端到端的方式解决复杂问题 2013,DeepMind 首次提出,用深度强化学习玩 Atari 游戏。 深度学习和强化学习结合 价值函数和策略编程深度神经网络 高维的参数空间 难以稳定训练 容易过拟合 需要大量数据 需要高性能计算 CPU 收集经验数据 - GPU 训练神经网络 trade-off 深度强化学习的分类 基于价值:深度 Q 网络及其变种 基于随机策略的方法:策略梯度、自然策略梯度、信任区域策略优化 TRPO、近端策略优化 PPO、A3C 确定性策略梯度 DPG,DDPG 深度 Q 网络 DQN 复习 Q learning 不直接更新策略 基于值的方法 Q learni ...
动手强化学习 第六章 规划与学习
learning by planing 入门算法与介绍 模型是什么 给定一个状态和动作,模型能够预测下一个状态和奖励的分布,即P(s′,r∣s,a)P(s',r|s,a)P(s′,r∣s,a) s, a:给定的状态和动作 s’, r:下一个状态和奖励 模型的分类:分布模型(distribution model,类似于白盒模型)、样本模型(sample model,黑盒模型) 以掷骰子为例:分布模型指的是得到骰子数字总和的所有可能性及其概率;样本模型之采样得到一种骰子的数字综合 模型的作用:得到模拟的经验数据(simulated experiences) 规划是什么 规划 planning 输入一个模型,输出一个策略的搜索过程 状态空间的规划 state-space planning 规划空间的规划 plan-space planning 规划的通用框架 模型→模拟经验→值函数→策略 规划的好处 任何时间点都可以被打断或重定向 复杂问题下进行小而增量式的时间步规划是很有效的 规划和学习 不同点:规划用模型产生的模拟经验;学习用环境产生的真实经验 相同点: ...
德语学习 B1 Lektion 3 Freizeit und Fitness
Konzept Freizeit und Fitness Ratschläge mit sollte Argumente vorbringen Präpositionen bei Zeitangaben Komparation, Konjunktiv II 3-1 Freizeitbeschäftigung der Film-e 胶片 der Kopfhörer- 耳机 Nickerchen machen 小憩 das Bungeespringen 蹦极 klettern 攀岩 der Tennisschläger- 网球拍 radeln 骑自行车 zappen 换电视台 der Gesellschaftstanz 国标,交谊舞 das Sonnenbad 日光浴 entspannend 令人放松的 adj meditieren 冥想 erholsam 养神的 adj das Rafting 漂流 sich abspielen = stattfinden 举行,进行,发生 hauptsächlich 主要的,重要的 der Terminkalender- 记事日历,备忘日历 r ...
德语学习 B1 Lektion 2 Orte
Konzept Orte Häuser beschreiben, Mengenanteile ausdrücken Konjunktiv II: Irrealis, Passiv mit Modalverb Adjektivdeklination, Komposita: Nomen 2-1 Wo würden Sie gern wohnen? das Baumhaus 书屋 der Leuchtturm-"e 灯塔 das Bauernhaus 农舍 der Bauernhof-"e 农场 das Schloss-"er 城堡(居住用的) die Burg-en 城堡(军事上的) das Designerhaus 豪宅 der Bauwagen 房车 第二虚拟式 Wünsche und Verlieben 愿望 Am liebsten würde ich in einem Leuchtturm wohnen. Ratschläge 建议 Du solltest wirklich nicht in diesen Leuchtturm ...