万本电子书0元读

万本电子书0元读

顶部广告

深度强化学习实战电子书

1.详细讲解深度强化学习基础知识,内容丰富 2.提供多个实战案例,学习更有效,实践更有用 3.包含核心算法 PyTorch、OpenAI Gym等流行工具,新颖实用 4.作者在深度强化学习领域经验丰富,知识梳理清晰,易懂易学

售       价:¥

纸质售价:¥59.90购买纸书

4人正在读 | 0人评论 6.4

作       者:亚历山大 · 扎伊(Alexander Zai)布兰登·布朗(Brandon Brown) 著

出  版  社:人民邮电出版社有限公司

出版时间:2023-04-01

字       数:29.2万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直反馈对智能体加以调整和改,提升运用深度强化学习技术解决实际问题的能力。 本书涵盖深度Q网络、策略梯度法、演员-评论家算法、化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。 本书适合有一定深度学习和机器学习基础并对强化学习感兴趣的读者阅读。<br/>【推荐语】<br/>1.详细讲解深度强化学习基础知识,内容丰富 2.提供多个实战案例,学习更有效,实践更有用 3.包含核心算法 PyTorch、OpenAI Gym等流行工具,新颖实用 4.作者在深度强化学习领域经验丰富,知识梳理清晰,易懂易学<br/>【作者】<br/>Alexander Zai曾担任Codesmith(一个沉浸式的编码训练营)首席技术官和技术顾问、Uber 软件工程师、Bonjo和AmazonAI机器学习工程师,他也是源深度学习框架Apache MXNet的贡献者。此外,他还是两家公司的联合创立人,其中一家曾是Y-combinator的参与者。 Brandon Brown从很小的时候就始编程,大学期间做过兼职软件工程师,但终选择投身医疗行业(在此期间,他在医疗保健科技领域担任软件工程师)。受深度强化学习的启发,他近期专注于计算精神病学的研究。<br/>
目录展开

内 容 提 要

致 谢

前 言

目标读者

本书内容

关于代码

作者简介

封面插画简介

资源与支持

提交勘误

扫码关注本书

与我们联系

关于异步社区和异步图书

第一部分 基础篇

第1章 什么是强化学习

1.1 深度强化学习中的“深度”

1.2 强化学习

1.3 动态规划与蒙特卡洛

1.4 强化学习框架

1.5 强化学习可以做什么

1.6 为什么是深度强化学习

1.7 教学工具:线图

1.8 后续内容概述

小结

第2章 强化学习问题建模:马尔可夫决策过程

2.1 线图与本书的教学方法

2.2 解决多臂老虎机问题

2.3 应用老虎机算法优化广告投放

2.4 利用PyTorch构建网络

2.5 解决上下文老虎机问题

2.6 马尔可夫性质

2.7 预测未来奖励:价值和策略函数

小结

第3章 预测最佳状态和动作:深度Q网络

3.1 Q函数

3.2 Q-learning导航

3.3 防止灾难性遗忘:经验回放

3.4 利用目标网络提高稳定性

3.5 回顾

小结

第4章 学习选择最佳策略:策略梯度法

4.1 使用神经网络的策略函数

4.2 强化良好动作:策略梯度算法

4.3 与OpenAI Gym配合

4.4 REINFORCE算法

小结

第5章 利用演员-评论家算法解决更复杂的问题

5.1 重构价值-策略函数

5.2 分布式训练

5.3 演员-评论家优势算法

5.4 N -step演员-评论家算法

小结

第二部分 进阶篇

第6章 可替代的优化方法:进化算法

6.1 另一种强化学习方法

6.2 具有进化策略的强化学习

6.3 CartPole的遗传算法

6.4 进化算法的优缺点

6.5 进化算法作为一种可扩展的替代方案

小结

第7章 Dist-DQN:获取完整故事

7.1 Q-learning存在的问题

7.2 再论概率统计

7.3 贝尔曼方程

7.4 分布式Q-learning

7.5 比较概率分布

7.6 模拟数据上的Dist-DQN

7.7 使用分布式Q-learning玩Freeway

小结

第8章 好奇心驱动的探索

8.1 利用预测编码处理稀疏奖励

8.2 反向动态预测

8.3 搭建《超级马里奥兄弟》环境

8.4 预处理和Q网络

8.5 创建Q网络和策略函数

8.6 内在好奇心模块

8.7 可替代的内在奖励机制

小结

第9章 多智能体强化学习

9.1 从单个到多个智能体

9.2 邻域Q-learning

9.3 一维伊辛模型

9.4 平均场Q-learning和二维伊辛模型

9.5 混合合作竞技游戏

小结

第10章 强化学习可解释性:注意力和关系模型

10.1 带注意力和关系偏差的机器学习可解释性

10.2 利用注意力进行关系推理

10.3 对MNIST实现自注意力

10.4 多头注意力和关系DQN

10.5 双Q-learning

10.6 训练和注意力可视化

小结

第11章 总结:回顾和路线图

11.1 我们学到了什么

11.2 深度强化学习中的未知课题

全书结语

附录A 数学、深度学习和PyTorch

A.1 线性代数

A.2 微积分

A.3 深度学习

A.4 PyTorch

参考资料

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部