| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:17742 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:人工智能以及互联网技术蓬勃发展,各式各样的智能设备都走进我们的生活。在这样的大背景下面,一款能够自动避障和更智能、更节电清洁机器人便呼之欲出。 为了能够模拟实现清洁机器人自主规划路径,本次项目利用强化学习实验平台Gym模拟出基于离散动作以及基于连续动作的清洁机器人清扫环境。在离散情况下,清洁机器人通过GPS定位自身信息;在连续动作情况下,清洁机器人通过前置摄像头来感知自身所处的局部环境。为了实现算法,对经典的深度策略梯度算法(Deep deterministic policy gradient, DDPG)进行了改进,并应用于两种环境进行实验。实验结果表明:所提出的算法能逐渐收敛,从而获得规划的近似最优路径。 关键词: 清洁机器人 DDPG算法 深度强化学习 卷积神经网络
目录 摘要 Abstract 1 引言-1 1.1 课题背景-1 1.2 课题研究的基础、现状与趋势-1 1.3 解决思路以及实验方法-2 2 DDPG原理以及改进-3 2.1 DDPG的原理-3 2.1.1 Policy_Gradient算法-3 2.1.2 确定性策略梯度-4 2.1.3 DDPG算法-4 2.1.4 DDPG算法伪代码-7 2.2 DDPG算法的优化-7 2.2.1 采用卷积神经网络以及超参数的调试-7 2.2.2 DDPG噪声的添加以及修改-9 2.2.3 改进后DDPG算法伪代码-10 3 Gym环境的构建-11 3.1 强化学习平台Gym-11 3.2 环境的动态渲染-11 3.3 环境与算法的交互接口-11 3.4 环境初始化以及重置-11 3.5 环境视野的识别-11 3.6 其他的功能-12 3.7 构建Gym环境的导入-12 4 基于离散动作的清洁机器人系统规划-13 4.1 离散动作动态渲染的实现-13 4.2 环境与算法的交互接口-14 4.3 环境初始化以及重置-14 4.4 其他功能-15 4.5 实验结果-15 5 基于连续动作的清洁机器人系统规划-20 5.1 连续动作动态渲染的实现-20 5.2 环境与算法的交互接口-22 5.3 环境视野的识别-24 5.4 环境初始化以及重置-25 5.5 其他功能-25 5.6 实验结果-26 6 总结-31 6.1 问题归纳-31 6.2 问题解决-31 6.3 总结-32 7 模型的缺陷以及展望-33 7.1 模型的缺陷-33 7.2 未来的展望-33 8 工程伦理-34 9 参考文献-35 10 致谢-37 |

