基于探索优化的清洁机器人规划系统设计.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：17742
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于WEB的在线花店设计与实现.doc

下一篇：教务信息管理系统设计.doc

摘要：人工智能以及互联网技术蓬勃发展，各式各样的智能设备都走进我们的生活。在这样的大背景下面，一款能够自动避障和更智能、更节电清洁机器人便呼之欲出。

为了能够模拟实现清洁机器人自主规划路径，本次项目利用强化学习实验平台Gym模拟出基于离散动作以及基于连续动作的清洁机器人清扫环境。在离散情况下，清洁机器人通过GPS定位自身信息；在连续动作情况下，清洁机器人通过前置摄像头来感知自身所处的局部环境。为了实现算法，对经典的深度策略梯度算法(Deep deterministic policy gradient, DDPG)进行了改进，并应用于两种环境进行实验。实验结果表明：所提出的算法能逐渐收敛，从而获得规划的近似最优路径。

关键词：清洁机器人 DDPG算法深度强化学习卷积神经网络

摘要

Abstract

1 引言-1

1.1 课题背景-1

1.2 课题研究的基础、现状与趋势-1

1.3 解决思路以及实验方法-2

2 DDPG原理以及改进-3

2.1 DDPG的原理-3

2.1.1 Policy_Gradient算法-3

2.1.2 确定性策略梯度-4

2.1.3 DDPG算法-4

2.1.4 DDPG算法伪代码-7

2.2 DDPG算法的优化-7

2.2.1 采用卷积神经网络以及超参数的调试-7

2.2.2 DDPG噪声的添加以及修改-9

2.2.3 改进后DDPG算法伪代码-10

3 Gym环境的构建-11

3.1 强化学习平台Gym-11

3.2 环境的动态渲染-11

3.3 环境与算法的交互接口-11

3.4 环境初始化以及重置-11

3.5 环境视野的识别-11

3.6 其他的功能-12

3.7 构建Gym环境的导入-12

4 基于离散动作的清洁机器人系统规划-13

4.1 离散动作动态渲染的实现-13

4.2 环境与算法的交互接口-14

4.3 环境初始化以及重置-14

4.4 其他功能-15

4.5 实验结果-15

5 基于连续动作的清洁机器人系统规划-20

5.1 连续动作动态渲染的实现-20

5.2 环境与算法的交互接口-22

5.3 环境视野的识别-24

5.4 环境初始化以及重置-25

5.5 其他功能-25

5.6 实验结果-26

6 总结-31

6.1 问题归纳-31

6.2 问题解决-31

6.3 总结-32

7 模型的缺陷以及展望-33

7.1 模型的缺陷-33

7.2 未来的展望-33

8 工程伦理-34

9 参考文献-35

10 致谢-37

基于Unity的3D动作类角色扮演游戏开发.d	基于JavaWeb的企业人力资源管理系统的设计	基于SSH技术的实验物品管理系统的设计与
基于安卓的家庭管家的设计与实现.docx	超市商品进存销系统的设计与实现.doc	Chukebay汽车外贸公司网络方案设计.docx
阳光文化传媒公司业务系统的设计与实现	图书借阅管理系统设计.doc	连连看软件的设计与实现.doc
掌上购物商城系统的设计与实现.docx	基于前端框架React与Node js环境的知识分享	基于windows下插件的研究.docx