基于探索优化的清洁机器人规划系统设计.docx

资料分类:计算机信息 上传会员:番番呀 更新时间:2023-05-20
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:17742
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:人工智能以及互联网技术蓬勃发展,各式各样的智能设备都走进我们的生活。在这样的大背景下面,一款能够自动避障和更智能、更节电清洁机器人便呼之欲出。

为了能够模拟实现清洁机器人自主规划路径,本次项目利用强化学习实验平台Gym模拟出基于离散动作以及基于连续动作的清洁机器人清扫环境。在离散情况下,清洁机器人通过GPS定位自身信息;在连续动作情况下,清洁机器人通过前置摄像头来感知自身所处的局部环境。为了实现算法,对经典的深度策略梯度算法(Deep deterministic policy gradient, DDPG)进行了改进,并应用于两种环境进行实验。实验结果表明:所提出的算法能逐渐收敛,从而获得规划的近似最优路径。

关键词: 清洁机器人  DDPG算法  深度强化学习  卷积神经网络

 

目录

摘要

Abstract

1 引言-1

1.1  课题背景-1

1.2  课题研究的基础、现状与趋势-1

1.3  解决思路以及实验方法-2

2  DDPG原理以及改进-3

2.1 DDPG的原理-3

2.1.1  Policy_Gradient算法-3

2.1.2  确定性策略梯度-4

2.1.3  DDPG算法-4

2.1.4  DDPG算法伪代码-7

2.2 DDPG算法的优化-7

2.2.1  采用卷积神经网络以及超参数的调试-7

2.2.2  DDPG噪声的添加以及修改-9

2.2.3  改进后DDPG算法伪代码-10

3  Gym环境的构建-11

3.1  强化学习平台Gym-11

3.2  环境的动态渲染-11

3.3  环境与算法的交互接口-11

3.4  环境初始化以及重置-11

3.5  环境视野的识别-11

3.6  其他的功能-12

3.7  构建Gym环境的导入-12

4  基于离散动作的清洁机器人系统规划-13

4.1  离散动作动态渲染的实现-13

4.2  环境与算法的交互接口-14

4.3  环境初始化以及重置-14

4.4  其他功能-15

4.5  实验结果-15

5  基于连续动作的清洁机器人系统规划-20

5.1  连续动作动态渲染的实现-20

5.2  环境与算法的交互接口-22

5.3  环境视野的识别-24

5.4  环境初始化以及重置-25

5.5  其他功能-25

5.6  实验结果-26

6  总结-31

6.1  问题归纳-31

6.2  问题解决-31

6.3  总结-32

7  模型的缺陷以及展望-33

7.1  模型的缺陷-33

7.2  未来的展望-33

8  工程伦理-34

9  参考文献-35

10 致谢-37

相关论文资料:
最新评论
上传会员 番番呀 对本文的描述:智慧建筑、智慧家居是不可逆的潮流,我们生活的空间未来必定是智能便捷,智能机器人也是不可或缺的一部分。未来的智能清洁机器人我认为可能会有以下几个特点:第一,可以自己......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: