强化学习中探索策略优化算法设计.docx

资料分类:计算机信息 上传会员:番番呀 更新时间:2023-05-21
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:27491
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:强化学习是机器学习中一个重要的领域,探索与利用的平衡问题是强化学习中重点和难点问题。多臂街机问题是强化学习中研究探索与利用平衡的经典问题,本文研究两种街机模型,并提出两种探索优化算法。

(1)针对已有算法没有充分利用动作反馈信息以及泛化能力弱的问题,以探索概率为切入点,设计了一种新的探索概率计算方法。该方法结合动作估计值的方差和估计值最小的动作被选择次数来计算探索概率,在实验中自适应更新探索概率,平衡探索与利用的程度。引入参数调节反馈信息对探索概率的影响程度,提高算法的泛化能力。在探索时优先被选择次数最少的动作,充分学习动作的奖赏分布来最大化累积回报。

(2)为了进一步应用于实际的推荐系统,在上下文街机模型中引入了上下文信息。首先计算上下文特征与动作特征的相似度,然后将相似度作为权值乘以动作估计值以更新动作估计值。利用过程选择动作估计值最大的动作,而探索过程随机选择动作,以实现状态空间更充分的探索。

在随机数据集和Yahoo!R6A数据集中,采用Python语言对提出的探索优化算法进行了实现。将所提算法与经典的算法进行比较,结果表明了所提的方法能更好地实现探索和利用的平衡。

关键词:强化学习  多臂街机问题  探索与利用  推荐系统

 

目录

摘要

Abstract

第一章 绪论-1

1.1 研究背景及意义-1

1.2研究现状-2

1.3研究内容-3

1.4本章小结-4

第二章 基础理论概述-5

2.1强化学习-5

2.2 探索与利用-6

2.3 随机多臂街机模型-7

2.4 上下文街机模型-8

2.5 本章小结-9

第三章 随机多臂街机算法优化策略-10

3.1 随机多臂街机算法概述-10

3.1.1 ε-greedy算法-10

3.1.2 Softmax算法-11

3.1.3 UCB算法-12

3.1.4 Thompson sampling算法-13

3.1.5 随机多臂街机算法比较-13

3.2评估动作-14

3.3 ASMBA算法设计-14

3.4 ASMBA算法实现-15

3.5 ASMBA算法分析-16

3.6 regret分析-16

3.7 本章小结-20

第四章 上下文街机算法优化策略-21

4.1 上下文街机算法概述-21

4.1.1 LinUCB算法-21

4.1.2 LinTS算法-22

4.1.3 其他上下文算法-23

4.2 相似度度量-23

4.3 Context-ASMBA算法设计-24

4.4 Context-ASMBA算法实现-25

4.5 Context-ASMBA算法分析-26

4.6 本章小结-27

第五章 实验结果分析-28

5.1 实验数据集-28

5.1.1  随机数据集-28

5.1.2 Yahoo!R6A数据集-28

5.2 ASMBA算法实验-29

5.2.1 随机数据集实验-29

5.2.2 推荐系统-34

5.3 Contextual ASMBA算法实验-35

5.3.1 数据说明-35

5.3.2 相似度对比-36

5.3.3 探索策略比较-39

5.3.4 Yahoo!R6A数据集-40

5.4本章小结-45

第六章 总结与展望-46

6.1 总结-46

6.2 遇到的困难及解决方法-47

6.3 展望-47

6.4 工程伦理-48

参考文献-49

致谢-50

相关论文资料:
最新评论
上传会员 番番呀 对本文的描述:(2)针对在环境先验信息已知的情况下,如何高效利用上下文信息,提出一种上下文MAB算法。在上述随机多臂街机算法的基础上,引入上文信息,通过计算上下文特征相似度并将相似度作......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: