强化学习中探索策略优化算法设计.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：27491
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：江苏旅游网的设计与实现.doc

下一篇：社区垃圾派工转运管理系统.docx

摘要：强化学习是机器学习中一个重要的领域，探索与利用的平衡问题是强化学习中重点和难点问题。多臂街机问题是强化学习中研究探索与利用平衡的经典问题，本文研究两种街机模型，并提出两种探索优化算法。

(1)针对已有算法没有充分利用动作反馈信息以及泛化能力弱的问题，以探索概率为切入点，设计了一种新的探索概率计算方法。该方法结合动作估计值的方差和估计值最小的动作被选择次数来计算探索概率，在实验中自适应更新探索概率，平衡探索与利用的程度。引入参数调节反馈信息对探索概率的影响程度，提高算法的泛化能力。在探索时优先被选择次数最少的动作，充分学习动作的奖赏分布来最大化累积回报。

(2)为了进一步应用于实际的推荐系统，在上下文街机模型中引入了上下文信息。首先计算上下文特征与动作特征的相似度，然后将相似度作为权值乘以动作估计值以更新动作估计值。利用过程选择动作估计值最大的动作，而探索过程随机选择动作，以实现状态空间更充分的探索。

在随机数据集和Yahoo!R6A数据集中，采用Python语言对提出的探索优化算法进行了实现。将所提算法与经典的算法进行比较，结果表明了所提的方法能更好地实现探索和利用的平衡。

关键词：强化学习多臂街机问题探索与利用推荐系统

摘要

Abstract

第一章绪论-1

1.1 研究背景及意义-1

1.2研究现状-2

1.3研究内容-3

1.4本章小结-4

第二章基础理论概述-5

2.1强化学习-5

2.2 探索与利用-6

2.3 随机多臂街机模型-7

2.4 上下文街机模型-8

2.5 本章小结-9

第三章随机多臂街机算法优化策略-10

3.1 随机多臂街机算法概述-10

3.1.1 ε-greedy算法-10

3.1.2 Softmax算法-11

3.1.3 UCB算法-12

3.1.4 Thompson sampling算法-13

3.1.5 随机多臂街机算法比较-13

3.2评估动作-14

3.3 ASMBA算法设计-14

3.4 ASMBA算法实现-15

3.5 ASMBA算法分析-16

3.6 regret分析-16

3.7 本章小结-20

第四章上下文街机算法优化策略-21

4.1 上下文街机算法概述-21

4.1.1 LinUCB算法-21

4.1.2 LinTS算法-22

4.1.3 其他上下文算法-23

4.2 相似度度量-23

4.3 Context-ASMBA算法设计-24

4.4 Context-ASMBA算法实现-25

4.5 Context-ASMBA算法分析-26

4.6 本章小结-27

第五章实验结果分析-28

5.1 实验数据集-28

5.1.1 随机数据集-28

5.1.2 Yahoo!R6A数据集-28

5.2 ASMBA算法实验-29

5.2.1 随机数据集实验-29

5.2.2 推荐系统-34

5.3 Contextual ASMBA算法实验-35

5.3.1 数据说明-35

5.3.2 相似度对比-36

5.3.3 探索策略比较-39

5.3.4 Yahoo!R6A数据集-40

5.4本章小结-45

第六章总结与展望-46

6.1 总结-46

6.2 遇到的困难及解决方法-47

6.3 展望-47

6.4 工程伦理-48

参考文献-49

致谢-50

基于Java的酒店管理系统开发.docx	基于S2SH框架的绿淘淘服务社区系统的设计	《计算机网络》精品课程网站的设计与实
电影订票系统的设计与实现.docx	基于Android和SSH的减肥瘦身软件的设计与实	图书信息管理系统的设计与实现.rar
医院网上预约挂号系统的设计与实现.do	出国留学咨询平台的设计与实现.doc	高QoS视频语音通话软件的设计与实现.do
基于SHA512及SHACAL-2算法的加密系统的设计	基于华为路由交换技术的企业网络的规划	超市进销存系统的设计与实现.doc