基于主题搜索的知识管理系统设计与实现.docx

资料分类:计算机信息 上传会员:暖暖大将军 更新时间:2024-08-23
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:18831
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:近年来,学术搜索引擎已经成为用户了解知识的必备工具。以中国知网为例,在精确检索文献功能上已经做得无可挑剔,但是在对主题的概括工作上却偏少,用户较难在短时间内了解一个主题。本系统设计在对检索结果的反馈上做出优化,在系统有了充足知识储备后,为用户提供数据挖掘与可视化,用户键入一个关键词后能有一个可视图表反馈。

本系统使用的基础语言是Java;采用Maven管理项目;采用分布式设计整套系统。系统从上至下共有五个功能模块实现。定时任务模块使用Springboot-ScheduledTask;网络爬虫模块采用HTMLUnit框架;服务通信模块使用HTTP通信;中文分词模块采用开源的IK分词器;数据存储采用Spring Data JPA。

服务端功能有:按照关键词爬取中国知网(以下简称CNKI)论文;定时任务爬取CNKI论文;中文分词。管理员使用功能:节点健康检测;服务列表监控及管理;服务配置修改。用户使用功能:搜索关键词返回可视化数据。

关键词:学术搜索引擎;知识图谱;爬虫

 

目  录

摘  要

ABSTRACT

第一章  绪 论-1

1.1 论文背景及意义-1

1.2 主要工作以及贡献-2

1.3 国内外研究现状-2

1.3.1 国外研究现状-2

1.3.2 国内研究现状-2

1.3.3 现阶段国内外研究成果对比小结-3

1.4 论文结构安排-3

第二章  开发环境配置和相关技术介绍-4

2.1 服务器开发环境配置-4

2.2 开发相关介绍-5

2.2.1 微服务设计思想-5

2.2.2 Spring技术-5

2.2.3 SpringBoot框架-5

2.2.4 Spring Cloud Alibaba框架-6

2.2.5 Spring Data JPA-7

2.2.6 HtmlUnit框架-8

2.2.7 IK分词器-8

2.2.8 RabbitMQ消息队列-8

2.3 本章小结-9

第三章  系统分析-10

3.1 系统总体需求分析-10

3.1.1 用户需求分析-10

3.1.2 后台需求分析-11

3.1.3 非功能分析-11

3.2 系统总体设计-12

3.3 数据获取层分析-14

3.4 数据存储支持层分析-15

3.5 数据融合层分析-15

3.6 知识计算和应用层分析-15

3.7 本章小结-16

第四章  系统实现-17

4.1 系统架构实现-17

4.2 数据获取层实现-20

4.2.1 爬虫功能-21

4.2.2 数据整理并清洗-24

4.3 数据自动接入实现-25

4.3.1 定时任务实现-26

4.3.2 中文分词服务-27

4.3.3 服务名通信-28

4.4 日志模块-29

4.5 数据输出模块-30

第五章 系统测试与维护-33

5.1 系统日志监控-33

5.2 系统数据库监控-34

5.3 分布式系统节点监控-34

第六章  总结与展望-35

参考文献-37

致  谢-39

相关论文资料:
最新评论
上传会员 暖暖大将军 对本文的描述:第二,本系统所需数据量庞大,仅凭一个节点是不可能达到预期速度的,解决方案是横向拓展,开发多个节点。涉及多节点工作就不得不谈到对节点的监控及管理,采用微服务设计思想......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: