| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:18831 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:近年来,学术搜索引擎已经成为用户了解知识的必备工具。以中国知网为例,在精确检索文献功能上已经做得无可挑剔,但是在对主题的概括工作上却偏少,用户较难在短时间内了解一个主题。本系统设计在对检索结果的反馈上做出优化,在系统有了充足知识储备后,为用户提供数据挖掘与可视化,用户键入一个关键词后能有一个可视图表反馈。 本系统使用的基础语言是Java;采用Maven管理项目;采用分布式设计整套系统。系统从上至下共有五个功能模块实现。定时任务模块使用Springboot-ScheduledTask;网络爬虫模块采用HTMLUnit框架;服务通信模块使用HTTP通信;中文分词模块采用开源的IK分词器;数据存储采用Spring Data JPA。 服务端功能有:按照关键词爬取中国知网(以下简称CNKI)论文;定时任务爬取CNKI论文;中文分词。管理员使用功能:节点健康检测;服务列表监控及管理;服务配置修改。用户使用功能:搜索关键词返回可视化数据。 关键词:学术搜索引擎;知识图谱;爬虫
目 录 摘 要 ABSTRACT 第一章 绪 论-1 1.1 论文背景及意义-1 1.2 主要工作以及贡献-2 1.3 国内外研究现状-2 1.3.1 国外研究现状-2 1.3.2 国内研究现状-2 1.3.3 现阶段国内外研究成果对比小结-3 1.4 论文结构安排-3 第二章 开发环境配置和相关技术介绍-4 2.1 服务器开发环境配置-4 2.2 开发相关介绍-5 2.2.1 微服务设计思想-5 2.2.2 Spring技术-5 2.2.3 SpringBoot框架-5 2.2.4 Spring Cloud Alibaba框架-6 2.2.5 Spring Data JPA-7 2.2.6 HtmlUnit框架-8 2.2.7 IK分词器-8 2.2.8 RabbitMQ消息队列-8 2.3 本章小结-9 第三章 系统分析-10 3.1 系统总体需求分析-10 3.1.1 用户需求分析-10 3.1.2 后台需求分析-11 3.1.3 非功能分析-11 3.2 系统总体设计-12 3.3 数据获取层分析-14 3.4 数据存储支持层分析-15 3.5 数据融合层分析-15 3.6 知识计算和应用层分析-15 3.7 本章小结-16 第四章 系统实现-17 4.1 系统架构实现-17 4.2 数据获取层实现-20 4.2.1 爬虫功能-21 4.2.2 数据整理并清洗-24 4.3 数据自动接入实现-25 4.3.1 定时任务实现-26 4.3.2 中文分词服务-27 4.3.3 服务名通信-28 4.4 日志模块-29 4.5 数据输出模块-30 第五章 系统测试与维护-33 5.1 系统日志监控-33 5.2 系统数据库监控-34 5.3 分布式系统节点监控-34 第六章 总结与展望-35 参考文献-37 致 谢-39 |

