| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8983 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:数据分析系统具体为分析源自于猎聘网的招聘信息。因为招聘网站的招聘信息繁多、数据逐条展示,所以用户无法得知某个行业整体的就业信息。有些刚从高中毕业的学生或刚入学的大学生想通过观察招聘热度来决定专业方向、就业方向,就需要有软件来帮助用户进行数据的汇总与处理分析,而目前的各大招聘网站均没有此类功能。 为了分析结果真实可靠,需要编写Java程序爬取猎聘网的招聘信息,并通过编写的Map/Reduce程序进行数据处理。软件通过用户自定义的条件,进行在线的数据分析,能立即得到以图形界面展示的结果,为用户的择业或入学提供真实有效的行业平均工资、招聘热度等参考信息。 程序使用分布式基础框架Hadoop进行数据处理与分析,能够解决由数据庞大所带来的存储和运行速度的问题。程序通过处理大量数据,将数据分析的结果通过Web图形界面进行展示,程序操作简单、结果清晰、效率较高。
关键词:数据分析;招聘网站;Hadoop
目录 摘要 Abstract 1 绪论-1 1.1 研究背景及课题意义-1 1.2 研究主要内容-1 2 相关软件技术研究-3 2.1 对Hadoop的理解-3 2.2 Map/Reduce以及HDFS-3 2.2.1 HDFS-3 2.2.2 Map/Reduce-4 2.3 Hadoop的搭建及配置-4 3 软件需求分析及软件架构-6 3.1 功能模块图-6 3.2 招聘网站信息的采集及文件合并-7 3.3 数据源结构化-8 3.4 运行环境需求-9 4 系统详细设计与实现-10 4.1 数据源生成模块-10 4.1.1 数据源的收集-10 4.1.2 数据源文件的合并-11 4.1.3 数据源的抽取-11 4.2 站点搭建-13 4.2.1 工资分布情况网页-13 4.2.2 查询工资范围网页-15 5 系统测试-17 5.1 工资分布模块测试-17 5.1.1 大连地区Java工资测试-17 5.1.2 全国全职位工资测试-18 5.2 工资区间模块测试-19 6 总结与展望-21 参 考 文 献-22 致 谢-23 |

