| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:17546 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:在大数据时代,人类社会的数据正以前所未有的速度增长。数据蕴含着巨大的价值,无论是对个人工作、生活,还是对企业而言,都有着很大的帮助。充分挖掘数据潜在价值,能帮助人们找到更合适的合作对象、更便宜的生活用品,也能帮助企业更好地掌握市场动向,更好地应对市场,产生新的合理的决策,有针对性地为企业日后的发展提供数据支撑。 本课题对爬虫进行了研究并且对爬虫爬取到的数据进行了分析,采用的是基于Python的Scrapy框架中的CrawlSpider类方法,该方法是根据观察知乎网站URL的规则进行爬取。通过将爬取到的数据存储到MongoDB数据库,最后使用Pandas和绘图库Matplotlib来进行数据分析,最终得到了在爬取的用户数据中计算机行业人数占比比较多等的结论。
关键词:爬虫;Python;数据分析;MongoDB;Tkinter
目 录 摘 要 ABSTRACT 第一章 绪论-5 1.1研究背景-5 1.2研究现状-5 1.3研究意义-5 1.4 本文组织结构-6 第二章 相关技术概述-7 2.1 Requests库-7 2.2 Xpath语法-8 2.3 Selenium库-8 2.4 Scrapy框架-8 2.5 CrawlSpider类-9 2.6 MongoDB数据库-10 2.7 Tkinter界面设计-11 第三章 系统分析与概要设计-12 3.1 系统可行性分析-12 3.2 系统设计分析-12 3.2.1 生成项目-13 3.2.2 定义Item-13 3.2.3定义链接提取规则-13 3.3定义个人页面的解析函数-13 3.4 使用MongoDB数据库-14 3.5 爬虫数据分析-14 3.5.1 爬虫数据分析工具-15 3.5.2 爬虫数据简单分析-15 3.6 基于Tkinter的界面设计-15 第四章系统详细设计与实现-18 4.1 界面模块-18 4.1.1 窗口模块-18 4.1.2 文本框模块-19 4.1.3 按钮模块-19 4.2 爬虫模块-20 4.2.1 生成项目-21 4.2.2 数据定义-21 4.2.3 解析函数-22 4.2.4 反爬虫-22 4.3 数据存储模块-25 4.3.1 Pipeline文件-28 4.3.2 Settings文件-28 4.4 数据分析模块-29 4.4.1 读取数据-29 4.4.2 分析数据-29 第五章 总结与展望-35 5.1 总结-35 5.2 展望-36 参考文献-38 后 记-39 |

