基于Python的知乎用户爬虫及数据分析系统.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：17546
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于Pygame的“飞船大战”游戏设计.doc

下一篇：基于WEB的《网络路由与交换技术》课程学习网站的设计.doc

摘要：在大数据时代，人类社会的数据正以前所未有的速度增长。数据蕴含着巨大的价值，无论是对个人工作、生活，还是对企业而言，都有着很大的帮助。充分挖掘数据潜在价值，能帮助人们找到更合适的合作对象、更便宜的生活用品，也能帮助企业更好地掌握市场动向，更好地应对市场，产生新的合理的决策，有针对性地为企业日后的发展提供数据支撑。

本课题对爬虫进行了研究并且对爬虫爬取到的数据进行了分析，采用的是基于Python的Scrapy框架中的CrawlSpider类方法，该方法是根据观察知乎网站URL的规则进行爬取。通过将爬取到的数据存储到MongoDB数据库，最后使用Pandas和绘图库Matplotlib来进行数据分析，最终得到了在爬取的用户数据中计算机行业人数占比比较多等的结论。

关键词：爬虫；Python；数据分析；MongoDB；Tkinter

摘要

ABSTRACT

第一章绪论-5

1.1研究背景-5

1.2研究现状-5

1.3研究意义-5

1.4 本文组织结构-6

第二章相关技术概述-7

2.1 Requests库-7

2.2 Xpath语法-8

2.3 Selenium库-8

2.4 Scrapy框架-8

2.5 CrawlSpider类-9

2.6 MongoDB数据库-10

2.7 Tkinter界面设计-11

第三章系统分析与概要设计-12

3.1 系统可行性分析-12

3.2 系统设计分析-12

3.2.1 生成项目-13

3.2.2 定义Item-13

3.2.3定义链接提取规则-13

3.3定义个人页面的解析函数-13

3.4 使用MongoDB数据库-14

3.5 爬虫数据分析-14

3.5.1 爬虫数据分析工具-15

3.5.2 爬虫数据简单分析-15

3.6 基于Tkinter的界面设计-15

第四章系统详细设计与实现-18

4.1 界面模块-18

4.1.1 窗口模块-18

4.1.2 文本框模块-19

4.1.3 按钮模块-19

4.2 爬虫模块-20

4.2.1 生成项目-21

4.2.2 数据定义-21

4.2.3 解析函数-22

4.2.4 反爬虫-22

4.3 数据存储模块-25

4.3.1 Pipeline文件-28

4.3.2 Settings文件-28

4.4 数据分析模块-29

4.4.1 读取数据-29

4.4.2 分析数据-29

第五章总结与展望-35

5.1 总结-35

5.2 展望-36

参考文献-38

后记-39

药品销售系统的设计与实现.doc	基于Spring cloud的会议管理系统的设计与实	基于android平台下屏幕同步系统的设计与实
互联网+背景下旅游服务平台设计与实现	坦克大战游戏系统设计与实现(.NET C#语言	企业工作日志管理系统的设计与实现.do
基于Spring MVC的小区物业管理系统的设计与	基于JSP的新闻管理系统设计与实现.docx	社区生活服务管理系统的设计与开发.do
陶瓷用品在线销售系统的设计与实现.do	云南印象微信公众号的设计与实现.doc	白盒测试和黑盒测试在软件测试中的应用