基于微信公众号爬虫的主题聚合服务设计.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：11673
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.docx)

上一篇：基于蒙特卡洛树搜索的2048游戏AI.docx

下一篇：表格文本图像的自动识别与人机交互.docx

摘要

近二十几年来，随着网络的高速发展，移动互联网逐渐深入民众生活，微信作为近十年来新兴的移动社交平台，在群众中的普及率极高，因此产生的数据浩如烟海，面对如此海量的数据，设计一个基于微信平台的爬虫程序显得十分有必要。

本文详细介绍了从选题、设计到实现一个爬虫聚合主题程序的过程。首先介绍了研究背景概述、国内外研究现状，紧接着介绍了研究的主题与目的，其次说明使用的技术原理和实现方案，最后评估实验结果并作出总结。

本项目通过获取网络上的文本资源，开发了一个处理文本的程序，实现对公众号文章的分类与主题聚合设计。项目主要采用了Python语言编写爬虫程序，数据存储使用了MySQL数据库。整个过程的实现主要分为以下四个步骤：爬取数据、处理数据、文章分类、聚合主题，通过寻找并考虑各技术的优缺点，选择了如下技术解决问题：TF-IDF提取文本特征，朴素贝叶斯算法对文本分类，分类后使用LDA生成文本主题。最后对实验结果作出了简单的分析，展示了原始文本经过分类及主题聚合后在手机App上的应用场景。

本项目从给定两个公众号爬取了医疗类与非医疗类的数据，经过朴素贝叶斯分类器识别出了医疗类的文本，再从这些医疗类文本中生成了五种区别明显的主题，最后将聚合主题与各主题的文本展示在App里。由训练后的准确率与召回率可知文本的分类效果良好，文本主题的重复性不高，结合手机App展示的文章列表效果来看，最终达到了目的。

关键词：爬虫，Python，数据挖掘，分类，聚类

第一章绪论 5

1.1 研究背景 5

1.2 国内外研究现状 5

1.3 项目开发的意义与目的 6

1.4 论文的组织架构 7

第二章网络爬虫与文本挖掘技术 7

2.1 网络爬虫 7

2.2 文本挖掘 8

第三章微信公众号爬虫实现 11

3.1 微信公众号爬虫 11

3.2 数据清洗 11

3.3 文本分词 12

3.4 文本分类 12

3.5 实验结果与分析 12

3.5.1 准确率 13

3.5.2 精确率 13

3.5.3 召回率 13

3.5.4 不同模型对比 14

3.5.5 评估小结 14

第四章主题聚合服务设计 14

4.1存储 14

4.2 聚类 15

4.3 应用 16

第五章总结与展望 16

5.1 总结 16

5.2 展望 16

参考文献 17

致谢 18

细纱断头指示系统开发_纺织工程.doc	Excel在工资管理中的应用.doc	移动互联网时代个人信息安全探析.doc
企业生产线平衡能力分析与改进.docx	优衣库企业文化分析.docx	九阳小家电分销渠道维护技术研究.doc
融资融券对股市市场波动的影响--基于沪	校园网升级改造方案的设计与实现.doc	XX学院教学质量评估体系的构建与实践.
基于单片机控制的LED点阵图文显示屏设计	酒店顾客特征及忠诚度提升研究--以无锡	物理小故事在中学物理教学中的应用.do