| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11673 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.docx) |
摘 要
近二十几年来,随着网络的高速发展,移动互联网逐渐深入民众生活,微信作为近十年来新兴的移动社交平台,在群众中的普及率极高,因此产生的数据浩如烟海,面对如此海量的数据,设计一个基于微信平台的爬虫程序显得十分有必要。
本文详细介绍了从选题、设计到实现一个爬虫聚合主题程序的过程。首先介绍了研究背景概述、国内外研究现状,紧接着介绍了研究的主题与目的,其次说明使用的技术原理和实现方案,最后评估实验结果并作出总结。
本项目通过获取网络上的文本资源,开发了一个处理文本的程序,实现对公众号文章的分类与主题聚合设计。项目主要采用了Python语言编写爬虫程序,数据存储使用了MySQL数据库。整个过程的实现主要分为以下四个步骤:爬取数据、处理数据、文章分类、聚合主题,通过寻找并考虑各技术的优缺点,选择了如下技术解决问题:TF-IDF提取文本特征,朴素贝叶斯算法对文本分类,分类后使用LDA生成文本主题。最后对实验结果作出了简单的分析,展示了原始文本经过分类及主题聚合后在手机App上的应用场景。
本项目从给定两个公众号爬取了医疗类与非医疗类的数据,经过朴素贝叶斯分类器识别出了医疗类的文本,再从这些医疗类文本中生成了五种区别明显的主题,最后将聚合主题与各主题的文本展示在App里。由训练后的准确率与召回率可知文本的分类效果良好,文本主题的重复性不高,结合手机App展示的文章列表效果来看,最终达到了目的。
关键词:爬虫,Python,数据挖掘,分类,聚类
目 录
第一章 绪论 5
1.1 研究背景 5
1.2 国内外研究现状 5
1.3 项目开发的意义与目的 6
1.4 论文的组织架构 7
第二章 网络爬虫与文本挖掘技术 7
2.1 网络爬虫 7
2.2 文本挖掘 8
第三章 微信公众号爬虫实现 11
3.1 微信公众号爬虫 11
3.2 数据清洗 11
3.3 文本分词 12
3.4 文本分类 12
3.5 实验结果与分析 12
3.5.1 准确率 13
3.5.2 精确率 13
3.5.3 召回率 13
3.5.4 不同模型对比 14
3.5.5 评估小结 14
第四章 主题聚合服务设计 14
4.1存储 14
4.2 聚类 15
4.3 应用 16
第五章 总结与展望 16
5.1 总结 16
5.2 展望 16
参考文献 17
致 谢 18 |

