基于Python的微博数据抓取和用户特征分析系统开发.doc

资料分类:计算机信息 上传会员:萌小月 更新时间:2020-12-26
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:18081
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:近年来,随着大数据时代的来临,在互联网这个行业中,最宝贵的资源之一就是数据,尤其在当今B2C时代,数据变得更加宝贵。海量数据蕴含着巨大的研究价值,挖掘数据在互联网行业中具有重要的意义。社交网络不断普及,社交平台覆盖面越来越广,传播速度加快,存在大量直接或间接数据,在各个垂直领域都存在对目标网站的数据进行实时抓取、分析并推送给目标用户的需求。

论文阐述了网站数据抓取(网络爬虫)的原理和组成结构,介绍了基于Python的Scrapy框架的各个组成部分和控制流程,然后以4个典型的高信息价值的网站:财经博客、本地论坛、房产网站、新浪微博作为数据来源进行数据抓取和分析,开发了专门针对这些网站的垂直数据抓取和分析的网络爬虫,将正则表达式匹配到的数据存储到MySql数据库并进行数据分析。本文分析采用正则表达式匹配算法/预定关键词进行用户特征分析,基于文本聚合进行智能分类,使用标签技术智能推送关联不同分类。最后结合最新的移动互联网技术,创新地使用了Android APP客户端技术将用户需要的信息实时推送和呈现到用户手机上。

本系统也可以较方便地拓展到其他各个行业的垂直网站,通过自动数据抓取和分析并推送到目标用户手机上,信息产生最大的价值,具有很好的应用前景。

 

关键词 Python爬虫;数据分析;用户特征分析;移动应用开发

 

目录

摘要

Abstract

1 绪论-1

 1.1 研究背景及意义-1

    1.1.1 研究的背景-1

    1.1.2 选题的来源-1

    1.1.3 研究的意义-2

 1.2 国内外研究现状-2

    1.2.1 国内的研究现状-2

    1.2.2 国外的研究现状-2

 1.3 研究的重点及技术路线-3

    1.3.1 本文研究的重点-3

    1.3.2 技术路线-3

2 开发工具和相关技术介绍-4

 2.1 开发工具简介-4

 2.2 Python简介-4

 2.3 Scrapy爬虫简介-5

 2.4 Django框架-6

 2.5 Gson解析-7

 2.6 Android开源图标库MPAndroidChart-8

3 环境搭建及安装-10

 3.1 基于Python抓取的环境搭建及安装-10

 3.2 Android环境搭建及安装-12

4 基于Python的媒体数据抓取-13

 4.1 数据抓取(网络爬虫)技术-13

 4.2 媒体数据抓取-14

 4.3 媒体数据存储-16

 4.4 本章小结-19

5 基于Python文本聚类的文本分析-20

 5.1 概述-20

 5.2 数据来源及分析目标统计-20

 5.3 数据相关性分析原理-22

 5.4 本章小结-22

6 博客数据智能分类和博主特征分析-23

 6.1 概述-23

 

 6.2 智能分类推送之财经博客-23

    6.2.1 博主头像及其他属性相关规律-23

    6.2.2 不同等级博主和回复率关系规律-23

    6.2.3 股票分析之博主偏好-24

 6.3 基于用户模型的博主行为特征分析-24

    6.3.1 博客博主行为特征模型建立-24

    6.3.2 用户行为特征分析实现-25

 6.4 基于股票类型博主分析-25

    6.4.1 基于关键词的股票流派分类库生成-26

    6.4.2 博主博文流派倾向性统计-26

 6.5 本章小结-26

7 基于Android客户端系统实现-28

 7.1 基于第三方授权登录注册管理模块-28

    7.1.1 模块功能-28

    7.1.2 界面设计-28

    7.1.3 授权实现-30

 7.2 面向行为属性的博客博主分析模块-33

    7.2.1 模块功能-33

    7.2.2 界面设计-33

    7.2.3 行为分析实现-34

 7.3 基于行为特征的论坛智能分类模块-37

    7.3.1 模块功能-37

    7.3.2 界面设计-37

    7.3.3 论坛智能分类实现-39

 7.4 面向楼盘的房产分析模块-40

    7.4.1 模块功能-40

    7.4.2 界面设计-40

    7.4.3 房产分析实现-42

 7.5 基于微侦探模式的用户特征分析模块-43

    7.5.1 模块功能-43

    7.5.2 界面设计-43

    7.5.3 用户特征分析实现-45

 7.6 面向用户个性偏好的微乐推商品推荐模块-43

    7.6.1 模块功能-43

    7.6.2 界面设计-43

    7.6.3 商品推荐-44

 7.7 个人中心模块-45

    7.7.1 模块功能-45

    7.7.2 界面设计-45

    7.7.3 个人中心-46

结论-47

致谢-48

参考文献-49

相关论文资料:
最新评论
上传会员 萌小月 对本文的描述:“大数据”正以各种方式和路径影响着企业的商业生态,它已经成为企业商业模式创新的基本时代背景。以“大数据”为中心的扩张引发行业跨界与融合;在商业模式创新的企业层面,揭示......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: