基于K-means聚类算法数据分析的研究与应用.docx

资料分类:计算机信息 上传会员:翩翩起舞 更新时间:2022-05-09
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:13031
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:大数据中蕴含着无数奥秘,越来越多的人都意识到大数据对自己所在行业的重要,对“大数据”逐渐产生了较高的关注度。国内的房屋租赁行业为提高房屋租赁效率及质量也逐步转向租房的海量数据的研究中。租房要考虑多种多样的因素。对租客来说,租到一个适合自己的自身条件房子至关重要。本课题研究应运而生,为广大租客提供可靠的参考信息。本课题包括四个模块:Python爬虫模块、数据预处理模块、聚类分析处理模块及分析结果可视化模块。将繁多复杂的租房数据转化为简单直观的图表信息呈现给需要的租客。

本系统在windows10的系统环境下,采用的开发工具为Eclipse+pyDev,采用Python语言编写,该课题实现的功能较为实用,可以迅速应用到现实生活中,具有较强的实际意义。

经过测试,本系统可以实现关于租房数据进行聚类分析及可视化的基本要求,对于租客而言,不用一个个具体比较,节省了时间;对于房屋中介企业,可以通过该系统对广大租客的需求进行更详尽的研究,并用于企业经济效益的创造。此外使用K-means聚类算法对本课题中爬取的房源信息进行多维度的数据分析,将更有利于完善和发展现阶段的租住房市场的房源数据分析方法,为以后的房屋租赁行业的数据分析研究提供一定的参考信息。

 

关键词:K-means聚类分析;数据预处理;Python爬虫;聚类结果可视化

 

目录

摘要

ABSTRACT

第一章 引言- 1 -

1.1课题研究背景- 1 -

1.2国内外研究现状- 1 -

1.2.1国内研究现状- 1 -

1.2.2 国外研究现状- 1 -

1.3研究意义- 2 -

第二章 相关理论综述- 3 -

2.1 Python开发语言- 3 -

2.2 K-means聚类算法- 3 -

2.3 PCA主成分分析- 4 -

2.4可视化技术- 5 -

第三章 系统设计- 6 -

3.1系统总体设计- 6 -

3.2系统详细设计- 6 -

3.2.1 Python爬虫程序设计- 6 -

3.2.2 数据预处理的设计- 7 -

3.2.3 K-means聚类算法进行数据分析的设计- 7 -

3.2.4分析结果可视化的设计- 7 -

第四章 系统实现- 8 -

4.1 Python爬虫程序的实现- 8 -

4.1.1多线程爬虫的实现- 8 -

4.1.2网页处理工具类的实现- 8 -

4.1.3 IP代理的实现- 9 -

4.1.4数据爬取及存储的实现- 9 -

4.2 数据预处理的实现- 10 -

4.3 k-means聚类算法进行数据分析的实现- 12 -

4.4分析结果可视化的实现- 14 -

第五章 系统测试- 16 -

5.1测试原则- 16 -

5.1.1 Python爬虫程序测试原则- 16 -

5.1.2 数据预处理测试原则- 16 -

5.1.3 K-means聚类分析测试原则- 16 -

5.2测试方法和过程- 17 -

5.2.1 爬虫程序测试方法及过程- 17 -

5.2.2 数据预处理及聚类分析测试方法及过程- 17 -

5.3测试结果- 17 -

第六章 总结与展望- 18 -

参考文献- 19 -

致谢- 21 -

相关论文资料:
最新评论
上传会员 翩翩起舞 对本文的描述:随着时代的发展,大数据和数据分析行业爆发出了强大的潜力,而城市经济的发展和流动人口的增多,使得租房住房问题受到人们的重视,对租客来说,能够在短时间内租到一个适合自......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: