| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13031 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:大数据中蕴含着无数奥秘,越来越多的人都意识到大数据对自己所在行业的重要,对“大数据”逐渐产生了较高的关注度。国内的房屋租赁行业为提高房屋租赁效率及质量也逐步转向租房的海量数据的研究中。租房要考虑多种多样的因素。对租客来说,租到一个适合自己的自身条件房子至关重要。本课题研究应运而生,为广大租客提供可靠的参考信息。本课题包括四个模块:Python爬虫模块、数据预处理模块、聚类分析处理模块及分析结果可视化模块。将繁多复杂的租房数据转化为简单直观的图表信息呈现给需要的租客。 本系统在windows10的系统环境下,采用的开发工具为Eclipse+pyDev,采用Python语言编写,该课题实现的功能较为实用,可以迅速应用到现实生活中,具有较强的实际意义。 经过测试,本系统可以实现关于租房数据进行聚类分析及可视化的基本要求,对于租客而言,不用一个个具体比较,节省了时间;对于房屋中介企业,可以通过该系统对广大租客的需求进行更详尽的研究,并用于企业经济效益的创造。此外使用K-means聚类算法对本课题中爬取的房源信息进行多维度的数据分析,将更有利于完善和发展现阶段的租住房市场的房源数据分析方法,为以后的房屋租赁行业的数据分析研究提供一定的参考信息。
关键词:K-means聚类分析;数据预处理;Python爬虫;聚类结果可视化
目录 摘要 ABSTRACT 第一章 引言- 1 - 1.1课题研究背景- 1 - 1.2国内外研究现状- 1 - 1.2.1国内研究现状- 1 - 1.2.2 国外研究现状- 1 - 1.3研究意义- 2 - 第二章 相关理论综述- 3 - 2.1 Python开发语言- 3 - 2.2 K-means聚类算法- 3 - 2.3 PCA主成分分析- 4 - 2.4可视化技术- 5 - 第三章 系统设计- 6 - 3.1系统总体设计- 6 - 3.2系统详细设计- 6 - 3.2.1 Python爬虫程序设计- 6 - 3.2.2 数据预处理的设计- 7 - 3.2.3 K-means聚类算法进行数据分析的设计- 7 - 3.2.4分析结果可视化的设计- 7 - 第四章 系统实现- 8 - 4.1 Python爬虫程序的实现- 8 - 4.1.1多线程爬虫的实现- 8 - 4.1.2网页处理工具类的实现- 8 - 4.1.3 IP代理的实现- 9 - 4.1.4数据爬取及存储的实现- 9 - 4.2 数据预处理的实现- 10 - 4.3 k-means聚类算法进行数据分析的实现- 12 - 4.4分析结果可视化的实现- 14 - 第五章 系统测试- 16 - 5.1测试原则- 16 - 5.1.1 Python爬虫程序测试原则- 16 - 5.1.2 数据预处理测试原则- 16 - 5.1.3 K-means聚类分析测试原则- 16 - 5.2测试方法和过程- 17 - 5.2.1 爬虫程序测试方法及过程- 17 - 5.2.2 数据预处理及聚类分析测试方法及过程- 17 - 5.3测试结果- 17 - 第六章 总结与展望- 18 - 参考文献- 19 - 致谢- 21 - |

