广州二手房交易信息爬取及房价预测分析.docx

资料分类:精选论文 上传会员:螺蛳粉50g 更新时间:2024-01-31
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:15661
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:当今住房问题是每个人都需要考虑的问题,但与此同时,中介机构哄抬房价的现象也屡见不鲜。而购房者对于房价的参考也大多是仅限于不同中介机构的挂牌房价的对比,因此,研究二手房的实际成交价格是有现实意义的。

本文基于Scrapy爬虫框架,运用Python从链家网中爬取关于广州地区二手房的历史成交数据,每个成交二手房房源数据均涵盖了61个特征。由于直接爬取的数据有缺失值、异常值、类别特征等问题,故本文通过数据预处理手段对数据进行提取和清洗,将其转化为能够直接使用到模型中的数据,并且在类别特征的处理中分为两种处理方法处理成两份数据,分别作为XGBoost模型和CatBoost模型数据集。

本文利用处理好的数据分别训练XGBoost模型和CatBoost模型,并运用网格搜索交叉验证法对模型进行参数调优,然后采用4种模型评估指标对两个模型的性能进行评估。结果表明:两种模型的拟合优度均较好,但由于CatBoost模型对于类别数据由更优的处理策略,所以CatBoost模型的性能较XGBoost模型更优。本文还计算了CatBoost模型对于房价的预测值和真实值的相对误差,其相对误差在[-5%,5%]之间,这表明模型的预测结果对于不同消费水平的购房者均具备交易参考性。

 

关键词:二手房房价预测;Scrapy爬虫;CatBoost;类别特征处理

 

目录

摘要

Abstract

1、绪论-1

1.1、研究背景-1

1.2、研究意义-2

1.2.1、理论意义-2

1.2.2、实践意义-2

1.3、国内外研究现状-3

1.3.1、国外研究现状-3

1.3.2、国内研究现状-3

1.4、论文内容框架-4

1.4.1、研究内容-4

1.4.2、本文研究框架图-5

2、相关理论基础-5

2.1、爬虫框架Scrapy-5

2.2、XGBoost算法-7

2.3、CatBoost算法-8

2.4、模型评价指标-10

3、数据预处理-11

3.1、数据获取-11

3.2、数据预处理-13

3.2.1、小区数据预处理-13

3.2.2、房屋数据预处理-13

3.2.3、构造衍生变量-14

3.2.4、属性数据类型划分-14

3.2.5、分类型数据的量化-15

4、广州市二手房交易价格预测模型-16

4.1、XGBoost回归建模-16

4.1.1、模型调参-16

4.1.2、模型评价-17

4.2、CatBoost回归建模-18

4.2.1、模型调参-18

4.2.2、模型评价-19

4.3、模型对比-20

5、总结-21

参考文献-22

致谢

相关论文资料:
最新评论
上传会员 螺蛳粉50g 对本文的描述:二手房的价格逐年上涨,但是对其房屋价格的判断和评估却显得十分困难,二手房的价格受到各个方面的因素影响,并且不确定的因素也比较多,因而二手房的价格往往不能呈现传统的......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: