基于Sklearn库的泰坦尼克号生存预测分析.docx

资料分类:计算机信息 上传会员:小七想说话 更新时间:2022-10-28
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:12266
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:相较于传统的数据分析,数据挖掘技术不再局限于只分析与目标问题相关性很强的数据,而是从人脑意识中感觉关联性不强的数据着手,运用当下流行的机器学习算法,更加多角度,全方位地分析和研究数据集,得出有价值的信息来指导实践。本文通过模拟的泰坦尼克号乘客与工作人员的特征数据集,可以对船员进行生存预测。此外,这项预测数据是可以为保险行业所利用的。

本文首先对数据集进行分析并进行可视化展示,再对每一个特征进行二次处理和转换,建立相应的特征工程,在此基础上,运用Sklearn库中的诸如决策树、随机森林、逻辑回归等机器学习算法完成预测。最后,我们需要选出一个最优模型。

本文以这样的一个综合型很强的案例表现出数据挖掘的强大之处,体现大数据时代必将是不可逆转的时代潮流。现如今对于购买船票大都会附带一个自愿的保险费用,而更多的人会选择视而不见。更加重要的是,我们可以通过购票时乘客提供的各项特征信息产生输入流,然后传入算法模型进行预测,得出一个结果供乘客参考。如此,乘客会对保险更加重视,在个人安全系数变相得到提升的同时,保险行业的业绩也会有肉眼可见的涨幅。

 

关键词:数据挖掘;泰坦尼克号乘客与工作人员;Sklearn库

 

目录

摘要

Abstract

第1章 前言-1

1.1 研究背景-1

1.2 国内外研究现状-1

1.3研究的目的及意义-2

第2章 核心算法介绍-3

2.1 决策树算法介绍-3

2.2 随机森林算法介绍-5

2.3 逻辑回归算法介绍-6

第3章 数据读取-7

3.1 读取数据-7

3.2 统计数据各项指标-7

3.3 明确数据规模与要完成任务-8

第4章 特征理解分析-10

4.1 单特征分析-10

4.2多变量统计分析-12

第5章 数据清洗与预处理-18

5.1 对缺失值进行填充-18

5.2 清洗有价值的特征-19

第6章 建立模型-31

6.1数据集切分-31

6.2特征数据与标签准备-31

6.3 多种建模算法对比-32

第7章 总结与展望-38

参考文献-39

致 谢-40

相关论文资料:
最新评论
上传会员 小七想说话 对本文的描述: 导致泰坦尼克号上这么多人遇难的原因之一是乘客和船员的救生艇数量不足。虽然幸存下来的人不排除有运气成分掺杂其中,但有一些人比其他人更有可能生存,比如妇女、儿童和上层......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: