基于Sklearn库的泰坦尼克号生存预测分析.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：12266
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于Python的微信点餐小程序的设计与实现.docx

下一篇：基于SSH框架的计算机硬件选购系统的设计与实现.docx

摘要：相较于传统的数据分析，数据挖掘技术不再局限于只分析与目标问题相关性很强的数据，而是从人脑意识中感觉关联性不强的数据着手，运用当下流行的机器学习算法，更加多角度，全方位地分析和研究数据集，得出有价值的信息来指导实践。本文通过模拟的泰坦尼克号乘客与工作人员的特征数据集，可以对船员进行生存预测。此外，这项预测数据是可以为保险行业所利用的。

本文首先对数据集进行分析并进行可视化展示，再对每一个特征进行二次处理和转换，建立相应的特征工程，在此基础上，运用Sklearn库中的诸如决策树、随机森林、逻辑回归等机器学习算法完成预测。最后，我们需要选出一个最优模型。

本文以这样的一个综合型很强的案例表现出数据挖掘的强大之处，体现大数据时代必将是不可逆转的时代潮流。现如今对于购买船票大都会附带一个自愿的保险费用，而更多的人会选择视而不见。更加重要的是，我们可以通过购票时乘客提供的各项特征信息产生输入流，然后传入算法模型进行预测，得出一个结果供乘客参考。如此，乘客会对保险更加重视，在个人安全系数变相得到提升的同时，保险行业的业绩也会有肉眼可见的涨幅。

关键词：数据挖掘；泰坦尼克号乘客与工作人员；Sklearn库

摘要

Abstract

第1章前言-1

1.1 研究背景-1

1.2 国内外研究现状-1

1.3研究的目的及意义-2

第2章核心算法介绍-3

2.1 决策树算法介绍-3

2.2 随机森林算法介绍-5

2.3 逻辑回归算法介绍-6

第3章数据读取-7

3.1 读取数据-7

3.2 统计数据各项指标-7

3.3 明确数据规模与要完成任务-8

第4章特征理解分析-10

4.1 单特征分析-10

4.2多变量统计分析-12

第5章数据清洗与预处理-18

5.1 对缺失值进行填充-18

5.2 清洗有价值的特征-19

第6章建立模型-31

6.1数据集切分-31

6.2特征数据与标签准备-31

6.3 多种建模算法对比-32

第7章总结与展望-38

参考文献-39

致谢-40

XX众筹网站的设计与实现.docx	“XX网上书城”网站的设计与实现.doc	软件安全检测方法研究.doc
基于Python技术的农产品网上购物系统的设	医院住院管理系统的设计与实现.doc	图书馆用户信息平台的设计与实现.doc
卡拉OK点歌系统的设计与实现.doc	基于SSH框架的农家乐旅游系统的设计与实	XX网上花店的设计与实现.doc
基于Unity3D的ARPG游戏设计与开发.doc	家政服务管理系统设计与实现.docx	图书馆管理系统JSP+MYSQL.rar