| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:12266 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:相较于传统的数据分析,数据挖掘技术不再局限于只分析与目标问题相关性很强的数据,而是从人脑意识中感觉关联性不强的数据着手,运用当下流行的机器学习算法,更加多角度,全方位地分析和研究数据集,得出有价值的信息来指导实践。本文通过模拟的泰坦尼克号乘客与工作人员的特征数据集,可以对船员进行生存预测。此外,这项预测数据是可以为保险行业所利用的。 本文首先对数据集进行分析并进行可视化展示,再对每一个特征进行二次处理和转换,建立相应的特征工程,在此基础上,运用Sklearn库中的诸如决策树、随机森林、逻辑回归等机器学习算法完成预测。最后,我们需要选出一个最优模型。 本文以这样的一个综合型很强的案例表现出数据挖掘的强大之处,体现大数据时代必将是不可逆转的时代潮流。现如今对于购买船票大都会附带一个自愿的保险费用,而更多的人会选择视而不见。更加重要的是,我们可以通过购票时乘客提供的各项特征信息产生输入流,然后传入算法模型进行预测,得出一个结果供乘客参考。如此,乘客会对保险更加重视,在个人安全系数变相得到提升的同时,保险行业的业绩也会有肉眼可见的涨幅。
关键词:数据挖掘;泰坦尼克号乘客与工作人员;Sklearn库
目录 摘要 Abstract 第1章 前言-1 1.1 研究背景-1 1.2 国内外研究现状-1 1.3研究的目的及意义-2 第2章 核心算法介绍-3 2.1 决策树算法介绍-3 2.2 随机森林算法介绍-5 2.3 逻辑回归算法介绍-6 第3章 数据读取-7 3.1 读取数据-7 3.2 统计数据各项指标-7 3.3 明确数据规模与要完成任务-8 第4章 特征理解分析-10 4.1 单特征分析-10 4.2多变量统计分析-12 第5章 数据清洗与预处理-18 5.1 对缺失值进行填充-18 5.2 清洗有价值的特征-19 第6章 建立模型-31 6.1数据集切分-31 6.2特征数据与标签准备-31 6.3 多种建模算法对比-32 第7章 总结与展望-38 参考文献-39 致 谢-40 |

