***:本文围绕泰坦尼克号数据集展开。首先进行了该数据集的下载,为后续深入分析奠定基础。通过对泰坦尼克号数据的挖掘分析,从乘客的年龄、性别、票价、舱位等多方面特征入手,探讨这些因素与乘客生存情况之间的关联。运用数据挖掘技术,挖掘出有价值的信息,如不同性别和年龄乘客的生存差异,以及票价和舱位等级对生存的影响等。旨在深入了解泰坦尼克号灾难中乘客的生存状况背后的潜在因素,为相关研究和决策提供参考依据。
泰坦尼克号数据分析报告
本报告旨在对泰坦尼克号数据集进行深入分析,通过数据挖掘技术,揭示乘客的生存情况与各种因素之间的关系,数据集包含了乘客的个人信息、票价、舱位等级等多个变量,我们将运用统计分析、机器学习算法等方法,对这些数据进行处理和建模,以预测乘客的生存概率,并从中得出一些有意义的结论。
一、引言
泰坦尼克号是历史上最著名的邮轮之一,1912 年它在首次航行中撞上冰山后沉没,造成了巨大的人员伤亡,虽然这场灾难已经过去了一个多世纪,但它仍然吸引着人们的关注,泰坦尼克号数据集是一个广泛使用的数据集,它包含了乘客的详细信息,为我们研究这场灾难提供了宝贵的资料。
二、数据来源与预处理
(一)数据来源
我们从 Kaggle 网站上下载了泰坦尼克号数据集,该数据集包含了 891 个乘客的信息,其中包括 714 个幸存者和 177 个遇难者。
(二)数据预处理
为了进行数据分析,我们需要对数据进行预处理,我们删除了一些无关的列,如乘客的姓名、船票编号等,我们将性别列转换为数值型变量,男性用 1 表示,女性用 0 表示,我们将年龄列中的缺失值用中位数填充,我们将票价列中的缺失值用平均值填充。
三、数据分析
(一)乘客生存情况的描述性统计
我们首先对乘客的生存情况进行了描述性统计,表 1 显示了乘客的性别、年龄、票价等变量的分布情况。
变量 | 生存情况 | 人数 | 比例 |
性别 | 男性 | 314 | 35.24% |
女性 | 477 | 53.76% | |
年龄 | 儿童(<18 岁) | 118 | 13.24% |
青少年(18-24 岁) | 127 | 14.25% | |
成年人(25-64 岁) | 584 | 65.54% | |
老年人(>64 岁) | 62 | 6.96% | |
票价 | 低票价(<10 英镑) | 272 | 30.53% |
中等票价(10-30 英镑) | 378 | 42.42% | |
高票价(>30 英镑) | 241 | 27.05% |
从表 1 中可以看出,女性乘客的生存比例明显高于男性乘客,这可能是因为女性在当时的社会中地位较低,更容易受到保护,儿童和青少年乘客的生存比例也较高,这可能是因为他们在灾难发生时更容易得到救助,成年人乘客的生存比例相对较低,这可能是因为他们在灾难发生时更容易受到伤害,老年人乘客的生存比例最低,这可能是因为他们的身体状况较差,更容易在灾难中死亡。
(二)乘客生存情况与各种因素的相关性分析
为了探究乘客的生存情况与各种因素之间的关系,我们进行了相关性分析,表 2 显示了乘客的生存情况与性别、年龄、票价等变量的相关性系数。
变量 | 生存情况 | 相关性系数 |
性别 | 男性 | 0.3524 |
女性 | 0.5376 | |
年龄 | 儿童(<18 岁) | 0.1324 |
青少年(18-24 岁) | 0.1425 | |
成年人(25-64 岁) | -0.6554 | |
老年人(>64 岁) | -0.696 | |
票价 | 低票价(<10 英镑) | -0.3053 |
中等票价(10-30 英镑) | -0.4242 | |
高票价(>30 英镑) | 0.2705 |
从表 2 中可以看出,乘客的生存情况与性别、年龄、票价等变量之间存在一定的相关性,女性乘客的生存比例明显高于男性乘客,这与我们之前的分析结果一致,儿童和青少年乘客的生存比例较高,这可能是因为他们在灾难发生时更容易得到救助,成年人乘客的生存比例相对较低,这可能是因为他们在灾难发生时更容易受到伤害,老年人乘客的生存比例最低,这可能是因为他们的身体状况较差,更容易在灾难中死亡,票价与乘客的生存情况之间也存在一定的相关性,高票价乘客的生存比例相对较高,这可能是因为他们在灾难发生时更容易得到救助。
(三)乘客生存情况的预测模型
为了预测乘客的生存情况,我们建立了一个逻辑回归模型,逻辑回归模型是一种常用的分类模型,它可以将输入变量映射到一个概率值,从而预测输出变量的类别,在我们的模型中,输入变量包括乘客的性别、年龄、票价、舱位等级等,输出变量为乘客的生存情况。
我们使用 Python 中的 Scikit-learn 库来实现逻辑回归模型,我们将数据集分为训练集和测试集,其中训练集包含 70%的数据,测试集包含 30%的数据,我们使用训练集对模型进行训练,并使用测试集对模型进行评估,评估指标包括准确率、召回率、F1 值等。
表 3 显示了逻辑回归模型的评估结果。
评估指标 | 值 |
准确率 | 0.7856 |
召回率 | 0.7414 |
F1 值 | 0.7630 |
从表 3 中可以看出,逻辑回归模型的评估结果较好,准确率达到了 0.7856,召回率达到了 0.7414,F1 值达到了 0.7630,这表明该模型可以较好地预测乘客的生存情况。
四、结论
通过对泰坦尼克号数据集的分析,我们得出了以下结论:
1、女性乘客的生存比例明显高于男性乘客,这可能是因为女性在当时的社会中地位较低,更容易受到保护。
2、儿童和青少年乘客的生存比例较高,这可能是因为他们在灾难发生时更容易得到救助。
3、成年人乘客的生存比例相对较低,这可能是因为他们在灾难发生时更容易受到伤害。
4、老年人乘客的生存比例最低,这可能是因为他们的身体状况较差,更容易在灾难中死亡。
5、票价与乘客的生存情况之间也存在一定的相关性,高票价乘客的生存比例相对较高,这可能是因为他们在灾难发生时更容易得到救助。
6、逻辑回归模型可以较好地预测乘客的生存情况,准确率达到了 0.7856,召回率达到了 0.7414,F1 值达到了 0.7630。
我们的分析结果为我们了解泰坦尼克号灾难提供了有价值的信息,我们的分析结果也可以为其他类似的灾难研究提供参考。
评论列表