泰坦尼克号数据集分析python代码，深入解析泰坦尼克号数据集，Python数据分析之旅

欧气 2024年10月19日 02:02 0 0

本代码深入解析泰坦尼克号数据集，带领您开启Python数据分析之旅。通过Python数据处理和分析，揭示历史事件的细节，让您对数据有更深刻的理解。

本文目录导读：

图片来源于网络，如有侵权联系删除

数据集简介
数据分析步骤
拓展

泰坦尼克号，一艘曾经被认为是“永不沉没”的巨轮，却在1912年的某个夜晚遭遇了灾难性的撞击，造成了1500多条生命的消逝，时至今日，这起悲剧仍然让我们感慨万分，我们将借助Python数据分析技术，对泰坦尼克号数据集进行深入解析，以期揭示事故背后的原因。

数据集简介

泰坦尼克号数据集包含712个乘客和船员的详细信息，包括年龄、性别、船舱等级、票价、是否生存等，数据集的来源是Kaggle网站，数据格式为CSV。

数据分析步骤

1、数据导入与初步处理

我们需要使用Python的pandas库导入数据集，并对数据进行初步处理。

import pandas as pd
导入数据集
data = pd.read_csv("titanic.csv")
显示数据集的前5行
print(data.head())

2、数据探索

通过观察数据集的前几行，我们可以发现以下问题：

（1）年龄列中存在许多缺失值；

（2）票价列中存在一些异常值；

泰坦尼克号数据集分析python代码，深入解析泰坦尼克号数据集，Python数据分析之旅

图片来源于网络，如有侵权联系删除

（3）性别列中存在一些非标准的表示方法（如"I"代表男性，"M"代表女性）。

针对这些问题，我们需要进行以下处理：

处理年龄列缺失值
data["Age"].fillna(data["Age"].mean(), inplace=True)
处理票价列异常值
data["Fare"] = data["Fare"].apply(lambda x: x if x > 0 else data["Fare"].mean())
处理性别列非标准表示方法
data["Sex"] = data["Sex"].replace(["I", "M"], ["male", "female"])

3、数据可视化

通过数据可视化，我们可以更直观地了解数据集的特征。

import matplotlib.pyplot as plt
性别比例图
plt.figure(figsize=(8, 6))
data["Sex"].value_counts().plot(kind="bar")
plt.title("Gender Ratio")
plt.xlabel("Gender")
plt.ylabel("Count")
plt.show()
年龄分布图
plt.figure(figsize=(8, 6))
data["Age"].plot(kind="hist", bins=30)
plt.title("Age Distribution")
plt.xlabel("Age")
plt.ylabel("Count")
plt.show()
船舱等级与生存率关系图
plt.figure(figsize=(8, 6))
survival_rate = data.groupby("Pclass")["Survived"].mean()
survival_rate.plot(kind="bar")
plt.title("Survival Rate by Pclass")
plt.xlabel("Pclass")
plt.ylabel("Survival Rate")
plt.show()

4、生存率分析

通过分析不同性别、船舱等级、年龄等因素对生存率的影响，我们可以得出以下结论：

（1）女性生存率高于男性；

（2）船舱等级越高，生存率越高；

泰坦尼克号数据集分析python代码，深入解析泰坦尼克号数据集，Python数据分析之旅

图片来源于网络，如有侵权联系删除

（3）年龄在20岁以下和60岁以上的人群生存率较高。

通过对泰坦尼克号数据集的Python数据分析，我们揭示了事故背后的原因，这起悲剧的发生，既有天灾的因素，也有人为的因素，希望我们的分析能够让我们更加珍惜生命，关注安全。