本文目录导读:
泰坦尼克号,这艘被誉为“永不沉没的梦幻之船”,却在1912年4月14日撞上冰山,导致1500多人丧生,成为历史上最著名的海难之一,时至今日,泰坦尼克号沉船事件仍引发着人们的热议,本文将深入剖析泰坦尼克号数据,从预处理到可视化,揭示这场悲剧背后的真相。
数据预处理
1、数据来源
泰坦尼克号数据主要来源于多个渠道,包括历史文献、乘客名单、遇难者名单等,通过整理和筛选,我们得到了一份包含乘客、船员、遇难者、幸存者等信息的详细数据集。
图片来源于网络,如有侵权联系删除
2、数据清洗
在数据预处理阶段,我们主要进行了以下操作:
(1)去除重复数据:对乘客名单、遇难者名单等数据进行去重,确保每位乘客、遇难者、幸存者只出现一次。
(2)修正错误信息:针对部分乘客、遇难者、幸存者的姓名、年龄、性别、船舱等级等信息,进行核实和修正。
(3)缺失值处理:对于部分缺失的信息,采用插值法、均值法等方法进行填补。
3、数据整合
将乘客、船员、遇难者、幸存者等数据整合到一个数据集中,便于后续分析。
数据分析
1、乘客性别比例
通过分析乘客性别比例,我们可以发现,泰坦尼克号上的男性乘客数量明显多于女性乘客,这可能与当时的社会观念有关,即男性在社会地位和权利方面高于女性。
图片来源于网络,如有侵权联系删除
2、乘客年龄分布
从乘客年龄分布来看,泰坦尼克号上的乘客年龄跨度较大,但以中青年为主,这表明,泰坦尼克号主要服务于中产阶级和富裕阶层。
3、船舱等级与生存率
通过分析船舱等级与生存率的关系,我们可以发现,头等舱乘客的生存率明显高于三等舱乘客,这可能与船舱等级所代表的票价、座位位置、逃生通道等因素有关。
4、遇难者与幸存者关系
分析遇难者与幸存者的关系,我们可以发现,家人、朋友、恋人等亲属关系在遇难者与幸存者之间普遍存在,这进一步凸显了泰坦尼克号沉船事件对人们情感的影响。
数据可视化
1、乘客性别比例可视化
通过饼图展示泰坦尼克号上乘客的性别比例,直观地看出男性乘客数量明显多于女性乘客。
2、乘客年龄分布可视化
图片来源于网络,如有侵权联系删除
利用直方图展示乘客年龄分布,可以看出泰坦尼克号上的乘客年龄跨度较大,以中青年为主。
3、船舱等级与生存率可视化
通过柱状图展示船舱等级与生存率的关系,可以看出头等舱乘客的生存率明显高于三等舱乘客。
4、遇难者与幸存者关系可视化
利用关系图展示遇难者与幸存者之间的关系,可以看出亲属关系在遇难者与幸存者之间普遍存在。
通过对泰坦尼克号数据的预处理、分析及可视化,我们揭示了这场历史悲剧背后的真相,从乘客性别比例、年龄分布、船舱等级与生存率等方面,我们可以看到当时社会观念、阶级差异等因素对泰坦尼克号沉船事件的影响,数据可视化让我们更直观地了解泰坦尼克号事件的全貌,这为我们深入研究历史事件提供了有益的借鉴。
标签: #泰坦尼克号数据预处理
评论列表