购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.2 系统设计

3.2.1 开发环境

本项目的开发及运行环境如下:

操作系统:推荐Windows 10、11及以上版本。

编程语言:R语言。

开发环境:RStudio。

第三方R包:pastecs、ggplot2、dplyr、reshape2。

3.2.2 分析流程

泰坦尼克号数据集分析实战首要任务是数据准备,了解数据集中各个字段的含义和其中的内容;然后进行数据预处理工作,包括查看数据信息和缺失值分析与处理,以确保数据质量;最后进行基本统计分析和乘客生存情况分析。

本项目分析流程如图3.1所示。

图3.1 泰坦尼克号数据集分析流程

3.2.3 功能结构

本项目的功能结构已经在章首页中给出。本项目实现的具体功能如下:

数据准备:对数据进行简单的预览,了解数据内容。

数据预处理:首先查看数据基本信息,包括行数、列数、所有列名以及数据集中每个变量的数据类型,然后分析缺失值并对缺失值进行处理。

基本统计分析:包括乘客年龄分析、乘客性别分析、不同性别乘客的年龄分布情况、不同年龄乘客亲属数量分析、船舱等级情况分析和票价分布情况。

乘客生存情况分析:包括总体生存情况分析、不同等级船舱乘客生存情况分析、各个登船港口乘客生存情况分析、性别与乘客生存情况分析、年龄和性别与乘客生存情况分析和乘客亲属数量与生存情况分析。 F0rZdRQq2Sx1rQk+WUNfYnjRa7FwZRvC3xeZZQR0/q7sgHz68N6T+eL9ni2x6XoJ

点击中间区域
呼出菜单
上一章
目录
下一章
×