购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

7.5

通过柱状图进行探索性分析数据

1.美国数据科学从业者的职位

任务目标:探索美国受访者排名前三的职位。

执行方法:创建绘图所需的数据源(按照CurrentJobTitleSelect统计其个数,并按照个数进行降序排列)。

筛选条件:CurrentJobTitleSelect不为空且为美国Kaggle的观测。

下面的代码演示了具体的实施方法:


> df_CJT_USA <- responses %>% 
filter(CurrentJobTitleSelect != '' & Country == 'United States') %>% 
group_by(CurrentJobTitleSelect) %>%
summarise(Count = n()) %>%
arrange(desc(Count)) %>% 
mutate(CurrentJobTitleSelect = case_when(CurrentJobTitleSelect == "Data Scientist" ~ "数据科学家",
                                            CurrentJobTitleSelect == "Software Developer/Software Engineer" ~ "软件开发/工程师",
                                            CurrentJobTitleSelect == "Other" ~ "其他"))
> data <- head(df_CJT_USA, 3)
> xname <- ''
> yname <- '受访者数量'
> fun1(data, reorder(data$CurrentJobTitleSelect, data$Count), data$Count, xname, yname)

可视化结果见图7-4。

图7-4 美国人数排名前三的受访者职位

2.新西兰数据科学从业者的职位

将上节中相同的逻辑应用到其他国家,比如新西兰。代码实施如下,这里依然采用了case_when和mutate搭配使用来更改数值的方法:


> df_CJT_NZ <- responses %>%
filter(CurrentJobTitleSelect != '' & Country == 'New Zealand') %>%
group_by(CurrentJobTitleSelect) %>%
summarise(Count = n()) %>%
arrange(desc(Count)) %>% 
mutate(CurrentJobTitleSelect = case_when(CurrentJobTitleSelect == "Data Scientist" ~ "数据科学家",
                                           CurrentJobTitleSelect == "Software Developer/Software Engineer" ~ "软件开发/工程师",
                                           CurrentJobTitleSelect == "Other" ~ "其他"))
    > data <- head(df_CJT_NZ, 3)
    > xname <- ''
    > yname <- '受访者数量'
    > fun1(data, reorder(data$CurrentJobTitleSelect, data$Count), data$Count, xname, yname)

可视化结果见图7-5。

图7-5 新西兰人数排名前三的受访者职位

对比图7-4和图7-5,我们可以简要得出,美国和新西兰两国的受访者职位排名前三的同为数据科学家、软件开发/工程师和其他。不过值得注意的是,因为新西兰受访人数过少,该结果可能并不准确。 nY0uKmaOroU6lmWo2j8lsozcclzdtRbIMR7NLufxCFaVISRVMHl+IaZli1gl9T5/

点击中间区域
呼出菜单
上一章
目录
下一章
×