笔者演示如下示例代码的目的为:探索美国数据科学从业者未来将会学习的机器学习工具。具体的数据处理与分析逻辑同7.5节,区别仅在于将变量更改为MLToolNext-YearSelect。示例代码具体如下:
> df_MLT_USA <- responses %>% # 筛选出MLToolNextYearSelect不为空且为美国Kaggle的观测。 filter(MLToolNextYearSelect != '' & Country == 'United States') %>% group_by(MLToolNextYearSelect) %>% summarise(Count = n()) %>% arrange(desc(Count)) > data <- head(df_MLT_USA, 3) > xname <- '机器学习语言' > yname <- '人数' > fun1(data, reorder(data$MLToolNextYearSelect, data$Count), data$Count, xname, yname)
图7-6显示了可视化结果。
图7-6 美国受访者中排名前三的机器学习工具
逻辑同上节美国的示例代码,具体代码演示如下:
>df_MLT_NZ <- responses %>% # 筛选出MLToolNextYearSelect不为空且为新西兰Kaggle的观测。 filter(MLToolNextYearSelect != '' & Country == 'New Zealand') %>% group_by(MLToolNextYearSelect) %>% summarise(Count = n()) %>% arrange(desc(Count)) > data <- head(df_MLT_NZ, 3) > xname <- '机器学习语言' > yname <- '人数' > fun1(data, reorder(data$MLToolNextYearSelect, data$Count), data$Count, xname, yname)
上述代码可视化结果如图7-7所示。
图7-7 新西兰受访者中排名前三的机器学习工具
对比图7-7和图7-8,我们可以得出如下两点结论。
1)美国受访者未来将会学习的最热门的工具是TensorFlow、Python和Spark/Millib。
2)新西兰受访者希望学习的工具则为TensorFlow、R和Python。笔者猜测之所以R会成为新西兰第二热门的工具,很大原因可能是因为R诞生于新西兰的奥克兰大学,相较于美国,R在新西兰有比较良好的群众基础。