Kaggle网站主导了历史上首次关于数据行业的调查,其希望对数据科学和机器学习行业的现状能够有一个更加完善的认识。这份调查从171个国家和地区中收到了16716份有效回复。当从一个国家或地区收到的回复少于50份时,该组数据将被列为其他,从中笔者可以了解到海量的数据从业者的信息,像是哪些人在与数据打交道,在整个行业中高精尖的机器学习都被应用到了什么地方,还有新的数据科学家如何进入数据行业从业等。
数据集是从数据竞赛平台Kaggle下载而来的,共包含两份:multipleChoiceRespo-nses.csv和schema.csv。前者是需要进行数据清洗、处理,以及可视化展示的数据;后者需要对数据集中的每个字段进行解释说明,解释各个数据集的意义。
数据集中一共包含228个变量,笔者选取了部分关键变量来进行数据处理及分析过程的演示。表7-1中展示的是16个关键变量的中文对照。
表7-1 关键数据变量中英文参照