大数据是伴随互联网的诞生而诞生的,维克托·迈尔·舍恩伯格在撰写的《大数据时代》一书中指出,在2000年的时候,数字存储信息只占全球数据量的1/4,另外3/4的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。但是,随着互联网的迅速扩张,数字信息量增长越来越快。该书中列举了几个对比非常强烈的例子:以天文学为例,2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动时,位于新墨西哥州的望远镜在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多;谷歌公司在2012年时每天要处理超过24PB的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。
大数据时代给人们带来的最大改变是人们不再热衷于寻找因果关系,很多的决策开始基于数据和分析做出,而并非基于经验和直觉。
图像处理领域早期的MNIST和CIFAR数据集,都只有60000个样本,随后发展出来的ImageNet包括10000000个以上的样本,数据集规模增长了3个数量级。大型数据集的诞生,使很多机器学习模型有了足够多的数据来训练出泛化性能足够好的模型。