随着海量数据的产生以及人工智能技术的快速发展,大数据驱动的社会学研究工作得到了蓬勃发展。该类工作以海量数据为基础,采用数据挖掘的相关理论和方法,建立海量数据与预测对象之间的关系。在社会学研究中,如何从丰富多样的数据中抽取可量化的观测信号是长期以来面临的难题,例如从自然语言的描述文字中量化与精神健康相关的观察变量,从个体的面部表情动态中识别与认知状态相关的信号等。近年来,随着人工智能技术的不断发展和成熟,自然语言处理技术和计算机视觉技术使得深入理解文本和图像成为可能,为社会学的量化研究提供了沃土。
在自然灾害预警方面,东京大学 [35] 提出了一种基于社交媒体平台的地震实时监测系统,该系统通过推文内容迅速传递有关地震的通知。为了精确地获取有关目标事件的推文,首先使用支持向量机根据推文中的关键字、单词数和目标事件单词的上下文等特征设计分类器。随后建立事件的概率时空模型并做出一个至关重要的假设:每个推特用户都被视为传感器,每条推文都被视为感知信息。这些虚拟传感器(或称为社交传感器)种类繁多,并具有各种特征,其中某些传感器非常活跃。将推特用户视为传感器后,在拥有众多位置传感器的普适计算环境中,事件检测问题可以简化为对象检测和位置估计问题。图0-9描绘了预测的地震中心与实际地震中心的地理关系,其中黑色十字标注了地震实际发生的位置,灰色十字标注了预测的地震位置。该系统还可以用来检测台风的移动轨迹和造成的破坏情况。加州理工学院 [52] 提出了一种基于感知和策略的众包系统。首先,在各种移动设备上执行受控测试以确定噪声特性和位移检测能力。其次,根据众包中获取的不同数据类型生成智能手机加速度计等时间序列。最后,通过分析实际地震的GPS位置时间序列等真实数据,实现包括设备使用、数据处理、质量控制、地震检测、错误警报抑制、地震定位和震级确定等功能。
图0-9 预测的地震中心与实际地震中心的地理关系 [35]
大量数字化系统的建设也为社会学提供了丰富的历史数据记录。在社会治理方面,西北工业大学提出了一种基于神经网络的连续条件随机场模型以完成细粒度的犯罪预测工作 [53] 。北京大学基于出租车的GPS轨迹数据,对出租车的行驶轨迹状态进行分析,能够对驾驶员的故意绕路等不良行为进行动态识别,能够极大地规范出租车行业驾驶员的职业行为规范。针对现代城市中普遍存在的违章停车问题,前微软亚洲研究院的郑宇团队考虑违章停车与共享单车在空间上的重叠性,基于共享单车的移动轨迹构建了一个违章停车检测系统。该系统克服了传统人力检测空间覆盖小、检测实时性差等问题。通过分析共享单车的移动轨迹数据,发现潜在的违章停车路段,实现了对交通违章行为的精准定位,从而极大地提升了城市精准治理能力 [54] 。
显然,社会学研究所采用的量化分析方法逐步从案例分析、统计学模型,演变为以人工智能为核心的智能方法。同时,算法的复杂度也在不断攀升,从传统的线性模型、感知机等简单模型发展到当前的深度神经网络。典型的深度神经网络包括卷积神经网络、长短期记忆网络、图神经网络等。区别于传统的模型,深度卷积网络克服了手动特征工程所导致的时间代价高、认知偏差等问题,通过模型的自动特征学习能力和强大的拟合能力,建立输入数据和目标变量状态之间的关联。例如为了避免人工调查高昂的成本和漫长的时间开销,斯坦福大学通过深度卷积网络对5000万张Google街景图片进行分析,通过识别图像中车辆的制造厂商、型号和年份等信息对社区的收入水平、种族、教育水平和政治立场等进行估计 [55] 。另外,以深度学习模型为核心的量化评估方法还被用于对战场破坏程度的评估,借助于卷积深度神经网络对被破坏的建筑物进行识别,从而形成自动化的战场损毁程度估计。西班牙研究人员以叙利亚战争中阿勒颇市为例,分析了战争对城市建筑物的破坏情况 [56] 。如图0-10所示,红色区域表示预测正确率高的区域,绿色表示预测正确率低的区域。
图0-10 叙利亚战争中阿勒颇市的城市破坏情况估计图 [56] (详见彩插)