近年来,该领域的相关研究主要通过对在线健康社区的用户进行用户画像建模,揭示不同用户群体下用户行为的差异,并且在此基础上充分了解在线健康社区用户的信息需求以及信息行为。
盛姝等(2021)结合在线健康社区典型用户识别指标和主题分类体系,构建了用户画像概念模型,并将用户群体划分为四类角色:信息提供者、信息寻求者、信息接收者、信息分享者。信息提供者与在线健康社区交互频繁,他们会自主产生内容,且能够根据其他用户角色行为做出有效回应,如发帖、回复、主动评论以及收藏等,他们是社区内有较高威望的群体。信息寻求者在追求信息时动机较为强烈,具有鲜明的目的性,需求认知程度较高,该类用户的主要信息行为是发帖提问。信息接收者的信息需求相较于信息提供者与寻求者较为模糊,在信息需求认知较弱的情境下,偶遇并浏览信息,一般在看到能引起共鸣的信息情况下,会对信息内容进行收藏。信息分享者与信息接收者行为类似,区别在于信息分享者具有一定的目的性与动机去主动分享知识,用户参与感相较于信息接收者更强。实证结果表明,在医享网结直肠癌圈中,信息寻求者占比高达46%,信息分享者占比27%,信息接收者占比23%,信息提供者占比4%。用户数量分布结果表明,信息搜索及浏览行为占比较高,社区运营人员应关注网站服务质量、增强信息服务效率,使得用户能够快速找到自身所需的信息,从而提升用户网络留存黏性。吴江和周露莎(2017)对在线健康社区中的用户知识互动行为进行了类似研究,通过挖掘用户特征和主题特征来分析不同用户群体的活跃时长差异和不同主题的关注度差异,为社区知识分享的可持续发展提供建议。
吴江等(2017)设计了一个中文用户文本挖掘流程,实现了在线健康社区的用户文本分类及用户聚类。首先采集了甜蜜家园论坛上用户发帖或回帖的内容,完成数据预处理工作后,用LDA等文本分析技术进行特征提取,结合基本特征向量和人工标注结果形成分类模型,最后采用K-means聚类算法,得到甜蜜家园的4类用户:第一类是信息需求者,该类用户发表的内容主要是寻求信息支持;第二类是信息分享者,他们在在线健康社区上的行为主要是分享信息、提供信息帮助;第三类是社区陪伴者,他们经常在社区中活动,以分享生活、娱乐聊天以及交友陪伴为主;第四类是社区散步者,他们在在线健康社区中没有明确目的,以“散步”的心态参与社区交流。
张海涛等(2018)从用户行为、用户角色、用户需求三个维度出发,构建用户细分标签概念格,然后进行群体用户聚类并对各个群体的用户画像进行描述,进一步分析不同群体用户在不同情境下的用户行为规律。爬取医享网糖尿病圈所有用户的信息以及用户发帖主题及其评论数,基于概念格将用户分为三类群体:关注疾病预防信息的群体、用户圈职位为圈友的群体和关注疾病管理信息的群体。关注疾病预防信息的群体的标签包括治疗、疾病预防、病因及病理知识、信息浏览者等,其标签数量是三个类别中最少的,说明用户参与行为较少;用户圈职位为圈友的群体的标签包括治疗、圈友、老年、信息搜索者、男、病因及病理知识、并发症、信息浏览者等,用户以老年男性居多,用户认知水平较高,多数为信息搜索者,该用户群体分享经验和提供问题答案的行为较少,更倾向于通过追踪、搜索等方式获得相关信息;关注疾病管理信息的群体的标签包括疾病管理、社会生活、信息搜索者、男、信息提供者、并发症、管理者、中年等,群体中的用户以中年男性居多,且部分用户身份为管理者,用户的认知水平普遍较高,多数为信息提供者,善于通过搜索、追踪获取所需信息,乐于参与社区交互,经常通过发帖、评论的方式分享知识经验,并且帖子具有较高的人气,在社区中处于核心领导地位。
许云红等(2020)从增长模型(Growth Model)的视角探究不同级别用户的发帖行为规律。选取甜蜜家园为研究平台,依据用户在甜蜜家园的社区等级,将用户划分为三类:初级组、中级组和高级组。在采集到5981名用户的数据后,为每一名用户设定相应的级别,然后研究不同级别用户的参与行为模式。研究结果表明,不同组别的用户其参与行为模型分布存在差异,初级组和高级组的用户群体的发帖数增长模型的分布规律基本相同,发帖数增长模型属于波动模型的用户占大多数,其次为属于正态模型的用户,属于阻尼指数模型的用户占比最少;在中级组的用户群体中,发帖数增长模型属于波动模型的用户也占了大多数,但属于阻尼指数模型的用户占比却高于属于正态模型的用户。此外,用户积分、活跃度、好友平均隐私数、好友平均发帖数、空间访问量、好友数这些变量均有可能对用户发帖数增长模型的类别产生影响,而且对于初级组、中级组和高级组用户,这些变量的显著性和影响程度均有差异。
目前,多数在线健康社区仍存在用户黏性不高、用户容易流失的情况(王若佳等,2022)。预测用户流失可以帮助管理者及时制定合理的措施,以提高用户留存率,当前主要应用于电信服务(Droftina et al.,2015)、社交网站(徐孝娟等,2017)、游戏行业(Musta et al.,2022)等。针对在线健康领域,王若佳等(2022)提出了一种基于用户画像的用户流失实时预测方法,在构建在线健康社区用户的多维度画像标签体系的基础上,通过聚类分析、文本挖掘等方法确定每个标签指标的计算公式,并基于可视化技术展现用户画像结果,然后采取滑动窗口方法,标注用户在不同时段上的流失情况,将多维用户画像标签作为模型输入,建立并比较多种机器学习模型的预测效果。采集华夏中医论坛上的用户数据后,将用户分为5种类型,分别是沉没用户、边缘用户、权威用户、活跃回帖用户和活跃发帖用户。在线健康社区的管理者基于用户流失预测模型可在早期阶段识别出即将流失的用户,以便于及时采取措施留住用户。
从2019年年底开始,新冠肺炎疫情大范围暴发,各个国家突发公共卫生事件管控能力都面临着巨大的考验,越来越多的人开始从在线健康社区中获取相关健康知识。在大规模公共卫生事件爆发的环境下,构建用户画像能够更有效地识别用户需求和用户行为,一定程度上帮助识别疫情风险。
王帅(2022)以COVID-19为例,结合多个在线健康社区(如丁香园、好大夫在线等传染病板块)的数据特点,从用户基本特征、用户兴趣主题、情感倾向、用户问诊需求和用户交互网络角色5个角度出发构建画像标签,并利用DBSCAN聚类实现用户画像,根据画像结果呈现用户概貌,利用AP算法在画像基础上实现用户分群,得到5种用户类群:患者、疑似患者、医师、奉献者以及社区管理员,最后通过社会网络分析找到最具疫情风险发现价值的用户类群。研究结果表明,对奉献者进行观测有利于感知和提前捕获疫情风险,而对疑似患者进行监测则有助于确定疫情风险事件。
钱旦敏等(2022)基于TOPSIS熵权法构建了帖子热度评价模型,并运用用户画像定义用户角色,以充分了解公共卫生事件下的用户需求。以丁香园论坛中与新冠肺炎疫情相关的最新数据为研究对象,从用户行为属性、自然属性、角色属性三个维度,利用用户画像将用户分为高影响力用户、专业型用户、长期用户、高产量用户、高潜力用户、机构类用户、强互动型用户7大类。高影响力用户主要是丁香园的官方号,用户角色为信息浏览者和信息提供者,该类用户专栏/专题数、粉丝数、帖子被浏览量、被收藏数高;专业型用户的社会身份以医学生、医师、医疗行业从业者为主,聚集了90%左右的信息浏览者和信息分享者,用户行为处于低水平,且用户黏性低;长期用户的用户等级均高于普通用户,聚集了大量的版主/荣誉版主等级的用户,50%用户为医师、医疗行业从业者,60%为信息提供者,其用户行为数据均处于中上水平,即为长期使用丁香园的用户;高产量用户的用户等级、认证信息和论坛信息分布较为均匀,用户角色主要为信息分享者和信息提供者,其发帖量、被浏览量居7类之首,说明这类用户以发布信息和信息交流为主;高潜力用户的用户等级为空值,论坛信息以版主为主,角色信息以不典型用户为主,其专栏数、粉丝数较高;机构类用户以机构为主,其用户行为处于低水平,用户黏性低;强互动型用户的身份等级主要为空值,无机构号和官方号,其回帖数、关注数、获赞数居7类之首,其他行为数据也在较高水平。