根据信息的来源不同,在线健康社区的信息可以分为两大类。一类信息来源于平台的健康信息服务,主要是专业医生提供的在线咨询和在线问诊。学者们致力于研究平台如何将健康信息更好地进行组织、导航、匹配和推荐,以及影响用户信息采纳的因素。另一类信息来源于社区的讨论模块,多为普通用户的发帖和讨论,也就是用户生成内容(UGC)。学者们对此类信息的研究主要是对用户生成内容(UGC)的主题和情感表达进行分析。此外,信息带来的价值以及对信息的评价也是学者们较为热衷的研究主题。围绕在线健康的信息研究,主要包括信息组织与导航研究、信息匹配与推荐研究、信息采纳研究以及信息价值及其评价研究等几个方面。
由于医学健康信息资源的庞大和医学知识的复杂,对于非医学专业人员来说,很难在在线健康社区中进行高效快速的检索。而且,由于医学专业词汇和普通人用词之间的差异,用户根据自身知识和经验进行检索时,容易产生对专业词语的曲解,导致其难以有效检索、获取和正确理解健康信息所包含的内容。当前网络社区中的资源导航体系较为简单,普遍存在维度少、层级浅、静态化和资源覆盖率低的问题。以有问必答网为例,网站以科室分类,科室分类下以全部问题、悬赏问题、已解决问题、待解决问题、零回答问题进行分区。这种导航方式,并不能满足用户渐进式、个性化和针对性的信息搜寻需求(翟姗姗等,2020)。因此,如何将平台中的健康信息组织起来,提升用户对于在线健康信息的利用效率,改善社区内的导航方式,是该领域内较为热门和亟待解决的问题。信息组织(Information Organizations)是将信息从无序变为有序、系统的过程(娄策群等,2009),在线健康社区中,建立分面式导航体系是信息组织的一个热点。
分面式导航体系(Faceted Navigation System)又叫分面查询或分面检索,按照“分面—亚面—类目”的规则排列,方便用户缩小、扩大查询范围或改变查询方向,满足用户交互式和探索式的检索行为(邱明辉,2018)。其核心是对用户当前情景下的需求进行细化,从多个维度选定若干导航主题以引导用户进一步筛选资源。分面式导航体系有两大特点:一是导航结构具有多维语义分类;二是导航结果动态变化,只保留最近查询结果的维度(何超等,2011)。由于分面式导航体系具有动态性和交互性的特点,能够引导用户渐进地对社区资源进行探索(Dellit and Boston,2007),并且在电子商务网站中广泛应用,因此很多学者尝试将分面检索应用到在线健康社区的导航体系建设中。陈果等(2017)根据在线健康社区用户和用户生成内容(UGC)资源的特点,实现概念关联,融合知识库,并针对丁香园心血管论坛构建了分面式导航体系,实现了相应的原型系统。张鑫和王丹(2017)从在线健康信息搜寻任务的角度出发,认为用户在线健康信息查询可从通用切面和属性特征两个维度进行分类,并构建了一个分面分类理论模型。翟姗姗等(2020)从UGC的角度,通过用户对健康信息的关注主题与网络健康信息质量评价提取分面基本框架,结合“CMesh主题词表+知识库+电子病历”确定各分面焦点词,提出了一种分面体系构建方案。此后翟姗姗等(2021)又将知识图谱和分面检索结合,以百度贴吧的自闭症吧为研究对象,构建基于医学知识图谱的慢性病在线医疗社区分面检索模型。
除了分面检索以外,标签的简单性和便于理解的特点使其成为最具实用性的资源描述和检索工具之一,在各种检索系统中发挥着重要的作用。在线健康社区中,标签可以简洁地描述医生特征,帮助患者在短时间内了解医生的特征和其他患者对医生的评价。国外学者就标签和医疗的研究证明,标签可以帮助患者快速了解医疗资源(Chawda and Mahalle,2017),迅速理解医疗诊断信息(Qassimi et al.,2018)。在标签的应用中,标签稀疏是制约相关应用深入的一个关键因素,平台中的医生尤其是新注册的医生常存在标签稀疏的问题。因此,平台需要寻找出一个更合适的医生标注方法。医生标注可以理解为患者在接收到与医生有关的相关信息后,通过对信息的理解与加工处理,输出相应的标签来描述医生特征的一种行为(叶佳鑫等,2020)。叶佳鑫等(2020)利用Word2vec词向量模型以医生的特征为基础对医生进行标注,并对比了医生咨询文本、文章标题、医生咨询范围三种文本的准确性。他们发现,基于咨询范围和混合不同文本得到的标签具有更高的准确性,基于咨询文本产生的标签与患者的即时需求联系紧密,基于文章标题产生的标签与医生兴趣有较强联系。
如何将已有的信息或信息资源推送给用户,实现资源利用最大化,也是在线健康社区中的一大课题。具体而言,可以分为信息推荐、好友推荐以及专家推荐。
(1)信息推荐
在不同的场景下,用户有着不同的信息需求。用户典型的信息需求场景可以分为社区首页、用户个人主页和信息详情页三种(翟姗姗等,2021)。在社区首页场景下,用户有较强的探索新主题信息的欲望;个人主页场景下的用户会更加关注与自身兴趣、偏好相关的信息;信息详情页场景下的用户更需要与当前信息主题相关的内容。每一个场景下都可以从多个角度进行信息推荐(翟姗姗等,2021)。Kim等(2014)认为现有信息推荐系统仅利用了用户直接输入的信息和平台的使用记录,缺少对用户偏好和背景信息的利用,并提出了基于上下文感知的协同过滤方法对用户进行信息推荐的方式。Naderi等(2020)则是基于概念的相似度进行计算分析,通过比较问题和答案之间的话题内和话题间的相似度,实现信息的自动推荐功能。当前,对于信息精准推荐,最常见的方法是用户画像。平台依托聚集的海量数据,提炼用户属性和构建用户画像,是精准化推荐和服务的前提(马费成和周利琴,2018)。滕春娥和何春雨(2021)提出了完整的用户画像标签体系,可以满足信息精准推荐的需求。
(2)好友推荐
通过在留言板发布和回复消息,用户之间形成了广泛的社交网络。这不仅为用户提供了信息支持,更成为用户进行情感宣泄和情感交流的重要渠道,满足了用户的情感需求。以往的信息挖掘发现,人们通常倾向于与有相似经历的人群沟通,并接受他们的建议(刘冰等,2019)。也有证据表明,用户可以从与同伴的互动中受益,包括医疗决策、症状诊断和副作用管理等(Wicks et al.,2010)。社区中同龄人所产生的社会影响,比用户亲密社交群体中熟悉的其他人产生的影响更强(Yan et al.,2019)。因此,根据用户的相似性进行好友推荐,有利于新关系的建立,从而促进社区活跃度提升。总的来看,当前流行的用户推荐方法主要包括相似度计算、机器学习法、社交网络或几种方法的混合(Yang and Gao,2021)。Wang 等(2015)提出了一种基于语义的朋友推荐系统,该系统基于用户的生活方式向用户推荐朋友。但由于在线健康社区中的社交属性低于其他一般社交媒体,随着用户健康状况的改善或者需求的解决,用户会渐渐淡出对健康社区的使用,因此围绕在线健康社区的用户推荐的研究数量较少。Yang和Gao(2021)利用OHCs中发现的各种社会信息,包括用户生成内容(UGC)、用户配置文件和用户交互记录,构建了隐式用户行为网络和用户影响关系网络,提出了一种利用引入UIR网络的自适应矩阵分解(MF)模型的用户推荐方法。
(3)专家推荐
许多在线健康社区,如好大夫在线平台,提供了专家在线解答和远程问诊的功能。在这种模式下,患者在线上实现医生的选择和问题的咨询,节省了线下就诊的时间。但巨大的信息负载极大地提高了患者的决策成本,患者需要根据医生能力、专业背景、好评率等各类信息进行严格的筛选。这就造成了用户需要逐层逐个地浏览医生主页,既耗时又烦琐,如遇到医院科室划分不一致的情形时,还会造成选择偏差和选择疏漏。根据这样的现状,学者们试图运用不同的方法基于患者的医疗需求和医生的背景信息进行匹配,从而提高患者就医决策的效率。Huang等(2012)利用AHP层次分析法对构建的多层次医生能力结构进行评价,形成医生推荐列表。刘通(2018)利用医生的在线咨询业务记录和患者的问询文本,通过LDA主题模型和聚类进行相似度计算,为患者推荐专业匹配度较高的医生。高山等(2016)提出一种融合多种用户行为的协同过滤推荐算法,将基于项目的协同过滤推荐和基于用户的协同过滤推荐融合,表达用户的就医偏好,提高医生推荐质量。Naderi等(2020)通过专家画像、问题分析和信息匹配三个步骤,自动将健康问题分配给相关领域专家。熊回香等(2020)的思路是首先根据患者咨询文本,通过Word2vec模型和余弦相似度计算患者与患者之间的相似度,再根据相似患者的就医记录形成基于相似患者的推荐集。同时,运用同样的方法对医生被咨询文本进行处理,计算出医生与医生之间的相似度。融合基于相似患者的推荐集和基于相似医生的推荐集,综合实现医生推荐,从医生和患者两个角度实现更好的推荐效果。孟秋晴和熊回香(2021)则延续了之前的研究,运用LDA主题模型从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合。
在线健康社区中包含了大量的信息,包括平台推荐信息和用户产生信息,例如医生对于用户的回答以及众多匿名用户产生的信息。用户是否愿意采纳在线健康社区中的信息,以及更倾向于采纳什么样的信息,一直是众多学者关注的重点。Davis(1985)运用理性行为理论(Theory of Reasoned Action,TRA)提出了技术接受模型(Technology Acceptance Model,TAM),用来解释人们对计算机广泛接受的影响因素。他提出了两个主要的决定因素:感知有用性(Perceived Usefulness)和感知易用性(Perceived Ease of Use)。在此基础上,Sussman和Siegal(2003)提出了信息采纳模型(Information Acceptance Model,IAM)来解释人们如何处理接收到的信息。信息采纳模型认为信息本身的质量和信息来源的可信性影响了信息的感知有用性,从而影响了人们的信息采纳行为。此后学者们在该模型的基础上进行了进一步的完善。Liu和Kong(2021)利用信息采纳模型探讨了什么样的信息更容易被用户喜欢和采纳。他们发现,在线心理健康社区的用户更关注社会经验和情感表达的话题。同时,他们也关注到了非语言信息。精细加工可能性模型(Elaboration Likelihood Model,ELM)逐渐被应用到信息采纳意愿的研究中,张星等(2015)基于精细加工可能性模型,建立了研究在线信息可信性的影响因素模型,中心路径包括论据质量和信息完整性,外围路径包括来源可信性、表达质量和信息一致性,此外,用户自我效能即用户处理健康信息的能力也会影响对信息的评价。Zhou(2022)也基于ELM展开研究,认为中心路径包括论点质量和共享语言,外围路径包括来源可信性和情感支持。Liu等(2019)则从文本分析的角度出发,将从答案和问题中提取的特征表示为文本特征,将患者年龄、医生回答长度、回答顺序等表示为数字特征,结合文本特征和数字特征搭建了接受度预测模型。金恒江和聂静虹(2021)的研究则表明,除了由外部因素引起的影响,用户自身的社会临场感和对健康隐私的关注也影响了用户的满意度,从而影响用户信息采纳的意愿。
用户对于信息采纳呈现出怎样的路径呢?Ni等(2023)以百度贴吧的自闭症吧中较为热点的话题“饮食干预”为例,总结出在线健康社区中信息采纳的过程可以分为五个阶段。第一阶段为关注,用户第一次接触该信息;第二阶段为说服,用户对该信息产生兴趣,并开始主动收集相关信息进行了解;第三阶段为决策,用户决定是否采纳该信息;第四阶段是执行,用户实施信息内容;第五阶段是反馈,用户对信息实施后的效果进行反馈,如果有效会向其他人推荐。文章还发现,用户与知识领袖的互动显著影响了用户的信息采纳水平,甚至会跨越信息采纳的阶段。当然,并不是在线健康社区中的所有优秀的答案都会被采纳,Lin等(2021)用机器学习的方法试图在没有标记接受的答案中选择高质量的答案。
健康信息对用户身心健康的影响有着远超一般性信息的重要性。在线健康社区是健康信息的主要载体之一,是用户获取健康信息的主要来源之一,其质量和内容直接影响用户的信息搜寻体验和健康素养水平(邓胜利和赵海平,2017)。因此,了解信息的价值,从用户角度对信息服务质量进行评价,一方面便于用户甄别健康医疗信息,另一方面也为在线健康社区提升信息服务能力提供了一定的借鉴。
信息服务质量是指用户在接受信息服务过程中的感受,对信息服务结果效用的综合认识,以及与其对服务的期望相比较的结果(Chen,2001)。20世纪80年代末,Parasuraman等(1988)提出服务质量的评价方法,即服务质量差距理论(SERVQUAL)。他们认为服务质量等于用户感受到的服务水平和用户所期望的服务水平之差,并从有形性、可靠性、响应效率、保证性和移情性这五个层面来衡量用户的感受。在此基础上,他们又提出了e-SERVQUAL量表,用来衡量用户对于网络信息服务质量的关注,其核心指标由效率、可靠性、完成性和隐私性组成。Barry(1994)提出准确性、及时性、特异性、地理接近性、可信度、可获得性、可证实性、表达清晰、动态性、外观质量这10个网络信息质量的评价指标,构建了用户自生成的网络信息质量评价指标体系。Eysenbach等(2002)把信息服务质量标准分为5类,分别为技术、设计、可读性、准确性和全面性。张珍连(2005)对SERVQUAL模型进行了改善,从可获得性、服务的影响和信息环境三个层面搭建网络信息服务质量评价指标体系。
随着在线健康社区的兴起,学者将信息质量评价和在线健康社区的特点相结合,提出了更加完善的指标,并对现有在线健康网站的信息价值进行评价。如邓胜利和赵海平(2017)分别从内容和设计两个角度确定了内容的准确性、权威性、有用性、及时性、界面设计、易用性和交互性等评价指标。Shahar等(2013)对400个与癌症预防相关的健康营养信息网站的信息质量和准确性进行评估,发现超过一半的网站具有较低的信息质量。就此信息价值主题,本书后续将进行更加详细的探讨。
在线健康社区的用户为社区贡献了很大一部分信息。对这些信息进行提取和主题挖掘能够帮助平台了解用户的信息需求、诊断需求和情感需求。不同的在线健康社区往往呈现不同的信息特征。金碧漪和许鑫(2015)发现论坛类社区和社会化问答社区虽然在主题上大致相同,但论坛类社区偏重于“诊断和检查”,而社会化问答社区更偏重于“社会生活”。Sanders等(2020)比较了专家平台(Expert-generated)和同伴平台(Peer-generated)在信息主题上的区别,发现专家平台通常包括以认知需求为重点的信息支持和相关社会支持主题,而同伴平台通常包括以情感需求为重点的情感支持和相关社会支持主题。
就研究方法而言,在对在线社区的文本进行主题挖掘时,初期的研究主要以词频统计(Park et al.,2014)为主。近年来,LDA(Latent Dirichlet Allocation)主题模型应用得较为广泛(Saha et al.,2016; 李重阳等,2016;Zhao et al.,2019;于本海和卢畅,2022)。也有学者在LDA方法上进一步发展,以提高主题挖掘的精确性。Liu等(2018)考虑医学词汇的分布特征和非标准在线短文本的语境,提出MS-LDA模型;Wang 等(2021)结合词汇意义共线分析提出CL-LDA模型。聚类算法(Lu et al.,2013;Park et al.,2018)和机器学习(Zhang et al.,2017;廖开际等,2021)是另外两种较为主流的文本挖掘方法。就研究对象而言,学者们视角广阔,关注各类在线健康社区。过去的研究大多围绕特殊的弱势群体社区展开,如母婴社区(Wexler et al.,2020;Xie et al.,2021)、抑郁症社区(Feldhege et al.,2020)、老年人社区等(Qian and Gui,2021)。就此类主题,本书后续会进行更加详细的探讨。