敦煌医学内科方药化学生物信息学研究：脾肺篇最新章节_刘永琦著

第二节　中医药化学生物信息学常用分析方法

一、构建中药性味归经网络

（一）基本原理

中药的性能是指中药药味的性味和功能，即中药的药性理论。中药归经理论是中药药性理论的核心内容，是中医理论体系中的重要组成部分。中药归经即中药作用的定位，主要是以脏腑经络理论为基础，把中药的作用与人体脏腑经络联系起来，以说明药物作用对机体某部分的选择性，从而为临床应用提供依据。中药复方性味归经网络的构建，系统展示了中药复方中各中药的性味归经交互网络，可直观地分析中药药味的性味和功能。

（二）主要方法

通过查阅2020年版《中国药典》，收集每味中药的归经信息，利用集成生物分子相互作用网络的通用建模环境，构建中药性味归经网络。

（三）在Cytoscape软件中的实现

Cytoscape3.7.2软件构建中药性味归经网络的步骤：①打开Cytoscape3.7.2软件，导入中药与其对应的性味归经数据。②在“Select”栏目中点击“Column Filter”，设置“Node”为“Type”。基于交互网络图，分析中药复方中各中药的性味归经交互网络关系。

二、收集中药化合物成分

（一）基本原理

中医药现代化是打开中医药文化宝库的钥匙。中医药现代化首要的任务是明确中医药发挥疗效的物质基础，就是明晰中药中含有的化合物及结构，将药理作用与化合物对应性分析（详见第六篇）。从宏观到微观来看，结构决定性质这是普遍规律，所有药物发挥功效根源于其物质基础——药物内含有特定结构的化合物。同样，中医药发挥疗效，本质上是其成分中具有特定结构的化合物在人体中一系列反应所致。

（二）主要方法

1.基于对研究型文献的调研，进行中药化合物成分收集。

2.基于中药化合物成分数据库收集，常用中药化合物成分数据库，见表3-1。

表3-1　常用中药化合物成分数据库

续表

（三）在TCMSP数据库中的实现

中药系统药理学数据库与分析平台（Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform，TCMSP）收集了中药化合物成分的名字以及一些理化性质，例如分子量、脂水分布系数、口服生物利用度、类药性以及半衰期等参数。检索及下载操作：①打开网站，在“Herb name”方框中输入中药名称，进行检索。②点击药味的“Latin name”，即进入药味详细页面。③根据具体工作设置口服生物利用度（OB）、类药性（DL）等参数，进行成分筛选。④点击“Save”进行化合物下载。

三、预测中药化合物靶点

（一）基本原理

1.基于化学相似性搜索的靶点预测

化学相似性搜索的理论依据是结构或物理化学性质相似的小分子化合物可作用于性质相同或相近的靶点。因此，可通过比较查询分子与已知靶点活性分子的结构或物理化学性质来预测查询分子的潜在作用靶点。

2.基于反向药效团搜索的靶点预测

反向药效团搜索是指通过预先构建好含有多个药效团模型的药效团数据库，再用单个查询分子去反向匹配，最终寻找与查询结构匹配较好的靶点。

（二）主要方法

基于数据库平台检索，常用化合物靶点预测数据库，见表3-2。

表3-2　常用化合物靶点预测数据库

（三）在SwissTargetPrediction数据库中的实现

SwissTargetPrediction数据库是基于与已知化合物的二维和三维结构的相似性来预测化合物的靶标。操作：①打开网站主页。②在“Select a species”处选择物种“Homo sapiens”。③粘贴化合物的SMILES号。④点击“Predict Targets”进行靶标预测，收集probability＞0的靶点。

四、收集疾病相关基因

（一）基本原理

疾病是机体在一定条件下，受病因损害作用后，因自稳调节紊乱而发生的异常生命活动过程。生物学上将能够与药物分子结合并产生药理效应的生物大分子统称为药物作用的生物靶点，主要包括受体、酶、离子通道和核酸等。靶向药物是以参与疾病发生发展过程的重要分子作为靶点，通过抑制或阻断该靶点，而发挥治疗疾病作用的药物。

（二）主要方法

主要基于数据库平台获取，常用数据库，见表3-3。

表3-3　常用疾病靶点检索数据库

（三）在DrugBank数据库中的实现

DrugBank数据库是一个整合了生物信息学和化学信息学资源，并提供详细的药物数据与药物靶标信息及其机制的全面分子信息，包括药物化学、药理学、ADMET及其相互作用信息的综合性药物数据库。具体操作方法：在Drugbank数据库的“Keywords”栏目中输入疾病英文名称，选中“Targets”点击搜索，将搜索结果进行整理，完成在Drugbank数据库中的查询。

五、分析疾病差异表达基因

（一）基本原理

基因芯片是一种高效、高通量获取生物信息的技术，能检测和分析疾病组织与正常组织的差异表达基因。基因表达综合数据库（Gene Expression Omnibus，GEO）提供了大量和疾病相关的表达谱信息。差异表达基因可用于研究疾病机理或作为早期诊断的临床生物标记物。利用基因芯片数据筛选疾病差异表达基因，并对差异基因进行生物信息学分析，预测和筛选出适合作为疾病早期诊断的分子标志物和免疫治疗的潜在分子靶点，为进一步基础研究提供理论依据。

（二）主要方法

主要基于数据库平台获取，常用数据库，见表3-4。

表3-4　常用疾病差异表达基因检索数据库

（三）在GEO数据库中的实现

在NCBI的GEO数据库下载GEO数据集。对得到的芯片数据中的每个样本探针表达值使用R语言“affy”包，进行背景校正归一化处理。对照组和空白组中每个表达值通过“limma”包进行 t 检验。利用venn图获得两个数据集中共同出现的差异表达基因名称。

六、分析蛋白质-蛋白质相互作用网络

（一）基本原理

细胞生命依赖于生物分子之间复杂的功能关联网络。在这些关联中，因蛋白质-蛋白质相互作用（protein-protein interaction，PPI）具有多功能性、特异性和适应性，而尤为重要。蛋白质互作网络是由单独蛋白通过彼此之间的相互作用构成，以参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。系统分析大量蛋白在生物系统中的相互作用关系，对于了解生物系统中蛋白质的工作原理，了解疾病等特殊生理状态下生物信号和能量物质代谢的反应机制，以及了解蛋白之间的功能联系都有重要意义。

（二）主要方法

蛋白质互作网络构建涉及的研究方法，包括蛋白质互作数据库及蛋白质互作检测技术（免疫共沉淀技术、酵母双杂交技术、蛋白质互作预测技术等）。

（三）在STRING数据库中的实现

STRING数据库是用于预测蛋白质-蛋白质相互作用的生物学数据库，其数据信息来源广泛，包括实验数据、计算预测方法和公共文本集，可用于检索蛋白、基因相互作用。操作步骤：①打开网站主页，进入STRING数据库，选择“Multiple proteins”，在“List Of Names”栏目下粘贴或输入靶点名称，在“Organsim”中选择“Homo sapiens”，点击“SEARCH”。②点击页面最底端的“CONTINUE”。③点击“Setting”，设置minimum required interaction score（蛋白互作综合得分），默认设置为medium confidence（0.400），点击“UPDATE”。即可得蛋白互作综合得分＞0.4的PPI信息。

七、分析通路及生物过程富集

（一）基本原理

基因通路富集分析（gene set pathway enrichment analysis）是在一组基因或蛋白中找到一类过表达的基因或蛋白。对基因功能进行富集分析，可发现在生物学过程中起关键作用的生物通路，从而揭示和理解生物学过程的基本分子机制。功能富集分析可以将成百上千个基因、蛋白或者其他分子分到不同的通路中，以减少分析的复杂度。常见的有基因本体（gene ontology，GO）功能注释和京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes，KEGG）通路富集分析。

（二）主要方法

基于数据库平台检索，常用GO和KEGG富集分析数据库，见表3-5。

表3-5　常用GO和KEGG富集分析数据库

（三）在DAVID数据库中的实现

DAVID是一个生物信息数据库，其中整合了生物学数据和分析工具，为大规模的基因或蛋白列表（成千上万个基因ID或者蛋白ID列表）提供系统综合的生物功能注释信息，并可进行GO分析和KEGG通路分析。操作步骤：①将潜在作用靶点导入生物学信息注释数据库DAVID数据库中，将“Select identifier”设置为“Official gene symbol”，将“List type”设置为“Gene list”，限定物种为“Homo sapiens”，阈值 P ＜0.05。②选择“Gene ID Conversion”，输入关键靶点，选择“Gene List”，点击“Submit List”，点击“Gene_Ontology”，下载BP、CC、MF及Pathways数据。

综上，随着网络药理学和生物信息学的发展，将生物信息学技术和网络药理学方法相糅合，联合实验验证成为中药复方机制研究中的重要方式之一。基于该模式的中药复方研究打破了传统的中药复方机制研究的瓶颈，使得原先难以定性的机制得以预测和验证。该研究方法适用于各类病症的中药复方、单体治疗机制研究。

八、分子对接技术

（一）基本原理

分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。它是一种主要研究分子间（如配体和受体）相互作用，并预测其结合模式和亲和力的理论模拟方法。

（二）主要步骤

1.配体准备

利用化合物数据库及文献调研收集中药化合物结构，建立分子对接的配体数据库。

2.受体准备

如靶点蛋白已有晶体结构报道，则在PDB数据库（www.rcsb.org）下载靶蛋白的晶体结构作为分子对接靶点结构。如果相关靶蛋白结构尚未见报道，则通过同源建模、人工智能进行靶蛋白结构预测。

（三）分子对接技术在Schrödinger软件包Glide模块中的实现

1.配体准备

在Schrödinger的LigPrep模块对成分结构进行预处理，包括生成三维结构、添加氢原子、计算电荷、能量优化等，接下来运用MMFFs力场得到相应的低能构象。Epik28以pH值7.0±2.0为条件分配电离状态并进行对接计算。

2.受体准备

用Schrödinger软件蛋白质预处理工具PrepWiz模块对蛋白靶点结构进行预处理，即对其加氢，并在MMFFs力场下计算每个原子的质子化状态和形式电荷，定义蛋白结合位点，产生Grid文件。

3.分子对接

使用Schrödinger软件中的Glide模块，采用标准精度方法（standard precision，SP）进行分子对接。

九、药效团模型

（一）基本原理

药效团（pharmacophore）是指活性化合物所共有的，对化合物的活性有重要影响的一组原子或基团的空间排列组合。这些原子或基团称为“药效特征元素”，是配体与受体发生相互作用的活性部位。其可以是某些具体的原子或原子团，比如氧原子、羟基、苯环等，也可以指某些特定的化学功能结构，如疏水基团、氢键供体、氢键受体等。

（二）主要方法

1.基于受体的药效团模型

从靶蛋白的三维结构出发，研究靶蛋白结合位点的特征性质以及它与小分子化合物之间的相互作用模式构建的基于受体的药效团。

2.基于配体的药效团模型

利用已知活性的小分子化合物，根据化合物的结构相似性和构效关系，建立的基于配体的药效团。

（三）药效团模型在软件Schrödinger中的实现

利用Schrödinger软件中的PHASE项下的Develop Common Pharmacophore Hypotheses模块构建基于配体的药效团。可依据实验数据以及受体的情况，选择一个最优的药效团模型。

十、分子动力学模拟

（一）基本原理

分子动力学模拟（molecular dynamics simulation，MD）主要是依靠计算机来模拟分子、原子体系的运动，是一种多体模拟方法。本方法通过对分子、原子在一定时间内运动状态的模拟，从而以动态观点考察体系随时间演化的行为。通常，分子、原子的轨迹是通过求解牛顿运动方程得到的。在生物体系当中，全原子模型的分子动力学模拟（all-atom molecular dynamics simulation）可以帮助我们获取生物大分子当中每个原子的动态信息，还能更加有效地帮助我们得到生物分子的动力学性质以及结构特征。

（二）主要步骤

1.蛋白质初始结构的准备。

2.蛋白质结构的优化和模拟体系的升温。

3.模拟体系的平衡。

4.分子动力学采样及轨迹分析。

（三）分子动力学模拟技术在Desmond模块中的实现

使用Schrödinger软件中的Desmond模块进行分子动力学模拟。首先在蛋白-配体复合物周围建立周期性显性水模型的立方体水盒子。在体系中加入抗衡离子中和蛋白质所带电荷，得到电中性的环境。采用OPLS_2005力场进行能量计算。随后使用Desmond模块默认参数设置程序，实现体系能量最小化和体系弛豫过程。最后采用NPT系综对复合物结构进行动力学模拟。温度耦合方法为Nose-Hoover模拟温度，弛豫时间为1 ps。压力耦合方法为Martyna-Tobias-Klein，弛豫时间为2 ps，模拟压力为1.01325bar。设置模拟时间及轨迹间隔。

十一、聚类分析

（一）基本原理

聚类分析（cluster analysis）是指将物理或抽象对象的集合，分组为由类似对象组成的多个类的分析过程。它是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

（二）主要方法

主要采用层次聚类（hierarchical clustering）方法。层次聚类是指通过某种相似性测度计算节点之间的相似性，并按相似度由高到低排序，逐步重新连接个节点。

（三）层次聚类在软件Schrödinger中的实现

采用层次聚类方法，在化学信息学软件包Canvas中实现。首先计算化学小分子化合物分子指纹，然后通过相似性矩阵的层次聚类方法对化合物结构属性进行聚类，层次聚类时类间距离（clustering linkage）选择簇间平均距离法。

十二、化合物药代动力学及毒性（ADMET）预测

（一）基本原理

药物的吸收、分布、代谢、排泄和毒性，即药物动力学，其是研究药物与体内生物物理和生物化学屏障因素间相互作用的学科。药物早期ADMET性质可显著地提高药物研发的成功率，降低药物的开发成本，减少药物不良反应的发生，并能指导临床合理用药。计算机辅助化合物ADMET预测是利用数据挖掘技术，分析可靠的实验数据，并从中获得对应的规则、知识，利用这些规则、知识，针对化合物的化学结构，评估该化合物的ADMET性质。

（二）主要方法

1.基于配体结构的方法

从化合物的结构特征出发，对已有的化合物毒性数据进行归纳分析，将小分子结构中包含的信息与其毒性进行关联。此种方法不仅能够对已有的小分子毒性数据进行解释，还可用于未知化合物的毒性预测。

2.基于受体结构的方法

针对生物体内可与化合物结合并引起特定毒性作用的生物大分子，采用分子对接、虚拟筛选等方法，预测化合物与生物大分子可能的作用方式，从而判断该化合物是否具有毒性。

（三）ADMET在软件Schrödinger中的实现

利用Schrödinger软件中的QikProp模块对化合物成分进行毒性预测及药代动力学特征计算，预测性质包括：中枢活性CNS、药物心脏毒性评价QPlogHERG、药物透皮吸收能力评价QPPCaco、血脑屏障穿透力评价QPlogBB、细胞渗透性评价QPPMDCK、药物与血浆蛋白结合能力评价QPlogKhsa及人的口服吸收程度。

综上，利用生物信息学和化学信息学方法，可预测中药中可能发挥治疗作用的活性成分及其作用靶点和信号通路，但是由计算机技术分析所得的结果，其准确性仍然停留于理论层面，因此需要进行相应的生物学实验对预测结果加以验证，由此便形成一套完整的“预测-验证”模式。中药之所以能够发挥治疗疾病的功效，是因其具有“君、臣、佐、使”的配伍原则。因此，在选择代表性成分进行生物学实验验证时，应充分考虑代表性成分所属中药药味在方剂中扮演“君、臣、佐、使”哪种角色。

根据对中药复方的物理、化学、配伍、功效、药理、病理、病机等化学生物信息学的研究模式正在建立中，同时以该项技术为依托，将进一步发展中药复方治病机制的物质基础、分子机制及科学内涵的探索与研究。

第二节 中医药化学生物信息学常用分析方法

一、构建中药性味归经网络

（一）基本原理

（二）主要方法

（三）在Cytoscape软件中的实现

二、收集中药化合物成分

（一）基本原理

（二）主要方法

（三）在TCMSP数据库中的实现

三、预测中药化合物靶点

（一）基本原理

（二）主要方法

（三）在SwissTargetPrediction数据库中的实现

四、收集疾病相关基因

（一）基本原理

（二）主要方法

（三）在DrugBank数据库中的实现

五、分析疾病差异表达基因

（一）基本原理

（二）主要方法

（三）在GEO数据库中的实现

六、分析蛋白质-蛋白质相互作用网络

（一）基本原理

（二）主要方法

（三）在STRING数据库中的实现

七、分析通路及生物过程富集

（一）基本原理

（二）主要方法

（三）在DAVID数据库中的实现

八、分子对接技术

（一）基本原理

（二）主要步骤

（三）分子对接技术在Schrödinger软件包Glide模块中的实现

九、药效团模型

（一）基本原理

（二）主要方法

（三）药效团模型在软件Schrödinger中的实现

十、分子动力学模拟

（一）基本原理

（二）主要步骤

（三）分子动力学模拟技术在Desmond模块中的实现

十一、聚类分析

（一）基本原理

（二）主要方法

（三）层次聚类在软件Schrödinger中的实现

十二、化合物药代动力学及毒性（ADMET）预测

（一）基本原理

（二）主要方法

（三）ADMET在软件Schrödinger中的实现

第二节　中医药化学生物信息学常用分析方法