定义3.1 基因调控网络(Gene Regulatory Network,GRN): 它反映了基因之间复杂的相互作用和调控关系,而这个调控网络包括DNA、蛋白质、RNA和其他一些小分子。使用RNA聚合酶,DNA可以被转录成mRNA,mRNA可能会(或可能不会)被翻译成蛋白质,在某些情况下,RNA也可能会被逆转录成DNA。在基因调控网络中,有两种调控类型,即促进(增加靶基因的表达值)和抑制(降低靶基因的表达值)。
定义3.2 基因共表达网络(Gene Coexpression Network,GCN): 具有交互作用并参与同一生物过程的基因组成的网络。在基因共表达网络中,节点代表不同的基因,边代表对应边节点的基因表达相似度值高于预设阈值。如果两个基因之间存在连接,则可视为它们具有直接或间接的相互作用,并且很可能参与了相同的生物学过程。如果多个蛋白质必须处于同一生物通路或需要形成蛋白质复合物才能发挥作用,这就需要一些蛋白质的协同作用。这些蛋白质的表达相似性明显高于随机基因集的相似性,因此可以利用大量基因在不同条件下的差异表达数据构建基因共表达网络。皮尔逊相关系数(Pearson Correlation Coefficient,PCC)通常用来衡量基因表达的相关性,其范围一般在-1~1之间。如果两个基因之间相关系数的绝对值越高,说明它们的相似性越高。根据阈值,一些不太相关的边被删除,用于剩余的边来创建基因共表达网络。
定义3.3 异构信息网络(Heterogeneous Information Network,HIN): 具有对象类型映射 ϕ : V → A 和连接类型映射功能 ψ : E → R 的有向图。每个对象 v ∈ V 都属于对象类型集合中特定类型 A 的对象,每个连接 e ∈ E 都属于连接类型集合 R 中特定类型 ψ ( e )∈ R 的连接。如果两个属于同一个连接类型,那么这两个连接具有相同的起始对象和结束对象。
为了更好地理解网络中的节点类型和连接类型,理解网络的元级别(如模式级别)是必要的。因此提出了网络模式的概念来描述网络的元结构。
定义3.4 网络模式(Network Schema): 网络模式是网络 G =( V , E )的元模板,记为 T G =( A , R ),包含对象类型的映射函数 ϕ : V → A 和连接关系类型映射函数 ψ : E → R 。
网络模式指定对象集合和对象关系的类型约束。这些约束导致异构信息网络是半结构化的,并指导了网络语义的研究。遵循网络模式的一个网络
G
被称为这个网络模式的一个网络实例。如图3.1所示,mRNA-TF-miRNA基因调控网络是一个局部调控网络,也是一个典型的异构信息网络,它包含三种类型的节点以及这三类节点之间的关系。图3.2即为遵循图3.1的一个基因调空网络实例,在mRNA-TF-miRNA基因调控网络中,菱形节点表示TF(转录因子),圆形节点表示mRNA,三角形节点表示miRNA,节点间的关系类型有促进和抑制。对于一个连接着对象类型
S
和对象类型
T
的连接类型
R
,即
,
S
和
T
可以分别表示为
R.S
和
R.T
。其逆关系
R
-1
自然有
成立。通常,
R
和
R
-1
是不相等的,除非
R
是对称的。不同于传统的同构信息网络,异构信息网络中的两个节点可以通过不同的路径连接,并且这些路径有不同的物理意义。这些路径可以属于元路径,元路径定义如下。
图3.1 网络模式
图3.2 基因调控网络实例
定义3.5 元路径(Meta Path):
一个元路径是定义在模式
T
G
=(
A
,
R
)上的,并且表示为如下形式:
,定义了节点
A
1
,
A
2
,…,
A
l
+1
间的复合关系
R
=
R
1
◦
R
2
◦…◦
R
l
,这里的“◦”表示关系间的复合运算符。
为了简单起见,如果同一对节点类型之间没有多个关系类型,我们也可以使用节点类型来表示元路径:
P
=(
A
1
A
2
…
A
l
+1
)。例如,在图3.1中,DNA转录成能够翻译或不翻译为蛋白质的mRNA,这样的关系可以用长度为1的元路径
表示。我们说节点
a
1
和
a
l
+1
在网络
G
中具体的路径
p
=(
a
1
a
2
…
a
l
+1
)是相关的元路径
P
的路径实例,可以表示为
p
∈
P
。如果由
P
定义的关系
R
是对称的(即
P
等价于
P
-1
),则
P
为对称路径。当且仅当
A
l
和
B
l
相同,则元路径
P
1
=(
A
1
A
2
…
A
l
)和
P
2
=(
B
1
B
2
…
B
k
)是可连接的,连接的元路径写为
P
=(
P
1
,
P
2
),等价于(
A
1
A
2
…
A
l
B
1
B
2
B
3
…
B
k
)。
元路径作为一种独特且有效的语义捕获工具,丰富的语义是一个重要的特征。基于不同的元路径,具有不同的路径语义的节点会有不同的连接关系,这会对相似度度量、聚类、分类等许多数据挖掘任务产生影响。网络模式 T G =( A , R )实际上是给定异构信息网络 G =( V , E )的元模板,也是网络中语义关系的抽象。换言之, G =( V , E )是 T G =( A , R )的一个网络实例。因此,在 G =( V , E )的所有子网之间,至少有一个子网(自身)对应网络模式 T G =( A , R ),即至少可以找到一个子网 G =( V , E )与网络模式 T G =( A , R )匹配。
定义3.6 单元网络(Unit Network): 给定异构信息网络 G =( V , E )中符合网络模式 T G =( A , R )的最小子网络,记为 ϕ =( V , E )。单元网络继承了异构信息网络 G =( V , E )中的对象类型映射函数 ϕ : V → A 和连接类型映射函数 ψ : E → R 。
单元网络其实就是异构信息网络
G
=(
V
,
E
)的所有子网络中网络模式
T
G
=(
A
,
R
)的一个最小实例,也是异构信息网络的一个子网络。我们将LncRNA-mRNA基因共表达网络包含四种类型的对象LncRNA、mRNA-1、mRNA-2、mRNA-3简记为L、m-1、m-2、m-3。其中的一个单元网络记为
,表示语义关系“
,
,
与
存在共表达关系”。为简单起见,可以用
ϕ
中每个对象的下标来标记该单元网络,即
ϕ
可以标记为
ϕ
L,m1,m2,m3
。