机器信息检索的实质是关键词匹配,而人工信息检索则是语义匹配。把这两种检索分别称为关键词级别的检索和语义级别的检索。语义匹配比关键词匹配效果要好。但就目前来讲,人类所发明的机器还不具备真正的语义理解能力,不能实现真正意义上的语义理解,未能达到人类大脑级别的语义理解,所以不能实现真正意义上的语义匹配。因此,目前的信息检索从根本上看,主要是基于关键词匹配的检索,未能实现完全意义上(人类大脑级别上)的语义匹配检索。
因此,就现有的机器状况而言,信息检索的研究出发点是在关键词匹配的基础上,尽可能概括、诠释和表达需求语义,最终用关键词匹配检索来近似语义匹配检索。
从机器信息检索的角度出发,若要用关键词匹配近似语义匹配,有必要从关键词级别上考察文档、句子及词语之间的语义关系。
一篇文档由若干个句子构成,每个句子由若干个词语构成。从关键词级别上考察,一篇文档由一组词语构成,文档的语义由该文档所包含的一组词语笼统地表示。由于文档较长,文档包含的词语较多,从机器信息检索的角度出发,这些词语反映了文档的大部分内容。
一个句子也是由若干个词语构成的。但句子往往较短,包含的词语较少,这些少量的词语所代表的语义往往不如整个句子所反映的语义明确,语义更加分散。
例如,用户提出的查询请求句子 q =“请查找一些关于信息检索理论与方法方面的文档”。把该句子分解为关键词后, q =“请,查找,一些,关于,信息,检索,理论,与,方法,方面的,文档”。容易发现,关键词化后的 q 无法从关键词上匹配诸如“布尔逻辑模型”、“向量空间模型”、“概率模型”、“统计语言模型”等词语,而这些内容才是真正的“信息检索理论与方法”。这意味着关键词化后的查询请求在反映用户的真实信息需求时不够全面和准确。
注意到,在关键词级别上,一个句子的语义可以用一篇或多篇文档来诠释说明。例如,文档“文本检索模型综述”(曹冬林等著) [9] 、“信息检索排序算法研究综述”(高炜等著) [10] 是“关于信息检索理论与方法方面的文档”,这两篇文档是对句子 q =“关于信息检索理论与方法方面的文档”的语义的诠释。
因此,在关键词级别上,一个句子的语义,比如用户的查询请求,可以通过一篇或几篇文档解释。如图2.1所示反映了在关键词级别上文档、句子、词语之间的语义关系。
图2.1 文档、句子及词语之间的语义关系
无论用户以句子的形式还是以关键词的形式提出查询请求,查询请求被关键词化后所得到的一组词语不容易反映用户的真实信息需求。如果直接将查询请求视为信息需求进行关键词级别上的匹配,则不容易得到理想的检索结果。
在关键词级别上,用户查询请求的语义由若干篇相关文档来解释。或者说,用户的真实信息需求可以由若干篇文档来表示,这些文档当然是与用户需求相关的相关文档。
用户信息需求的含义是由相关文档来诠释的。在关键词级别上,若干篇相关文档反映了用户的信息需求。这些相关文档体现了用户的信息查询请求的含义。因此,可以用相关文档来构建信息需求的一组词语,再用这些词语进行关键词匹配级别上的信息检索。这些词语从语义上诠释了用户的信息需求,因而这样构建的信息检索是用关键词匹配意义上的检索去近似语义匹配意义上的检索。
在信息检索中,由于机器分词等原因,导致词语有时不一定是“自然语言中的词”,因而,词语也称为词项,实际上表示的是关键词匹配的基本单位。在查询请求中,词项又被称为关键词。词、词语、词项、关键词和term不加区别,通常都是指进行检索匹配的基本单位。
在信息检索中,用户通过查询语句 q 提出信息检索请求。信息检索系统首先将 q 分解为一组关键词,然后用这些关键词作为用户信息需求进行查询。但在实际中,这些关键词往往不容易反映用户的真实信息需求,导致信息检索系统返回的检索结果并不理想。
举例分析如下。
假设文档集 D 包含以下几篇文档, d 1 =(张平近年来发表了5篇模式识别方面的文章), d 2 =(信息检索常用的模型有布尔模型、向量空间模型、概率模型和语言模型等), d 3 =(信息检索中,语言模型与向量空间模型、概率模型相比较有其自身的特点,本文介绍语言模型及排序学习的基础知识), d 4 =(赵亮已经撰写了2篇机器学习方面的文章), d 5 =(向量空间模型以向量夹角余弦值作为相似度,根据文档相似度的大小对文档进行排序), d 6 =(排序学习主要包括有监督学习和无监督学习两种), d 7 =(高强在音乐方面很有天赋)。
假设一位用户欲了解、学习信息检索的理论和方法,该用户提出的查询请求 q =“请查找关于信息检索方面的文章”。将 q 分解为关键词,去掉停用词后, q =(查找,信息检索,方面,文章)。信息检索系统根据 q 进行检索时,上述文档集中的 d 1 , d 2 , d 3 , d 4 , d 7 包含有 q 的关键词,将作为相关文档被检索到。但对用户而言,真正的信息需求是文档 d 2 和 d 3 ,文档 d 1 、 d 4 和 d 7 不是用户所需要的。同时,尽管文档 d 5 、 d 6 是用户需要的文档,但由于它们不包含 q 的关键词而没有被检索到。
从语义上讲,查询请求 q =“请查找关于信息检索方面的文章”涵盖了文档 d 5 和 d 6 。但由于现有的信息检索系统无法理解 q 的语义,只是把 q 分解为若干个关键词,从而导致 q 的语义缺失,所以不能很好地反映用户的真实需求。相应地,将 q 视为信息需求并以此进行信息检索,导致检索结果并不理想。
上例说明用户的查询请求所表达的用户信息需求不够全面和准确。查询请求 q =(查找,信息检索,方面,文章)并不能很全面地反映用户的信息需求。
那么,究竟如何才能更好地描述和表达用户的信息需求呢?可以注意到,文档 d 2 和 d 3 是用户真正的信息需求,或者说,文档 d 2 和 d 3 反映了用户的信息需求。
换句话说,文档 d 2 和 d 3 诠释了查询请求 q 所表达的需求语义,文档 d 2 和 d 3 所包含的这组词语反映了用户的需求。
既然文档 d 2 和 d 3 反映了用户的信息需求。不妨从文档 d 2 和 d 3 出发来构建和描述用户的信息需求。为此,把文档 d 2 和 d 3 用图形加以表示(如图2.2所示)。
图2.2 文档 d 2 和 d 3 的交集与并集
在如图2.2所示中,用户的信息需求被分为两部分,一部分是文档 d 2 和 d 3 的公共内容,另一部分是非公共部分。这两部分内容所反映出的含义是不同的。
公共部分是两篇文档共同描述、共同关注的内容,体现了用户集中需要的内容 [11] ,是需求的内涵部分,反映了需求的精确部分,也被称为信息需求的精度。
非公共部分作为整篇文档的组成部分,也是用户的信息需求,反映了信息需求的广泛程度,是需求的外延部分,也被称为信息需求的广度。
因此,文档 d 2 和 d 3 的公共内容(交集) Ṟ 反映了用户信息需求的集中关注的内容。求交集,可得 Ṟ = d 2 ∩ d 3 =(信息检索,向量空间模型,概率模型,语言模型)。
文档 d 2 和 d 3 的所有内容(并集) Ṟ 反映了用户信息需求的外延和广度。求并集,可得 Ṟ = d 2 ∪ d 3 =(信息检索,常用的,模型,布尔模型,向量空间模型,概率模型,语言模型,相比较,自身的,特点,本文,介绍,排序学习,基础知识)。
若以
Ṟ
作为查询请求进行信息检索,将得到
d
2
、
d
3
和
d
5
,其中,
d
5
是信息需求的精度
Ṟ
检索的结果。若以
Ṟ
作为查询请求进行信息检索,将得到
d
2
、
d
3
、
d
5
和
d
6
,其中,
d
6
是信息需求的广度
检索的结果。以
Ṟ
和
作为查询请求进行信息检索,将得到
d
2
、
d
3
、
d
5
和
d
6
,这是一个理想的检索结果。
把用户的查询请求
q
=“请查找关于信息检索方面的文章”,
Ṟ
=(信息检索,向量空间模型,概率模型,语言模型),以及
=(信息检索,常用的,模型,布尔模型,向量空间模型,概率模型,语言模型,相比较,自身的,特点,本文,介绍,排序学习,基础知识)加以对比就会发现,
Ṟ
和
比
q
表达的信息需求更为全面和准确。
Ṟ
反映了
q
的中心内容,
反映了
q
的延伸内容,包括用户可能需求的内容,如“排序学习”。
因此,可以用
Ṟ
和
来描述信息需求。
把从
Ṟ
到
的区域称为信息需求域,
Ṟ
称为需求下界,
称为需求上界。用户的信息需求域形式化地表示为
I
=(
Ṟ
,
)。如果以
I
=(
Ṟ
,
)进行信息检索,检索结果将返回
d
2
、
d
3
、
d
5
和
d
6
,其中,
d
5
是信息需求的
Ṟ
检索的结果,
d
6
是信息需求的
检索的结果。可以看到,上述方法表示的信息需求更为全面和准确。
事实上,信息需求是域的观点还有以下几个要求。
第一,用户输入的查询请求语句是包含有丰富语义含义的。也就是说,查询语句是一个语义范畴,往往含有许多“词外之意”,相应的信息需求是一个区域。实际上,已有的信息检索模型返回的结果中也包含了多个用户需要的文档,而不是单个文档,这也进一步说明信息需求是一个区域。
第二,随着时间、环境和心情等的不同,用户的信息需求都有所不同。因此,用户真正的信息需求往往也难以通过查询请求语句准确地反映。
第三,从语言学的角度分析,语言需要通过内涵和外延来表达语言的含义,见参考文献[12]~[15]。用户的查询请求
q
同样有其内涵和外延,信息需求域
I
=(
Ṟ
,
)在一定程度上体现了需求的内涵和外延。
信息需求域
I
=(
Ṟ
,
)既考虑了信息需求的内涵,也兼顾了信息需求的外延,较好地表达了用户的信息需求,因而可以得到较好的查询结果。实际上,
I
=(
Ṟ
,
)反映了初始查询语句
q
所包含的内涵和外延,故而是对
q
的深入诠释和表达。
如果从机器对自然语言的“理解”上分析,则是让机器用文档 d 2 和 d 3 的内容去“诠释和理解”查询语句 q ,并且还反映了 q 的内涵和外延。
根据以上分析,可从域的角度出发,建立表达用户信息需求的需求域的方法,并建立信息需求域基础上的信息检索模型。
在分析并提出了信息需求域的基本概念后,以下给出信息需求域的相关理论分析和形式化定义。这里,首先给出一个较为直观的推导,然后再进一步分析一个粗糙集理论下的推导。
给定非空文档集合 D ,其词语(term)集合为 T , R 为定义在 D 上的关系, R 表示相关性,给定用户的某一个查询 q , P =( D , T , R , q ) 构成一个空间。
在信息检索中,相关性通常定义为{相关,不相关},或者{相关,部分相关,不相关}。这里,令 R ={相关,不相关}。
显然, R 是 D 上的等价关系,文档集 D 关于等价关系 R 的等价划分为 D / R ={ D 1 , D 2 },其中, D 1 , D 2 分别为在查询 q 下,对用户而言相关、不相关的文档集合。
P 的一个子空间 S =( L , V , R , q )称为 q 的相关子空间。其中, L 为相关文档集 D 1 的子集( L ⊆ D 1 ), V 是 L 的词项集。
相关文档子集 L 中的文档是用户需要的文档。因此, L 包含、反映了用户的真实信息需求。可以通过以下方法从 L 中提取和表示用户的信息需求。
设 L =( d 1 , d 2 , …, d n ), d i ∈D, i =1,2,…, n 。d i 的词项集为term i 。
定义2.1
设相关文档子集L中的全部文档的词项的并集为
(
L
):
Ṟ (L)=( x ∈ V | x ∈∪term i , i =1,2,…, n ), 称为关于 q 的用户信息需求的上界。
定义2.2 设相关文档子集L中的全部文档的交集为 Ṟ ( L ):
Ṟ ( L )=( x ∈ V | x ∈∩term i , i =1,2,…, n ), 称为关于 q 的用户信息需求的下界。
显然,
Ṟ
(
L
)⊆
(
L
)。
下界、上界分别表示了信息需求域的下边界、上边界。信息需求域形式化地表示为
I
=(
Ṟ
,
),其中,
Ṟ
和
分别表示信息需求域的下边界和上边界。
由于
L
为
D
中关于
q
的全部相关文档的集合
D
1
或
D
1
的子集,所以
L
包含了用户的真实信息需求。
L
中全部文档的共同部分(即交集部分)是
L
中各个文档都要描述的内容,代表了用户关注的焦点部分,反映了用户信息需求的内涵和精度。
L
中全部文档的所有部分(即并集部分)代表了用户关注的各种信息,反映了用户信息需求的外延和广度。在建模时,需求模型必须同时考虑需求的内涵和外延。信息需求域
I
=(
Ṟ
,
)兼顾了信息需求的内涵和外延,是一个从内涵到外延的区域,较好地表达了用户的信息需求,因而可以得到较好的检索结果。
在查询请求 q 下,就用户而言,设 D 中全部相关的文档集为 D 1 ,在相关子空间 S =( L , V , R , q )中,使用相关文档子集 L 建立信息需求域。
定义2.3
若
L
=
D
1
,则称由
L
建立的信息需求域
I
=(
Ṟ
,
)为用户需求的全域。
然而在信息检索的应用中,
D
1
是很难求得的,也即需求全域很难得到。但是
D
1
的子集相对容易得到。因此,可以用
D
1
的一个子集
L
作为相关文档集,建立子空间
S
=(
L
,
V
,
R
,
q
,
(
L
),
Ṟ
(
L
)),从而得到信息需求域
I
=(
Ṟ
,
)。
定义2.4
若
L
⊂
D
1
,则称由相关文档子集
L
建立的信息需求域
I
=(
Ṟ
,
)为用户需求的子域。
因此,首要任务是如何获得相关文档子集 L ,从而用它来建立需求域。子集 L 的建立有两种思路和方法。
第一种方法是采用用户相关文档反馈法。用户在初始查询的基础上,从初始查询结果中标注反馈若干个相关文档,将此相关文档反馈集作为
L
,建立信息需求域。此方法得到的是用户的真实需求,建立的需求域
I
=(
Ṟ
,
)是用户信息需求域的子域,因此用该需求子域进行的检索具有很好的检索结果,缺点是需要用户参与。
第二种方法是采用伪相关文档反馈法。系统从初始检索结果中选取前
n
个(top
n
)文档,将这
n
个文档作为文档子集
L
,并用该子集
L
建立需求域。由于这
n
个文档不一定都是与用户相关的文档,故称为伪相关文档。该方法称为伪相关文档反馈法。此方法的优点是自动化,无须用户参与,缺点是由于
L
是伪相关文档反馈的结果,
L
中的文档不一定都是用户所需要的文档,因此,所建立的下界、上界中包含有用户不需要的信息,可能偏离用户的真实需求,所得到的信息需求域
I
=(
Ṟ
,
)是用户信息需求域的近似域。
由于初始查询
q
表达的用户信息需求不够全面和准确,所以从查询扩展的角度考虑,传统的方法是设法得到初始查询
q
的一组扩展词项
e
,查询扩展后得到的新的
q
′=
q
∪
e
。出于同样的考虑,为了弥补初始查询
q
在表达用户信息需求方面的不足,从初始查询
q
出发,得到了
q
的一个扩展域
I
,查询扩展后得到的新的
q
′=
q
∪
I
=
q
∪(
Ṟ
,
)=(
Ṟ
∪
q
,
∪
q
)。下面给出关于初始查询
q
的信息需求域的定义。
定义2.5
称
Ṟ
(
q
,
L
)=(
x
∈
V
|
x
∈∩term
i
,
i
=1,2,…,
n
)∪term
q
为关于
q
的信息需求域的下界,称
(
q
,
L
)=(
x
∈
V
|
x
∈∪term
i
,
i
=1,2,…,
n
)∪term
q
为关于
q
的信息需求域的上界,称
I
(
q
,
L
)=(
Ṟ
(
q
,
L
),
(
q
,
L
))为关于初始查询
q
的信息需求域,简记为
I
=(
Ṟ
,
)。其中,term
q
为查询
q
的词项集,
L
=(
d
1
,
d
2
, …,
d
n
),
d
i
∈
D
,
d
i
的词项集为term
i
,
i
=1,2,…,
n
。
传统的方法通常假定用户的信息需求具有一个精确的描述,需求表达模型试图寻求这种对用户信息需求的精确描述,但实际上无法得到这个精确的描述。使用域来描述信息需求可以给信息需求一个界定,框定一个范围,这是一种更为松散的描述。在得到一些反馈文本后,对用户的信息需求进行一个概括性的推测。在这种情况下,定义一种较为松散的描述比追求得到一个精确的描述更为恰当。
为了进一步理解信息需求域的思想,有必要对查询请求(query)的特点进行深入的分析,并进一步阐明查询请求与信息需求的关系。
普通用户倾向于使用自然语言语句的形式提出查询请求 q ,比较专业的用户可能以关键词的形式提出查询请求 q 。在关键词匹配级别上,无论是语句形式还是关键词形式的查询请求 q 最终都被视为若干个词语。因此,两种方法没有本质上的区别。当然,大多用户更习惯使用自然语言的形式。
查询请求query具有以下特点。
(1)采用自然语言形式的query语句一般内容较少,所包含的词语个数多为个位数(9个以下词语) [16] ,很少出现词语个数超过十位数以上的query。例如,TREC测试集的编号为101~150的一组50个查询,其平均长度为4.78个;编号为151~200的另一组50个查询的平均长度为6.56个。在信息检索时,由于只有query中的关键词(往往是实词)才具有实际检索价值,其他的不具检索价值的词语(多为虚词)往往被舍掉,这些词语在信息检索中被称为停用词。因此,当舍掉query中的停用词后,query所包含的词语会更少。而利用这些少量的关键词语去反映用户的需求往往是不太全面和准确的。
(2)目标文档中往往不包含query中词语的直接形式 [16] 。
例如,query=“请查找关于董存瑞的生平。”
文档 d 1 =“董存瑞(1929—1948),男,汉族,中共党员。1929年10月15日出生于察哈尔省南山堡(今河北省怀来县)。童年的董存瑞7岁时读过几天书,后因家贫而辍学。抗日战争爆发后,他的家乡成了抗日游击区。他13岁时就当上了儿童团团长。
1945年春,董存瑞参加了当地抗日自卫队,同年7月参加了八路军。1946年4月初,在察北重镇独石口遭遇战中,他机智地夺下敌人的一挺机枪而被记大功一次,被部队授予勇敢奖章。
在1947年初的长安岭阻击战中,他在班长牺牲、副班长重伤的情况下,挺身而出自任班长,如期完成了阻击任务,又立大功一次。至牺牲前,他共立大功三次、小功四次,荣获三枚勇敢奖章和一枚毛泽东勋章。”
可以注意到,对人类而言,该文档 d 1 是“董存瑞的生平”。但在机器看来,由于该文档 d 1 不直接包含“生平”一词,所以该文档不是“生平”。
对于以关键词为检索依据的系统中,query=“请查找关于董存瑞的生平”的词项集不能够表达用户的需求,而文档 d 1 的词项集诠释了用户的需求。
事实上,query中用来表述抽象概括意义的概括词语一般不直接包含在目标文本中,这将导致需求理解的不全面。例如,“简历”、“资料”、“信息”等词语。但实际中,用户使用自然语言形式的query大多使用概括性的词语来提出查询请求。
根据上述分析,用户使用自然语言形式向信息检索系统提出的查询(query)是信息查询请求,这个查询请求是有其语义含义的。在人工信息检索中,通过人类对query的语义理解,进行基于语义匹配的人工信息检索,此时的query表达了用户的信息需求。而在机器信息检索中,query被视为关键词的集合,这在一定程度上窄化了query所包含的语义。当进行关键词匹配基础上的机器信息检索时,此时的query所代表的用户信息需求显得不太全面和准确。
因此,若要进行机器信息检索,则有必要建立能够使用词语集合表达用户信息需求的模型。信息需求域运用用户需求文档的词项集来构造用户需求域,反映信息需求的语义内涵和外延,符合机器以关键词进行匹配检索的特点。
从理论上看,信息需求域建立了用户信息需求的数学模型。信息检索实际上是用户向信息检索系统提出信息查询请求,由检索系统通过一定的方法查询并返回所需信息的过程。在返回结果中,用户认为需要的信息才是用户的信息需求。在此基础上,导出了信息需求,建立了信息需求的数学模型,兼顾了信息需求的内涵和外延,可以更为全面地反映用户的信息需求。
信息需求域具有以下几个特点。
(1)信息需求域的下界既表示了信息需求集中关注的内容,也代表了信息需求的内涵。
(2)信息需求域的上界既表达了信息需求的延伸内容,也代表了信息需求的外延。
(3)在信息需求域基础上的信息检索兼顾了需求的内涵和外延。
粗糙集(Rough Set)理论是由波兰数学家Pawlak在1982年提出的理论 [17] , 与概率论理论、模糊集理论、证据理论一样,都是处理不确定的、模糊的、不精确的和不完备的信息的数学理论 [18] 。粗糙集理论已经成功地运用在决策分析、工业控制、机器学习和模式识别等领域 [19] 。
粗糙集理论认为,人类知识的一种表现是人类对各种对象的分类能力,分类是人类认知能力的基础。因此,粗糙集理论从对集合元素的分类开始,力图建立刻画知识的数学模型,从而使知识具有清晰的、明确的数学定义。在此基础上,进一步建立处理知识的数学方法。参考文献[20]、[21]建立了一种将模糊知识引入到粗糙集的方法。
设 U 是给定的对象论域, X 是 U 的一个子集( X ⊆ U ),称 U 的子集 X 为 U 中的一个概念或范畴, U 的若干个概念的集合称为 U 的一个抽象知识,简称知识 [22] 。
关于 U 的一个等价划分 η 定义为:
其中,
X
i
⊆
U
,
X
i
≠
φ
,
X
i
∩
X
j
=
φ
,
i
≠
j
,
i
,
j
=1,2,…,
n
,
。
U
上的一族划分称为关于
U
的一个知识库。
设 R 是 U 上的一个等价关系,即, R 满足对称性、传递性和自反性。 U / R 表示 U 的关于 R 的所有等价类,或 U 上的划分构成的集合。对于 U 中的一个元素 x , x ∈ U ,用[ x ] R 表示包含元素 x 的 R 等价类。
对于非空有限集 U ,设 R 是 U 上的一族等价关系,则 K =( U , R )是一个知识库。
定义2.6
(下近似、上近似)给定知识库
K
=(
U
,
R
),对
U
的子集
X
,
X
≠
Φ
且
X
⊆
U
,以及
U
上的一个等价关系
R
∈
R
。称
ṞX
=∪{
Y
∈
U
/
R
|
Y
⊆
X
}为
X
关于
R
的下近似;称
X
=∪{
Y
∈
U
/
R
|
Y
∩
X
≠
Φ
}为
X
关于
R
的上近似
[22]
。
定义2.7
(粗糙集)若
ṞX
≠
X
则称
X
为
R
粗糙集,否则称
X
为
R
精确集。集合bn
R
(
X
)=
X
−
ṞX
称为
X
的
R
边界域;pos
R
(
X
)=
ṞX
称为
X
的
R
正域;neg
R
(
X
)=
U
-
X
称为
X
的
R
负域
[22]
。
一个对象 x 是否属于知识集合 X 是根据已知的知识来判断的,判断的结果可以分为三种情况:(1)对象 x 肯定属于子集 X ;(2)对象 x 肯定不属于子集 X ;(3)对象 x 可能属于也可能不属于子集 X 。集合的划分取决于人们所掌握的关于论域的各种知识,是相对的。
若从等价关系
R
出发去确定和判断,则下近似
ṞX
中的元素是肯定属于
X
的
U
中的元素,上近似
X
中的元素是可能属于
X
的
U
中的元素;边界域bn
R
(
X
) 中的元素则既不能判断为属于
X
的
U
中的元素,也不能判断为属于~
X
(=
U
−
X
)的
U
中的元素。
集合
X
的不精确性是由边界域bn
R
(X)导致的,边界域越大,
X
的精确性越低。可以引入精度的概念来描述这种不精确性。由等价关系
R
定义的非空集合
X
的近似精度为:
α
R
(
X
)=|
ṞX
|/|
X
|。集合
X
的
R
粗糙度为:
ρ
R
(
X
)=1-
α
R
(
X
)。
信息需求是模糊的、不确定的和不完备的知识,用粗糙集理论可以给出一个合理的定义。
设文档集为 D , R 表示相关性。显然, R 满足对称性、传递性和自反性,是 D 上的等价关系。设 D 关于 R 的等价划分为 D / R ={ D 1 , D 2 },其中, D 1 、 D 2 分别为在查询 q 下,对用户而言相关、不相关的文档集合。 L 为相关文档集 D 1 的子集( L ⊆D 1 ), L =( d 1 , d 2 , …, d n ), d i ∈ D , i =1,2,…, n 。
设 X 是在查询请求 q 下用户的信息需求知识。根据粗糙集的理论,知识 X 可以用已知的知识 L 来描述和表达。
根据定义2.6中的下近似和上近似,有
Ṟ
(
L
)=∪{
d
∈
L
|
d
⊆
X
}为
X
关于
R
的下近似,
(
L
)= ∪{
d
∈
L
|
d
∩
X
≠
Φ
}为
X
关于
R
的上近似。
将上述各个文档都视为词语的集合,便得到信息需求
X
的下界、上界。下近似
Ṟ
(
L
)=(
x
∈
V
|
x
∈∩term
i
,
i
=1,2,…,
n
)为下界,上近似
(
L
)=(
x
∈
V
|
x
∈∪term
i
,
i
=1,2,…,
n
)为上界。其中,
V
表示
L
的词语集合,term
i
表示文档
d
i
∈
L
的词语集合。
用图示表示信息需求的粗糙集如图2.3所示。图2.3中,椭圆部分为用户信息需求 X ,其他图形代表 L 中各个不同的文档。 L 中的每个文档代表不同的已知知识,使用这些已知知识去刻画和表示信息需求的知识 X 。正如图2.3中所示,由于下近似和上近似不相等,所以用户的信息需求集合X是一个粗糙集。
图2.3 表示信息需求的粗糙集