机读目录MARC(Machine Readable Catalog)
. MARC
. LCMARC—USMARC—MARC21
. UNIMARC
. CNMARC
MARC是Machine Readable Catalog(ue)的缩写,意即“机器可读目录”,即以代码形式和特定结构记录在计算机存储载体上的、用计算机识别与阅读的目录。MARC可一次输入,多次使用,是信息技术发展和资源共享要求的产物。
MARC数据最早产生于美国。1961年,美国国会图书馆开始图书馆自动化的设想,随着计算机技术的进步,1963年,美国国会图书馆组织了在内部工作中采用电子计算机技术的可行性调查,1966年1月,产生了《标准机器能读目录款式的建议》,即MARC -1格式,MARC诞生于美国国会图书馆(Library of Congress ),故称LCMARC。 1967年提出MARC -2,它是目前使用的各种机读目录格式的母本。1969年开始向全国发行MARCII格式书目磁带,并将MARCII格式称为US -MARC,即美国机器可读目录。作为一种计算机技术发展早期形成的数据格式,这一格式在定义时比较充分地照顾到图书馆书目数据在文献形式描述、内容描述、检索等方面的需要,表现为:字段数量多;著录详尽;可检索字段多;定长与不定长字段结合,灵活实用;保留主要款目及传统编目的特点;扩充修改功能强;并能在实践中不断发展完善。美国机读目录适合美国国情,英法等国家根据各自情况创建了自己的机读目录。1999年秋天,加拿大国家图书馆与美国国会图书馆一起完成了对两国MARC格式的修改,两国颁布一个共同的MARC格式版本,取名为MARC21,现为美、英、法等许多国家所应用。
为了进一步协调、促进国际交流,统一各国机读目录格式,国际图书馆联合会(IFLA)于1977年在USMARC基础上主持研制了“国际机读目录通信格式UNIMARC”,现在许多国家都采用UNIMARC进行文献编目。 UNIMARC实现了不同文种、不同载体的文献机读目录格式的一体化,为不同国家书目机构之间机读目录的交换创造了条件。
CNMARC是中国机读目录(China Machine - Readable Catalogue)的缩写,是用于中国国家书目机构同其他国家书目机构以及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。中国机读目录研制于20世纪70年代。1979年成立了全国信息与文献标准化技术委员会,成立北京地区机读目录研制小组;1982年,中国标准总局公布了参照ISO2709制定的国家标准《文献目录信息交换用磁带格式》(GB2901-82),为中文MARC格式的标准化奠定了基础;1986年UNIMARC中译本面世。在此基础上,根据我国实际情况,编制《中国机读目录通讯格式》讨论稿,1992年2月正式出版《中国机读目录通讯格式》,即CN - MARC。CNMARC格式为我国机读目录实现标准化、与国际接轨,从数据结构方面提供了保障。
MARC是元数据(Metadata)的一种,这里所指的元数据是:
.一种关于数据结构化的数据
.是关于资源的信息
.是一种编目信息
元数据利用了知识管理的方法组织资源的信息,使用元数据可以提高知识使用的效益,即提高信息被有效地检索和利用。采用何种格式来描述资源的信息,取决于馆藏的规模、馆藏结构和馆藏文献的特点等因素。
随着CNMARC格式的不断完善,其内容的描述越来越准确和完整。2004年3月北京图书馆出版社出版了由国家图书馆编写的《新版中国机读目录格式使用手册》,2014年8月国家图书馆出版社出版了《中文书目数据制作(全国图书馆联合编目中心使用手册第1辑)》,这两本书成为业内人士普遍遵循的文献编目准则。
MARC记录建立的目的是为了全球共享,共享的前提是数据的可交换性,MARC记录的交换格式是IS02709(GB 2901)。
CNMARC主要分为三个区:头标、目次、数据。
以下是一条完整书目记录的ISO2709格式,仅在数据交换时采用这种格式。
00783nam0 2200265 450 001001100000005001700011010003200028099002100 06010000410008110100080012210200150013010500180014510600060016320000790 01692100027002482150055002755100031003306060048003616900014004097010028 00423801002200451905002200473920001400495998000800509000082183420161029 144100.0 a978-7-01-005124-6dCNY28.00 aCAL 012013013949 a20130124d2009 em y0chiy50 ea0 achi aCNb110000 aacfhz 000yy ar1 a做最好的自己Azuo zui hao de zi jid=Be your personal bestf李开复著zeng a北京c人民出版社d2009 a275页,[2]页图版c图(部分彩图),肖像,摹真d24cm1 aBe your personal bestzeng0 a成功心理学Acheng gong xin li xuej通俗读物aB848.4v4 0a李开复,ALikaifuf1961-0aCNbZSUc20130129 aJHUDdB848.4/1622 a242450z1 aZSU
(一)记录头标
记录头标,简称头标,位于每条记录的开头,固定长度为24个字符位(00-23),其数据元素由一系列按字符位定义的数字代码和字母代码组成,提供对记录进行处理的参数,必备,不可重复,没有字段号、指示符或子字段标识符。除5-8字符位需由编目员根据文献具体情况人工录入外,其他均由计算机系统自动生成。00783nam0 2200265 450
数据元素表
需要选择的数据元素为:记录状态、执行代码、记录附加定义.
记录状态(5字符位)
执行代码(6-9字符位)包括:
记录类型(6字符位)
书目级别(7字符位)
层次等级代码(8字符位)
9字符位未定义,空位
记录附加定义(17-19字符位)包括:
编目等级(17字符位)
著录格式(18字符位)
19字符位未定义,空位
内容说明:
记录状态(5字符位)
反映书目记录的维护状态,记录状态定义了5种代码:
n新记录
表示进入书目文档后一直没有被修改过的记录。
c修改过的记录
d被删除的记录
o曾发行较高层记录
p曾为不完整的记录或出版前记录
注:CALIS联合目录不启用代码d和o。
记录类型(6字符位)
反映记录类型,定义了15种代码。适合图书编目的代码1种:a印刷型文字资料。
书目级别(7字符位)
说明书目级别,定义了4种代码。适合图书编目的代码有2种:m、s。
m专著
一册或多册按一定计划出版的资料,在图书编目范畴,通常指单行本专著或多卷本专著(多卷书)。
s连续出版物
以分册或卷期形式连续出版的资料,在图书编目范畴,通常指集中著录的丛书(编)、年鉴、工具书等。
a分析级
编目实体包含在另一实体之中,如刊物中的一篇文章;刊物中的一个连续性栏目或专辑;会议文集中的一篇论文。
c合集
汇集型书目实体,如盒装的册子汇集;同一作者的全部手稿等。
著录要点:
集中著录的多卷本专著的书目级别选用m,而不是s
分散著录的丛书的单册书目级别选用m,而不是s。
层次等级代码(8字符位)
说明本记录以层次性的关系与其他记录连接以及它在层次等级中的相对位置。具有层次等级关系的相关记录应共存在同一个数据库中,定义了4种代码。
#层次等级关系未定
分散著录的丛书的单册,分散著录的多卷书用代码“#”。
0无层次的记录
无等级关系的单册图书、集中著录的多卷书采用代码“0”。
1最高层记录
2低于最高层级的记录(所有低层记录)
著录要点:
如果字符位5记录状态选用的代码为“0”(有较高层次记录),层次等级代码应取“2”。代码“1”和“2”仅用于数据库里有其它层次的记录存在的情况下。
编目等级(17字符位)
说明书目记录的书目信息或内容标识的完整程度。
#完全级
指最完整的MARC记录。编制记录时与编目实体核对过。
1次级1(未核实文献实体)
最完整的MARC记录,但在建立该记录时未与编目实体核对过。该级别主要用于回溯转换的记录,某些控制字段的代码和某些数据元素仅仅基于卡片目录的著录信息。
2次级2
该记录为在版编目(CIP)记录,这类记录通常是不完整的,如载体形态字段可能没有或不完整。
3次级3
该记录属于不完整编目的记录,该记录有可能由发行机构升级为完全级的记录,也有可能不再被升级。
著录格式(18字符位)
说明编制记录依据的著录规则,在著录200—225字段时是否依据国际标准书目著录(ISBD),定义3种代码。
#完全采用ISBD格式
记录中出现的著录数据元素全部符合ISBD规定
i部分的或不完全的ISBD格式
记录中出现的著录数据元素只有一部分符合ISBD规定。
n非ISBD格式
记录中未出现符合ISBD规定的著录数据元素。
实例详解
续表
(二)目次区
目次区位于记录头标之后,是记录中每个可变长控制字段和可变长数据字段位置的索引,由计算机自动生成。各编目系统的机内格式不反映目次区。
目次区结构示意图
目次区结构示例:
001001100000 005001700011 010003200028 099002100060 100004100081 101000800122 102001500130 105001800145 106000600163 200007900169 210002700248 215005500275 510003100330 606004800361 690001400409 701002800423 801002200451 905002200473 920001400495 998000800509
目次区由一串数字构成,主要反映该记录中的具有字段在数据区的起始位置及长度,每12位表示一个字段信息,以001001100000为例:
1-3:字段标识符,001,即001字段。
4-7:字段长度,0011,即001字段长度为11字符。
8-12:字段起始字符位置,00000,即001字段从第0字符位起。
如果一条书目记录由20个字段组成,则该记录的目次区包含20个目次项。目次区以字段分隔符结束。
注:
记录分隔符的ASCII值为29
字段分隔符的ACSII值为30
子字段分隔符的ASCII值为31
(三)数据字段区
数据字段的三个层次依次为:功能块、字段、子字段或数据元素。
子字段由数据元素构成,若干子字段构成一个字段,若干字段构成一个功能块。
数据字段包括:
.可变长控制字段
.可变长数据字段
可变长控制字段:00X字段
如:001字段:记录控制号
005字段:最近一次作业的日期和时间
特点:
.均无字段指示符和子字段代码;
.由单个或多个数据元素组成;
.通过字符位置识别相关数据元素;
.大多数字段的长度为固定长度。
可变长数据字段:01X—9XX字段
特点:
.均有字段指示符和子字段代码;
.由单个或多个子字段组成,通过子字段标识相关数据元素;
.均为可变长度。
可变长数据字段结构(以200字段为例)
(四)字段块
0XX 标识块
1XX 编码信息块
2XX 著录信息块
3XX 附注块
4XX 连接款目块
5XX 相关题名块
6XX 主题分析块
7XX 知识责任快
8XX 国际使用块
9XX 本地适应块
(五)约定符号
M必备(Mandatory)
A有责必备(Mandatory if applicable)
O可选用(Option)
R可重复(Repeat)
NR不可重复(Never repeat)
#空位或未定义
$子字段分隔符