第二节 文献检索的基本原理
我们知道文献检索包括两个过程:一个是文献的存储过程,另一个是文献的检出过程,两个过程互为条件,互相依赖。存储是为了更好地检出文献,而检索实践又促进存储工作的发展。而要使这两个过程统一起来,使文献既存得进去又取得出来,就要有个约定的规则,使文献存储者与文献检索者都能读懂,这样检索才能圆满地实现。这个规则就是文献的标识系统,也称检索语言。为了更好地弄清检索的基本原理,有必要先了解文献标识系统。
一、文献标识系统
文献的标识,就是文献工作者为了更好地管理文献达到使其利用者更好地利用文献的目的,给文献规定的符号代码等标志。而所谓文献标识系统,就是这种标识按一定的规则排列起来而形成有序的符号代码的集合,它是文献工作者对文献加工排序的主要依据,也是检索者检索文献的主要依据。这种标识系统具有一定的法律性和相对稳定性,它在一定的时期内是不变的,但由于科学技术的发展、知识的更新、学科的综合与分化,这种系统可能无法适应文献加工存储以及检索的需要,因而可以对它进行修订和补充。我国的《中图法》已经出版了第四版。
文献标识系统有许多种,而且依据不同的划分标准进行划分就会得到不同的结果,下面是我们依据描述文献特征款项划分而得出的标识系统(见图2-1)。
图2-1 文献标识系统的类型
在图2-1中我们可以看到标识系统是多种多样的,文献组织者依据自身所藏文献的特点及读者群的特点选择自己的标识系统,我们不能把每一种都一一予以介绍,只能就目前常用的几种简要介绍一下:
(一)分类法标识系统
分类法是文献标识系统中最原始、最常见的一种直接体现知识分类的等级制概念的标识系统。它是对概括文献内容特征及某些外部特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。体系分类的主要特点是按学科、专业集中文献,并从知识分类的角度揭示各类文献在内容上的区别和联系,提供从学科分类查找文献的途径。各种采用分类法标识的检索工具的分类体系也不完全相同,所以现在有多种分类法,我们国家的图书馆用于类分图书的分类法就有好几种,如“中小型图书馆图书分类法”、“中国科学院图书馆图书分类法”、“人民大学图书馆图书分类法”、“中国图书馆图书分类法”等。国外的有“杜威十进分类法”、“冒号分类法”等,尽管这些分类法的编号体系不尽相同,但是它们的基本原理是相同的,即按知识体系分类。
文献分类的基本方法是对内容比较单一的文献,一般依据其学科属性归类;对内容比较复杂的文献,要明确内容重点,弄清作者的写作目的和文献的读者对象,然后灵活地加以处理。当然,分类方法还要受到分类法、分类思想的制约。另一方面,为了了解分类过程中某些问题,保证归类的一致性和唯一性,通常都要制定一系列的分类规则。下面择要介绍几条常用的规则,这些规则对我们了解分类方法和从分类检索文献有一定的参考价值。
文献分类总则——以文献的学科内容为分类的主要标准,文献的形式、载体、所属时代或地理范围等一般只能作为辅助标准。
单主题和多主题文献的分类规则——单主题文献一般按学科归类;兼论理论方法和应用的文献依其重点分;从不同领域来研究同一事物的,一般按事物归类。对多主题的文献,应先判明不同主题之间的关系属于何种类型,若为并列关系,一般依前面的主题或最重要的主题归类;若为从属关系的,一般按上位主题归类;若为因果关系的,一般按结果方面归类;属应用关系的,一般按应用方面归类;属比较关系的,一般依重要和作者倾向归类。
参考工具书和地图的分类规则——综合性的工具书一般分入“综合性图书”这一大类(如《中图法》的Z大类),专业性的工具书分入相应的学科;综合性地图一般分入地理类,专科性地图分入相应的学科。
特殊文献的分类规则——专利文献一般用专利分类法分类,标准文献一般也按标准分类,也可按普通分类法归类。
我们国家绝大多数图书馆用《中图法》类分图书文献。国家也规定用《中图法》,这便于全国文献资源的统一管理和布局。《中图法》共有五大部类:A 马列主义、毛泽东思想;B 哲学宗教;C 社会科学总论;N 自然科学总论;Z 综合类。这五大部类下面又有若干大类,共有22大类。《中图法》是用字母和数字作标记符号来表示类目等级关系的,例如:
3 雕塑技术
5 工艺美术
[59]建筑艺术
6 音乐
7 舞蹈
8 戏剧艺术
从以上片断中我们可以看出,它是以学科分类为基础,运用概念划分的方法将知识分门别类地组成若干个等级,对每一类的知识逐级展开划分,使其形成一个从总到分、从一般到具体、从简单到复杂的层累制等级结构分类体系。
(二)主题法标识系统
等级体系分类法多数是用号码作为概念标识,用分类法直接显示概念之间的关系,并将概念标识进行系统排列。主题法是用语词作为概念的标识,将概念标识进行字顺排列,并用参照系统等方法间接显示概念间的关系。
主题法类型也有多种,如图2-2所示:
图2-2 主题法类型
下面简要介绍各类型主题法系统。
1. 标题法
标题法是以标题词作为文献内容标识和检索依据的一种主题标识方法。所谓标题词,是从文献内容或题目中抽出来,经过规范化处理,用以描述文献内容特征的词和词汇,其构成基本单元是主标题词、副标题词和说明语,例如《EI》标题词表中的片断:(1972年版,第72页)
MACHEN DESIGN 主标题词
(For subheading, See ENGINEERING ) 601(卡片号,1975年取消)
MACHINE SHOP SEE METALCUT TING see 参见
MACHINE TOOLS ()内为说明语
… …
这是一种先组式语言,即在检索前已经固定组配关系,检索时按既定组配执行。它有较好的通用性、直接性和专指性,但灵活性较差。比较典型的代表是“工程标题表”。
2. 单元词语言
单元词语言是在标题词语言的基础上发展起来的。它的主导思想是尽量避免选用词组或短语来表示复杂概念,而用不能再分解的概念单元的规范化名词,并通过若干个这种名词的字面组配去表达文献的复杂概念,其组配方式为后组式,例如“电子工程”不是单元词,只有“电子”和“工程”才是单元词,在英文中单元词常是一个单词。单元词具有灵活的组配功能,在检索时可将某些单元词组配起来使用,这种语言属于后组式语言。单元词集合构成单元词表,如专利检索工具中的“WPI规范化主题词表”就是一例。
3. 关键词语言
关键词由直接从文献的篇名或文摘或全文中抽出来、未经规范化处理的自由词汇构成。这些词中除了禁用词,如冠词、介词、副词等之外,几乎所有具有检索意义的信息单元都可以用作关键词,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。关键词语言适合计算机进行自动抽词标引和编制各种类型的关键词索引。
所有的关键词都是平等的,按全部字顺排列,若干关键词的组合构成一个文献条目,说明一篇文献的主题内容,而全部关键词在检索系统中却是彼此孤立没有任何联系的。
例如:《化学文摘》(CA,100卷,12期中的一个片断)
关键词 Automatic
相关文献 Compensation temp striping chronopo=
Tewtilonletry 95626d→文摘号
Automation
Mlass aspectroscopy gas analysis 88325b
Automobile
Automotive
Autoprotolysis
……
关键词法可分为:题内关键词,题外关键词。这是从关键词的来源划分的。
4. 叙词语言
叙词语言也是用规范化的名词作基础的主题语言,其基本成分是叙词。其一,它吸收了主题法系统中其他语言的优点和分类法体系语言的优点;其二,保留了单元词语言的单词组配原理,采用了组配分类语言的概念组配;其三,适当采用了标题词语言的先组式方法,以克服某些词拆分后再组成产生意义失真的缺点。正是由于叙词语言对多种语言采取了扬长避短的方法,所以它具有良好的检索功能。
我国编制的《汉语主题词表》(以下简称《汉表》)也是典型的运用叙词语言的例子。
《汉表》由社会科学类词和自然科学类词两部分组成,是一部综合性词表。新版《汉语主题词表》(自然科学,增订本,1991年版)的基本词汇,已纳入国家叙词库,并可用于全国情报系统联机检索网络。
《汉表》由字顺表、词族索引、范畴索引、英汉对照索引等组成。
(1)字顺表
即主表,是编制主题索引、按主题检索、组织目录索引的主要工具,按汉语拼音顺序排列。例如:(www.zuozong.com)
xian xiang guan ( 汉语拼音)
显像管 [56CE] 范畴号
picture tubes (英语)
D 电视显像管 D—代,把正式主题词指引到非正式主题词。
监视管
F 彩色显像管 F—分,标明语词进一步划分情况;
固体显像管
黑白显像管
S 电子束管 S—属,指明语词的上位概念;
Z 电子管 * Z—族,族首词,一个词族里最大的概念;
C 显示管 C—参,参照,把语词指引到相关的语词。
指示管
另外,参照系统还有一个Y(用),和D(代)的方向相反,它们是一对。这六个参照符是表示语词的三种关系:正式与非正式主题词的关系、属种关系(上下位概念关系)、相关关系。
(2)词族索引(等级表)
把主表中具有属种关系、某些整体部分关系的正式主题词按规定属分级别展开全显示的一种词族系统。同一族词是同一主题的相关词的集合,对它们进行比较,可以准确地选择主题词。在词族索引中,族首词是能概括一族词的最上位的广义概念词,在其后加“*”以示区别。族首词之间按音序排列,同族之间按等级排列;等级关系用点数来表示:一点(“·”)为二级,两点(“··”)为三级,依此类推;同级之间按音序排列,例如:
diàn yǐng
电影 *
· 彩色电影
· 电视电影
· 黑白电影
· 特殊形式电影
·· 宽银幕电影
··· 变形法宽银幕电影
··· 宽胶片电影
··· 遮幅法宽银幕电影
·· 立体电影
··· 全息电影
· 无声电影
· 一步法电影
· 有声电影
· 窄胶片电影
·· 16毫米电影
··· 超16毫米电影
·· 8毫米电影
··· 超8毫米电影
·· 8.75毫米电影
· 35毫米电影
(3)范畴索引(分类表)
主表中主题词按学科范畴编成分类系统。三级分类制,用数字与字母混编,大类两位数,二、三级分别用一位拉丁字母表示,形式如下:
保育院 表面粗糙度
Y 幼儿园 表面粗糙率
补习学校 表面光洁度
初等学校 Y 表面粗糙率
Y 小学 槽轮机构
初级小学 差动机构
初级学院 Y 差动轮系
初中 差动轮系
(4)英汉对照索引
英汉对照索引是按主题词英文译名排列的一种索引,某些学科(如医学、生物科学、化学等)习惯用的拉丁文名词一律按拉丁字顺排列,形式如下:
Air masses (meteorology)
气团 *
Air monitoring systems
大气监测系统
Air motors
风动马达
Y 风力发电机
至于其他标识系统在此就不一一介绍了。
二、文献检索原理
标识系统把文献存储和检索两个过程联系起来,怎样联系起来的呢?我们来解剖一下两个过程就可以明白,如图2-3所示。
从上面对过程的分析中,我们可以看出文献检索的基本原理就是检索者将提问的标识与存储在检索系统(工具书、数据库)中的文献特征标识进行比较,结果是:凡是文献特征标识包含了检索提问标识的文献线索就从检索系统中输出,输出的文献线索与检索者所需文献大致相吻合。
图2-3 文献存储和检索过程
但需要说明的是,文献检索的最终结果是否正确,并不完全取决于检索提问标识与文献特征标识的比较是否一致,还与检索提问本身是否确切地描述了待查课题的要求以及文献特征的标引是否正确有关。不论是提问式还是文献特征的标引出现差错,都会影响检索结果的准确率,因此检索者和文献工作者都要加强自身素质,提高检索的效率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。