相对于其它的搜索系统,多元搜索引擎的特点很显然:
- (1)检全率大大提高,但检准率更难保障,尤其在现阶段,互联网上并非信息缺乏,而是掺杂了过多污染的信息,而且独立的搜索引擎自身在检全与检准方面就存在很大的技术问题,所以元搜索引擎虽然能够向用户提供更全面、完善的结果,同时也带来了各个搜索引擎的噪声污染。
- (2)由于与元搜索引擎挂接的站点都有自己的一套检索语法,以统一的查询人口执行多个搜索引擎的查询存在较大难度,所以元搜索引擎一般只支持AND、OR、NOT等简单的操作。
- (3)这一类的搜索引擎基于网上已有的搜索引擎进行操作,在集中罗列的过程中,发挥了网站导航作用,起到了引擎之引擎的效果。
- (4)运作机制有别与于前两者(目录式或索引式),它是基于其他多家搜索引擎的查询结果进行再次评价与筛选,并以统一的格式反馈给用户,这就要求定期地对独立搜索引擎的检索性能、检索语句、结果反馈等进行测试与评价,屏蔽不同系统因为内部实现技术不同导致的不一致。
- (5)元搜索引擎自身可以没有实际的数据库保存网上众多的网站、网页、FTP、新闻组等信息,而是间接处理其他的搜索引擎检索的结果,这就需要与各个收录的搜索引擎网站建立协作关系,拥有对方数据库的访问权。
引擎之引擎(web of web,webliography)特点介绍
类似于传统的书目之书目(Bibliography of bibliographies),引擎之引擎是国外检索引擎发展成熟的一个标志,品牌众多的搜索引擎如百货商场货架上琳琅满目的商品,令人眼花缭乱,在网络搜索引擎中,即便各家使用的检索技术大同小异,但检索结果也会干差万别,于是搜索引擎的选择又成为一个不是难题的难题,靠时间与声誉效应建立起来的名牌地位自然是众所注目的对象,但是仍旧有不少搜索引擎的出现,冲击着老牌搜索引擎,于是更需要一种评价搜索引擎站点的网上指南工具,这类站点充当着检索引擎的指南针,与元搜索引擎不同的是在这一类搜索引擎的页面上主要提供站点的链接指向,以及对于搜索引擎的查询,它的目的不是检取到最终信息,而是检索可利用的工具信息,提供给用户的是有哪些搜索引擎可以为我所用的信息。这类搜索引擎站点的主要特点有:
(1)广泛收录各类搜索引擎,并及时发现、收集新出现的搜索引擎以及各个搜索引擎的最新 动 态 , 像 Search Engine Watch就提供了定期的搜索引擎排名、检索性能评价等。
(2)对搜索引擎站点进行分类管理,同时也提供查询。如需要查找“信息检索系统”方面的信息,通过引擎之引擎的查询,能够得到检索关于“信息检索系统”专门信息的各类搜索引擎的列 表 。 如 专 门 检 索 新 闻 组 、 BBS、 Mailinglist,或 是 专 门 检 索FTP资源的搜索引擎。
(3)引擎之引擎的站点还能够提供对收录的各家搜索引擎站点的评价,如信息覆盖范围、更新频率、检索效率等,这对于人们利用合适的搜索引擎工具进行查找提供了有价值的参考。
国内在引擎之引擎的站点建设上几乎是空白,各大站点仅仅是以友情链接或航海指南等形 式列出一些站点,既不具有体系,又不具有认同性,并不能很好地起到导航作用。
3 国外网上搜索引擎的技术与服务特色分析
综观前几种搜索引擎,在技术与形态上已较成熟,发展进入一个相对稳定的时期。分析国外搜索引擎在技术与服务上的发展可概括出以下几方面的特色:
(1)数据库的收录主题范围较为全面,并有各自特点。国外搜索引擎技术形态的成熟发展,使得服务目标明确,特色鲜明。综合前面所探讨的几种类型的搜索引擎,既有面向网上源信息,又有面向检索引擎工具自身的;既有检索WWW资源的,又有检索诸如FTP、Telnet、BBS等非WEB形式的资源的;既有综合性信息检索,面向广泛的人文、社科、自然科学等学科领域的服务,又有专深的针对性强的专业性检索工具,如:
●专门检索医学信息的检索工具Medline,
●专门检索教育方面信息的ERIC,
我国的中文搜索引擎存在形态单一,主要是目录-引擎一体化形式,而且各个搜索引擎的门户站点大同小异,检索对象宽泛而庞杂,缺乏深度,没有太大特色。
(2)信息组织的科学性。要达到良好的检索效果,资源的合理组织与科学标引是至关重要的。单纯地依靠计算机、软件设计人员去开发搜索引擎是很不够的,像Yahoo!的高质量检索很大程度上与其在资源收集、标引、组织阶段就依靠图书情报专业人员的专业知识与经验进行
资源搜集、标引有很大关系。传统文献信息的加工处理理论对于现代网络资源信息的加工处理仍旧有着重要的指导意义。网络信息检索是传统检索理论在当代信息环境下的拓展与应用,应该大力借鉴与应用成熟的检索理论与技术。
国内依靠人工组织信息资源的站点“搜狐”在检索结果的准确率上就比较高。然而信息资源的组织加工中的体系划分又是一个问题,现在大多数搜索引擎在网上信息资源的主题分类上类目混乱,缺乏规范,往往为了迎合大众口味生造类目,破坏了知识体系的完整性、系统性与参照性。另外有些跨学科的内容在子类中缺少互见与参见,容易造成错检与漏检。目录的规范化、标准化与科学化是提高搜索引擎质量所不可缺少的依托之一。
(3)在国外网上搜索引擎开发与研制中,传统检索技术得到广泛的应用与发展。将基于传统文献信息检索的技术与网络结合起来,实现了Web页面上的布尔逻辑检索、词组检索、位置检索、截词检索等,满足用户多向需求的检索要求。
国内的中文搜索引擎检索功能单一,主要支持布尔逻辑检索,这与网络环境下中文信息检索理论不成熟有关以外,还与信息加工深度有一定关系。网上信息资源加工深度不够,往往无法满足更高级的复杂检索。所以在发展检索理论的同时,加强信息加工深度也不容忽视。
(4)检索语言的自然语言化。像Altavista支持自然语言检索,基本上允许用户依照自己的习惯输入检索词。英文的自然语言理解有着其独特的优势,英文单词之间的空格是其独特的切分标识,而汉字没有自然的分隔符号,而且汉语字词语义丰富,歧义几率远远超过英文,这为中文信息处理带来了很大难度。要想让用户学习每一种搜索引擎的检索句法是很麻烦的,为了减轻用户负担,检索入口的自然语言化是发展的必然趋势。像北大的“天网”对于检索词就首先进行自动切分,然后再与数据库中的记录匹配,具有一定的智能性,如查询“信息检索理论与技术”,其切分结果是查询“信息检索理论与技术”,系统缺省为“与”的关系,所以含有以上切分后的字词的信息将被检出。但是切分的智能化程度还有待进一步提高,如果真正查询的是“信息检索”的“理论”与“技术”,那么按照上述切分、匹配,会造成大量噪声输出。
(5)国外搜索引擎在面向用户服务的层次上,呈现出多样化的特色:
●提供特殊需求的查询。“白页服务”可以在网上查找个人的电子邮件、电话号码等信息;“黄页服务”可以查找机构与团体的相关信息;而且有的网站还可以提供天气查询、地图查询、股市行情查询等。
●进行基于内容的检索。基于内容的检索是指根据媒体对象的语义、特征进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。
●支持多语种检索,方便各国用户查找信息,通过这种方式扩大服务对象范围及影响力。
由于中文信息资源还正处于建设发展阶段,例如政府上网工程正在开展,所以政府信息的网上检索自然存在一定难度。因此,中文搜索引擎提供的服务雷同较多,具有独特服务项目的并不多。但是也已经有不少商家在开发特色服务的站点,如:
4 中文搜索引擎的未来发展
随着网络在国内的兴起,网上中文信息的用户数量大增,加之国外搜索引擎的冲击,ISP、ICP也非常注重搜索引擎的建设,目前网上的中文搜索引擎数量也相当可观了,对于检索网上的中文信息发挥了重要的指引作用。然而与国外的搜索引擎工具相比,中文搜索引擎发
展的空间还是相当广阔的。
(1)由独立型向多元化的发展。独立的搜索引擎查找的范围只能局限于自身搜集的信息,查询深度与广度有限。目前网上中文信息还处于建设阶段,独立的搜索引擎在搜集与提供检索上似乎能应付,但信息社会发展必然不满足于单一工具的搜索,因此应当加强元搜索引擎的建立,扩大各个独立搜索引擎的协作关系,为用户提供更全面的信息服务。
(2)由综合型向专业型的发展。目前国内的中文搜索引擎站点多数属于综合型,检索的信息企图涉及人类生活的方方面面,在求全的驱动下忽视了信息的深度挖掘。目前专业型站点数目寥寥无几,发展的余地还是很大的。
(3)由单一化向多样化的发展。中文搜索引擎在服务上形式不够灵活,主要是检索WWW信息,检索网页、网站描述等信息,应当同时发展其他各种类型的服务,如提供免费的网络资源,提供讨论组、聊天室,提供E-mail服务,提供时尚信息的邮件订购等,丰富、充实搜索引擎
的服务项目。
(4由人工语言向自然语言的发展。精确、规范的人工语言、受控语言是现在信息检索的主流语言,但是要求用户利用标准的语词准确表达他自己并不熟悉的检索内容,既增加检索者的学习负担,又降低了检索的效度,自然语言检索是发展的必然趋势。自然语言检索缺乏规范,比较模糊,如何通过自然语言的接口,提供高质量的检索是情报检索界正在不断探讨的问题,无论是前端用户提问的预处理还是在后端建立后控词表加以转换,人们都在寻求理想的方式实现自然语言的理解与检索。
(5)由人工参与向计算机化的发展。对于一些智能性要求比较高的工作,如信息资源的甄别、分析、标引工作,目前还有许多是由人在完成,虽然“机器人”、“蜘蛛”等智能软件的出现正在代替人们完成许多工作,但是智能化程度还不高。这也是造成一些索引式搜索引擎输出结
果中重复结果、死链接比较多的原因,然而互联网发展的迅猛趋势为计算机提供了广阔的天地,所以应加强搜索引擎建设过程中实现细节的计算机化,同时不断提高其智能性,以保证较高的质量。
(6)由引导型向评价型的发展。目前多数搜索引擎在结果反馈上仅提供站点的链接和简短的描述,只是起到指引的作用,缺少对相关度、价值的评价。而且搜索引擎自身的性能有好有劣,目前各家中文搜索引擎目光都紧密追随着网络上的源信息,忽视了对搜索引擎自身这种工具的评价与导航。因此,一方面针对源信息,要在已有的搜索引擎基础上,加强对搜索结果的评价与筛选,另一方面,建立起搜索引擎的评价与导航系统,即积极开发引擎之引擎的工具,这对于引导搜索引擎的良性发展有很大的指南作用。
(7)由孤立型向兼容型的发展。多数中文搜索引擎只支持中文简体,少数同时支持中文简体、繁体、英文,缺乏对其他语言的兼容性。许多西方搜索引擎支持的语种不下数十种,要扩大搜索引擎的服务范围,拓展世界市场,在语言上的兼容性发展是有待加强的。