您现在的位置是:首页 >

赵丽颖详细资料大全 全文检索详细资料大全

火烧 2022-08-25 22:09:12 1063
全文检索详细资料大全 全文资料库是全文检索系统的主要构成部分。所谓全文资料库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文资料库不仅存储了信息,而且还有对全文

全文检索详细资料大全  

全文资料库是全文检索系统的主要构成部分。所谓全文资料库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文资料库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文资料库无一不是海量信息资料库。

赵丽颖详细资料大全 全文检索详细资料大全

基本介绍

中文名:全文检索外文名:full-text search定    义:一种新的信息检索技术套用学科:计算机技术方法术语 概念,发展历史,系统及功能,实现技术,

概念

发展历史

全文检索是20世纪末产生的一种新的信息检索技术。经过几十年的发展,特别是以计算机技术为代表的新一代信息技术套用,使全文检索从最初的字元串匹配和简单的布尔逻辑检索技术演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的复合技术。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理系统的代名词,衡量全文检索系统的基本指标和全文检索的内涵也发生巨大变化。

系统及功能

全文资料库是全文检索系统的主要构成部分。所谓全文资料库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文资料库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文资料库无一不是海量信息资料库。对于全文资料库这种比较非结构化的数据,用RDBMS(关系资料库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,而通过全文检索技术就能高效地管理这些非结构化数据。 关于全文资料库的特点,空军政治学院计算机中心王兰成副教授认为全文资料库与书目资料库、事实资料库相比较主要有如下特点: (1)全文资料库包含信息的原始性库中信息基本上是未经信息加工的原始文本,具有客观性。(2)信息检索的彻底性可对文中任何字、词、句进行检索,还可表示检索之间的复杂位置关系(3)所用检索语言的自然性不做人工标引,借助截词、邻接等匹配方法,以自然语言检索所需文献。这是与传统主题词检索方法的根本区别。(4)数据相对的稳定性全文资料库基本上是封闭的,一般不需更新。(5)检索结果的准确性(6)数据结构的非结构性

实现技术

全文检索系统的实现技术分为三个方面:关系型全文检索系统、层次型全文检索系统、面向对象的全文检索系统及自动标引技术。 针对全文数据系统的构建,提出全文检索系统的实现技术,主要分为5个步骤。 (1)数据准备:它是指针对计画载入到全文资料库中的数据进行收集、整理、归类等预先处理的过程。载入到全文数据中的数据可以从多种途径获得,常见的数据来源有:电脑打字产生的档案,电子印刷产生的文稿,计算机网上传送的档案,电子出版物,图文处理产生的档案,专门组织人力录入建库。 (2)文本预处理:包括规范格式,当格式多种多样时,应加以整理,使文献的格式规范化;批式标引,文本预处理阶段完成的批式标引,不受全文资料库结构的限制,效率较高。 (3)数据载入:数据准备好以后,便可以载入(拷入、输入)到资料库档案中去了。载入数据可有单篇方式或批量方式。单篇方式一次载入一篇,适于平时文献随时载入的情况。批量方式一次载入多篇,适于集中大量载入的情况。 (4)数据检索:资料库建立起来之后,便可根据全文检索系统提供的检索功能对资料库进行检索。 (5)数据维护:全文数据建立以后,需要经常对资料库的内容进行索引、更新、追加和清理。  
永远跟党走
  • 如果你觉得本站很棒,可以通过扫码支付打赏哦!

    • 微信收款码
    • 支付宝收款码