哪些城市是海绵城市:找寻相关资料

来源:百度文库 编辑:神马品牌网 时间:2024/05/09 09:41:48
找寻关于web信息检索的关键技术方面的资料

WEB全文信息检索技术
  李灿
  (华南理工大学图书馆 510641)
  摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。
  关键词:信息检索 因特网 全文检索
  一、 前言
  Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。
  因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。
  二、 概述
  网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。
  全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。
  要实现全文检索,首先必须对WEB信息进行预处理。
  三、 WEB信息的预处理
  信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。
  (1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。
  (2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。
  (3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。
  (4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。
  (5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文档.
  (6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档.
  .
  四、检索
  检索包括文件信息表达和查询信息表达以及相关信息预测过程。
  (1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。
  (2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。
  (3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词,从而扩展了原始查询。
  (4)查询词的选择策略:
  ·非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。
  ·反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。
  ·交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。
  反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。
  (5) 信息检索模型:信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。
  布尔逻辑模型布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。查询结果一般不进行相关性排序。
  模糊逻辑模型为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型,它以逻辑真值为〔0,1〕的模糊逻辑为基础的,以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较,按照相关性的优先次序排出查询结果,在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。
  矢量空间模型和布尔检索模型不同,矢量空间模型中查询和文件都映射为同一n维空间矢量。利用奇异值分解(SVD)、查询词和文件的内部结构联系,通过欧几里德距离和余弦法则作相似性比较,根据矢量空间的相似性,排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果,而且能够提供查询结果分类,为用户提供准确定位所需的信息。
  概率模型在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对于结果来说,定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检索模型。该模型基于概率排队理论:当文件按相关概率递减原则排列时可以获得最大的检索性能。
  五、全文信息检索技术的发展
  目前的全文检索技术还存在着一些未尽人意的结果,主要是通常的信息检索系统性能较低,原因是将孤立词和词汇术语作为查询描述子,因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。
  目前人工智能和信息检索的结合主要包括三方面:(1)信息检索和专家系统:主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件;(2)信息检索和自然语言处理:它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上,例如确认词根和词组等。(3)信息检索和知识表达:此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。
  目前,虽然某些在WWW上的信息检索服务系统采取了智能用户代理的等方式,可以根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件等,并将用户所需的信息通过电子邮件等方式,主动提供给用户,减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主,辅以部分自然语言的处理。智能化信息检索技术的发展,特别是知识学习和知识库以及人机交互方式的应用,将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展,全文信息检索技术必将更广泛地应用于网上信息检索领域。
  参考文献
  1) WWW上的全文信息检索技术,金燕等,计算机应用研究,1999年第一期,P40-43
  2) 全文数据库建库原理与应用技术,王兰成等,情报学报,1999年第4期

基于网格的面向专业内容的Web信息检索体系结构

摘要:利用网格计算、集群系统、XML等技术对分散的Web信息资源按地区按专业内容从逻辑上进行了有效的组织和管理,设计了一个基于网格的面向专业内容的Web信息检索体系结构,为用户高效地获取面向专业内容的信息资源提供了一种方法。

关键词:网格计算,集群系统,XML, Agent, Web

1、引言

近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。

2、基于网格的面向专业内容的Web信息检索体系结构的设计

网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。

为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1

(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。
(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。
(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。

本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。

2.1 集群系统的设计

由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。

集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。

下面主要说明基于专业内容的XML信息集成系统的构造方法:

XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于

(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;
(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;
(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;
(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。

目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。

2.2 网格中间件的设计
图3所示的网格中间件的主要功能是
(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;
(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;
(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。

内部主要功能模块说明如下:
(1)接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。
(2)关系数据库及数据服务Agent: 关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。
(3)格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。
(4)XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。
(5)发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。
其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。

3、工作过程

要使本体系结构具有高协作性和互操作性,用户、网格中间件、集群系统以及其它Agent等实体之间的通信是整个系统运转的关键。由于XML为基于特定专业内容的表达提供了一种极好的手段,XML是一种元语言,其严格的定义和规则集使人和机器都能更容易的阅读文档,因此本文将XML集成到各部分的通信语言中,在用户发出的信息检索请求文档、网格中间件、集群系统之间的通信均利用XML定义,这样做增强了通信的语义信息和灵活性并可以在多种平台使用,并且基于XML的通信语言其通信内容的表达比其它方法更容易开发语法分析器。

具体的工作过程如下:

(1)请求、定位过程:由网格用户层向网格中间件发送用户的信息检索请求文档,描述网格接口参数、信息请求内容等,在接受Agent进行身份确认及权限确认后,经文档格式转换Agent模块、文档分析Agent模块、发送Agent模块处理后,定位于某些特定的集群系统服务器。

(2)应答、处理过程:集群系统服务器经验证、调用资源服务Agent对信息集成系统进行查询后,将查询结果信息传输给用户。

4、 结语

本文利用网格计算、集群系统、XML在数据组织、交换、共享方面的优势,对大量分散、异构的面向专业内容的信息资源提供了一种有效组织和管理方法;并通过网格中间件,实现了信息资源的数据格式转换与快速定位,提高了信息检索的效果。本文仅提出了一个体系结构设计,对更为复杂的实际问题的适用性,还有待进一步的完善和改进。

参考文献:

[1] 洪学海,许卓群,丁文魁. 网格计算技术及应用综述[J]. 计算机科学,2003,30(8):1-5.
[2] 孟小峰. Web数据管理研究综述[J]. 计算机研究与发展,2001,38(4):385-395.
[3] 叶修洪,陈根才. 基于XML的电子数据交换的研究和实现[J]. 计算机应用研究,2000,17(12):25-27.