WEB全文信息检索技术

第一篇：WEB全文信息检索技术

WEB全文信息检索技术

摘要：本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程，并就智能检索技术的发展进行了阐述。关键词：信息检索因特网全文检索

一、前言

Ｉｎｔｅｒｎｅｔ网是目前全球最大的、最有影响力的信息网络，它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网（ＬＡＮ）集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Ｉｎｔｅｒｎｅｔ网获取有价值的信息，已成为科研人员必备的一项基本技能。

因特网是一个开放型的巨大的信息资源库，拥有上千万台以上的主机和过亿的用户；并且由于因特网信息蕴含的无限丰富，信息组织、表达的直观、生动以及信息服务的方便性和多样性，愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年，因特网用户的数量更是成倍地增长。可见，因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。

二、概述

网上的信息具有数量大、形式多、内容广、专业性不强等特点，给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Ｉｎｔｅｒｎｅｔ信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示，存储、组织和访问，即根据用户的查询要求，从信息数据库中检索出相关信息资料。

全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列，还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制，获得用户满意的检索输出。

要实现全文检索，首先必须对WEB信息进行预处理。

三、WEB信息的预处理

信息预处理的主要功能是过滤文件系统信息，为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录，使用户能很容易地检索到所需信息。

（１）格式过滤：信息预处理应该能够过滤不同格式的文档，以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字，而且能够检索原始格式文件的所有信息。

（２）语词切分：语词是信息表达的最小单位，而汉语不同于西方语言，其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法，联想－回溯法、全自动词典切词等。近年来，又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。

（３）词法分析：汉语语词切分中存在切分歧异，如句子“网球拍卖完了”，可以切分为“网球／拍卖完了”，也可以切分为“网球拍／卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外，还需要对语词进行词法分析，识别出各个语词的词干，以便根据词干建立信息索引。对于英语语词，建立索引之前首先要去除一些停顿词（如常见的功能词“ａ”，“ｔｈｅ”，“ｉｔ”等）和词根（如“ｉｎｇ”，“ｅｄ”，“ｌｙ”等）。

（４）词性标注和短语识别：在切分的基础上，利用基于规则和统计的方法进行词性标注。在此基础上，还要利用各种语法规则，识别出重要的短语结构。

（5）自动标引：从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息，用该组信息对文文件进行标引，使用户可以通过输入关键信息检索到该文文件的简要信息，如标题、摘要、时间、作者和ＵＲＬ等，进一步点击可查询到该文 1 档．

（6）自动分类：建立并维护一套完整的分类目录体系，根据文文件的信息特征，计算出与其相关程度最大的一个或多个分类，将文档划归到这些分类中去，使用户可以通过浏览分类体系直接查询到该文档．

．

四、检索

检索包括文件信息表达和查询信息表达以及相关信息预测过程。

（１）信息表达：信息的表达有多种方式，如布尔表达、矢量空间表达、自然语言表达等，每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定，并对应于相应的存储模式和检索算法，信息查询和组织的效率，也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。

（２）查询分析：用户端的查询信息首先要进行分析处理，提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是：查询索引处理是及时地提交处理形成索引，而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式，因此能够采取相似性估计算法检索出相关文件。

（３）查询扩展：近年来，为了提高信息检索的性能，将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展，即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图１所示，知识库中存储的知识为原始查询增添了相关词，从而扩展了原始查询。

（４）查询词的选择策略：

·非独立词：非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。

·反馈词：根据用户反馈的文件信息，按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词，将这些词增加到用户查询中。

·交互式选择：用户从通过上述策略得出的待选词中决定最后的查询词。

反馈网络属于人机交互范畴，目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息，不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式，因此查询结果也不尽相同。

（5）信息检索模型：信息检索系统的核心是搜索引擎，它需要从大量复杂信息中，筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同，可将信息检索分为：布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。

布尔逻辑模型布尔逻辑模型是最简单的检索模型，也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑，即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词，有时也包括一些更为复杂的特征，如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关，或者与查询无关。查询结果一般不进行相关性排序。

模糊逻辑模型为了处理精度和复杂性之间的矛盾，引入了模糊逻辑模型，它以逻辑真值为［０，１］的模糊逻辑为基础的，以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算，将所检索的文件信息和用户的查询要求进行模糊逻辑比较，按照相关性的优先次序排出查询结果，在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。

矢量空间模型和布尔检索模型不同，矢量空间模型中查询和文件都映射为同一ｎ维空间矢量。利用奇异值分解（ＳＶＤ）、查询词和文件的内部结构联系，通过欧几里德距离和余弦法则作相似性比较，根据矢量空间的相似性，排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果，而且能够提供查询结果分类，为用户提供准确定位所需的信息。

概率模型在信息检索中存在不确定性问题，对查询本身来说，它不能唯一地表示信息需求，对于结果来说，定查询结果的正确与否。对于布尔检索也是如此，因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题，引入了概率检索模型。该模型基于概率排队理论：当文件按相关概率递减原则排列时可以获得最大的检索性能。

五、全文信息检索技术的发展

目前的全文检索技术还存在着一些未尽人意的结果，主要是通常的信息检索系统性能较低，原因是将孤立词和词汇术语作为查询描述子，因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制，决策等基础上实现检索的智能化。

目前人工智能和信息检索的结合主要包括三方面：（1）信息检索和专家系统：主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件；（2）信息检索和自然语言处理：它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上，例如确认词根和词组等。（３）信息检索和知识表达：此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。

目前，虽然某些在ＷＷＷ上的信息检索服务系统采取了智能用户代理的等方式，可以根据用户事先定义的信息检索要求，在网络上实时监视信息源，如指定Ｗｅｂ页面的更新、网络新闻、电子邮件等，并将用户所需的信息通过电子邮件等方式，主动提供给用户，减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主，辅以部分自然语言的处理。智能化信息检索技术的发展，特别是知识学习和知识库以及人机交互方式的应用，将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展，全文信息检索技术必将更广泛地应用于网上信息检索领域。附：参考文献

1）、www.xiexiebang.composed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.

第二篇：信息检索技术论文

近年来，计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展。今天小编要给大家介绍的便是信息检索技术论文，欢迎阅读！

信息检索技术论文

[摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结，从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍，而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。

[关键词]专利文献计算机检索语义检索图像检索

1、前言

近年来，计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展，专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。

2、多语言混合检索

专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献，因此一般以各局官方语言出版。虽然大部分专利文献是英语文献，但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍，要实现多语言混合检索，机器翻译是必不可少的技术。目前一些专利局在其上推出了机器翻译系统，例如我国国家知识产权局提供有汉英机器翻译，日本特许厅提供有日英机器翻译，韩国知识产权局提供有韩英机器翻译等，上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。

随着计算机技术的发展，机器翻译的技术也迅速发展，从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展，以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献，由于其具有特定的句法和语言结构，同时例如权利要求书等具有法律公示性文件的作用，这对翻译的准确性提出了更高的要求，已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。

已有的机器翻译系统基本局限于单篇文献的机器翻译，无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式，而且同一个检索式还可以对不同语言的专利文献进行检索，其实现方式主要有如下三种：翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小，比较适合于因特网检索，但由于检索式通常缺乏语境，翻译难度较大;翻译文献的方式虽然有利于提高翻译质量，进而有利于文献检索，但存在的主要问题是翻译量太大、翻译时间长。

3、分类检索

分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外，美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系，分别是UC、FI/FT和ECLA。IPC虽然通用，但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷，导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献，ECLA虽然能够检索到多国的文献，但仍然不能有效地检索日本、韩国、中国等国的专利文献。

为改善这种局面，美国、日本和欧洲自2000年即开始了“三边分类和谐计划”，该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能，同时对现有IPC分类体系提出改进建议。依据2009年召开的第27次三边会议，韩国知识产权局已经加入上述计划，而中国国家知识产权局也以观察国的身份参与这项工作。此外，近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作，其中一个重要的合作项目是“共同的分类”。该项目的实施将有利于提高分类的一致性，扩展或细化部分技术领域的分类，进而提高检索的效率和质量。

不管是美日欧三方开展的“三边分类和谐计划”，还是五局共同开展的“共同的分类”项目，都必将推进专利文献分类体系的进一步发展，实现真正意义上的“基于检索的分类”，进一步增强分类号在专利文献计算机检索中的作用。

4、语义检索

当前专利文献检索的主要手段为关键词和分类号检索，而由于一词多义、一义多词，专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题，本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展，搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。

搜索引擎的智能化具体表现为语义检索，也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索，而不是对字符串进行简单的机械匹配，因此可避免关键词匹配检索中由于词和义不对应所导致的问题。

语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述，保证人和机器对词汇的理解一致。

最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合，可以揭示文档中的词间关系，因而适于构建专利文献搜索引擎”…。利用语义进行检索还可以将专利文献中的非技术性信息考虑在内，例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外，语义检索还可以从用户角度出发，考虑用户的检索需求，从而为诸如查新、侵权等不同目的的检索提供相应的结果。

近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统，例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能，还支持语义检索，仅通过输入检索所针对的专利文献号，即可自动对其进行语义分析、文献检索，并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索，但随着研究的深入，相信未来的搜索引擎不仅能利用语义技术提高检索的效率，还有望能对检索结果进行分析、评价，甚至自动生成检索报告。

5、图像检索

根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)。专利文献一般都带有大量的附图，包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等。与传统的关键词检索和分类号检索相比，CBIR更加直观、快速，而且可以克服因文字表述差异而导致的漏检，因此它正在成为专利文献检索领域的研究热点。专利文献的附图都是黑白二元图像(本文

所称专利是指发明和实用新型专利，不包括外观设计专利)，不存在颜色和纹理等特征，因此专利文献的图像检索主要是基于形状和区域的图像特征。

虽然目前还没有成熟的专利文献图像检索系统，但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统，例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek专门针对美国专利文献进行图像检索，而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献，这两个图像检索系统都可实现直接输入待检索的图像，系统自动进行相似度匹配，直接提供专利附图，同时还可以进行基于文本的图像检索。

典型的专利图像检索系统包括专利文献处理部分和图像检索部分，如图1所示：

文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分。前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析，分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词，由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库。在图像检索部分，基于上述提取的元数据，进行图像相似度匹配，同时还可以基于文本进行图像检索。与一般领域的图形检索相比，由于专利文献中每幅图形一般都对应有文字描述，即使不再进行人工标注或自动标注，都能提取到较好的高层语义特征，这对提高专利文献图形检索的准确性非常有帮助。

目前，专利文献图像检索系统仅处于试验阶段，只能对数量非常少的特定专利文献进行检索，且检索结果相关度还不是很高，但由于图像检索具有其他任何检索方式都不具备的优点，相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展，实现高精度的图像检索必将成为现实。

6、辅助技术

高质量的专利文献是提高检索质量的基础。专利文献分类、标引和摘要改写是专利文献加工的主要内容。传统的专利文献加工方法主要依赖于人工，其成本高且速度受限制，质量不统一。随着人工智能和计算机技术的发展，开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类。

专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试。例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明，对于使用K临近算法进行自动分类的情况下，先将专利文献按部分结构化为语义单元可以提高74%的效率。

PATExpert代表了目前较先进的专利文献自动处理技术的发展，通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理，其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达。该系统可以执行的处理任务包括：专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等。

国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究，这些研究大部分集中在统计分类技术。近年来随着人工智能技术的兴起，基于人工智能或语义的专利文献自动分类发展迅速，例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类。

中文专利文献的自动处理仍处于研究阶段，虽然国外专利文献自动处理已经积累了许多宝贵经验，但由于中文表述的特殊性，许多技术还待消化和开发，例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍。随着信息处理自动化相关技术的发展，专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化，这给搜索引擎的发展带来了极大的便利。同时，利用语义技术实现基于内容的自动处理将是未来的发展主流，也是提高专利文献自动处理质量的主要手段。

7、结语

专利文献计算机检索是一个涉及了多学科的研究领域，其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展，而由于专利文献的特殊性，分类体系和文献自动处理技术也在其中占据了重要地位。随着研究的进一步深入，现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服，不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索。

第三篇：当代信息检索技术实习报告

《当代信息检索技术》

实习报告

学院：教育学院班级：2012级7班姓名：王静宜

学号：201201440721

一、简答题

1、布尔逻辑运算符有几种？其定义与功能分别是什么？

布尔逻辑运算符有三种，分别是逻辑“与”AND，逻辑“或”OR，逻辑“非”NOT。

定义：A AND B：检索词A和检索词B同时出现在一条记录中。A OR B：记录中出现检索词A或检索词B或两词同时出现在一条记录中。适用于连接具有并列关系或同义关系的词。A NOT B：记录必须包含检索词A但不能包含检索词B。即在含有A检索词的文献中去除含有B检索词的文献。

功能：AND的功能是缩小检索范围，提高查准率；OR的功能是扩大检索范围，提高查全率；NOT的功能是缩小检索范围，提高查准率。

2、什么时候适用于截词检索？

截词检索主要用于检索词的单复数、词性的词尾变化、词根相同的一类词，以及同一词的拼法变异等。尤其在英语中检索词词干相同、词义相近，但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式)，可以采用截词符，或称通配符扩展检索词。截词检索可以扩大检索结果。

3、在机检中可以使用什么办法提高检索结果的查准率？

(1)提高检索词的专指度，增加或换用下位词和专指性较强的自由词；(2)增加概念组面，用AND连接相关检索项；

(3)限制检索词出现的可检字段，如限定在篇名和叙词字段中检索；(4)用位置算符控制检索词的词间顺序与位置；

(5)利用限制符、前缀符限制文献的外表特征，如文献类型、出版年代、语种、作者等；(6)用逻辑非NOT来排除一些无关的检索项；(7)进行加权检索，从定量角度加以控制。

4、在信息检索的实际过程中，如果需要扩大检索范围时，如何调整检索策略？

（1）检查检索名词的拼写是否有误；（2）增加检索名词的普遍性——查阅工具如词表,字典, 分类表及字汇表。（3）减少使用逻辑“与”，丢掉一些次要的或者太专指的概念；（4）使用逻辑“或”连接同义词及相关词，或采用分类号检索，增加网罗度；（5）增加被检索的数据库调整位置算符，由严变松，取消某些过严的限制符，如字段限制符、位置算符限制(或者改用限制程度较小的位置算符)（6）在词干相同的单词后使用截词

5、核心期刊的特点是什么？核心期刊的判定标准是什么？与你专业相关的核心期刊有哪些（请列举5种）

核心期刊的特点是集中性、代表性、学科性、权威性、层次性、相对性、动态性；核心期刊的判定标准是刊载论文数量多、品质高，而且能反应出该学科最新研究成果及发展趋势，受到读者重视之学术期刊；与我专业相关的核心期刊有：《学前教育研究》《外国教育研究》《教育评论》《教育研究》《心理发展与教育》

二、自选教育学专业任意研究课题，使用CNKI、维普、读秀三个检索平台回答以下问题：

1、你的课题名称是什么？你确定的检索词、检索式与检索途径是什么？

我的课题名称是：关于幼儿入学准备的研究检索词：幼儿入学准备

检索式：题名或关键词=幼儿并且题名或关键词=入学准备并且年份=2002-2013 并且期刊范围=核心期刊

检索途径：CNKI高级检索、维普高级检索、读秀高级检索 2、2002-2013年，该课题发表于核心期刊的研究论文有哪些？分别列出文章名、作者名、发表期刊、刊载时间（至少列举5条。需要注明该期刊是哪一类核心期刊CSCD、CA、SCI、EI、CSSCI，如该期刊同时被多个核心目录收录，则全部注明。如所列期刊为非核心，该题不得分）。检索平台一：CNKI高级检索

1.优质家庭环境的特点:对高入学准备水平幼儿家长的访谈研究孙蕾;邰宇;于涛东北师大学报(哲学社会科学版)2009年05期切实提高弱势家庭幼儿入学准备水平:美国公立幼儿园项目及其启示何婷婷;王建梁外国教育研究 2009年05期起点上的差距:城乡幼儿入学准备水平的对比研究 “城乡儿童入学准备状况比较研究”课题组;盖笑松学前教育研究 2008年07期河南省城乡幼儿教育现状调查——兼谈幼儿教育公平柳阳辉内蒙古师范大学学报(教育科学版)2013年08期 5 公平视域下我国城乡学前教育发展差异分析洪秀敏;罗丽教育学报 2012年05期中国儿童的入学准备:问题分析与促进途径盖笑松;杨世君;孙蕾东北师大学报(哲学社会科学版)2008年06期

检索平台二：重庆维普高级检索

1题名：学前一年幼儿入学语言准备的城乡比较研究作者：刘焱[1] 秦金亮[2] 潘月娟[1] 石晓波[3] 出处：《教育学报》 CSSCI 2012年第5期题名：学前一年幼儿入学数学准备的城乡比较研究作者：潘月娟[1] 裘指挥[2] 刘焱[1] 周雪[3] 出处：《教育学报》 CSSCI 2012年第4期题名：做好新生入学的准备工作作者：孙娜出处：《教学与管理：小学版》 2012年第7期题名：美国圣保罗幼儿教育奖学金项目述评作者：魏登尖贺红风出处：《上海教育科研》 CSSCI 2012年第5期题名：公办幼儿园儿童入学语言准备现状调查——以河南省为例作者：杨雪萍出处：《上海教育科研》 CSSCI 2012年第5期

6题名：起点上的差距：城乡幼儿入学准备水平的对比研究出处：《学前教育研究》 CSSCI 2008年第7期

检索平台三：读秀（读秀无法选择核心期刊，也未作特殊标记）

3、有关该课题的图书有哪些？分别列出书名、著者、出版社、出版时间、ISBN号（至少列举5条）。

1.《幼儿入学准备》【作者】王平

【出版发行】北京：朝华少年儿童出版社 , 2003.01 【ISBN号】7-5061-1135-7

2.《幼儿入学准备我要上小学了智力篇》【作者】胡冬娟编

【出版发行】北京：连环画出版社 , 2006.05 【ISBN号】7-5056-0722-7

3.《幼儿入学准备我要上小学了行为能力篇》【作者】胡冬娟编

【出版发行】北京：连环画出版社 , 2006.05 【ISBN号】7-5056-0723-5

4.《新编幼儿入学准备教材美术·手工准备下》【作者】许巍巍选编

【出版发行】北京：中国少年儿童出版社 , 2003.01 【ISBN号】7-5007-6427-8

5.《新编幼儿入学准备教材学数学准备下》【作者】周梅林文

【出版发行】北京：中国少年儿童出版社 , 2003.01 【ISBN号】7-5007-6423-5

6.《幼儿入学准备看图说话新版》【作者】谢军编

【出版发行】北京：中国少年儿童出版社 , 2014.05 【ISBN号】978-7-5148-1644-0

4、通过以上检索结果，你认为该研究领域内的权威学者有哪些？列举五位，选择其中一位，检索其在最近10年中发表于核心期刊的研究论文，分别列出文章名、发表期刊、刊载时间（至少列举5条，如所列期刊为非核心，该题不得分）。

我认为该研究领域内的权威学者有：庞丽娟冯晓霞孙蕾刘焱盖笑松，我选择庞丽娟进行检索

对权威学者进行检索研究论文

1.《中国学前教育立法:思考与进程》庞丽娟;韩小雨北京师范大学学报(社会科学版)2010/05 2.《完善机制落实义务教育教师绩效工资政策》庞丽娟;韩小雨;谢云丽;李琳;夏婧教育研究 2010/04 3.《我国农村义务教育教师队伍建设:问题及其破解》庞丽娟;韩小雨教育研究 2006/09 4.《“省级统筹以县为主”完善我国学前教育管理体制》庞丽娟;范明丽教育研究 2013/10 5.《当前我国学前教育管理体制面临的主要问题与挑战》庞丽娟;范明丽教育发展研究 2012/04

5、根据以上检索结果，你认为该课题最近10年经历了怎样的发展过程，其最新研究进展如何？（至少500字）？

关于入学准备近十年发展历程和最新进展

入学准备一直是近些年来研究中的热点问题,随着学前教育被更多的学者关注，研究的人越来越多，而且入学准备研究也将成为更重要的研究方向。关于入学准备的研究主要从：概念研究、儿童个体的准备、学校的准备、家庭的准备、社区的准备、评估工具方面着手研究，此外还有学者从影响儿童入学准备的因素、儿童自身的因素、家庭方面的影响因素、社区或居住环境因素进行分析研究。关于幼儿入学准备的研究仍处于探索阶段, 关于幼儿入学准备的概念的研究已经比较成熟，普遍接受的是NEGP的生态化模型,即儿童个体的准备、学校的准备和家庭与社区的准备。在评估工具方面,更多使用的是以往的单一领域内容评估的工具,对家庭和学校的准备状态评估非常少。在学前干预方面，家庭收入和社会经济地位很大程度上决定着儿童学前教育的获得和质量。此外关于儿童入学准备的测量工具的开发、儿童入学准备影响因素,以及对入学准备状态不足的风险儿童进行早期诊断和干预的研究则相对更是薄弱,急待研究者的进一步研究和探索。幼儿入学准备对幼儿的学习有着很大的影响，幼儿入学准备这个课题会不断受学者关注。虽然目前各国对幼儿入学准备的研究不断增加，但是中国对该课题的研究还是不太深入。

三、自拟一个任意专业领域研究课题，使用CNKI、维普、读秀三个检索平台依次回答以

下问题。

1、你自拟的课题名称是什么？它属于哪个学科？中图分类号是什么？对课题内容作简单概述（200字以内）。

我的课题名称是：关于红楼梦评论的研究属于：中国文学中图分类号 I207.411 《红楼梦》是一部具有高度思想性和艺术性的伟大作品，成书于封建社会晚期，该书系统总结了中国封建社会的文化、制度，对封建社会的各个方面进行了深刻的批判。不同的人看待《红楼梦》的角度和方式方法不一样，就会有各种对红楼梦的评论，所谓仁者见仁智者见智，学者们对这部书都有自己独到的见解，我们通过学者的视角我们会更加了解这一部旷世奇书，丰富自己的文化底蕴，增长自己对传统文化的理解。

2、检索该课题文献资料需利用哪些数据库、搜索引擎或工具书？

数据库：CNKI、读秀、百链收索引擎：百度

工具书：CNKI工具书

3、检索该课题文献资料，你确定的检索词、检索式与检索途径是什么？

检索词：红楼梦评论

检索式：题名或关键词=红楼梦并且题名或关键词=评论

检索途径：CALIS外文期刊网高级检索、百链高级检索、读秀高级检索、CNKI高级检索

4、通过拟定的检索词与检索式进行检索，获得的中外文图书、期刊论文、学位论文、会议论文结果有哪些（各列举5条）？

中文图书

1.红楼梦评论【作者】王国维著

【出版发行】长沙：岳麓书社 , 1999 【ISBN号】7-80520-966-9

2红楼梦评论资料选编

【作者】郑州大学中文系资料室，中国古代文学教研组编辑

【出版发行】郑州大学中文系资料室中国古代文学教研组 , 1973

3《红楼梦》评论文选

【作者】新华日报资料组编印【出版发行】 1974.12

4《红楼梦》评论

【作者】南京大学图书馆，中文系古典文学教研组编辑

【出版发行】南京大学图书馆南京大学中文系古典文学教研组 , 1974

5《红楼梦》评论选编【作者】浙江图书馆编辑

【出版发行】浙江图书馆 , 1974

外文图书

外文期刊

中文期刊

1.王国维《红楼梦评论》美学思想之思考

作者：黄西华

文献出处：名作欣赏

ISSN：10060189 年代：2014 期号：第17期

页码：70-71 作者单位：南昌师范学院中文系

2.王国维《红楼梦评论》美学思想之思考

作者：黄西华

文献出处：名作欣赏(中旬)年代：2014 期号：第6期

页码：70-71 作者单位：南昌师范学院中文系

3.宇宙的大著述：从《红楼梦评论》看《红楼梦》

作者：周哲良

文献出处：四川职业技术学院学报

ISSN：16722094 年代：2014 期号：第3期

页码：59-61 作者单位：四川职业技术学院

4.王国维悲剧思想之转变：以《〈红楼梦〉评论》与《宋元戏曲考》为中心的考察

作者：来梅

文献出处：嘉兴学院学报

ISSN：10086781 年代：2014 期号：第3期

页码：88-91 作者单位：安徽师范大学文学院

5.王国维与日本明治时期的文学批评：以《红楼梦评论》、《宋元戏曲考》为例

作者：祁晓明

文献出处：文学评论

ISSN：05114683 年代：2014 期号：第3期

页码：174-180

中文学位论文

1论王国维美学思想中的叔本华——《<红楼梦>评论》和“境界”说研究

赖彧煌

福建师范大学

硕士

2003年论王国维《红楼梦评论》中的美学思想及其对西论中化的启示

王斌

辽宁大学

硕士

2011年王国维《红楼梦评论》的悲剧思想探究

王要有

景德镇陶瓷学院

硕士

2010年

4“中间地带”的王国维——从《红楼梦评论》看理解王国维的几种路径

张琳

海南大学

硕士

2011年红楼梦与清代婚姻法律制度评论

万梅

华东政法大学

硕士

2008年

外文学位论文

中文会议论文1文学外译的助力/阻力:外文社《红楼梦》英译本编辑行为反思江帆中国翻译学学科建设高层论坛2013-10-19 2 《葫芦庙》中的红楼梦精神——评戏曲新作《葫芦庙》朱国庆中国戏剧奖·理论评论奖获奖论文集 2009-06-01 3 周玉清中国楹联学会会员大典 2006-06-01 4 王国维《红楼梦评论》之今读刘丽丽 2006贵州省首届古典文学与民俗文化研讨会 2006-05 5 留得枯荷听雨声——关于网上《红楼梦》诗词评论的综述

刘丽丽;王云阁

2006贵州省首届古典文学与民俗文化研讨会

2006-05

外文会议

5、根据以上检索结果，为该课题作一篇简要研究综述（至少500字）。

关于《红楼梦》评论的研究综述

《红楼梦》是中国古典小说最高峰，宗璞先生在王蒙《红楼启示录》一书的序言中说：“《红楼梦》是一部挖掘不尽的书，随着时代的变迁，读者的更换，会产生新的内容，新的活力。它本身是无价之宝，又起着聚宝盆的作用，把种种的睿思，色色深情都聚在周围，发出耀目的光辉。”

关于《红楼梦》的评论，在国内以王国维的《红楼梦评论》最受红学者关注，也是第一篇用系统的理论来评论《红楼梦》的著作。王国维的《红楼梦评论》于1904年发表在《教育世界》上,这本书运用了西方哲学和悲剧意识的理论对《红楼梦》进行系统的评论和分析。虽然其中有些观点逻辑力量不足,结论有待商榷,但是行文缜密,观点明确。指出《红楼梦》是“悲剧中之悲剧”,第一次从理论上阐明了《红楼梦》的悲剧性。不少学者就王国维研究的基础上对《红楼梦》进行研究评论，越来越多的学者都考虑了多方面的因素。

此外关于《红楼梦》的评论还体现在诗词文学艺术方面，《红楼梦>中韵语体裁众多,如诗、词、曲、赋、歌谣、灯谜、酒令、对联、偈语、诔、赞等应有尽有。然而才华横溢的曹雪芹对此却驾熟就轻。《红楼梦》有诗云:“满纸荒唐言,一把辛酸泪。都云作者痴,谁解其中味”。有学者认为其创作构思巧妙,且内藏玄机、不易把握，理解其中的诗词无疑是解读《红楼梦》的一把钥匙。评论书本身要从评论诗词开始。

在《红楼梦》评论的研究中中国学者占了相当大的比例，在外国可能由于文化的隔阂，鲜有外国学者研究《红楼梦》评论。就中国学者对《红楼梦》评论的研究也趋于饱和、完善，各个学者对《红楼梦》从词句、诗词、名俗、建筑、人物、服饰小说构思等各方面对小说进行评论。

不仅《红楼梦》是我国的一块瑰宝，而且依托《红楼梦》而进行的《红楼梦》评论，也会成长为中国文化不可缺少的文化结晶。

第四篇：信息检索技术论文

期末课程论文

论文标题：课程名称：信息检索技术课程编号：学生姓名：潘国伟学生学号：所在学院：计算机科学与工程学院学习专业：计算机科学与技术课程教师：

基于音频的信息检索

1220500 1100310220

王

冲

2013年7月3 日

引言：

进入知识经济时代，知识管理、知识服务的理念得到广泛认同，信息检索技术也由基于关键词的信息检索逐步转向针对内容的基于知识的信息检索。较之前者，其检索结果更准确，更贴近用户需求。信息检索是将信息按照一定的规律组织起来，找到所需信息的过程和技术，简单的说，就是信息的有序化识别和查找。信息检索效率就是实施识别和查找过程的效率。信息检索效率不仅是影响信息检索工具价值的重要因素，也是评价信息检索技术发展的重要指标。目前一些基于文本的Web引擎，如Google，Baidu，功能已非常强大，但还缺乏比较实用的音频搜索引擎。Internet上的多媒体流非常巨大，需要一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外，音频检索在辅助视频检索和卡拉OK检索系统以及军事、刑侦领域方面都有巨大的应用价值和广阔的研究前景。

基于内容的音频检基索关键技术

问题：

传统的方法，其主要缺点有：

一是当数据量越来越多时，人工注释的工作量加大；

二是人对音频的感知有时难以用文字注释表达清楚，人工注释存在不完整性和主观性；三是不能支持实时音频数据流的检索。

这里主要综述了音频检索方法，讨论了一些音频检索中的关键技术：音频特征提取、音频分类、语音识别技术等。总体介绍：

语音识别技术概述

语音识别技术，也被称为自动语音识别（Automatic Speech Recognition, ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术是以语音信号处理为研究对象，让机器接收并识别、理解语音信号，并将其转换为相应数字信号的技术。让机器听懂人类的语言，这是人们长期以来梦寐以求的事情，而语音识别是一门非常复杂的交叉性学科，它涉及语音语言学、计算机科学、信号处理学、生理学、心理学等一系列学科，是模式识别的重要分支。50年代，是语音识别研究工作的开始时期，它以贝尔实验室研制成功可识别十个数字的Audry系统为标志。20世纪80年代语言识别研究进一步走向深入，基于特定人孤立语音技术的系统研制成功。在过去的30年里，隐马尔可夫模型和人工神经元网络在语音识别中得到了成功的应用。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。并通过算法和计算机技术相结合的方式来实现。目前，这样的系统能够做到识别理解数十万条词汇的连续语音信号。这种现代模式识别系统除了在语音领域的应用外，还可以广泛应用于信号处理和模式识别的其他领域。语音识别一般分为两个步骤:

学习和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语言的特征参数和模型进行比较，得到识别结果。语音识别系统本质上讲是一种模式识别系统，其原理如下图所示：

图1语音识别原理示意图

语音信号的获取

计算机声卡作为语音信号与计算机的接口卡件，其最基本的一项功能就是A/D转换。声卡是pc的一种多媒体设备，可以用windows的MCI（Media Control Interface)命令来控制声卡。

图3信号获取过程中相关函数使用流程示意图

音频检索的基本方法

音频检索第一步是建立数据库，对音频数据进行特征提取，并通过特征对数据聚类。音频检索主要采用示例查询方式（Query by example），用户通过查询界面选择一个查询例子，并设定属性值，然后提交查询。系统对用户选择的示例提取特征，结合属性值确定查询特征矢量，并对特征矢量进行模糊聚类，然后检索引擎对特征矢量与聚类参数集匹配，按相关性排序后通过查询接口返回给用户。相似音频例子检索

相似音频例子检索是指基于用户提交的查询音频，得到最相似的音频，即计算音频特征的距离。对音频数据提取特征后，假设共N个特征，则形成了一个N维特征矢量的序列。为了缩减数据量而又不失掉每个音频原来的特征，可以对N维特征矢量进行聚类，提取出固定数目的质心来表示音频,即用聚类质心来为音频建立索引。一般采用模糊聚类法，模糊聚类首先要对N维特征矢量进行归一化，一般采用高斯归一化。音频分类识别

音频分类是判断一个给定样本所在的类别，其任务是通过相似度匹配算法将相似音频归属到一类，属于模式识别的问题。首先应提供适量的训练样本，比如选取足量的音乐文件，然后提取样本特征，类似如上所述进行聚类处理，不同的是将每类的全体文件看成一个音频数据来处理，计算该类的样本模板。

判断文件的类别时，与计算音频相似度类似，计算音频的模板与各类模板间的距离，当距离小于某一阈值或为最小距离时，则此时的类即为文件所在的类。结

语

本文阐述了基于音频检索的一些常用技术及相关问题，包括音频特征提取、相似音频检索及音频分类。基于音频检索是一个涵盖十分广泛的研究领域与想好处理，人感知心理研究，语音识别等科学密切相关。为使计算机与人一样能自动对音频语义实现自动理解并根据语义高级内容进行音频检索，还要面临很大挑战。参考文献：

[1] 卢坚, 陈毅松, 孙正兴, 等.基于隐马尔可夫模型的音频自动分类[J].软件学报, 2002, 13(8): 1 593-597.[2] 庄越挺, 潘云鹤, 吴飞.网上多媒体信息分析与检索[M].北京：清华大学出版社，2002.[3] 李国辉，李恒峰.基于内容的音频检索：概念和方法[J].小型微型计算机系统, 2000,(11): 1 173-1 177.[4]尹江艳.基于HMM和ANN语音识别研究[J].2007.4:14 [5] 柳春语音识别技术研究进展[J] 甘肃科技 2008/09 [6刘幺和语音识别与控制应用技术[M] 北京科学出版社 2008

文中涉及的公式：

Em1N[x(n)]m2

频率中心是度量声音亮度（brightness）的指标，计算公式为

WFC0F(w)wdw/E

第五篇：网络信息检索技术

网络信息检索技术

网络信息检索中，基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索

逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法，目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。

（一）逻辑“与”

逻辑“与”，也称为逻辑乘，用AND表示，是用来组配不同含义检索词之间的限定关系。检索词A、B以AND（或“*”）相连，即A AND B（或A*B），表示同时包含A、B两词的文献才是命中记录，因而逻辑“与”运算用于对检索词进行限定，从而缩小检索范围，提高检索结果的查准率。

例如，要查找children education（儿童教育）方面的文献，检索逻辑式可表示为“children * education”或者“children AND education”。运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

（二）逻辑“或”

逻辑“或”，也称为逻辑加，用OR或者“+”表示，是用来组配同义或者同族检索词之间的并列关系。检索词A、B若以OR或“+”相连，即A OR B(或A+B)，表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或”运算可用于扩大检索范围。

例如，要查找“汽车”方面的文献，因为汽车在英语中可以用car或者automobile表示，所以为了将有关汽车的文献全部检出，避免漏检，检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

（三）逻辑“非”

逻辑“非”用NOT或者“-”来表示，是用来组配概念的包含关系，可以从原检索范围中排除一部分，因而使用逻辑“非”运算可以缩小检索范围。检索词A、B若以NOT（或“-”）相连，即A NOT B（或A-B），表示只含有检索词A而不含有B的文献才是命中记录。逻辑“非”可用于缩小检索范围，但是不一定能提高文献命中的准确率。在使用时要注意，避免将相关的有用文献排除在外。

例如，要查找有关“energy（能源）”，但又不涉及“nuclear（核能）”方面的文献，检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。运算的结果是含有energy，但不含有nuclear的文献将被检索出来。

这三种逻辑式的文氏图如下：

图3-1布尔逻辑文氏图

上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中，可以根据实际需要，组合使用多个布尔运算符，以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致，表达清晰，方便用户进行扩检和缩检，而且易于计算机实现，因此，在计算机信息检索系统中得到广泛使用。但是它无法反映检索词对于检索的重要性，无法反映概念之间内在的语义联系，因而检索结果不能按照用户定义的重要性排序输出。

使用布尔逻辑运算符的注意事项：

布尔逻辑检索在联机检索、光盘检索和网络检索中都有广泛的应用，但是不同的检索工具的布尔逻辑检索技术存在一定的差异，因此，使用布尔逻辑检索需要注意以下问题：

1、布尔逻辑检索的执行顺序。三种布尔逻辑检索运算符之间的运算顺序为NOT、AND、OR。有括号时，先执行括号内的逻辑运算。

2、不同检索工具的布尔逻辑检索有不同的表现形式和使用规则。首先，不同检索工具表示布尔逻辑关系的符号不同，有的用“+”、“-”表示AND、NOT，有的用ANDNOT代替NOT（如Excite搜索引擎），有的要求运算符必须大写，有的则要求为小写形式；其次，不同检索工具的检索词之间的默认布尔逻辑关系不同，有的检索工具检索词之间的默认关系是AND，有的检索工具的检索词之间的默认关系是OR；此外，不同检索工具支持布尔逻辑的方式不同，有的检索工具使用符号来实现布尔逻辑关系，一些检索工具则完全省略了任何符号，直接用文字和表格来体现不同的逻辑关系，如用All of These Words表示AND，用Any of These Words表示OR，用None of These Words表示NOT。

二、截词检索

截词检索是指在检索式中使用专门的符号（截词符号）表示检索词的某一部分允许有一定的词形变化，用检索词的词干或不完整的词形查找信息的一种检索方法。并认为凡满足这个词局部中的所有字符的文献，都为命中的文献。在实际检索的过程中，为了减少检索词的输入量，同时又扩大检索范围，保证查全率，可以使用截词检索。

截词的方式有多种。按截断的位置来分，可分为后截断、中截断和前截断；按截断的字符数量来分，可分为有限截断和无限截断。有限截断是指说明具体截去字符的数量，通常用“?”表示；而无限截断是指不说明具体截去字符的数量，通常用“x”表示。

（一)后截断

后截断是最常用的截词检索技术，是将截词符号放置在一个字符串右方，以表示其右的有限或无限个字符将不影响该字符串的检索，是一种前方一致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦，有助于提高查全率。

例如，输入“inform x”，则前6个字符为inform的所有词均满足条件，因而能检索出含有informant、informal、information、informative、informed、informer等词的文献。而输入“inform??”，可检索出含有inform、informal、informed、informer的文献。（二)前截断

前截断是将截词符号放置在一个字符串左方，以表示其左方的有限或无限个字符不影响该字符串检索，是一种后方一致的检索。这种检索方法在各种词头有变化的复合词的检索中应用比较多，有助于提高查全率。

例如，输入“x magnetic”，可以检索出含magnetic、electro-magnetic等词的文献。

（三)中截断

中截断是把截断符号放置在一个检索词的中间。一般地，中截断只允许有限截断。中截断主要解决一些英文单词拼写不同，单复数形式不同的词的输入。

例如，输入“c?t”，可以检索出含有词cat、cut的文献；输入“mod?ation”可以检索出含有词moderation、modernization、modification的文献。

利用截词检索技术可以减少检索词的输入量，简化检索，扩大检索范围，提高查全率。但是，不同的检索工具有不同的截词规则，使用的截词符号也没有统一的标准，如Dialog系统用“?”，BRS系统用“＄”，ORBIT系统用“#”等。

三、位置检索

位置检索，也称临近检索，主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。这里我们只介绍位置检索中的词位置检索。

词位置检索主要是利用位置逻辑算符限定检索词之间的位置，来反映要检索的信息概念。常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)三类。

（一）(W)算符与(nW)算符

(W)算符是Word和With的缩写，它表示在此算符两侧的检索词必须按输入时的前后顺序排列，而且所连接的词之间除可以有一个空格、一个标点符号或一个连接号外，不得夹有任何其他单词或字母，且词序不能颠倒。(nW)算符的含义是允许在连接的两个词之间最多夹入n个其他单元词。

例如，“VISUAL(W)FOXPRO”可以检出

VISUALFOXPRO 或VISUAL FOXPRO；“control(1W)system”可以检出含有contro1 system、control of system和contro1 in system的文献。

（二)(N)算符与(nN)算符

(N)算符是Near的缩写，它表示在此算符两侧的检索词必须紧密相连，所连接的检索词之间不允许插入任何其他单词或字母，但词序可以颠倒。(nN)算符表示在两个检索词之间最多可以插入n个单词，且这两个检索词的词序任意。

例如，“control(1N)system”不仅可以检出含有control system、control of systcm和control in system 的文献，还可以检出含有system of control、system without control等的文献。

（三)(X)算符与(nX)算符

(X)算符要求其两侧的检索词完全一致，并以指定的顺序相邻，且中间不允许插入任何其他单词或字母。它常用来限定两个相同且必须相邻的词。(nX)算符的含义是要求其两侧的检索词完全一致，并以指定的顺序相邻，两个检索词之间最多可以插入n个单元词。

例如，“side(1X)side”可以检索到含有side by side的文献。

四、限制检索

限制检索是通过限制检索范围，从而达到约束和优化检索结果的一种方法。限制检索的方式有多种，常用的有字段限制检索和限制符限制检索。

（一）字段检索

数据库记录是由若干个字段组成的，字段检索是把检索词限定在数据库记录的特定字段中的检索方法，如果记录的相应字段中含有输入的检索词则为命中记录。字段限制检索可以缩小检索范围，提高查准率。

数据库中提供的可供检索的字段通常分为基本索引字段和辅助索引字段两大类。基本索引字段表示文献的内容特征，有TI（篇名、题目）、AB（摘要）、DE（叙词）、ID（自由标引词）等；辅助索引字段表示文献的外部特征，有AU（作者）、CS（作者单位）、JN（刊物名称）、PY（出版年份）、LA（语言）等。在检索提问式中，可以利用后缀符“／”对基本索引字段进行限制，利用前缀符“＝”对辅助索引字段加以限制。例如，“(information retrieval／TI OR digital library／DE)AND PY＝2006”所表达的检索要求是，查找2006年出版的关于信息检索或数字图书馆方面的文献，并要求information retrieval一词在命中文献的TI（篇名）字段中出现，digital library一词在DE（叙词）字段中出现。

（二)限制检索

限制符检索是使用AU(作者）、CS（作者单位）、JN（刊物名称）、PY（出版年份）、LA（语言）等限制符号从文献的外部特征方面限制检索范围和检索结果的一种方法。限制符的用法与后缀符相同，而它的作用则与前缀符相同。

例如，“aircraft／TI，PAT”表示检索结果只包含aircraft这一主题的专利文献。限制符还可以与前、后缀符同时使用，这时字段代码与限制符之间的关系是逻辑“与”，即最终的检索结果应同时满足字段检索和限制符检索两方面的要求。

WEB全文信息检索技术

第一篇：WEB全文信息检索技术

第二篇：信息检索技术论文

第三篇：当代信息检索技术实习报告

第四篇：信息检索技术论文

第五篇：网络信息检索技术

相关范文推荐

论网络信息检索技术[精选]

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索