Google信息检索技术的深入学习案例

时间:2019-05-12 13:44:39下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《Google信息检索技术的深入学习案例》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《Google信息检索技术的深入学习案例》。

第一篇:Google信息检索技术的深入学习案例

Google信息检索技术的深入学习案例纪春丽

 我是2000年毕业的师范生,当时我还不知道Google。我是在2002年下半年才知道Google的。在这之前,我不管是搜索英文信息还是搜索中文信息都是同时使用Google和Baidu的。记得当时是一个刚从师范毕业的师妹告诉我如何进行信息检索的。她向我推荐5566.org网站,那个网站提供多个搜索工具,我通常同时使用Google和Baidu进行搜索。渐渐地,这样进行搜索已经成为了我的一种习惯了,此后我再也没有系统地或专门地进行过信息检索技术的深入学习了。这次到华师上课,听了焦老师的大力推介Google后,我认真地阅读了《Google搜索从入门到精通 v4.0》,并对照示例进行Google搜索练习,我才对Google的历史和特点,Google的基本搜索语法和高级搜索语法,Google的特色功能,包括图片搜索、新闻组搜索和集成工具条等有了更深入的认识。这是我首次较系统地学习Google信息检索技术,此时我才发现Google 正如焦老师所言:“Google不仅仅是搜索引擎,不仅仅是资源检索工具、语言学习工具、词典、路路通、资源库、百问不厌的老师、无所不知的老师„„。更重要的是,Google是一种学习的方法,一种解决问题的方法。”渐渐地Google便成为我的Favorite Search engine了。以下内容是关于本人在工作中应用Google的案例。本人是荔湾区华侨小学的语文教师。在荔湾区2007年度教师小课题申报中,我的课题《如何有效提高小学高年段学生作文表达能力的研究》被荔湾区教育局拟批准立项。现阶段,正是要查找有关文献,为撰写结题论文做准备工作。通过网络资源学习新课程理念和收集、研读有关关作文教学理念与经验的资料,是完成此次课题的重要途径之一。

一、使用直接输入关键字符的方式进行信息检索—运用搜索引擎最基本的语法“与”“非”和“或”缩小搜索范围。过去,我一直是只会使用输入关键字符的方式进行信息检索的。结果搜索到的信息浩如烟海,而且绝大部分并不符合自己的要求,通过Google信息检索技术的深入学习,我学会了如何进一步缩小搜索范围和结

果。我掌握了搜索引擎最基本的语法“与”“非”和“或”,这三种搜索

语法Google分别用“ ”(空格)、“-”和“OR”表示。顺着上例的思路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法:目标信息一定含有的关键字(用“ ”连起来),目标信息不能含有的关键字(用“-”去掉),目标信息可能含有的关键字(用“OR”连起来)。由于此次要搜索的信息属小学作文教学的范畴,所以我这段时间特别关注这方面的权威信息。有一天,我上焦教师的博客,看到了一条有关作文教学的信息,于是,我打开了的网页,首先使用直接输入关键字符的方式进行信息检索。示例:搜索广州阳光喔文化交流有限公司的作文课外教学活动的所有网页。搜索:”广州

阳光喔文化交流有限公司的作文课外教学活动“结果: 所有网页中,约有583项符合广州阳光喔文化交流有限公司的作文课外教学活

动所有网页的查询结果,以下是第1-10项(搜索用时 0.42 秒)第一项搜索结果:焦建利:我的教育技术学自留地-博客大巴

依照计划,今天TIPD访问了广州阳光喔文化交流有限公司的作文课外教学活动,下午参观了广州大学城,晚上是一个简单的欢迎活动,由我发表了简单的欢迎辞,徐教授介绍...jiao.blogbus.com/网页快照17k类似网页 这个网页中的第5部分内容正是与我所要研究的小学作文教学密切相关的,具体内容如下:阳光喔

开启中国作文教学新时代

阳光喔是湖北少儿文化研究会旗下专业从事少儿文化教育、培训的实体机构,集科研、培训、出版等于一体,在少儿文化培训界独树一帜。“成就思想,创造快乐”是阳光喔的文化核心——给孩子全新的学习理念和学习方式,让孩子领悟到学习的快乐;推崇孩子的个性发展,给予孩子人文关怀,成就孩子的思想。在这一理念下,阳光喔已经形成了独立的作文教学体系、教材体系以及三位一体的教学服务体系,并且出版了相关教材,帮助青少年儿童提高其文化素养和文学修养。

2006年,阳光喔被引进广州,秉承着“服务为本”的教学模式,在阳光校园行、阳光快车的大型公益活动推动下,天河、越秀、海珠、荔湾、白云等地迅速刮起了阳光喔作文“旋风”——阳光喔,开启了中国作文教学的新时代。阳光喔还首开作文教学研究、教育改革之先河。2007年4月,阳光喔出资搭建全国性的作文教学交流平台——首届“阳光杯”作文论坛。

为回报社会,将“成就思想,创造快乐”的文化核心传递给更多的学生,2007年5月,广州阳光喔将大型的公益活动——阳光快车馈赠给越秀区21所学校,吸收了1200多名作文困难生。经过几周的免费教学,帮助学生摆脱了写作的苦恼,得到了学生、家长和学校的赞赏。阳光喔广州公司成立2年名来,已经使106所学校2万多学生受益,让2000余名作文困难生重塑了对作文的信心。一位投票的家长这样地说道:“阳光喔像一阵春风,唤醒了沉睡的孩子;阳光喔像一位魔术师,吸引着孩子们快乐地学习;阳光喔像一把金钥匙,打开了孩子们成功的大门。”看了这个信息,我兴奋不已。因为我的导师告诉我做研究一定要找相关的、权威的机构、理论、代表人物等进行研究,于是我顺着这条信息继续搜索广州阳光喔文化交流有限公司。示例:搜索广州阳光喔文化交流有限公司的所有网页。搜索:“广州阳光喔文化交流有限公司”结果:所有网页中,约有11,000项符合广州阳光喔文化交流有限公司的查询结果,以下是第1-10项(搜索用时 0.05 秒)我发现第9项和第10搜索结果符合我的搜索要求。阳光喔

阳光喔文化交流发展有限公司于2006年2月9日正式进驻广州,现已选址天河区天河路侨鑫大厦(原天河区政府大楼)一楼作为广州市第一教学点。此前,凡在广州市内任一地点.../detail.aspx?id=906网页快照51k类似网页

站内的其它相关信息 »

于是我首先点击第9项结果,进入了“阳光喔”的主页,通过浏览页面我了解到了我国小学作文教学中的一些权威性的资料。这正是我所要搜索的有关小学作文教学研究方面的极有价值信息。从这个网页中,我不但了解了“阳光喔”是一间怎样的机构,更重要的是我从中了解到“阳光喔”首开作文教学研究、教育改革之先河。2007年4月,阳光喔出资搭建全国性的作文教学交流平台——首届“阳光杯”作文论坛。这是新课标实施以来,小学作文教学中的一大盛事,也是一次先进思想的碰撞。原国家教委副主任、总督学顾问,现全国人大教科文卫委员会常委柳斌出席了开幕式,并致开幕词,杨再隋,华中师范大学教授,曾任湖北省教科文卫委员会委员、教育部全国中、小学教材审查委员会审查委员,小学语文教材审查组召集人。现任全国小学语文教学研究会学术委员会副主任、湖北省中、小学教材审查委员会副主任、湖北省小学语文教学研究会理事长。担任本次论坛组委会主任委员。于永正老师(南京市鼓楼区教研室语文教研员,江苏省特级教师,全国五一劳动奖章获得者,1995年评为有突出贡献的专家,享受国务院颁发的政府特殊津贴)上了一节内容为“小学六年级的‘描写人物对话’的练习”的示范课。了解了以上信息后,我对完成此次课题研究的信心增加了百倍,因为这正是我近阶段所要关注的和所要研究的权威信息。说实在的,可真得谢谢焦老师,如果不是访问了焦老师的博客,从中认识了阳光喔并进一步地掌握了Google信息检索技术,恐怕我得花不少时间去找我要找的权威和代表了。阳光喔的网页中教学资源是极其开放的,有多个栏目供读者阅读,其中我最兴趣的是“特色呈现”、“优秀作品”和“教学资源”,因为里面登载的内容是我所急需的,用得上的。据论坛组委会主席,华中师大教授杨再隋介绍,这个论坛的筹办是国内作文教学界的一件大事,目的有三个,一是传播作文教学的新理念;二是研究和交流各地作文教学新策略;三是提高小学作文教学的效率。阳光喔出资50多万元将国内不同风格、流派的的作文教学英豪召集在一起,共同探索、共同切磋提高作文教学水平,此为创举。此次作文教学论坛的主题是“童心童趣〃创意作文/快乐作文〃创造快乐”,论坛专家组认为:“童心〃童趣”是还少儿作文的应有面目,对“创意作文”符合国家新一轮课改精神,要求论坛无论是参赛课还是参赛论文都要有“创意”。“快乐作文〃创造快乐”则是作文教学改革的切入点和落脚点。组委会专家组正在审校各地提交的参赛论文,准备在论坛期间结集出版论文集。作为首届阳光杯作文教学论坛的一个“纸上论剑”的成果。从此,我便密切关注着这个网页上的有关作文教学的权威性的信息,并顺着“权威”,利用Google搜索相关的信息。我期待着该论坛期间结集出版论文集的出版和发行,期待着有更多权威的信息为我所用,所

以我时刻关注着这个网页内容的更新。Google为我更迅速、更有效地完成各项工作任务提供了帮助,它成了我工作上的好伙伴。

二、运用了Google学术搜索查找有关的文献资料。这次我除了使用输入关键字符的方式,运用搜索引擎最基本的语法外,我还运用了Google 学术搜索查找有关的文献资料。这是以前我从未使用过的搜索方法。这是我第一次认识和运用Google 学术搜索。Google 学术搜索提供可广泛搜索学术文献的简便方法。我可以从一个位置搜索众多学科和资料来源:来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。Google 学术搜索可帮助我在整个学术领域中确定相关性最强的研究。示例1:利用Google 学术搜索,搜索始于2003年的,小学语文作文表达能力的提高的所有网页。搜索:”小学语文作文表达能力的提高”结果:搜索所有网页,所有文章约有8,400项符合小学语文作文表达能力的提高的查询结果,以下是第1-10项(搜索用时 0.13 秒)再点击:约有5,310项符合小学语文作文表达能力的提高的查询结果,以下是第1-10项(搜索用时 0.13 秒)我发现这样既可以缩小搜索范围,又可以搜索到最新的文章。为了进一步还可以这样搜索:示例2:始于2003年的,所有包含小学语文作文表达能力的提高但不含“初中作文”、“高中作文”和“大学作文”的网页搜索: ”小学语文作文表达能力的提高-初中作文-高中作文-大学作文”结果:搜索所有网页,所有文章约有616项符合小学语文作文表达能力的提高-初中作文-高中作文-大学作文的查询结果,以下是第1-10项(搜索用时 0.26 秒)再点击最新文章:约有381项符合小学语文作文表达能力的提高-初中作文-高中作文-大学作文的查询结果,以下是第1-10项(搜索用时 0.10 秒)通过以上示例可见,通过去掉不相关信息,搜索结果确实减少了不少。此时,我不得不不赞叹“Google,你真了不起!”使用Google之后,我觉得对我的教学以及专业发展有很大促进作用,具体表现它使我更快速、更准确地查找到有价值的、权威性的信息,使我少走了不少弯路、曲路。谢谢Google,谢谢焦老师,我不但深入地学习了Google的有关知识和技巧,更重要的是我学会更多的解决问题的方法和技巧。方法并不是一成不变,正所谓“条条道路通罗马”,只要学会“顺藤摸瓜”,“缩小范围”就能帮助你找到你想要的信息。

第二篇:信息检索技术论文

近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展。今天小编要给大家介绍的便是信息检索技术论文,欢迎阅读!

信息检索技术论文

[摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。

[关键词]专利文献 计算机检索 语义检索 图像检索

1、前言

近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。

2、多语言混合检索

专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献,因此一般以各局官方语言出版。虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术。目前一些专利局在其上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。

随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献,由于其具有特定的句法和语言结构,同时例如权利要求书等具有法律公示性文件的作用,这对翻译的准确性提出了更高的要求,已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。

已有的机器翻译系统基本局限于单篇文献的机器翻译,无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式,而且同一个检索式还可以对不同语言的专利文献进行检索,其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小,比较适合于因特网检索,但由于检索式通常缺乏语境,翻译难度较大;翻译文献的方式虽然有利于提高翻译质量,进而有利于文献检索,但存在的主要问题是翻译量太大、翻译时间长。

3、分类检索

分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外,美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系,分别是UC、FI/FT和ECLA。IPC虽然通用,但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷,导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献,ECLA虽然能够检索到多国的文献,但仍然不能有效地检索日本、韩国、中国等国的专利文献。

为改善这种局面,美国、日本和欧洲自2000年即开始了“三边分类和谐计划”,该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能,同时对现有IPC分类体系提出改进建议。依据2009年召开的第27次三边会议,韩国知识产权局已经加入上述计划,而中国国家知识产权局也以观察国的身份参与这项工作。此外,近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作,其中一个重要的合作项目是“共同的分类”。该项目的实施将有利于提高分类的一致性,扩展或细化部分技术领域的分类,进而提高检索的效率和质量。

不管是美日欧三方开展的“三边分类和谐计划”,还是五局共同开展的“共同的分类”项目,都必将推进专利文献分类体系的进一步发展,实现真正意义上的“基于检索的分类”,进一步增强分类号在专利文献计算机检索中的作用。

4、语义检索

当前专利文献检索的主要手段为关键词和分类号检索,而由于一词多义、一义多词,专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题,本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展,搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。

搜索引擎的智能化具体表现为语义检索,也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索,而不是对字符串进行简单的机械匹配,因此可避免关键词匹配检索中由于词和义不对应所导致的问题。

语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述,保证人和机器对词汇的理解一致。

最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合,可以揭示文档中的词间关系,因而适于构建专利文献搜索引擎”…。利用语义进行检索还可以将专利文献中的非技术性信息考虑在内,例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外,语义检索还可以从用户角度出发,考虑用户的检索需求,从而为诸如查新、侵权等不同目的的检索提供相应的结果。

近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统,例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能,还支持语义检索,仅通过输入检索所针对的专利文献号,即可自动对其进行语义分析、文献检索,并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索,但随着研究的深入,相信未来的搜索引擎不仅能利用语义技术提高检索的效率,还有望能对检索结果进行分析、评价,甚至自动生成检索报告。

5、图像检索

根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)。专利文献一般都带有大量的附图,包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等。与传统的关键词检索和分类号检索相比,CBIR更加直观、快速,而且可以克服因文字表述差异而导致的漏检,因此它正在成为专利文献检索领域的研究热点。专利文献的附图都是黑白二元图像(本文

所称专利是指发明和实用新型专利,不包括外观设计专利),不存在颜色和纹理等特征,因此专利文献的图像检索主要是基于形状和区域的图像特征。

虽然目前还没有成熟的专利文献图像检索系统,但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek专门针对美国专利文献进行图像检索,而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献,这两个图像检索系统都可实现直接输入待检索的图像,系统自动进行相似度匹配,直接提供专利附图,同时还可以进行基于文本的图像检索。

典型的专利图像检索系统包括专利文献处理部分和图像检索部分,如图1所示:

文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分。前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析,分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词,由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库。在图像检索部分,基于上述提取的元数据,进行图像相似度匹配,同时还可以基于文本进行图像检索。与一般领域的图形检索相比,由于专利文献中每幅图形一般都对应有文字描述,即使不再进行人工标注或自动标注,都能提取到较好的高层语义特征,这对提高专利文献图形检索的准确性非常有帮助。

目前,专利文献图像检索系统仅处于试验阶段,只能对数量非常少的特定专利文献进行检索,且检索结果相关度还不是很高,但由于图像检索具有其他任何检索方式都不具备的优点,相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展,实现高精度的图像检索必将成为现实。

6、辅助技术

高质量的专利文献是提高检索质量的基础。专利文献分类、标引和摘要改写是专利文献加工的主要内容。传统的专利文献加工方法主要依赖于人工,其成本高且速度受限制,质量不统一。随着人工智能和计算机技术的发展,开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类。

专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试。例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明,对于使用K临近算法进行自动分类的情况下,先将专利文献按部分结构化为语义单元可以提高74%的效率。

PATExpert代表了目前较先进的专利文献自动处理技术的发展,通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理,其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达。该系统可以执行的处理任务包括:专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等。

国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究,这些研究大部分集中在统计分类技术。近年来随着人工智能技术的兴起,基于人工智能或语义的专利文献自动分类发展迅速,例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类。

中文专利文献的自动处理仍处于研究阶段,虽然国外专利文献自动处理已经积累了许多宝贵经验,但由于中文表述的特殊性,许多技术还待消化和开发,例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍。随着信息处理自动化相关技术的发展,专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化,这给搜索引擎的发展带来了极大的便利。同时,利用语义技术实现基于内容的自动处理将是未来的发展主流,也是提高专利文献自动处理质量的主要手段。

7、结语

专利文献计算机检索是一个涉及了多学科的研究领域,其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展,而由于专利文献的特殊性,分类体系和文献自动处理技术也在其中占据了重要地位。随着研究的进一步深入,现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服,不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索。

第三篇:WEB全文信息检索技术

WEB全文信息检索技术

摘要:本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程,并就智能检索技术的发展进行了阐述。关键词:信息检索 因特网 全文检索

一、前言

Internet网是目前全球最大的、最有影响力的信息网络,它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网(LAN)集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Internet网获取有价值的信息,已成为科研人员必备的一项基本技能。

因特网是一个开放型的巨大的信息资源库,拥有上千万台以上的主机和过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,因特网用户的数量更是成倍地增长。可见,因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。

二、概述

网上的信息具有数量大、形式多、内容广、专业性不强等特点,给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Internet信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示,存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。

全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列,还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制,获得用户满意的检索输出。

要实现全文检索,首先必须对WEB信息进行预处理。

三、WEB信息的预处理

信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。

(1)格式过滤:信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。

(2)语词切分:语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想-回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。

(3)词法分析:汉语语词切分中存在切分歧异,如句子“网球拍卖完了”,可以切分为“网球/拍卖完了”,也可以切分为“网球拍/卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。对于英语语词,建立索引之前首先要去除一些停顿词(如常见的功能词“a”,“the”,“it”等)和词根(如“ing”,“ed”,“ly”等)。

(4)词性标注和短语识别:在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。

(5)自动标引:从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文 1 档.

(6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档.

四、检索

检索包括文件信息表达和查询信息表达以及相关信息预测过程。

(1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。

(2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。

(3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词,从而扩展了原始查询。

(4)查询词的选择策略:

·非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。

·反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。

·交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。

反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。

(5)信息检索模型:信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。

布尔逻辑模型布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。查询结果一般不进行相关性排序。

模糊逻辑模型为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型,它以逻辑真值为[0,1]的模糊逻辑为基础的,以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较,按照相关性的优先次序排出查询结果,在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。

矢量空间模型和布尔检索模型不同,矢量空间模型中查询和文件都映射为同一n维空间矢量。利用奇异值分解(SVD)、查询词和文件的内部结构联系,通过欧几里德距离和余弦法则作相似性比较,根据矢量空间的相似性,排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果,而且能够提供查询结果分类,为用户提供准确定位所需的信息。

概率模型在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对于结果来说,定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检索模型。该模型基于概率排队理论:当文件按相关概率递减原则排列时可以获得最大的检索性能。

五、全文信息检索技术的发展

目前的全文检索技术还存在着一些未尽人意的结果,主要是通常的信息检索系统性能较低,原因是将孤立词和词汇术语作为查询描述子,因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。

目前人工智能和信息检索的结合主要包括三方面:(1)信息检索和专家系统:主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件;(2)信息检索和自然语言处理:它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上,例如确认词根和词组等。(3)信息检索和知识表达:此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。

目前,虽然某些在WWW上的信息检索服务系统采取了智能用户代理的等方式,可以根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件等,并将用户所需的信息通过电子邮件等方式,主动提供给用户,减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主,辅以部分自然语言的处理。智能化信息检索技术的发展,特别是知识学习和知识库以及人机交互方式的应用,将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展,全文信息检索技术必将更广泛地应用于网上信息检索领域。附:参考文献

1)、www.xiexiebang.composed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.

第四篇:网络信息检索技术

网络信息检索技术

网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。

一、布尔逻辑检索

逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。

(一)逻辑“与”

逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。

例如,要查找children education(儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND education”。运算的结果是同时含有检索词children和检索词education的文献才被检索出来。

(二)逻辑“或”

逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或”运算可用于扩大检索范围。

例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile”。运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。

(三)逻辑“非”

逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。检索词A、B若以NOT(或“-”)相连,即A NOT B(或A-B),表示只含有检索词A而不含有B的文献才是命中记录。逻辑“非”可用于缩小检索范围,但是不一定能提高文献命中的准确率。在使用时要注意,避免将相关的有用文献排除在外。

例如,要查找有关“energy(能源)”,但又不涉及“nuclear(核能)”方面的文献,检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。运算的结果是含有energy,但不含有nuclear的文献将被检索出来。

这三种逻辑式的文氏图如下:

图3-1布尔逻辑文氏图

上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中,可以根据实际需要,组合使用多个布尔运算符,以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,而且易于计算机实现,因此,在计算机信息检索系统中得到广泛使用。但是它无法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系,因而检索结果不能按照用户定义的重要性排序输出。

使用布尔逻辑运算符的注意事项:

布尔逻辑检索在联机检索、光盘检索和网络检索中都有广泛的应用,但是不同的检索工具的布尔逻辑检索技术存在一定的差异,因此,使用布尔逻辑检索需要注意以下问题:

1、布尔逻辑检索的执行顺序。三种布尔逻辑检索运算符之间的运算顺序为NOT、AND、OR。有括号时,先执行括号内的逻辑运算。

2、不同检索工具的布尔逻辑检索有不同的表现形式和使用规则。首先,不同检索工具表示布尔逻辑关系的符号不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求运算符必须大写,有的则要求为小写形式;其次,不同检索工具的检索词之间的默认布尔逻辑关系不同,有的检索工具检索词之间的默认关系是AND,有的检索工具的检索词之间的默认关系是OR;此外,不同检索工具支持布尔逻辑的方式不同,有的检索工具使用符号来实现布尔逻辑关系,一些检索工具则完全省略了任何符号,直接用文字和表格来体现不同的逻辑关系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。

二、截词检索

截词检索是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。

截词的方式有多种。按截断的位置来分,可分为后截断、中截断和前截断;按截断的字符数量来分,可分为有限截断和无限截断。有限截断是指说明具体截去字符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常用“x”表示。

(一)后截断

后截断是最常用的截词检索技术,是将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,输入“inform x”,则前6个字符为inform的所有词均满足条件,因而能检索出含有informant、informal、information、informative、informed、informer等词的文献。而输入“inform??”,可检索出含有inform、informal、informed、informer的文献。(二)前截断

前截断是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个字符不影响该字符串检索,是一种后方一致的检索。这种检索方法在各种词头有变化的复合词的检索中应用比较多,有助于提高查全率。

例如,输入“x magnetic”,可以检索出含magnetic、electro-magnetic等词的文献。

(三)中截断

中截断是把截断符号放置在一个检索词的中间。一般地,中截断只允许有限截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。

例如,输入“c?t”,可以检索出含有词cat、cut的文献;输入“mod?ation”可以检索出含有词moderation、modernization、modification的文献。

利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提高查全率。但是,不同的检索工具有不同的截词规则,使用的截词符号也没有统一的标准,如Dialog系统用“?”,BRS系统用“$”,ORBIT系统用“#”等。

三、位置检索

位置检索,也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。这里我们只介绍位置检索中的词位置检索。

词位置检索主要是利用位置逻辑算符限定检索词之间的位置,来反映要检索的信息概念。常用的词位置算符有(W)与(nW)、(N)与(nN)以及(X)与(nX)三类。

(一)(W)算符与(nW)算符

(W)算符是Word和With的缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格、一个标点符号或一个连接号外,不得夹有任何其他单词或字母,且词序不能颠倒。(nW)算符的含义是允许在连接的两个词之间最多夹入n个其他单元词。

例如,“VISUAL(W)FOXPRO”可以检出

VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”可以检出含有contro1 system、control of system和contro1 in system的文献。

(二)(N)算符与(nN)算符

(N)算符是Near的缩写,它表示在此算符两侧的检索词必须紧密相连,所连接的检索词之间不允许插入任何其他单词或字母,但词序可以颠倒。(nN)算符表示在两个检索词之间最多可以插入n个单词,且这两个检索词的词序任意。

例如,“control(1N)system”不仅可以检出含有control system、control of systcm和control in system 的文献,还可以检出含有system of control、system without control等的文献。

(三)(X)算符与(nX)算符

(X)算符要求其两侧的检索词完全一致,并以指定的顺序相邻,且中间不允许插入任何其他单词或字母。它常用来限定两个相同且必须相邻的词。(nX)算符的含义是要求其两侧的检索词完全一致,并以指定的顺序相邻,两个检索词之间最多可以插入n个单元词。

例如,“side(1X)side”可以检索到含有side by side的文献。

四、限制检索

限制检索是通过限制检索范围,从而达到约束和优化检索结果的一种方法。限制检索的方式有多种,常用的有字段限制检索和限制符限制检索。

(一)字段检索

数据库记录是由若干个字段组成的,字段检索是把检索词限定在数据库记录的特定字段中的检索方法,如果记录的相应字段中含有输入的检索词则为命中记录。字段限制检索可以缩小检索范围,提高查准率。

数据库中提供的可供检索的字段通常分为基本索引字段和辅助索引字段两大类。基本索引字段表示文献的内容特征,有TI(篇名、题目)、AB(摘要)、DE(叙词)、ID(自由标引词)等;辅助索引字段表示文献的外部特征,有AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等。在检索提问式中,可以利用后缀符“/”对基本索引字段进行限制,利用前缀符“=”对辅助索引字段加以限制。例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表达的检索要求是,查找2006年出版的关于信息检索或数字图书馆方面的文献,并要求information retrieval一词在命中文献的TI(篇名)字段中出现,digital library一词在DE(叙词)字段中出现。

(二)限制检索

限制符检索是使用AU(作者)、CS(作者单位)、JN(刊物名称)、PY(出版年份)、LA(语言)等限制符号从文献的外部特征方面限制检索范围和检索结果的一种方法。限制符的用法与后缀符相同,而它的作用则与前缀符相同。

例如,“aircraft/TI,PAT”表示检索结果只包含aircraft这一主题的专利文献。限制符还可以与前、后缀符同时使用,这时字段代码与限制符之间的关系是逻辑“与”,即最终的检索结果应同时满足字段检索和限制符检索两方面的要求。

第五篇:论网络信息检索技术

论网络信息检索技术

摘要:20世纪以来,人类创生的信息量高速增长,浩如烟波。如何从这海量的信息里找出所需信息就成为信息检索的重任。随着网络技术的飞速发展,越来越多的人把因特网作为获取日常信息的重要手段。掌握信息检索的方法与技巧是非常有必要的,人们对快速、准确、有效地获取网络信息资源的需求是急切的,人们对网络信息的检索技术及其发展趋势进行探讨和研究,也是迫切而实用的。针对网络信息检索的各种方法与技巧进行了客观的分析与思考,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。关键词:网络、信息检索、检索技术、工具

0 引言

进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。

什么是信息?信息是消息,人们在学习、工作、日常生活中随时随地都在接受和利用信息;信息是资源,它具有使用价值和价值;信息是财富,且是无价之财富;信息是生产力要素,更是一种不可估量的促进生产力发展的新动力。因此,人类社会的发展,科技技术的进步,都离不开信息资源的开发和利用。而且,信息资源的真实状况及开发利用程度,已经成为衡量一个国家经济、文化、科技以及综合国力的重要指标。我们怎样快速的查找信息和有序的整理信息?信息检索是最快的途径。

信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。网络信息检索的现状以及策略

在这个高速发展的信息时代的社会,随着网络技术的飞速发展,越来越多的人把因特网作为获取日常信息的重要手段。用网络搜索一些信息,如了解时事、生活疑惑、寻医问病、自娱自乐等,通常都比较方便快捷。然而,网络信息资源相当丰富,多种多样,当人们进行专业信息检索时,结果往往不尽如人意。即便是经常上网高校的老师与学生也有常常搜索不到专业文献信息的时候。

由于信息资源数量庞大、各信息间又相互交叉渗透,使得一些科研课题资料的检索相当的有难度,因此,我们必须掌握合理的检索策略,这样才能保证我们能有满意的检索效果。所谓检索策略,就是正确的选择检索词、科学合理的提问等。首先应对要检索的内容进行细致的分析,将完整的主题分为一个个独立的检索概念,然后要注意选全、选好相关词。在检索英文资料时,还要注意英美不同的拼写形式以及检索词的单复数形式、缩写形式等,然后采用布尔逻辑的原理,将表达相关概念的各检索词组配起来,以转换成搜索引擎可以理解的信息提问式,在对其数据库进行搜索后,便可获得相应的结果。因特网上的信息浩繁庞杂,一些有价值的专业信息被大量无用信息所淹没,要想系统的、全面的、准确的获取有价值的信息,就需要学会科学的制定信息技术策略。

2网络信息检索的原理及方法

网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。

网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。

①布尔逻辑模型——这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。

②模糊逻辑模型——它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。

③ 概率模型——它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。

要在网上获取信息,我们就需要找到提供信息源的服务器。首先找到各个服务器在网上的地址,然后通过该地址去访问服务器提供的信息。大致有以下几种方法: 2.1漫游法

这是在因特网上发现、检索信息的原始方法。即在日常的网络阅读、漫游过程中,意外发现一些有用信息。这种方式的目的性不是很强,具不可预见性和偶然性。

用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。此方法类似于传统手工检索中的追溯检索,即根据文献后所附的参考文献追溯查找相关的文献,从而不断扩大检索范围。这种方法可能在较短的时间内检出大量相关信息,也可能偏离检索目标而一无所获。2.2直接查找法

直接查找法是已经知道要查找的信息可能存在的地址,而直接在浏览器的地址栏中输入其网址进行浏览查找的方法。此方法适合于经常上网漫游的用户。其优点是节省时间、目的性强、节省费用,缺点是信息量少。2.3搜索引擎检索法

此方法是最为常规、普遍的网络信息检索方法。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。它一般支持布尔检索、词组检索、截词检索、字段检索等功能。利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息。其缺点是:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望有一定差距。

2.4网络资源指南检索法

此方法是利用网络资源指南进行查找相关信息的方法。

网络资源指南类似于传统的文献检索工具————书目之书目或专题书目,其目的是可实现对网络信息资源的智能性查找。它们通常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息检索具有重要的指导作用。其局限性在于:由于其管理、维护跟不上网络信息的增长速度,使得其收录范围不够全面,新颖性、及时性不够强,且用户还要受标引者分类思想的限制。2.5 在线数据库查询

利用网上的在线数据库进行查询。访问网络数据库是用户获取学术性信息的最有效方法。网上在线数据库有很多,比如:超星数字图书馆、万方数据库资源系统、中国维普数据库、CNKI中国期刊网数据库等。

3网络信息检索详论

3.1网络信息检索方式

其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式

只要能够进入html就能够通过浏览器,利用HTTP协议提供的万维网服务,浏览接触页面和通过Web页面提供的检索方式访问数据库。

(2)搜索引擎方式

搜索引擎是internet提供公共信息检索服务的Web站点,它是以一定的技术和策略在internet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以web形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。3.2网络信息检索工具

从20世纪80年代起人们就开发了诸如Archive、WAIS、Veronica等检索工具,从90年代中期起又出现了检索万维网络信息资源的搜索引擎技术,并以此构造检索所有各类网络信息资源的集成化支撑体系。据统计,各种各样的Internet网络信息检索工具已有数千个,按这些工具的检索机制、检索内容范围,以及检索工具的数量、检索资源类型,可将它们划分为以下各类:

(l)按检索机制划分

根据检索工具的数据检索机制,可将检索工具分为检索型、目录型和混合型检索工具。(2)按检索内容划分

根据检索工具的数据内容,检索工具可分为综合型、专题型和特殊检索工具书。(3)按包含检索工具数量划分 根据检索工具数量划分,检索工具可分为单独型和复合型检索工具。(4)按检索资源类型划分

根据检索工具针对的数据资源类型,可将检索工具分为万维网检索工具和非万维网检索工具。

3.3网络信息检索技巧

目前常用的信息检索方法有两种:一种是利用搜索引擎进行关键词、主题词或自然语言检索。最著名的搜索引擎有AltaVista、Excite、HotBot、Infoseek等;另一种是按主题分类指南进行检索,如Yahoo!就是按主题组织资源、逐次分类,供读者按需查词的;有的检索工具两种方式可以随时切换使用, 如Info seek。相比之下, 前者信息的获取太杂乱, 鱼龙混杂, 精确度太低, 需通过多次筛选才能找到所需信息。而后者的信息组织系统性较强,精确度较高。但主要问题在于获取率较低且很难反映信息之间的关联性。由此可见, 两种方法各有利弊, 读者要根据检索的目的来挑选和使用检索工具,同时要学习一些提高检索效果的方法和技巧。

(l)检索关键词具体化;(2)运用词组检索;

(3)巧用Boolean逻辑词:AND、OR 和NOT。

4网络信息检索的技巧

在中国,用来获取中文信息的搜索引擎,主要是扬名华人世界的百度搜索引擎和全球闻名的Google搜索引擎。Google在外文信息搜索方面有绝对的优势,并较早推出了中文信息搜索,而百度专攻中文搜索,并在汉语特点研究等方面做出来很大贡献,近几年又推出了多种特色搜索服务,从而在中文网络搜索领域占据了绝对的优势。另外,我们常见的搜索引擎还有雅虎、网易有道、百度等。掌握网络信息搜索技巧对于很好地利用这些搜索引擎很有帮助,对自己搜索信息更是简单至极。通过互联网获取信息,如何避免在浩瀚的互联网海洋中迷失方向,掌握一些基本的网上搜索技巧可以说是必需的。网上的信息搜索技术如此的多,怎样才能高效迅速地找到问题的答案呢?有几种技术可以帮助你更加快捷地找到所需网页。没有一种技术是万能的,但将几种技术巧妙地结合起来使用会大大加快网页搜索进程。

网上的内容虽然很丰富,但必须先有人放上网。搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,很可能成为漏网之鱼。所以在使用搜索引擎之前,应该先花几秒钟想一下,我要找的东西网上可能有吗?如果有,又可能在哪里?网页上会含有哪些关键字?

一次成功的搜索由两个部分组成:一个设计优秀的搜索请求和一个准确可信的搜索结果。在你点击任何一条搜索结果之前,快速地分析一下你的搜索结果的标题和网址,会帮你节省大量的时间。

比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND和OR或NOT,恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合。

如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。通过添加英文双引号来搜索短语词,这一方法在查找名言警句或专有名词时显得格外有用。很多搜索引擎都支持在搜索词前冠以“+”限定搜索结果中必须包含的词汇,用“-”限定搜索结果不能包含的词汇。

在Internet上进行查询时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,如果您正在搜索人名或地名等关键词,应该正确使用它们的大小写字母形式。

如果只给出一个单词进行搜索,经常会出现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND与逻辑结合起来,或者在每个词前面加上“+”,这种与逻辑技术大大地缩小了搜索结果的范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样的语法。一个带引号的词组意味着只有完全匹配该词组,包括空格的网页才是要搜索的网页。把这几种符号结合起来使用,能大大提高搜索效率。网络信息检索发展

5.1网络信息检索的现状与发展

1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Solberg 等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展。5.2 影响网络信息检索质量的因素

(l)搜索引擎在检索的实现过程中存在一些尚未解决的问题,影响检索效果(本身存在的问题)。

(2)页面的制作、组织过程中存在的欠缺会影响到被检索的信息质量。

(3)检索用户与搜索引擎的交互过程中,由于交互的背景不同,目的不同,会影响检索效果。

5.3网络信息检索工具展望

从最早的网络信息检索工具(如Archie)算起,它们作为一个整体只有不足十年的历史,而基于万维网的检索工具(如Yahoo!和AltaVista),出现的时间则更晚。可见,网络信息检索工具尚处于发展高峰期。

网络信息检索现今的主要问题是查准率太差。如今,人们正通过一些研究,设法使网络信息检索的空间在不影响查全率这一前提下,提高查准率,它们的未来充满希望。在网络信息检索环境中,检索、浏览和获取这三个过程相互交融,自由转换、合为一体,已展示出了信息检索的新趋势,为充分地利用网络信息资源创造了条件。

结语

人类已经进入了信息社会,信息社会化与社会信息化是当今重要的时代特征。信息检索作为传递、搜索信息的手段发展愈来愈快。如果不懂得信息检索,要在浩如烟海的各种信息中寻找自己需要的信息,就如同大海捞针一般困难,掌握了信息检索的方法和技巧,就可以使信息的查询过程更有条理性、计划性,避繁就简,事半功倍。所以,我们应充分利用信息资源,避免重复劳动。科学研究具有继承和创造两重性,纵观科学技术发展史,积累、继承和借鉴前人的研究成果是科技发展的重要前提。更新自身知识积累,适应社会发展需要。在信息社会,人们需要终生学习,不断更新知识,才能适应社会发展的需求。掌握信息检索的方法与技能,是形成合理知识和更新知识的重要手段。

参考文献

[1]董守武.网络信息检索[M].西安:西安电子科技大学出版社,2010.04 [2]朱红、朱敬、李淑青.网络信息检索与利用[M].北京:人民邮电出版社,2010.09 [3]高凯、郭立炜、许云峰.网络信息检索技术及搜索引擎系统开发 [M].北京:科学出版社,2010.02 [4]陈泉.网络信息资源检索与利用 [M].北京:清华大学出版社,2010.08 [5]韩圣龙.网络信息检索工具评价指标[J]情报学报,2001,(04).[6] 黄丽红.情报理论与实践,2005,(02).[7]贺晓丽.信息资源网络检索的特点、问题及对策.时代情报,2007,5.[8]邓燕萍.现代情报,2004,(04).[9] 王霞,刘萍.晋图学刊,2004,(03).

下载Google信息检索技术的深入学习案例word格式文档
下载Google信息检索技术的深入学习案例.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    信息检索学习总结大全

    信息检索学习总结 审计七班 刚开始拿到这本书是不知道它是讲什么的。自己也是稀里糊涂地学着,可是后来听了这门课一两节后发现原来它是一门很有用的课程,它伴随着我们生活、学......

    信息检索学习报告

    信息检索学习报告 第一部分:对自己的学习做个自我评价, 对于“信息检索”这门课程的学习,我给自己的评价是8分(10分制)。 首先,我对检索确确实实有了更深入、更准确的理解。它不再......

    信息检索

    网络资源与文献检索考试题 (计算机2010-1、2,通信2010-1、2) 一、根据课程介绍的数据库完成以下填空(每空2分,共20分): 1、检索策略的调整,既可以是( 检索范围 )的调整,也可以是检索途......

    信息检索

    1.答:这个号码属于山西太原;2.答;第一步,打开百度网页输入‘手机号码归属地查询',第二步,进入号码查询网页,输入要查询的号码,然后点击查询,就会搜索出号码归属地区,该地的区号等等......

    信息检索

    信息检索 中文期刊 [1]任芳芳. 石油化工企业安全文化综合评价研究[D]. 东北大学: ,2008. [2]匡蕾. 煤矿企业安全文化建设与评价指标体系研究[D]. 辽宁工程技术大学: ,2009.......

    信息检索

    实验三 访问校园网 班级:11级信管本(2)班 学号:1142152237 姓名:张恒实验名称:访问校园网 实验目的与要求: 熟悉校园网以及图书馆提供的信息资源 实验步骤: 1、进入新华学院校园网首......

    信息检索

    《信息检索与利用》课程上机大作业 注意事项  所有通过文献数据库检索的题目必须通过图书馆主页电子资源入口进入,否则很多资源没有使用权。图书馆地址lib.nuaa.edu.cn  下载......

    信息检索[本站推荐]

    1论文题目:体育教育对大学生心理健康的影响 2选题背景:心理健康在现代充满各种竞争和挑战的社会中的重要性日益突出。目前中国大学生存在的心理问题呈增多趋势,众多诱因导致大......