多媒体信息检索技术与数字化图书馆

第一篇：多媒体信息检索技术与数字化图书馆

多媒体信息检索技术与数字化图书馆

杨匀

（盐城师范学院图书馆，江苏盐城 224002）

[摘要] 随着信息技术的发展和数字化进程的加快，传统的图书馆的管理模式也正在经历着一场革命。本文作者对什么是数字化图书馆以及数字化图书馆的重要特征和数字化图书馆的发展方向进行了重点研究和论述。

[关键词]

多媒体信息检索数字化图书馆

图书馆作为知识和信息的交流中心，几百年来一直受到人们的重视，并逐渐形成了一套完善的管理模式和科学方法。但随着信息技术的发展和数字化进程的加快，传统的图书馆的管理模式也正在经历着一场革命。将计算机和网络技术应用于图书管理之后，就实现了图书的电子化管理和检索，但这并不是真正意义上的数字化图书馆。有些人认为将传统图书馆中的文本文献全部转化成电子文档就是数字化图书馆，这种观点也是错误的。一个完整意义上的数字化图书馆应具有以下几个特征：1）采用计算机和数据库技术进行文献管理和检索；2）馆藏文献不仅包括文本文献，而且包括各种多媒体形式的文献；3）在分布式网络环境中以信息库的形式存在。当前，大多数图书馆都已基本具备了第一个特征。但具备第二和第三个特征的图书馆还寥寥无几。

一、什么是数字化图书馆

所谓数字化图书馆，简而言之，就是一种拥有多种媒体内容丰富的数字化信息资源，能为读者方便、快捷地提供信息的服务机制。虽然被称之为“馆”，但它并不占用空间，很大程度上也不受时间的限制，因为它的存在方式是将文字、图像、声音等信息数字化，并通过国际互联网传输，从而做到信息资源全球共享。与以往的图书馆最大的不同就在于：它变集中“人”为集中信息和服务——“馆”的形式并不重要，其水平高低取决于“软件”质量。在专家眼中，一个建设完备的数字图书馆应当成为重要信息的生产基地，多种信息资源的聚集中心；读者、专家、图书馆员交互的枢纽；信息发现、搜索、捕捉的导航站点；为用户提供高水平服务的知识喷泉。

二、信息资源检索的数字化与网络化是数字化

图书馆的重要特征

电子计算机技术、通讯技术和多媒体技术相结合的现代信息数据处理技术的迅猛发展，加快了社会信息化的进程。遍布世界各地的Internet加速了世界范围内数字化和网络化的信息环境的形成。高校图书馆正是借助于现代信息技术在图书馆的应用，推动改革和扩展了图书馆的各项职能。信息资源检索服务也是其中之一。

信息资源检索（Information Resource Retrieval）是将信息按一定的方式组织或存储起来，当读者或用户需要时找出或提供有关信息的过程。或者说，信息检索是将检索者提问的特征与检索标识进行比较，将检索和提问特征一致或相似的信息查找出来。信息检索包含资源存储的检索。信息检索有文献检索，数据检索和事实检索三种类型。文献检索是检索文献资料，是从已存储的文献中查找出所需文献的过程。文献检索可检索出某一国家和某一作者的文章和著作，事实检索是检索所需的事实，数据是检索确切的数据。

随着以计算机技术，尤其是网络技术为核心的现代信息技术的不断进步和在图书馆的运用，高校图书馆的信息检索服务正在由传统的手工文献资源检索向计算机系统的OPAC检索发展。尤其是广大师生员工查找图书馆资料所需的时间进一步缩短，加快了信息检索的速度，提高了信息检索的效率。

今天的计算机检索技术发展极快，已由脱机向联机检索和网络检索过渡。脱机检索是指以独立的计算机为单位，利用光盘、磁盘、磁带等存储介质进行的信息检索。联机检索系统是20世纪70年代随着计算机和通讯技术的飞速发展，信息检索服务进入网络环境而发展起来的信息检索系统。联机检索是利用通讯设备与存储有信息的计算机相联结查找有关信息的过程。检索者在通讯线路畅通的环境下，应用计算机终端设备与主机进行人机对话查找信息的过程。检索者可在检索过程中随时修改自记的检索策略，直到获得满意的结果。世界上规模最大的计算机联机数据库检索服务系统有美国俄亥俄州图书馆计算机中心的OCLC,美国络克希德公司的DOALOG,美国系统发展公司的ORBIT,美国医学图书馆的MEDLINE,欧洲空间组织的ESA,日本的JOIS等。联机检索不受地理位置的限制，多用户可同时进行检索。检索速度快，功能多，打印输出灵活方便。

今天，高校图书馆依托Internet开发和应用的服务项目众多。网络信息检索只是其中最具优势的服务项目之一。Internet上运行有功能完善的信息检索工具，如Gopher、WAIS、WWW等。Gopher（分布式信息服务系统）是Internet的重要信息检索工具。它采用客户机/服务器结构，通过多级菜单界面便于检索者查看校园网的各种信息。WAIS（广域信息网）是Internet上的文本信息资源检索工具。它为检索者提供的自然语言界面受到检索者的普通欢迎。WWW（环球网）是Internet上最先进的网络信息检索系统。它集超文本技术，网络技术和多媒体技术为一体。WWW的浏览器/服务器模式具有优化的结构和强大的功能，也是最受检索者喜爱的信息检索系统之一。Internet技术遵循统一的协议将不同的信息系统连结起来，将世界上成千上万台服务器联成一体，实现了各个信息系统向整体化和集成化的转换。各高校图书馆应用Internet技术建立本馆的Web网站和OPAC，便于检索者在各个地理位置的联机终端访问图书馆并快速地检索各学科的专业信息。因此，无论你在家中或在办公室都可以检索到高校图书馆网页上的网络数据库或全文数据库。

高校图书馆作为各校教学和科研的信息资源中心，大多购置和拥有丰富的馆藏印刷文献资源，电子文献资源和网络信息资源。尤其是大量的国内外光盘全文数据库和网络信息资源在高校图书馆的Web网站的OPAC上可无缝链接检索。如“中国学术期刊数据库”，“中国高等教育文献保障目录”、“万方数据光盘检索系统”、“科学引文索引”Web版数据库，美国俄亥俄州OCLC书目数据库和全文数据库等等。此外，有的高校图书馆还根据本校重点学科建设引进一些入编质量高和数量大的世界高水平的学术性网络数据库及电子期刊全文数据库。

总之，拥有丰富的信息资源和多渠道检索方式的高校图书馆借助现代信息技术的确为检索者访问图书馆，尤其是访问图书馆的Web网站及时获取所需的信息和及时了解所学专业的发展动态提供了极大的便利。

三、多媒体与超媒体信息检索技术是数字化

图书馆的发展方向

随着信息查询系统的不断发展，多媒体与超媒体信息检索已得到广泛应用，多媒体与超媒体信息检索服务系统是一种人机交互的、以多媒体信息库为基础的、提供信息服务的系统。在多媒体与超媒体信息检索服务系统问世以前，在电信领域有可视图文系统，在计算机领域有文献资料检索系统和各种数据库检索系统。因此，从信息检索服务的角度来看，多媒体与超媒体信息检索服务是可视图文、各种数据库检索服务的自然发展。这种发展和变化的动因是信息从单一媒体表示发展为多媒体表示。高校图书馆要成为名符其实的数字化图书馆，必须逐步发展和提供多媒体与超媒体信息检索服务体系。

多媒体与超媒体信息技术是一个新的领域，其有关技术正在发展之中，尚有许多待研究的课题。多媒体与超媒体信息技术的发展对信息存储管理、人机界面的开发提供有力的支持，它作为人类信息通信与信息联想的工具，将促进计算机和多媒体技术应用的深入与发展，也有利于促进数字化图书馆的高速发展和功能的不断完善。

[参考文献] [1] 张文俊.当代传媒新技术.上海:复旦大学出版社,1998.年8月

[2] 张树京.陈渔源.多媒体通信和发展和应用.上海铁道大学学报, 1994年3月第15卷第1期

[3] 刘国亮.多媒体通信的技术基础与应用领域.长春邮电学院学报,1994年第12卷第2期

第二篇：图书馆信息检索大赛

活动主题：图书馆信息检索大赛

一、主办单位：重庆医药高等专科学校医学技术系

二、指导单位：重庆医药高等专科学校图书馆、医学技术系党团总支

三、协助媒体：图书馆公告

四、活动目的及原则：促进同学们对图书馆的了解，增强主人翁意识。使图

书馆得到合理、高效利用。认识图书馆数字资源的重要性。学会数字资源检索知识，提高检索能力，以便充分利用图书馆资源。本次活动本着公平、公证、公开、自愿原则。

五、活动时间地点

六、活动构思：

（一）比赛形式重于新颖，力求提高参与度。

我们此次活动在保证比赛顺利进行的前提下，力求在比赛的各个环节有所创新。因此，在策划上，无论是各班级的选拔赛，还是第二阶段预赛比赛流程，或是总决赛的设想，我们都应避免落入俗套。毕竟，再精彩的比赛模式，观看得多了也就无所谓兴趣使然。而只有不断地推陈出新，才能够真正地把握住观众的兴趣导向，使其参与到活动中，融入到活动的气氛中来。因此，我们设想在初赛采取“幸运52”答题的模式，预赛中采取“开心辞典”的模式，决赛采取“幸运52”和“联合对抗”结合的答题的模式，这都是在现在的中国风靡一时且仍广受关注的活动形式，且在各大高校起码在我们学校中尚没有较为完全或成功的借鉴。因此，我们采取这样的比赛形式，把日常在电视中才能看到的真正拉近到同学们的身边，让同学们亲身参与其中，体验其前所未有却又梦寐以求的感受。而对于决赛，由于是全系部各班代表之间的最终总决赛，除如上的某些环节

之外，我们策划能够加入更多关于高校发展的内容。毕竟，在这样的比赛中，需要的是更能够突显选手个性的环节。而且由于最终的胜负是由在我校特邀评委评定，不是机械的评判，结果不再一目了然，更增加了比赛的紧张性。另外，在选题方面，我们采取专家出题和征集学生所出题目相结合，力求扩大影响范围。

(二)期盼在全校范围内推广，为竞赛扩大影响宣传

一个活动是小活动，但倘若一连串小活动集合成为系列性、规模性的活动也便成为了大型的活动。所以我们希望能够借此契机，把此项活动推广出去。而对于此次与各系部学生会的合作，我们设想先就比赛的总实施计划达到一致，然后前期的由各系部分别进行相同的比赛环节，最后各选拔出一支冠军队伍参赛，使此次竞赛知识竞赛活动凝聚成为规模效应。这首先直接有利于竞赛活动的宣传，再者，也加强了各系部之间的合作和联系，紧密了兄弟系部之友谊。更重要的是能够在更大程度上吸纳最广大的学生参与到这一项活动中来，最大限度地让最多的同学在此次活动中真正受益。

(三)全方位的媒体宣传

为了加强此次活动的宣传效果，我们希望能够尽可能地发挥各种宣传方法的宣传效果。首先，在常规媒体宣传上，我们力求与校园广播站、校报取得合作，由其协助此次活动，并负责摄像、报道此次活动的总决赛，使整个活动的影响不仅仅局限于某一个系部，而是进入普通同学的思维中，使之成为他们茶余饭后的话题。其次，网络媒体宣传方面，我们会利用校园网络对活动进行大力宣传。再次，我们届时也会通过传单、海报、横幅等常规宣传渠道以及在相关单位举办其他活动时也会加强此次活动的宣传。

七、参赛方式：

以代表队形式参赛，每队三人。

1、预赛;由各班自行选拔参赛人员，比赛形式时间地点自定。

2、初赛和复赛：初赛和复赛均采取主持人提问形式。设有最佳选择题、判断题和问答题。

3、决赛：决赛为3人组合赛（进入决赛的12名队员按班级分为4组，每组3人。），决赛将采用幻灯片的形式将试题呈现给参赛选手，选手现场答题。题库及评分标准见附录。

八、参赛对象：重庆医药高等专科学校医学技术系全体学生（组织者除外）

九、活动前期准备

1.赛事相关活动准备

1）召开系学生会全体会议，通知相关事宜。

2)活动策划筹备工作（负责部门：待定）

A、办公室确定成立大赛组委会（不再以部门为单位），全权负责此次大赛的各项活动

B、就赛事各部分进行充分探讨，最终确定赛事策划细节书

C、组委会内部确定分工细节以及各班级联系人（各班学习委员），负责在赛事进行过程中主办单位与各班级的联系工作。

3)活动宣传工作（负责部门：医学技术系宣传部、图书馆）

A.海报

B.横幅

C.宣传栏

2.各班级协办工作

1)召开各班级参赛选手及负责人开会。

2）各班级自行组织负责此次大赛的组委会，对大赛全程负责，名单上报主办单位组委会。

3.赞助单位联系工作（负责部门：医学技术系外联部）

1)确定赞助单位

2)完成赞助单位的相关策划书，确定需要赞助金额

3)联系赞助单位

4.相关媒体的联系工作（负责部门：医学技术系宣传部）

1）安排各媒体负责人其所负责的范围及权限

2）相关报道具体工作事项的策划与落实

十、比赛流程：

1、预赛：由各班级组织选拔，形式不限。选出十三支队伍，每支限三人。

2、初赛：在十三支队中以抽签形式选出一支队直接晋级复赛。其他十二支队抽签分为六组进行比赛，选出每组的获胜者。总共七支队。

承办单位提前布置好比赛现场，为每个小组设一名记分员并提前组织参赛队员和观众进入比赛现场。

第一环节：个人必答题（选择题）

每个小组的各队员以抽签形式确定首次答题顺序后依次回答。

本环节的成绩为个人成绩，每位队员赛前都有60分基准分，每位队员必须答完属于自己的4道题，每题10分，答对在基准分上加10分，答错不得分也不扣分。每位队员分别答完第一题后再答第二题，四道题均答完后完成第一个环节比赛。

第二环节：小组抢答题（填空题）

本环节和下一环节的基准总分为60分。本环节各组得到的试题可以回答也可以放弃，答对得相应的分数，答错则扣除相应的分数，放弃不得分也不扣分。各小组得到试题后在规定的时间内商量好确定答案后由代表说出答案。第三环节：难度命运题（简答题，备注）

本环节试题难度较前两环节有相应的难度。本环节答题方式和分数规则与上一环节相同。

3、复赛：在通过初赛的七支队伍中以抽签形式选出一支队直接晋级决赛，其他六支队抽签分为三组进行比赛，选出每组的获胜者。总共四支队。比赛环节同上。

4、总决赛：决赛中的两支胜者进行亚军决赛，决赛中的两支负者选出季军。比赛环节同上。

十一、题库范围：涉及自习室作为二次利用、图书馆流通库及各阅览室规章制度、信息检索知识等常识题，若两队均学过该专业添加专业题。

十二、奖项设置：

本次竞赛设冠军、亚军、季军，最终获奖的3人组合将获得系级获奖证书（每人一证）。

十三、决赛现场观众互动：

决赛的每个环节之后均有两次抽奖活动。以观众所在作为坐标为抽取对象。所有参与观看决赛的同学均有机会成为幸运观众，并赢得精美礼品。

十四、可行性分析：

1、此次活动为重庆医药高等专科学校医学技术系首届信息检索知识竞赛，这对图书馆来说是首次，在学校也是首次。这种活动非常有意义并且很有必要，可以考虑延续下去，每年举办一次。

2、我们有责任也有义务培养当代大学生的信息检索素质。我们希望通过这个活动先带动一批人，而这些人来自系部各班级，因此活动的影响面和影响力都足够大。

3、此次活动旨在进一步提高广大大学生对信息检索的重要性的认识。

4、以竞赛的形式举办此次活动，可以充分调动同学参加的积极性、积极地投入到比赛的准备工作中，同时也扩大了同学们对信息检索知识及我校图书馆的了解。

5、以竞赛的形式举办形式并不复杂，所需资金也不多，但在全校大学生中的影响力却很大。

十五、活动费用预算

幸运观众礼品：元打印各种宣传资料：元证书及奖品费用：元合计：元+待定费用

十六、预计效果：

此次活动将做好全面的宣传工作，影响力将涉及校区各个系部班级。此次活动的开展，将使更多的同学了解图书馆各项规章制度，掌握信息检索知识。

十七、组委会成员

总顾问：

顾问：

主任：

执行主任：

委员：图书馆、各班学习委员、系学生会各部长

附录一：评分标准

附录二：题库

第三篇：信息检索技术论文

近年来，计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展。今天小编要给大家介绍的便是信息检索技术论文，欢迎阅读！

信息检索技术论文

[摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结，从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍，而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。

[关键词]专利文献计算机检索语义检索图像检索

1、前言

近年来，计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展，专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。

2、多语言混合检索

专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献，因此一般以各局官方语言出版。虽然大部分专利文献是英语文献，但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍，要实现多语言混合检索，机器翻译是必不可少的技术。目前一些专利局在其上推出了机器翻译系统，例如我国国家知识产权局提供有汉英机器翻译，日本特许厅提供有日英机器翻译，韩国知识产权局提供有韩英机器翻译等，上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。

随着计算机技术的发展，机器翻译的技术也迅速发展，从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展，以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献，由于其具有特定的句法和语言结构，同时例如权利要求书等具有法律公示性文件的作用，这对翻译的准确性提出了更高的要求，已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。

已有的机器翻译系统基本局限于单篇文献的机器翻译，无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式，而且同一个检索式还可以对不同语言的专利文献进行检索，其实现方式主要有如下三种：翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小，比较适合于因特网检索，但由于检索式通常缺乏语境，翻译难度较大;翻译文献的方式虽然有利于提高翻译质量，进而有利于文献检索，但存在的主要问题是翻译量太大、翻译时间长。

3、分类检索

分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外，美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系，分别是UC、FI/FT和ECLA。IPC虽然通用，但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷，导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献，ECLA虽然能够检索到多国的文献，但仍然不能有效地检索日本、韩国、中国等国的专利文献。

为改善这种局面，美国、日本和欧洲自2000年即开始了“三边分类和谐计划”，该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能，同时对现有IPC分类体系提出改进建议。依据2009年召开的第27次三边会议，韩国知识产权局已经加入上述计划，而中国国家知识产权局也以观察国的身份参与这项工作。此外，近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作，其中一个重要的合作项目是“共同的分类”。该项目的实施将有利于提高分类的一致性，扩展或细化部分技术领域的分类，进而提高检索的效率和质量。

不管是美日欧三方开展的“三边分类和谐计划”，还是五局共同开展的“共同的分类”项目，都必将推进专利文献分类体系的进一步发展，实现真正意义上的“基于检索的分类”，进一步增强分类号在专利文献计算机检索中的作用。

4、语义检索

当前专利文献检索的主要手段为关键词和分类号检索，而由于一词多义、一义多词，专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题，本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展，搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。

搜索引擎的智能化具体表现为语义检索，也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索，而不是对字符串进行简单的机械匹配，因此可避免关键词匹配检索中由于词和义不对应所导致的问题。

语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述，保证人和机器对词汇的理解一致。

最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合，可以揭示文档中的词间关系，因而适于构建专利文献搜索引擎”…。利用语义进行检索还可以将专利文献中的非技术性信息考虑在内，例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外，语义检索还可以从用户角度出发，考虑用户的检索需求，从而为诸如查新、侵权等不同目的的检索提供相应的结果。

近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统，例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能，还支持语义检索，仅通过输入检索所针对的专利文献号，即可自动对其进行语义分析、文献检索，并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索，但随着研究的深入，相信未来的搜索引擎不仅能利用语义技术提高检索的效率，还有望能对检索结果进行分析、评价，甚至自动生成检索报告。

5、图像检索

根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)。专利文献一般都带有大量的附图，包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等。与传统的关键词检索和分类号检索相比，CBIR更加直观、快速，而且可以克服因文字表述差异而导致的漏检，因此它正在成为专利文献检索领域的研究热点。专利文献的附图都是黑白二元图像(本文

所称专利是指发明和实用新型专利，不包括外观设计专利)，不存在颜色和纹理等特征，因此专利文献的图像检索主要是基于形状和区域的图像特征。

虽然目前还没有成熟的专利文献图像检索系统，但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统，例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek专门针对美国专利文献进行图像检索，而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献，这两个图像检索系统都可实现直接输入待检索的图像，系统自动进行相似度匹配，直接提供专利附图，同时还可以进行基于文本的图像检索。

典型的专利图像检索系统包括专利文献处理部分和图像检索部分，如图1所示：

文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分。前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析，分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词，由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库。在图像检索部分，基于上述提取的元数据，进行图像相似度匹配，同时还可以基于文本进行图像检索。与一般领域的图形检索相比，由于专利文献中每幅图形一般都对应有文字描述，即使不再进行人工标注或自动标注，都能提取到较好的高层语义特征，这对提高专利文献图形检索的准确性非常有帮助。

目前，专利文献图像检索系统仅处于试验阶段，只能对数量非常少的特定专利文献进行检索，且检索结果相关度还不是很高，但由于图像检索具有其他任何检索方式都不具备的优点，相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展，实现高精度的图像检索必将成为现实。

6、辅助技术

高质量的专利文献是提高检索质量的基础。专利文献分类、标引和摘要改写是专利文献加工的主要内容。传统的专利文献加工方法主要依赖于人工，其成本高且速度受限制，质量不统一。随着人工智能和计算机技术的发展，开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类。

专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试。例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明，对于使用K临近算法进行自动分类的情况下，先将专利文献按部分结构化为语义单元可以提高74%的效率。

PATExpert代表了目前较先进的专利文献自动处理技术的发展，通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理，其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达。该系统可以执行的处理任务包括：专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等。

国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究，这些研究大部分集中在统计分类技术。近年来随着人工智能技术的兴起，基于人工智能或语义的专利文献自动分类发展迅速，例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类。

中文专利文献的自动处理仍处于研究阶段，虽然国外专利文献自动处理已经积累了许多宝贵经验，但由于中文表述的特殊性，许多技术还待消化和开发，例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍。随着信息处理自动化相关技术的发展，专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化，这给搜索引擎的发展带来了极大的便利。同时，利用语义技术实现基于内容的自动处理将是未来的发展主流，也是提高专利文献自动处理质量的主要手段。

7、结语

专利文献计算机检索是一个涉及了多学科的研究领域，其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展，而由于专利文献的特殊性，分类体系和文献自动处理技术也在其中占据了重要地位。随着研究的进一步深入，现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服，不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索。

第四篇：图书馆信息检索大赛策划书（模版）

活动主题：图书馆信息检索大赛

一、主办单位：太原工业学院图书馆学生管理委员

二、指导单位：太原工业学院图书馆

三、协助媒体：太原工业学院校园广播站、校报

四、活动目的及原则：促进同学们对图书馆的了解，增强主人翁意识。使自习室得到合理、高效利用。认识图书馆数字资源的重要性。学会数字资源检索知识，提高检索能力，以便充分利用图书馆资源。本次活动本着公平、公证、公开、自愿原则。

五、活动时间地点赛式组别时间地点预赛十三个系部由各系部自定由各系部自定初赛第一组 11月14日上午09：00 第二组第三组第四组第五组第六组复赛第一组 11月14日下午14：00 第二组第三组决赛第一组 11月21日上午09：00 第二组第三组 11月21日下午14：00 第四组

六、活动构思：

（一）比赛形式重于新颖，力求提高参与度。

我们此次活动在保证比赛顺利进行的前提下，力求在比赛的各个环节有所创新。因此，在策划上，无论是各系部的选拔赛，还是第二阶段预赛比赛流程，或是总决赛的设想，我们都应避免落入俗套。毕竟，再精彩的比赛模式，观看得多了也就无所谓兴趣使然。而只有不断地推陈出新，才能够真正地把握住观众的兴趣导向，使其参与到活动中，融入到活动的气氛中来。因此，我们设想在初赛采取“幸运52”答题的模式，预赛中采取“开心辞典”的模式，决赛采取“幸运52”和“联合对抗”结合的答题的模式，这都是在现在的中国风靡一时且仍广受关注的活动形式，且在各大高校起码在太原工业学院中尚没有较为完全或成功的借鉴。因此，我们采取这样的比赛形式，把日常在电视中才能看到的真正拉近到同学们的身边，让同学们亲身参与其中，体验其前所未有却又梦寐以求的感受。

而对于总决赛，由于是全校各系部冠军之间的最终总决赛，除如上的某些环节之外，我们策划能够加入更多关于高校发展的内容。毕竟，在这样的比赛中，需要的是更能够突显选手个性的环节。而且由于最终的胜负是由在我院专家人士评定，不是机械的评判，结果不再一目了然，更增加了比赛的紧张性。另外，在选题方面，我们采取专家出题和征集学生所出题目相结合，力求扩大影响范围。

(二)期盼在全校范围内推广，为竞赛扩大影响宣传

(三)全方位的媒体宣传

七、参赛方式：

各系部在冠军队伍中产生总冠军，以代表队形式参赛，每队三人。

1、预赛;由各系部自行选拔参赛人员，比赛形式时间地点自定。

2、初赛和预赛：初赛和复赛均采取主持人提问形式。设有最佳选择题、判断题和问答题。

3、决赛：决赛为3人组合赛（进入决赛的12名队员按系部分为4组，每组3人。），决赛将采用幻灯片的形式将试题呈现给参赛选手，选手现场答题。题库及评分标准见附录。

八、参赛对象：太原工业学院所有全日制本专科学生

九、活动前期准备

1.赛事相关活动准备

1）召开校学生会全体会议，通知相关事宜。

2)活动策划筹备工作（负责部门：图书馆学生管理委员会）

a、办公室确定成立大赛组委会，全权负责此次大赛的各项活动

b、就赛事各部分进行充分探讨，最终确定赛事策划细节书

c、组委会内部确定分工细节以及各系部联系人（系部学生会主

席），负责在赛事进行过程中主办单位与各系部的联系工作。

3)活动宣传工作（负责部门：校学生（分）会、图书馆学生管理委员会）

a.海报

b.横幅

c.网络相关报道：校园网、d相关报纸的宣传：校报、系部报纸

e.校园广播站全程播报（包括总决赛所有内容）---最主要的途径。

2.各系部协办工作

1)召开各系部参赛选手及负责人开会。

2）各系部自行组织负责此次大赛的组委会，对大赛全程负责，名单上报主办单位组委会。

3.赞助单位联系工作（负责部门：图书馆学生管理委员会外联部）

1)确定赞助单位

2)完成赞助单位的相关策划书，确定需要赞助金额

3)联系赞助单位

4.相关媒体的联系工作（负责部门：图书馆学生管理委员会宣传推广部）

1）安排各媒体负责人其所负责的范围及权限

2）相关报道具体工作事项的策划与落实

十、比赛流程：

1、预赛：由各系部组织选拔，形式不限。选出十三支队伍，每支限三人。

2、初赛：在十三支队中以抽签形式选出一支队直接晋级复赛。其他十二支队抽签分为六组进行比赛，选出每组的获胜者。总共七支队。

承办单位提前布置好决赛现场，为每个小组设一名记分员并提前组织参赛队员和观众进入比赛现场。

第一环节：个人必答题（选择题）

每个小组的各队员以抽签形式确定首次答题顺序后依次回答。

第二环节：小组抢答题（填空题）

本环节和下一环节的基准总分为60分。本环节各组得到的试题可以回答也可以放弃，答对得相应的分数，答错则扣除相应的分数，放弃不得分也不扣分。各小组得到试题后在规定的时间内商量好确定答案后由代表说出答案。

第三环节：难度命运题（简答题，备注）

本环节试题难度较前两环节有相应的难度。本环节答题方式和分数规则与上一环节相同。

3、决赛：在通过初赛的七支队伍中以抽签形式选出一支队直接晋级决赛，其他六支队抽签分为三组进行比赛，选出每组的获胜者。总共四支队。比赛环节同上。

4、总决赛：决赛中的两支胜者进行亚军决赛，决赛中的两支负者选出季军。比赛环节同上。

十一、题库范围：涉及自习室作为二次利用、图书馆流通库及各阅览室规章制度、信息检索知识等常识题与专业题。

十二、奖项设置：

本次竞赛设冠军、亚军、季军，最终获奖的3人组合将获得校级获奖证书（每人一证）。

十三、决赛现场观众互动：

决赛的每个环节之后均有两次抽奖活动。以观众所在作为坐标为抽取对象。所有参与观看决赛的同学均有机会成为幸运观众，并赢得精美礼品。

十四、可行性分析：

1、此次活动为太原工业学院图书馆首届信息检索知识竞赛，这对图书馆学生管理委员会来说是首次，在学院也是首次。这种活动非常有意义并且很有必要，可以考虑延续下去，每年举办一次。

2、大学生团体是当今社会的领军人物，这个团体素质的好坏在一定程度上会影响整个社会的风气，因此我们有责任也有义务培养当代大学生的信息检索素质。我们希望通过这个活动先带动一批人，而这些人来自学院各系部班级，因此活动的影响面和影响力都足够大。

3、此次活动旨在进一步提高广大大学生对信息检索的重要性的认识。

4、以竞赛的形式举办此次活动，可以充分调动同学参加的积极性、积极地投入到比赛的准备工作中，同时也扩大了同学们对信息检索知识及我院图书馆的了解。

5、以竞赛的形式举办形式并不复杂，所需资金也不多，但在全校大学生中的影响力却很大。

十五、活动费用预算

幸运观众礼品：元

打印各种宣传资料：元

证书及奖品费用：元

合计：元+待定费用

十六、预计效果：

此次活动将做好全面的宣传工作，影响力将涉及校区各个系部班级。此次活动的开展，将使更多的同学了解图书馆各项规章制度，掌握信息检索知识。

十七、组委会成员

总顾问：

顾问：

主任：执行主任：

委员：图书馆学生管理委员会、各系部主席、校学生会各部长

附录一：评分标准

附录二：题库

第五篇：WEB全文信息检索技术

WEB全文信息检索技术

摘要：本文探索了在INTERNET网上实现全文检索的技术。计论了从网上信息的标引、分类等预处理到组织信息检索的过程，并就智能检索技术的发展进行了阐述。关键词：信息检索因特网全文检索

一、前言

Ｉｎｔｅｒｎｅｔ网是目前全球最大的、最有影响力的信息网络，它将政府、学校、图书馆、商务场所、研究机构和其它组织中的局域网（ＬＡＮ）集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用Ｉｎｔｅｒｎｅｔ网获取有价值的信息，已成为科研人员必备的一项基本技能。

因特网是一个开放型的巨大的信息资源库，拥有上千万台以上的主机和过亿的用户；并且由于因特网信息蕴含的无限丰富，信息组织、表达的直观、生动以及信息服务的方便性和多样性，愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年，因特网用户的数量更是成倍地增长。可见，因特网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。

二、概述

网上的信息具有数量大、形式多、内容广、专业性不强等特点，给情报搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用因特网上的信息资源正成为情报科学研究者所关注的热点。全文信息检索就是概据Ｉｎｔｅｒｎｅｔ信息的特点而发展起来的一种检索方式。它主要指研究对整个文档信息的表示，存储、组织和访问，即根据用户的查询要求，从信息数据库中检索出相关信息资料。

全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。一个好的全文信息检索系统不仅要求将输出信息进行相关性排列，还应该能够根据用户的意图、兴趣和特点自适应和智能化地调整匹配机制，获得用户满意的检索输出。

要实现全文检索，首先必须对WEB信息进行预处理。

三、WEB信息的预处理

信息预处理的主要功能是过滤文件系统信息，为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录，使用户能很容易地检索到所需信息。

（１）格式过滤：信息预处理应该能够过滤不同格式的文档，以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字，而且能够检索原始格式文件的所有信息。

（２）语词切分：语词是信息表达的最小单位，而汉语不同于西方语言，其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法，联想－回溯法、全自动词典切词等。近年来，又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。

（３）词法分析：汉语语词切分中存在切分歧异，如句子“网球拍卖完了”，可以切分为“网球／拍卖完了”，也可以切分为“网球拍／卖完了”。因此需要利用各种上下文知识解决语词切分歧异。此外，还需要对语词进行词法分析，识别出各个语词的词干，以便根据词干建立信息索引。对于英语语词，建立索引之前首先要去除一些停顿词（如常见的功能词“ａ”，“ｔｈｅ”，“ｉｔ”等）和词根（如“ｉｎｇ”，“ｅｄ”，“ｌｙ”等）。

（４）词性标注和短语识别：在切分的基础上，利用基于规则和统计的方法进行词性标注。在此基础上，还要利用各种语法规则，识别出重要的短语结构。

（5）自动标引：从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息，用该组信息对文文件进行标引，使用户可以通过输入关键信息检索到该文文件的简要信息，如标题、摘要、时间、作者和ＵＲＬ等，进一步点击可查询到该文 1 档．

（6）自动分类：建立并维护一套完整的分类目录体系，根据文文件的信息特征，计算出与其相关程度最大的一个或多个分类，将文档划归到这些分类中去，使用户可以通过浏览分类体系直接查询到该文档．

．

四、检索

检索包括文件信息表达和查询信息表达以及相关信息预测过程。

（１）信息表达：信息的表达有多种方式，如布尔表达、矢量空间表达、自然语言表达等，每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定，并对应于相应的存储模式和检索算法，信息查询和组织的效率，也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。

（２）查询分析：用户端的查询信息首先要进行分析处理，提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是：查询索引处理是及时地提交处理形成索引，而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式，因此能够采取相似性估计算法检索出相关文件。

（３）查询扩展：近年来，为了提高信息检索的性能，将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展，即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图１所示，知识库中存储的知识为原始查询增添了相关词，从而扩展了原始查询。

（４）查询词的选择策略：

·非独立词：非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。

·反馈词：根据用户反馈的文件信息，按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词，将这些词增加到用户查询中。

·交互式选择：用户从通过上述策略得出的待选词中决定最后的查询词。

反馈网络属于人机交互范畴，目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息，不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式，因此查询结果也不尽相同。

（5）信息检索模型：信息检索系统的核心是搜索引擎，它需要从大量复杂信息中，筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同，可将信息检索分为：布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。

布尔逻辑模型布尔逻辑模型是最简单的检索模型，也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑，即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词，有时也包括一些更为复杂的特征，如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关，或者与查询无关。查询结果一般不进行相关性排序。

模糊逻辑模型为了处理精度和复杂性之间的矛盾，引入了模糊逻辑模型，它以逻辑真值为［０，１］的模糊逻辑为基础的，以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算，将所检索的文件信息和用户的查询要求进行模糊逻辑比较，按照相关性的优先次序排出查询结果，在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。

矢量空间模型和布尔检索模型不同，矢量空间模型中查询和文件都映射为同一ｎ维空间矢量。利用奇异值分解（ＳＶＤ）、查询词和文件的内部结构联系，通过欧几里德距离和余弦法则作相似性比较，根据矢量空间的相似性，排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果，而且能够提供查询结果分类，为用户提供准确定位所需的信息。

概率模型在信息检索中存在不确定性问题，对查询本身来说，它不能唯一地表示信息需求，对于结果来说，定查询结果的正确与否。对于布尔检索也是如此，因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题，引入了概率检索模型。该模型基于概率排队理论：当文件按相关概率递减原则排列时可以获得最大的检索性能。

五、全文信息检索技术的发展

目前的全文检索技术还存在着一些未尽人意的结果，主要是通常的信息检索系统性能较低，原因是将孤立词和词汇术语作为查询描述子，因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制，决策等基础上实现检索的智能化。

目前人工智能和信息检索的结合主要包括三方面：（1）信息检索和专家系统：主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件；（2）信息检索和自然语言处理：它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上，例如确认词根和词组等。（３）信息检索和知识表达：此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。

目前，虽然某些在ＷＷＷ上的信息检索服务系统采取了智能用户代理的等方式，可以根据用户事先定义的信息检索要求，在网络上实时监视信息源，如指定Ｗｅｂ页面的更新、网络新闻、电子邮件等，并将用户所需的信息通过电子邮件等方式，主动提供给用户，减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主，辅以部分自然语言的处理。智能化信息检索技术的发展，特别是知识学习和知识库以及人机交互方式的应用，将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展，全文信息检索技术必将更广泛地应用于网上信息检索领域。附：参考文献

1）、www.xiexiebang.composed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.

多媒体信息检索技术与数字化图书馆

第一篇：多媒体信息检索技术与数字化图书馆

第二篇：图书馆信息检索大赛

第三篇：信息检索技术论文

第四篇：图书馆信息检索大赛策划书（模版）

第五篇：WEB全文信息检索技术

相关范文推荐

多媒体数字化

信息检索与利用

关于高校图书馆服务的信息检索

图书馆信息检索大赛策划书[5篇范文]

相关反馈技术在数字图书馆信息检索中的应用研究

当代信息检索技术实习报告

信息检索技术论文（共5篇）

网络信息检索技术（5篇材料）