第一篇:传统信息检索与现代信息检索的区别和联系[精选]
目录
传统信息检索与现代信息检索的区别与联系............................................2 【引言】:...............................................................................................2
一、传统信息检索.................................................................................2
二、现代信息检索.................................................................................2
三、传统信息检索和现代信息检索的异同...........................................3
四、国内外研究现状..............................................................................3
五、信息检索的发展趋势......................................................................6 传统信息检索与现代信息检索的区别与联系
【摘要】: 信息检索的发展是随着科学技术的进步而发展的。人类已经 进行了四次信息技术革命,目前正 在进行第五次信息技术革命。信息技术的革命使得信息检索也不断地得到改进,信息检索技术主要有四个阶段:初始阶段、手工检索 阶段、计算机检索阶段、网络检索 时代。信息检索手段分传统信息检索和现代信息检索。传统信息检索是指手工信息检索,现代信息检索包括计算机信息检索和网络信息检索。
【关键词】: 网络信息检索 传统信息检索 信息技术革命 比较研究 计算机检索 手工检索 网络检索 信息检索技术 检索手段 文献信息
【引言】:
一、传统信息检索
传统信息检索-手工检索是利用各种专门用于检索的印刷出版物,即常说的检索工具来查找所需要信息的手段。其检索方法主要有以下几种:(1)直接检索:这是人们最常用的一种查找信息的方法,如去图书馆查阅各种图书、期刊及其他资料,找到需要的信息,需花大量的时间和精力,在过去文献较少时,还能达到目的,而在信息大量产生的年代里犹如大海捞针。
(2)间接检索:就是利用各种检索工具获取线索,再根据线索查找原始文献信息的方法。也就是手工检索。间接检索还分为:1追溯放:通过已知文献所赋的参考文献“由一变十,由十变百“地进行追溯查找有关信息还可以利用各种”引文索引”等工具进行追溯检索。2.工具法:利用各种检索工具进行查找文献,是文献检索最常用的方法。
二、现代信息检索
现代信息检索是指计算机及网络信息检索。计算机检索是以计算机为基础的信息存储检索。它是在手工检索、机械检索及光电检索基础上演变过来的,且在不断地发展。(1)计算机单机检索:是计算机检索的初形式。随着计算机存储介质的发展变化,也在发生不断变化。目前主要有三种方式:计算机磁盘检索,计算机磁带检索和计算机光盘检索。
(2)网络检索:计算机网络检索是近几年来发展起来的,目前它主要有三种形式:图书馆的局域网络的检索,联机检索系统的检索和internet网上检索。
随着计算机技术的普及、通讯及网络技术的发展,现代信息检索技术已不再是图书馆情报专业人员的专长,而是人人都应掌握的基本技能。
三、传统信息检索和现代信息检索的异同
(1)检索语言:检索语言就是检索信息时所使用的信息词汇,在检索语言上,手工检索与计算机检索基本相同,不同的是计算机检索可以使用较多的自然语言,internet网上检索一般使用自然语言。
(2)检索概念的组配:手工检索主要是以人脑进行检索概念的组配,而计算机检索则是利用布尔逻辑、位置逻辑等逻辑运算符进行概念组配,internet网上检索概念组配方式尚不成熟。其中计算机检索的概念组配最为严谨,手工概念组配的检索组配最灵活。
(3)检索途径:检索途径也就是检索入口,是根据信息的某种特征所进行的检索,手工检索与计算机检索的基本检索途径是相同的,如著作、分类、主题等。但计算机检索的检索途径要更加广泛和灵活,可以从年代、题目、文章、语种等途径进行检索,并能进行多途径同时检索。
(4)检索工具的特点:传统检索:
1、检索范围窄
2、检索速度慢
3、检索效率差
4、检索入口少
5、用户负担大
6、工具内容更新速度慢
7、工具体积庞大
8、信息密度低。现代信息检:
1、检索范围广
2、检索速度快
3、检索效率高
4、一种检索输入、多种检索输出
5、检索人性化
6、更新速度快
7、检索界面简洁
8、信息密度大。
四、国内外研究现状
21世纪是信息大爆炸的时代,海量的信息在满足人们工作、生活和研究需求的同 时,也给人们检索和利用信息带来了空前的挑战,快速、准确、有效地检索到所需要信息已成为每一个信息检索者的迫切愿望。满足用户的最大需求不仅要求提高信息检索系统的易用性和信息检索技术,还应充分分析和了解用户的信息检索特点,发现影响用户利用网络信息行为的障碍,有针对性地为用户提供帮助。
(1)中国研究现状
(1-1)研究主题
国内信息检索研究主要集中在用户检索行为特征、基于认知信念的用户信息检索研究、网络环境对信息检索的影响研究、国内外信息检索研究述评、特定情境下的信息检索以及利用特定数据库的信息行为研究等方面,呈现出研究主题涉及范围广、分布分散、深度不够的特点。此外,图1显示,近10年中聚焦消费者群体、学生群体、科研人员、网络用户和旅游群体等5类用户研究的文献就有57篇。虽然也涉及医学用户、老年用户信息检索特征的研究,但主题研究论文仅一两篇,不占研究的主流地位。因此,就研究主题分布而言,国内在上述5类用户研究方面具有一定的深度和规模,其他主题研究明显还不够深入,有待进一步加强.(1-1-1)关于消费者群体的研究 在网络环境下,为应对铺天盖地的商品广告和网络商店,消费者必须要有一定的检索技能,才能查找到自己 需要的商品,并甄别和选择出价格合理的商品。基于消费者信息需求的多样性和检索行为的多元化,选择消费者群体检索行为特征作为切入点的论文较多,共有15篇。其中研究的重点集中在电子商务交易过程中的信息行为、消费者搜索特定商品的策略和行为等方面,如乳制品、房地产、非处方药品信息的搜索特点。在消费用户信息检索特点研究中,研究者比较注重调查研究。例如,唐亮通过调查统计,在研究消费者网络信息搜寻行为及其影响因素的基础上,探讨了风险性感知、复杂性感知、重要性感知、产品知识、网络使用能力、市场敏感度等因素对
消费者信息需求感知的影响,同时对影响消费者选择搜索引擎和门户网站的因素进行探讨。因此,这类研究论文不仅对丰富消费者网络信息搜寻行为的理论有一定的参考价值,而且对于企业根据消费者获取信息的特点调整产品的宣传策略也有一定的借鉴意义。
(1-1-2)关于学生群体的研究
高校中大学生和研究生是检索利用各类信息资源的主体。据统计,大学生群体信息检索的研究论文有11篇,研究生群体的有1篇,由此可以看出,大学生群体信息检索无疑是信息检索研究的重点。学生群体研究主要针对本科及以上学历的学生。研究者主要通过问卷调查和统计的方法,分析高校本科生在网络环境下的信息检索,其中包括信息检索技能、策略、动机和信息素养等对信息检索的影响并提出相关建议。例如石德万等通过实证分析得出“学生查询互联网信息时,主要是通过搜索引擎查找相关的网站,然后再进入网站查找所需信息,其次是根据已有的知识和经验访问已知的网站查找信息”,对图书馆如何应对读者的信息搜索习惯提出了加强文献检索课检索技巧培训、建设信息导航,提高高校图书馆的网络信息服务能力,优化本科生网络信息检索 教育等方面的建议。此外,不少论文通过调查和研究发现影响高校学生网络信息检索的主要因素有基本特征因素如性别、专业、年级、上网频次;网络环境因素如对网络信息与非网络信息的认知比较、网费、对网络的 熟悉程度与检索技巧、用户培训、上网时间与地点等。
(1-1-3)关于科研人员的研究
科研用户一般包括大学的科研工作者、教师、各个科研机构的研究人员以及博、硕士研究生等。这一群体在利用网络数据库时一般具有较强的目的性,即根据科研项目的主题检索科技信息,他们对网络数据库的查准率有较高的要求。由于科研人员的特殊性,即科研工作创新迫使他们需要不断地进行探索,进而导致信息需求的“不确定”
。因此,在研究过程中,他们一方面处于长期存在信息需求的状态,另一方面,需求信息具有一定的模糊性。研究论文针对用户信息需求的特点,结合网络信息检索实践,从认知行为学和心理学的角度探索了科研人员利用web2.0以及各类网上数据库的检索行为。例如胡昌平等通过论述科研人员克服信息查询障碍,借助图书馆工作人员优化检索过程和改善检索结果,揭示了网络环境下高校科研人员的一些重要的检索行为特征,为提高科
研人员以项目为中心的信息利用水平提供了借鉴。因此科研用户检索行为研究不仅对改善网络信息资源的组织方法、导航系统、标识系统,而且对优化搜索引擎也有着很强的现实指导意义
(2)国外研究现状
(2-1)研究方法
国内关于信息检索研究主要采用定性和定量相结合的方法,最常用的是通过问卷调查或者是在线调查采集数据。采集有代表性的样本是获得正确调查数据的重要保证,同时能够保证得出结论的正确性和研究结果应用于实践的可行性。例如刘磊等调查的学校有南京大学(综合类院校代表)、南京理工大学(工科类院校代表)京师范大学(人文类高校代表)、南京农业大学(农林类高校代表)等,涉及的学科专业有法律、国际贸易、英语、汉语言文学、历史、生物、园艺、环境保护、农学、医药、化工、车辆工程、电子信息等学科专业。该项调查内容丰富,调查对象覆盖面宽,有很强的代表性。但有些论文针对医务人员信息检索所做的调查,只选取某一个医院的部分人员作为调查对象,由于样本太小,难免产生片面性结论的弊端。
(2-2)研究主题
在国外近2800篇的论文中,研究领域较广,涉及到检索行为模型研究、不同职业人群的检索行为研究、检索任务对检索行为的影响研究、搜索引擎对检索行为的影响研究等。其主要的主题内容分布如下。
(2-2-1)对不同职业用户群信息检索的研究
国外检索行为的研究中,用户群的信息检索研究是一重要研究领域。在医生、护士、工程师、教师、管理人员、学生群体等研究中,医务人员和学生检索行为则又是其研究的重点。国外关于学生群体的研究较为精细,不仅根据大、中、小学生不同年龄和学习特点展开了信息检索研究,而且根据不同年龄段学生的信息需求、检索技能、检索策略制定、选择检索工具的特点以及学校用户教育在方法和内容等方面的衔接展开了研究。
由于医务人员信息量较大,因此他们对信息检索的依赖性较大。哈伦大学的经过研究,发现医务人员信息检索研究主要涉及3个主题。一是医生信息需求的频率和类型研究;二是医生信息需求的内容研究,包含信息资源利用模式、信息检索耗费时间、信息检索壁垒与信息检索技巧;三是信息资源研究,包括利用资源的数量、信息来源比较、信息资源利用排名、印刷型与电子资源利用比较、PDA的利用、电子数据库和网络利用研究等。
(2-2-2)对不同学科用户群信息检索的研究
学科的差异性必然带来信息需求和检索行为的迥异。该类文献研究主要聚焦在不同学科研究人员的检索方法、信息源以及面临的障碍等。例如,S.Nii Bekoe Tackie和Musah Adams在对VRA.工程师的研究调查中,发现工程师们需要相对简洁、详细且实用的信息,他们检索的动机受所需解决问题的类型的影响,从而更倾向于通过同事间的交流获得信息。因此,他建议扩大图书馆的信息交流空间,提高检索质量来吸引工程技术人员利用图书馆。BradleyM.Hemminger等人通过网上调查,研究网络环境对信息检索的影响,发现越来越多的人对网络资源的依赖性较大,利用图书馆的人日趋减少。这些研究成果提示图书馆,应对网络环境,必须充分运用营销手段努力推销自己,延伸和拓展服务手段,更大范围地覆盖研究人员的信息需求。
五、信息检索的发展趋势
随着网络的飞速发展,网上资源也日新月异,呈爆炸性增长趋势。面对如此浩瀚多样的信息资源,计算机技术,通信技术,信息检索存储技术的快速发展,手工检索的“手翻、眼看、大脑判断”的检索方式已经很难适应当今信息的发展速度,因此,信息检索开始从手工检索过渡到计算机检索。
信息检索,是以科学的方法,利用检索工具和检索系统,从有序的信息集合中检索出所需的信息的一种检索方式,是人类为了合理的分发情报和充分的利用情报而采取的一种重要的交流方式,于是乎,信息检索已经成为现代社会信息化和个汇总应用关系的关键。
在这个高速发展的信息时代,信息就是商品、信息就是财富、信息就是资源、信息就是机会,人人都渴望及时获得有用的信息,如果说信息是人来赖以生存、发展的本能,那么信息检索就是每个人必须具备的一种基本技能。因此,信息检索在这个时代起着举足轻重的作用:1.信息检索是读书治学的基本功。无论是在学习还是在工作期间,都需要进行各种信息检索的培养和训练;2.信息检索是科学研究的组成部分。科学研究首先是从课题调研掌握资料起步的,信息检索有助于掌握本课题的进展动态,开拓思路,避免重复劳动,把研究水平提到新的高度;3.信息检索是科学决策的先导。信息化时代的经济管理、政治控制、艺术创造乃至心理状态的演变等,均受到各种社会信息的影响。适时掌握相关信息才能实现有效的管理。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的网络内容。因此,在未来的时代信息检索必将出现信息智能化、个性化、专业化、多样化的检索引擎。
智能搜索引擎是结合了人工智能技术的新一代收索引擎,它使因特网信息检索从基于关键词检索提高到基于知识或概念检索,并对知识有一定的理解及处理能力,能够实现分词技术、同意词技术、概念搜索、短语识别及机器翻译等技术。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。在检索服务方面,提高检索质量需求最基本的一点就是判定用户是在寻找快速的回应还是精确地检索结果并分析查询中隐含的“意义范围”,即词语在不同领域的含义。个性化信息检索是指能够为具有不同信息需求的用户提供个性化检索结果的技术。即对不同用户提供的同一种查询词语也能按照不同的用户需求而生成不同的检索结果。从实现原理上看,目前的个性化信息检索的方法主要有三种,分别为基于文本内容分析的方法、基于点击流量的方法和基于超链接分析的方法。基于文本内容分析的方法通过获取用户的查询历史和访问网页等文本信息,甚至有时还能结合用户主动提交的,反应自身兴趣的关键词来得到个性化检索结果。而基于点击流量的分析方法则使用了一些间接反映用户个性化需求信息的方法,往往能更有效地提供个性化检索的服务。再如基于超链接的个性化检索方法,它主要利用修改网页的标准PageRank值来反映用户的个性化信息需求。
面对这样一个新知识、新技术不断涌现、只是新陈代谢频繁的世界,想要一劳永逸的获得知识是不现实的,我们只有终身学习、不断获取、更新知识,才能不被社会所淘汰。要有效、快速的获得和利用最新的信息,就必须掌握信息检索的技能。
【参考文献】:1.周文荣:网上数据库检索[j]情报科学;2001年08期
2.黄如花;网上专利信息的检索[J];情报科学;2001年03期 3.曾民族;网络信息检索现状和性能评价[J];情报学报;1997年
第二篇:现代信息检索论文
期末课程论文
论文标题:课程名称:信息检索技术课程编号:学生姓名:尹江津学生学号:所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:
文本分类及相关技术研究
1220500 1100310230
王
冲
2013年7月2 日
文本分类及相关技术研究
信息检索(Information Retrieval,IR)是研究信息的表示、存储、组织和获取的一门学科,其目标是为用户快速、准确地提供其所需的信息。信息检索起源于20世纪50年代,在60年代取得了关键性进展,其中最著名的是GerardSalton开发的SMART系统以及Cym Cleverdon提出的Cranfield评价方法,SMART系统和Cranfield评价方法有力地推动了信息检索的发展。在70年代和80年代,多种关于文档检索的模型被提出,文本检索会议(TREC)于1992年开始举办,该会议推动了大规模文档集合环境下的信息检索技术的发展。随着互联网上信息的迅速增加,为了进一步提高用户信息检索的质量和效率,网络上出现了更高效地信息索工具——搜索引擎(Google,Yahoo,Bing,百度等),搜索引擎为用户在互联网这个分布式环境下检索需要的信息提供了极大的方便。
文本分类是一个监督学习过程,它根据一个类信息已知的训练文档集合,训练出文本特征和文本类别间的关系模型,然后通过这个学习得到的模型对待分类文本进行分类。文本分类技术是处理和组织文本数据的重要手段,同时也是信息检索的重要基础,把大量的文本信息按主题层次进行组织可以极大地简化信息检索的过程,按照类别对文档进行检索或对检索结果进行分类,都可以提高检索的查准率。由于文本分类技术可以对大量的文本进行分类,文本分类在信息检索、自然语言处理、垃圾信息过滤、Web挖掘等领域得到了广泛应用。
一、文本分类概述 1.文本分类的一般过程
数据分类是数据分析的一种重要形式,数据分类通常用两个步骤:学习和分类。在学习步,分类算法利用训练数据来构建分类器,训练数据有多个元组以及与元素关联的类标签构成。元组X被表示为n维的属性向量,每一个元组属于一个或多个事先定义好的类别,类别由类标号属性(class label attribute)决定,类标号属性由离散、无序值构成。由于每一个训练元组的类标号已知,因此,学习步是一个监督学习过程。学习步可以看作是学习映身函数,函数,对于给定的元组Z该函数可以预测与X关联的类别标号。文本是数据的一种具体形式,也是语言的实际运用形态,文本在人们生常生活中无处不在,任何有具体一定含义的文字都可以统称为文本。文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地对待分类文本进行分类,确定待分类文本的类别。其数学公式表示如下:
其中,A为类信息未知文本的集合,B为分类体系中类别信息的集合文本分类一般包括以下5个过程:文本预处理、文本表示、特征降维、分类器的选取与训练以及分类结果的评价。
文本分类系统的主要功能模块为:
(1)文本预处理:为了使文档的格式满足分类器的输入要求,首先需要对原始语料进行处理,将其格
式进行规范化,;
(2)文本表示:将文本分解为基本处理单元,用数学模型来表示;(3)特征降维:降低特征空间的维数,提高分类器的效率和准确率;(4)分类器:选择合适的分类器并用训练数据集进行训练;(5)性能评价:选择对分类器的性能进行评估的性能评价标准。
2.文本预处理·
自动文本分类的第一步是文本预处理。通常情况下,各种不同类型的文档的来自不同的领域,从而文档的存储形式各异,并且计算机处理的文本不仅包含文字内容,还包含有功能性标签等不规范符号,文本分类模型不能直接对原始文档进行处理。必须对原始文本进行预处理,去除其中的噪声,规范化其形式,从而使文本满足分类模型的输入要求。文本预处理是影响文本分类准确度的关键因素,文本预处理的主要任务是从原始文本提取主要内容并对其格式进行规范化,一般包括以下几个步骤:去除文档中的格式标记、过滤非法字符、字母大小写转换、去除停用词和稀有词、词干化处理。
3.文本表示
文本本身不能被直接用来分类,为了使文本能够输入到计算机中进行处理,首先应将原始文本转换为数学模型,然后用计算机对数学模型进行处理。在实际应用中,将原始文本转为文本向量和词频矩阵后,这些数学模型非常庞大,计算机处理时需要花费大量的时间,为了提高处理效率,一般都假设词语与词语之间相互独立,词语在文本中的位置被忽略,文档被表示为不同特征项的集合。这种方法被称为“朴素(Naive)”的方法或“词袋“模型。文本表示模型主要有布尔模型、向量空间模型以及统计语言模型,虽然这三种模型采用不同的方法来表示文档,这三种模型都采用了“词袋”模型的思想。
4.信息增益
信息增益是指某特征项在文本中出现前后的信息熵之差,在机器学习领域中,经常用信息增益来衡量某个特征项的重要性。对于词语t和文档类别C,通过统计C中出现和不出现t的文档数来衡量t对C的信息增益。特征项t的信息增益用如下公式计算:
其中,Pr(Ci)表示在文本集合中属于白类的文本出现的概率,Pr(t)表示文本集合中包含特征项t的文本在文本集合中的出现概率,Pr(Ci|t)表示在文本中包含词语f的条件下文本属于类Ci的条件概率,Pr(t)表示文本集合不包含特征项t的文本在文本集合中的出现概率,Pr(Ci|t)表示在文本中不包含词语t的条件下文本属于类Ci的条件概率,m是类别总数。根据公式计算出各个特征项的信息增益后,除去增益值小于指定闽值的特征项,剩余的即为选中的特征;或按特征项的信息增益从大到小排序,删除信息增益很小的单词。
二、文本分类方法 1.Naive Bayes方法
Naive Bayes分类方法(以下简称NB法)是一种简单而又非常有效的分类方法。NB法的一个前提假设是:在给定的文档类语境下,文档属性是相互独立的。假设面为一任意文档,它属于文档类C={cl,C2,.,Ck)中的某一类cj。根据NB分类法有:
对文档反进行分类,就是按计算所有文档类在给定di情况下的概率,概率值最大的那个类就是di所在的类,即:
可知,对于给定分类背景和测试文档,用NB法分类的关键就是计算P(Cj)和P(di|cj)。计算P(cj)和尸(硝lcj)的过程就是建立分类模型(或者说学习)的过程。根据.P(dj|ci)计算方式的不同,可以将Naive Bayes方法分为最大似然模型(Maximum Likelihood Model)、多项式模型(Multinomial Model)、泊松模型(PoisonModel)等[ELM03]。
2.使用最大熵模型进行中文文本分类
最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法,它可以综合观察到的各种相关或幂相美的概率知识,对许多问题的处理结果都到这或超过了其他方法的最好结果。但是,将最大熵模型应用在文本分类中的研究却非常少,本章使用最大熵模型进行了中文文本分类的研究。通过实验,比较和分析了不目的中文文本特证生成方法,以及使用平滑技术的情况下,基于最大熵模型的分类器的分类性能;将其和Bayes、KNN、SVM三葶争典墨的文本分类器进行了比较;使用Bagging来提高最大熵模型的分类稳定性。
1).最大熵模型
最大熵模型是用来进行概率估计的。假设a是某个事件,b是事件a发生的环境(或称上下文),我们想知道a和b的联合概率,记为p(a,b)。更一般地,设所有可能发生的事件组成集合为A,所有环境组成的集合为B,我们想知道,对于任意给定的aA,bB,概率p(a,b)是多少?
我们抱这个问题放到自然语言处理的领域来讨论,对于文本分类问题,一个文档分到某个类别可以看成一个事件,文档中出现的词可以看成这个事件的发生环境,我们想知道包含词b的文档属于某一类a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集,定义A={a1,a2,A,am)是文档所属类别集,B={bl,b2,A,bm}是文档的特征词集,num(ai,bj)为疆练集中二元组(ai,bj)出现的次数,那么我们可以使用如下公式进行概率估计:
这个方法有个很大的问题,即“稀疏事件”(sparse evidence)问题,即便是很大的训练文本,很多
二元缝组(ai,bj)仍然没有出现,武断的认为它的概率为0显然是不可取的。最大熵模型是这样来解决稀疏事件问题的,它使未知事件的概率分布总是尽可能均匀,即倾向予得到最大熵。例如一个军事、政治和科技的三类文本分类题,我们得知出现“飞秘”这个词的、80%的文档属于军事类别,对于“飞机”这个词在蒺饱两类中的分布未知。根据最大熵原则,如果给定一个包含“飞机”这个词文档,那么认为文档以0.8的概率属于军事类别,分别以0.1的概率属于其它两类;如果文档中不包含“飞机”这个词,那么认为文档分别以相同的、1/3的概率属于每一个类。即,在符合已知约束条件下,使未知事件尽可能均匀。具体来说,根据Shannon的定义,熵的计算公式如下:
那么,求解满足最大熵原则的概率分布公式如下:
三、总结与展望
文本分类技术是组织和处理文本数据的重要手段,其主要任务是如何在给定的分类体系下,根据文本的内容自动地确定与文本关联的类别。文本分类可以有效解决大量文本信息归类的问题,并且是信息检索、Web挖掘、内容信息过滤等研究的重要基础。主题模型是概率模型,由于主题模型可以捕获潜在的语义结构信息,主题模型在文本分类、信息抽取、观点挖掘等文本挖掘任务中的应用得到了较深入的研究。
本文对文本分类进行了研究,介绍了文本分类的一般过程与关键技术,主要包括:文本预处理、文本表示、性能评价指标,同时还对主题模型PLSA、LDA、sLDA和iTopicModel的构建方法和参数估计方法进行了介绍。针对已有的监督主题模型与基于机器学习的文本分类算法假设文档之间相互独立、不能有效利用文档间的关联关系的问题,提出了监督关联主题模型SRTM和关联文本分类算法TC.iTM。为了利用利用文档间的关联关系来提高监督主题模型的预测准确度,我们基于iTopicModel提出了监督关联主题模型SRTM,将文档间的关联关系、文档的文本信息、文档的标号进行统一建模,首先用古典线性回归模型对文档标号进行建模,给出SRTM的联合概率分布,通过EM算法最大化联合概率分布的对数似然对SRTM的参数进行估计,然后用Fold.In[54]方法对训练数据以外文档的标号进行预测。最后我们用广义线性模型对文档标号进行建模,对SRTM进行扩展,使SRTM可以处理多种类型的文档标号。Cora研究论文分类数据集和电影评论数据集上的实验表明,在文档网络中,SRTM的预测结果要优于现有的监督主题模型。
参考文献: [学位论文] 姜英杰,2010郑州大学:计算机系统结构
[学位论文] 刘欣,2010重庆大学:计算机科技与技术
[学位论文] 陈树清,2010南京理工大学:计算机应用技术
第三篇:信息检索
实验三 访问校园网
班级:11级信管本(2)班
学号:1142152237
姓名:张恒
实验名称:访问校园网 实验目的与要求:
熟悉校园网以及图书馆提供的信息资源 实验步骤:
1、进入新华学院校园网首页,网址是wow.axhu.cn或者www.xiexiebang.comKI中国知网,超星数字图书馆以及外文数据库中EBSCO和Springer Link。(1)万方数据库
万方数据库是由万方数据公司开发的,涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库;也是和中国知网齐名的中国专业的学术数据库。其开发公司——万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。
(2)CNKI中国知网
中国知网,是国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月。在党和国家领导以及教育部、中宣部、科技部、新闻出版总署、国家版权局、国家计委的大力支持下,在全国学术界、教育界、出版界、图书情报界等社会各界的密切配合和清华大学的直接领导下,CNKI工程集团经过多年努力,采用自主开发并具有国际领先水平的数字图书馆技术,建成了世界上全文信息量规模最大的“CNKI数字图书馆”,并正式启动建设《中国知识资源总库》及CNKI网格资源共享平台,通过产业化运作,为全社会知识资源高效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习的平台。
(3)超星数字图书馆
为目前世界最大的中文在线数字图书馆,提供大量的电子图书资源提供阅读,其中包括文学、经济、计算机等五十余大类,数百万册电子图书,500 万 2 篇论文,全文总量 10亿余页,数据总量1000000GB,大量免费电子图书,超8万的学术视频,拥有超过35万授权作者,5300位名师,一千万注册用户并且每天仍在不断的增加与更新。为目前世界最大的中文在线数字图书馆
(4)EBSCO
EBSCO Industries,Inc.是一家从事多元化产业经营的跨国公司。主要产业有文献信息产品和服务(电子期刊与数据库、文献代订服务等,参见以下EBSCO Information Services)、渔具(世界最大的鱼饵生产商)、地产与酒店等。由Elton B.Stephens于1944年建立(公司名称即为E.B.Stephens COmpany的缩写)。EBSCO总部位于美国阿拉巴马州伯明翰市。
(4)Springer Link
SpringerLink是全球最大的在线科学、技术和医学(STM)领域学术资源平台。凭借弹性的订阅模式、可靠的网路基础、以及便捷的管理系统,SpringerLink已成为各家图书馆最受欢迎的产品。Springer是科学出版界的领导者,一直凭着其卓越表现而享有美誉。Springer已经出版超过150位诺贝尔奖得主的著作。
4、仔细查看图书馆首页中的检索框,介绍什么是读秀学术搜索,用关键字“信息检索”,搜索书名为“信息检索”的相关记录,摘取至少一条记录,并且从搜索结果中,查看我校图书馆馆藏的有关“信息检索”的图书,如果没有而同学们又想看,怎么办?
读秀学术搜索:读秀”是由海量全文数据及资料基本信息组成的超大型数据库。其以370万种中文图书、10亿页全文资料为基础,为用户提供深入内容的章节和全文检索,部分文献的原文试读,以及高效查找、获取各种类型学术文献资料的一站式检索,周到的参考咨询服务,是一个真正意义上的学术搜索引擎及文献资料服务平台。
信息检索记录:
我校图书馆馆藏:
如果没有的图书可以通过图书荐购方式想图书馆推荐。
5、用自己的读者证号进入我校图书馆书刊检索,采取不同的检索方式(书名检索、作者检索、目录检索等等)检索 “管理信息系统
于本海
高等教育出版社”这本书,并截图表明结果
书名检索
作者检索
6、了解中图法的目录分类。
《中图法》即中国图书分类办法,就广义而言,包括《中国人民大学图书馆图书分类法》、《中国科学院图第五版书分类法》、《中国图书馆图书分类法》、台湾赖永祥仿十进分类法(所谓“中国图书分类法”)、《国际图书集成分类法》。就狭义而言,《中图法》是《中国图书馆图书分类法》的简称,是我国目前通用的类分图书的工具,读者掌握了这部分类法的有关知识,便能迅速、有效地查寻全国各图书馆的馆藏。分类法基本结构
(1)基本部类:如中图法分五大类部:马列毛邓;哲学;社会科学;自然科学;综合性图书。
(2)基本大类:构成分类表的第一级类目。中图法为22个基本大类。(3)简表:由基本大类与由其直接展开的一、二类目所形成的类目表。如:(4)详表:由简表展开的各种不同登记的类目所组成的类目表,是文献分类的真正依据。实验结果与结论:
通过这次实验我熟悉了校园网以及图书馆提供的信息资源。
成绩评定:
实验日期:2013年9月27日
指导教师签名:孟翠翠
第四篇:信息检索
《信息检索与利用》课程上机大作业
注意事项
所有通过文献数据库检索的题目必须通过图书馆主页电子资源入口进入,否则很多资源没有使用权。图书馆地址lib.nuaa.edu.cn 下载作业题、提交作业网站地址为QQ群:310530458 按步骤完成每个练习题,作业于5月18日前提交 作业文件名按照“学号-姓名” 上机时间:4.13、4.27、5.11 上机地点:图书馆五楼培训教室
一、指出下列文献的类型:(每题1.5分,共15分)
1.范克新.社会学定量方法.南京:南京大学出版社,2004:102-103.期刊论文
2.Gomathi, S.Sankara;Bhagyaveni, M.A.Simulation of scalability and congestion control of broadband intelligent networks.Information Technology Journal v 7, n 2 , 2008, p 306-312 期刊论文
3.H.Baker.Three-dimensional modelling.In Proc of 5th Intl.Conf.on Artificial Intelligence, pages 649–655, 1977.期刊论文
4.Stone, P.J.,Dunphy, D.C., Smith.The General Inquirer: A computer approach to Content Analysis in behavioral sciences.Cambridge, MA:MIT.Press.1966.专著
5.Dong,Jiaxiang, Rule-based planning for automated endodontic treatment:From dental radiography, three-dimensional computer modeling to tool selection and path control , Ph.D.OLUMBIA UNIVERSITY , 2003,295p.学位论文
6.Franck, Raymond E , Lewis, Ira, Udis, Bernard.Impact of Export Control and Technology Transfer Regimes: International Perspectives;NAVAL POSTGRADUATE SCHOOL MONTEREY CA GRADUATE SCHOOL OF BUSINESS AND PUBLIC POLICY.ADA568332, NPS-AM-12-001 Mar 2001, 46p 学位论文
7.中继节点模拟器及测试方法:日本,CN103036605A[P].2013-04-10 技术标准
8.SNS百度百科[EB/OL].[2013-3-7].http://baike.baidu.com/view/8258.htm 电子文献
9.宁永强,秦莉,刘云,李特,孙艳芳,刘光裕,崔锦江,彭彪,张岩.中国科学院长春光学精密机械与物理研究所.半导体电泵浦集成微腔激光器[Z].项目立项编号:.鉴定单位:.鉴定日期:2007-09-04 报告
10.柯贤能.基于创新过程的技术竞争情报分析方法框架构建,[D].北京:中国科学院,2007 报告
二.查找图书《平凡的世界》、《Model-Based Reasoning in Science and Technology》,总结查询图书全文信息的方法。(共15分)
步骤: 1.先登陆我校图书馆馆藏书目查询系统,检索有无馆藏,如有写出索书号;(3分)
答:I247/8322-A 2.中文图书,进入读秀中文搜索,选择图书,进行检索,查看馆藏信息及电子图书信息,尝试图书下载和阅读,并拷贝正文内任意一页。(3分)答:
第一
章
一九七五年二三月间,一个平平常常的日子,细蒙蒙的雨丝夹着一星半点的雪花,正纷纷淋淋地向大地飘洒着。时令已快到惊蛰,雪当然再不会存留,往往还没等落地,就已经消失得无踪无影了。黄土高原严寒而漫长的冬天看来就要过去,但那真正温暖的春天还远远没有到来。
在这样雨雪交加的日子里,如果没有什么紧要事,人们宁愿一整天足不出户。因此,县城的大街小巷倒也比平时少了许多嘈杂。街巷背阴的地方,冬天残留的积雪和冰溜子正在雨点的敲击下蚀化,石板街上到处都漫流着肮脏的污水。风依然是寒冷的。空荡荡的街道上,有时会偶尔走过来一个乡下人,破毡帽护着脑门,胳膊上挽一筐子土豆或萝卜,有气无力地呼唤着买主。唉,城市在这样的日子里完全丧失了生气,变得没有一点可爱之处了。
只有在半山腰县立高中的大院坝里,此刻却自有一番热闹景象。午饭铃声刚刚响过,从一排排高低错落的石窑洞里,就跑出来了一群一伙的男男女女。他们把碗筷敲得震天价响,踏泥带水、叫叫嚷嚷地跑过院坝,向南面总务处那一排窑洞的墙根下蜂拥而去。偌大一个院子,霎时就被这纷乱的人群踩踏成路遥著,路遥全集:平凡的世界
第一部
长篇小说,广州出版社,2002年07月第1版,第3页
3.外文图书利用springer数据库查找有无电子图书,如有下载1个章节,并拷贝正文内任意一页。(3分)
Abstract Model-based reasoning requires not only inferences about what is happening, but also evaluations of the desirability of what is happening.Emotions are a key part of such assessments, but sometimes they can lead people astray, as in motivated inference when people believe what fits with their desires.In contrast to motivated inference, fear-driven inference generates beliefs that people do not want to be true.Although paradoxical, this kind of inference is common in many domains, including romantic relationships, health, parenting, politics, and economics.This paper proposes that fear-driven inference results from gut overreactions, in which a feeling that something is wrong is erroneously taken as evidence that something really is wrong.We discuss psychological and neural mechanisms by which gut overreactions can lead to fear-driven inference, and show how a computer model of emotional coherence can explain both fear-driven
and motivated inference.4.利用国家图书馆(http://www.xiexiebang.com/),看看能不能阅读全文。(3分)
6.总结查询图书信息的方法,哪些查询方法可以获得图书的全文?
三.任选以下课题,检索课题的相关中文文献。选择三个检索系统,要求写出检索系统、检索式、至少保存五条密切相关的检索结果(含文摘)。(15分)1.火灾早期预警系统研究
技术要点:该项目通过自动监控(特征气体和图像识别)和人工复检相结合的消防预警系统.2.航空发动机故障诊断的融合技术研究 技术要点:该项目将信息融合技术应用在航空发动机传感器故障诊断和部件故障诊断中,研究与开发相应的并行融合、串行融合和交叉融合的计算软件。
3.自选题,可以选择现在正在进行或准备申请的课题,及感兴趣的课题。
步骤:
1.判断文献的类型,选择合适的检索工具。(3分)
2.选择检索词。(3分)
3.设定时间、字段、构建检索式,开始检索。(6分)
4.检索结果选择,保留如下格式。(3分)
检索结果格式如下所示:
[1]王位,陆亚林,杨卓如.三维快速成型打印机成型材料[J].铸造技术,2012,01:103-106.摘要:三维快速成型打印技术作为新兴技术,具有很大潜力。简述了三维快速成型打印技术的发展和现状,描述了三维打印技术的成型原理,材料的选择后处理过程,并提出了展望。
四、利用网络免费资源《HighWire出版社电子期刊》,搜索近2013年以来有关“互动问答平台(questions & answer(Q & A)platform)”方面的论文,写出检索式,保留3条密切相关文献(可免费下载全文)的题名和摘要文摘。(10分)
五、搜索图片中服饰的相关信息。(8分)
1.2.3.4.PRIMITIVE 卫衣 Toms平底鞋
VALENTINO 迷彩手提包 Alice + Olivia 长裙
六、搜索你所在学院研究生2013年的学位论文。写出检索结果,保留5条文献(参考文献格式)。(7分)
步骤:
1.判断文献的类型,选择合适的检索工具。(3分)2.设定时间、刊名、构造检索等,开始检索。(3分)3.保存检索结果。格式如下所示:(3分)
[1]王位,陆亚林,杨卓如.三维快速成型打印机成型材料[J].铸造技术,2012,01:103-106.七.利用EI检索有关三维设计系统的外文文献。(10分)
步骤:
1.登录《EI village》。(2分)
2.选择检索字段Subject/Titlel/Abstract,分别检索three dimensional,3D,“three dimensional”,结果有何区别?(2分)3.选择检索字段Subject/Titlel/Abstract,分别检索 “design system”和“design systems”结果有何区别?(2分)
4.选择你认为最准确的三维和设计系统的写法,逻辑组配后检索,得到文献列表。保存一条相关文献的题录信息(参考文献格式)(4分)
八.查找论文Ultrathin Mesoporous NiCo2O4 Nanosheets Supported on Ni Foam as Advanced electrodes for Supercapacitors是否被SCI数据库收录,如被收录,查找该论文的入藏号、引用次数以及该期刊的2013年影响因子。(10分)
保留的题录信息的格式如下: 1.标题: Origin of the low piezoelectric coefficient of metal core 0.3Pb(Zn1/3Nb2/3)O-3-0.7Pb(Zr,Ti)O-3 piezoelectric fibers
作者: Luo, J(Luo, Jun);Qiu, JH(Qiu, Jinhao);Zhu, KJ(Zhu, Kongjun);Ji, HL(Ji, Hongli);Liang, DK(Liang, Dakai)
来源出版物: JOURNAL OF ALLOYS AND COMPOUNDS 卷: 581 页: 468-471 DOI: 10.1016/j.jallcom.2013.06.152 出版年: DEC 25 2013 入藏号: WOS:***
被引频次:0 ISSN: 0925-8388
期刊影响因子IF:2.390(2013年)
步骤:
1.登录《ISI Web of Science》,选择Web of ScienceTM核心合集,选择更多设置,只在“Science Citation Index Expanded(SCI-EXPANDED)--1998年至今”前方打勾。2.选择检索字段题名字段,输入题名进行检索。3.检索到文献后,复制保留检索结果。
4.点击题名,查看文献详细信息,查找该论文的入藏号、被引用次数以及该期刊的影响因子(影响因子,点击后方可查看到)。
第五篇:信息检索
信息检索
中文期刊
[1]任芳芳.石油化工企业安全文化综合评价研究[D].东北大学: ,2008.[2]匡蕾.煤矿企业安全文化建设与评价指标体系研究[D].辽宁工程技术大学: ,2009.[3]刘芳.施工企业安全文化评价研究[D].哈尔滨工业大学: ,2010.[4]石玉威.中国大学生文化安全教育体系构建研究[D].长春工业大学: ,2010.[5]张晓梅.我国文化安全存在的问题及对策研究[D].东北林业大学: ,2011.学位论文
[1]陈荣芳.胜华化工安全文化构建研究[D].中国石油大学: ,2011.[2]李晓利.基于小波神经网络的化工安全评价研究[D].太原理工大学: ,2007.[3]李媛.基于道化学公司安全评价标准的化工安全评价计算机辅助系统的研究[D].北京化工大学: ,2004.[1]匡蕾.煤矿企业安全文化建设与评价指标体系研究[D].辽宁工程技术大学: ,2009.[2]刘芳.施工企业安全文化评价研究[D].哈尔滨工业大学: ,2010.会议论文
[1]田晓青.企业医院安全文化建设的几点思考[A].李建中,梁留科.创新发展——河南省第五届学术年会论文选集[C].创新发展——河南省第五届学术年会论文选集:中国科学技术出版社,2009-09.[2]陈新华.企业安全文化建设探索[A]..2009’中国金属学会冶金安全年会论文集[C].2009’中国金属学会冶金安全年会论文集:,.[3]朱斌.企业安全文化[A]..2009’中国金属学会冶金安全年会论文集[C].2009’中国金属学会冶金安全年会论文集:,.[4]罗春光.弘扬企业安全文化,提升安全管理水平[A]..2009’中国金属学会冶金安全年会论文集[C].2009’中国金属学会冶金安全年会论文集:,.[1]王家凯.构建企业亲情安全文化之我见[A]..2009’中国金属学会冶金安全年会论文集[C].2009’中国金属学会冶金安全年会论文集:,.[1]张建国,.以人为本 打造安全文化[J].供电企业管理,2009,(5).