第一篇:基于lucene的信息检索系统 毕业论文
第三章 信息检索系统及其关键技术
3.1 信息检索系统简介
信息检索系统是利用信息检索技术(如全文检索等)帮助用户查找特定信息的一种工具。它能够对信息进行正确的表示、存储和组织,同时还提供对于信息的访问方式。在这里,信息的概念很宽泛,它可以是一篇文章,一段文本,一个网页,一封邮件,一张照片,甚至是一些虚拟信息的集合。
3.2 信息检索的过程
检索的整个过程包括:构建文本库,建立索引,进行检索。1.构建文本库
在开发检索功能前,一个信息检索系统需要做些准备工作。首先,必须构建一个文本数据库。这个文本数据库用来保存所有用户可能检索的信息。在这些信息的基础上,确定检索系统中的文本模型。文本模型是被系统所认可的一种信息格式,这种格式应当具有可识别、冗余度低等特点。当然,在系统的运作过程中,文本数据库的信息可能会不断地发生变化。
2.建立索引
有了文本模型后,就应该根据数据库内的文本建立索引。索引可以大大提高信息检索的速度。目前有多种索引的建立方式,采用哪种方式取决于信息检索系统的规模。大型信息检索系统(如百度、Google这样的搜索引擎)均采用倒排的方式来建立索引。
3.进行搜索
在为文本建立索引之后,就可以开始对其进行搜索。通常由用户提交一个检索请求,该请求被分析,然后在索引中检索并返回结果。
3.3 Lucene
Lucene是一个开源全文检索工具包,它是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。3.3.1 Lucene结构分析
Lucene作为一个优秀的全文检索引擎,其结构具有强烈的面向对象特征。首先是定义了一个与平台无关的索引文件格式,其次通过抽象将其核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式的处理,最终达成了一个低耦合高效率,容易二次开发的检索引擎。Lucene的结构和源码组织结构如图3.1所示:
查询语句org.apache.lucene.queryPaser被索引文件查询结果org.apache.lucene.search对org.apache.lucene.analysis外接口org.apache.lucene.index核心索引org.apache.lucene.store索引文件org.apache.lucene.documentorg.apache.lucene.store基础结构封装 图3.1 Lucene结构和源码组织结构
从图中可以看出,Lucene由基础结构封装、索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。Lucene的将所有源码分为了7个模块(在java语言中以包即package来表示),各个模块所属的部分也如图3.1所示。3.3.2 Lucene索引的建立
索引是信息检索引擎工作的第一步,只有建立了索引才能进行信息检索。Lucene用Document逻辑文件和Field域来组织各种数据源。Document向Lucene提供原始的要索引的文本内容,Lucene从Document中取出相关的数据源,并根据属性配置进行相应的处理,建立索引。
索引过程如下:
(1)创建一个IndexWriter用来写索引文件,它有几个参数,INDEX_DIR就是索引文件所存放的位置,Analyzer便是用来对文档进行词法分析和语言处理的。(2)创建一个Document代表我们要索引的文档。
(3)将不同的Field加入到文档中。我们知道,一篇文档有多种信息,如题目,作者,修改时间,内容等,不同类型的信息用不同的Field来表示。(4)
IndexWriter调用函数addDocument将索引写到索引文件夹中。
3.3.3 Lucene的搜索
Lucene建立了功能强大的索引机制为搜索服务,这是因为在检索系统的使用中,用户体验最深的还是搜索部分。如果这一部分的性能无法达到用户要求,那么软件就没有太大的意义。
搜索过程如下:
(1)IndexReader将磁盘上的索引信息读入到内存,INDEX_DIR就是索引文件存放的位置。
(2)创建IndexSearcher准备进行搜索。
(3)创建Analyer用来对查询语句进行词法分析和语言处理。(4)创建QueryParser用来对查询语句进行语法分析。
(5)QueryParser调用parser进行语法分析,形成查询语法树,放到Query中。(6)
IndexSearcher调用search对查询语法树Query进行搜索,得到查询结果存放在TopScoreDocCollector。
3.3.4 中文分词
中文分词是处理中文信息的基础与关键。由于Lucene自带的分词器对英文的分词效果较好,但对中文的分词效果并不如意。为了使检索系统能更好的处理中文信息,本文采用了IKAnalyzer作为分词器。IK Analyzer是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006年12月推出1.0 版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer 3.X 则发展为面向Java 的公用分词组件,独立于Lucene 项目,同时提供了对Lucene 的默认优化实现。IKAnalyzer的特性:
采用了特有的“正向迭代最细粒度切分算法“,具有60 万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对Lucene 全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene 检索的命中率。
第四章 信息检索系统的分析与设计
4.1 系统功能需求
随着科技的发展,电脑的应用越来越普遍,人们的学习工作几乎都不能离开电脑。而笔记本电脑由于其轻便和时尚性,受到人们普遍的喜爱。但是,在购买笔记本时,我们需要详细地了解所买型号笔记本的外表及各种功能,为此我们往往要去各个商家挑选。为了方便,需要提供一个专门的笔记本电脑信息查询系统,能让用户轻松的获取各种型号笔记本的详细参数与外观。该系统提供一个良好的用户界面,用户查询时,系统能根据用户查询语句精确地给出查询信息,能够较好地理解用户的查询语句。
4.2 系统开发平台设计
本系统采用的是Eclipse6.5+MySQL5.1+Tomcat5.5的开发环境。
Eclipse是一个开放源代码的、基于Java的可扩展开发平台。在开发时搭配使用MyEclipse进行开发。MyEclipse企业级工作平台是对Eclipse IDE的扩展,利用它可以在数据库和J2EE的开发、发布,以及应用程序服务器的整合方面极大地提高工作效率。它是功能丰富的J2EE集成开发环境,包括了完备的编码、调试、测试和发布功能,完整支持HTML CSS、Javascript、Struts、Spring、SQL、Hibernate和JSF。
MySQL是最受欢迎的开源SQL数据库管理系统,它由MySQL AB开发、发布和支持。MySQL服务器支持关键任务、重负载生产系统的使用,也可以将它嵌入到一个大配置的软件中。本文采用的是当前的稳定版本5.1。
Tomcat是一个免费的、开放源码的、支持JSP和Servlet的web服务器。Tomcat是一个小型的轻量级应用服务器,在中、小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP程序的首选。它运行时占用的系统资源小,扩展性好,支持负载平衡与邮件服务等开发应用系统常用的功能。目前Tomcat5.5是较稳定的版本,而且Eclipse也很好的支持该版本的集成,所以本文采用Tomcat5.5进行开发。此外,本系统所应用到的其它开源工具为:Struts1.2、Spring2.5、Hibernate3.1,网络爬虫Heritrix1.14.3,网页解析工具HtmlParser2.0,全文检索工具包Lucene3.0,中文分词软件IKAnalyzer3.0。
4.3 系统的组成结构
整个系统由三个部分组成:网页采集分析模块、索引与数据库模块、web搜索界面模块。其中网页采集与分析分别由开源工具网络爬虫Heritrix和网页解析器HtmlParser完成;由Lucene完成索引系统,并将索引与数据库关联;web查询界面基于SSH框架设计完成。模块组成结构如图4.1所示。
网页抓取分析模块索引与数据库模块InternetHeritrixWeb检索模块抓取的信息网页Lucene建立索引HtmlParser文本格式信息返回查询结果创建数据库数据库索引根据索引查找数据库查询索引基于SSH设计
图4.1 系统模块结构图
4.4 网页抓取分析模块设计
4.4.1 站点选择
从技术角度看,选择网站的主要依据有:
(1)网站能够被Heritrix爬虫抓取。因为有的网站使用了反爬虫技术,防止未经授权的爬虫对面页进行抓取。
(2)网站的信息不是用javaScript动态生成的。这种动态生成的内容需要在浏览器中运行生成,是爬虫无法获取到的。
(3)网站的面页结构不应该经常变化,最好是使用一种模版动态生成的。这样有利于在分析面页时,使用较为简单的方式从网页中解析数据。
除了上述3点技术方面的因素,在选择网站时,也应当尽量选择那些访问量较大、产品信息比较齐全的网站。这样,有利于数据完整性。基于上述各因素的考虑,本文选择太平洋电脑网(http://$ 例如苹果Macbook Pro 15(MC373CH/A):
http://product.pconline.com.cn/notebook/apple/411413.html 产品详细参数面页URL的正则表达式为:
^http://product.pconline.com.cn/notebook/+[wd]+/d{5,6}_detail.html$ 例如苹果Macbook Pro 15(MC373CH/A)详细参数: http://product.pconline.com.cn/notebook/apple/411413_detail.html 产品页的产品图片URL都是以.jpg结尾。
通过对网站URL分析,可以总结出我们要抓取的面页URL的规律,只要抓取产品面页和产品详细信息面页及产品图片即可。因此,要扩展Heritrix来实现上述抓取策略。Heritrix有多个扩展点,本文选择扩展FrontierScheduler来抓取特定的内容。FrontierScheduler是Heritrix的一个PostProcessor,它的作用是将Extractor中分析得出的链接加入到Frontier中,以待继续处理。扩展代码如下:
protected void schedule(CandidateURI caURI){
//取得URI字符串
String url = caURI.toString();try{
//URI选择策略 //匹配 具体型号url Pattern pattern_model = Pattern.compile(MODEL_URL);Matcher matcher_model = pattern_model.matcher(url);//匹配 型号详细参数url
}
} Pattern pattern_detail = Pattern.compile(DETAIL_URL);Matcher matcher_detail = pattern_detail.matcher(url);//URL是产品面页/详细参数面页/jpg图片/DNS if(//matcher_detail.find()||matcher_model.find()||url.endsWith(“.jpg”)
} e.printStackTrace();||url.indexOf(“dns:”)!=-1){
getController().getFrontier().schedule(caURI);return;}else{ }catch(Exception e){ }finally{ 4.4.3 网页解析工具HtmlParser 对于抓取到的网页,需要经过解析,提取出需要的信息以便更好的建立索引和创建数据库。本文Html解析器是HtmlParser,HtmlParser是一个开源的Java库,它提供接口,支持线程和嵌套的解析Html文本。HtmlParser提供了两种访问Html结点的方法:Visitor模式和Filter模式,本文采用了Filter模式。Filter模式通过设置一定的过滤条件,对每个结点进行过滤,返回一个符合规则的节点列表。Org.htmlparser.filters包含所有已经实现的Filter类型,定义了16种Filter。
例如要解析一个网页中所有包含图片的链接,分析可得该节点中具有链接标签名”a”,并且它的字节点中还必须包含图片标签名”img”,则过滤器的定义为:
NodeFilter filter = new AndFilter(new TagNameFilter(“A”), New HasChildFilter(new TagNameFilter(“IMG”)))4.4.4 网页信息结构化
在抓取到笔记本产品各种信息的Html文本后,需要用HtmlParser对Html文本解析,得到建立索引所需的各种信息。处理后的的文件如图4.2所示。
图4.2 处理后产品的信息格式
从图中可以看出文件的格式如下:第一行是笔记本品牌(包括中文和英文名称);第二行是笔记本具体型号;最后一行则是该笔记本的对应图片文件名,图片名是经过Hash后的字符串;其余部分则是该笔记本的详细参数。将所有笔记本产品的信息按上述格式存储,以便建立索引。
4.5 数据库与索引设计
4.5.1 数据库设计
本文数据库结构简单,只有一个数据表来存储笔记本产品的各种信息,数据库各字段含义如表4.1所示。
表4.1 数据库字段含义
字段名 Id name type content abstractcontent
字段含义 主键
品牌名称,如”苹果”
型号,如” ibook G4 M9627CH/A” 笔记本产品的详细信息
详细参数的摘要,供建立索引时使用
创建数据库的SQL语句如下: create database searchdb;use searchdb;create table product(id
int AUTO_INCREMENT, name varchar(128), type varchar(128), content varchar(20000), abstractcontent varchar(512),);4.5.2 索引设计
在使用Lucene建立索引时,需要定义Lucene的Document格式。索引中的信息应当尽量少,只要能够满足用户检索要求就可以了。本文中,为Document构建了4个Field:
//当前产品在数据库中的id
Field indentifier = new Field(“id”,id + “",Field.Store.YES, Field.Index.NOT_ANALYZED);//产品的品牌
Field name = new Field(”name“,product.getName(),Field.Store.YES, Field.Index.ANALYZED);//产品型号
Field type = new Field(”type“,product.getType(),Field.Store.YES, Field.Index.ANALYZED);//将笔记本产品的name、type、abstractcontent信息综合起来,默认的检索域 Field all = new Field(”all“,text,Field.Store.YES, Field.Index.ANALYZED);上述4中Filed中,前3个与数据库的内容有直接的对应关系,而最后一个Filed则是将name、type这两个Filed拼接起来并添加了abstractcontent来进行保存,为用户提供一个检索时的默认Filed。这种方式占用了索引空间,但却避免了使用多域搜索带来的性能损失,还可提高检索的全面性。
4.6 web检索模块设计
web检索模块基于SSH设计实现,由Struts作为控制器,Spring作为业务层,Hibernate作为数据持久层,结构如图4.3所示。
控制器Struts业务层SpringSpringAOP持久层HibernateHibernateTemplaterequestActionServletActionFrom数据库responseJSPActionSpringIocHibernateDAO图4.3 基于SSH的web检索模块结构图
从图中可以看出,用户的请求会发送给ActionServlet,用户数据通过ActionForm Bean传递给Action,由Action类来通过Spring的IoC容器访问Hibernate的DAO,DAO负责数据库的交互,然后再返回JSP面页将查询结果进行显示。
第五章 信息检索系统的实现
5.1 网页抓取的实现
在抓取任务开始前,需要对抓取的内容进行详细地分析,确定种子,即开始抓取的网页。本文中为了能尽量获取全部的产品信息,直接将需要抓取的面页(包括产品面页、详细参数面页、图片)的URL作为抓取的种子,这就需要找出所有产品的具体URL。在太平洋电脑网上提供了站内搜索功能,当输入查询某品牌的笔记本就能得到站内所有该品牌标记本的信息的面页,当然面页中也包含这些笔记本的产品面页的URL,这就提供了抓取的种子。依次查询各个品牌的笔记本,将查询结果面页保存到本地,然后用HtmlParser解析得到其中产品面页的URl,写入种子文件。
图5.1 查询结果面页源代码
从网页源代码中可以发现解析网页时可以得到该品牌所有笔记本产品的产品面页和详细参数面页的URL。其中产品详细参数面页URL的节点形如:
第二篇:目前信息检索系统的优缺点
目前信息检索系统的优缺点
摘要
目前,Internet上信息检索的方式主要分为二种:即非WEB信息检索方式和WEB信息检索方式。这两种检索方式为人们及时准确地检索网络信息提供了极大的方便和可能,尤其WEB信息检索工具中的搜索引擎,它已成为人们查询网上信息最重要的检索工具,几乎成了网络信息检索工具的代称,因而本文在论述网络信息检索工具时以搜索引擎为主要代表。然而目前网络信息检索又面临一系列的挑战,如网络信息量的迅猛增加,以至人工己经无法对它们进行有效的分类、索引和利用;简单的关键词搜索;返回的信息量过大已经让用户无法承担;网络信息组织的无序性;网络信息日新月异的更变;信息媒体的多样化等等,这些都给Internet信息的获取和利用造成了极大的阻碍[1]。
引言
信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。
信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。例如Cornell大学的SMART系统和Massachusetts大学的INQUERY系统等。Web的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web信息检索系统应运而生,例如Yahoo!,Alta-vista等[2]。
目前信息检索系统的优缺点
1.评价标准
目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要[1]。综合国内外关于搜索引擎评价及其方法的研究,笔者将搜索引擎评价的研究方法分为以下几种。
(1)实验方法
(2)调查方法
(3)数据分析法
(4)观察法
(5)综述和评论
综合评价指标是指对搜索引擎各个方面进行考量时依据的参考标准,如
Carpineto等就提出了3个一级指标,分别为:检索界面、检索性能和检索输入。其中,检索界面包括搜索引擎存在、主页检索框、结果页面检索框以及高级检索界面等4个二级指标;检索性能有7个二级指标:大小写敏感度、词干检索、禁用词、部分匹配、短语检索、布尔逻辑检索、全站检索等;检索输出包括基于相关度的排序、标记检索式、结果建议、无死链4个二级指标[3]。
2.按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
2.1目录式搜索引擎:
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.2机器人搜索引擎:
由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,然后索引器为搜集到的信息建立索引,再由检索器根据用户的查询输入检索索引库并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是搜索的信息空间大,更新及时,毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。
这类搜索引擎的代表是:AltaVista,Northern Light,Excite,Infoseek,Inktomi,FAST/FastSearch,Lycos,Google,“天网”,悠游,OpenFind等。
2.3搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果更多、更全,缺点是不能充分利用所使用搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是WebCrawler,InfoMarket等[4]。
3.新一代的智能Web信息检索系统:
3.1移动agent技术
一般来说,所有用移动agent实现的系统都可以用传统的分布式技术赖实现。那么为什么要选择移动agent呢?这是因为移动agnet为解决分布式问题提供了一个统一的模式。它为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。移动agent已成为继CORBA、DCOM后新一代分布处理技术。移动agent具有以下5个优点:
(1)节约网络带宽和减少网络延时;
(2)移动agent能够使传统的C/S计算模式下的计算任务更加动态均匀地分配;
(3)在分布式环境下,移动agent系统能实现较好的并行性即并行任务求解;
(4)基于移动agent的分布式系统具有较好的可理解性;
(5)异步移动计算能力。
3.2本体技术
本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词语和词语间相互关系的明确定义。
本体的研究与应用主要包括3方面:(1)理论研究,主要研究概念及其分类和本体上的代数运算;(2)在信息系统中的应用研究,主要研究信息组织、信息检索和异构信息系统互操作问题,(3)本体作为一种能在知识层提供知识共享和重用的工具在语义Web中的应用[4]。
3.个性化搜索引擎技术
当前,个性化搜索引擎技术主要表现在如下两个方面:
(1)搜索引擎提供的搜索结果满足用户的个性化需求。由个性化搜索服务获得的搜索结果更加准确,使不同用户能够得到各自需要的搜索结果,同时避免出现不相关的搜索结果。个性化搜索引擎技术通过分析用户的搜索词,跟踪用户的搜索行为和环境,结合用户的需求变化和网络信息的动态变化实时更新等资料进行信息检索,从而为用户提供更为个性化的、准确的、真正需求的搜索结果。
(2)个性化搜索引擎所提供的服务和功能具有优势和特色,与通用搜索引擎不同。由于各大搜索引擎为了获得竞争优势,不断推出新的特色服务和功能,因此出现了从核心搜索衍生出的各种其他服务,如桌面搜索、地图搜索、生活搜索、RSS订阅等服务。
目前不少搜索引擎都加入了个性化服务和功能,他们提出了各种技术和方法以实现个性化搜索服务。他们主要采用了基于规则的和基于信息、过滤的推荐技术。其中,基于信息过滤的技术又包括协作过滤和基于内容的过滤。基于规则的技术允许系统管理员根据用户的动态和静态属性生成规则,规则决定了在不同情况下如何提供不同的务,一个规则本质上是一个if-then语句。该方法的优点是简单、直接,缺点是规则不能动态更新,质量难以保证,随着规则数的增加,系统将更难管理。典型的系统有IBM的Webshere,BroadVision和ILOG等。
基于内容过滤的技术利用资源和用户兴趣的相似度进行信息过滤。该方法的优点是简单、高效,缺点是不能发现用户新的兴趣,并且难以区分资源内容的质量和风格。典型的系统有 Personal web Watcher,syskill&webert,CiteSeer,和Web personalizer等。
基于协作的过滤技术是利用用户之间的相似度来进行信息过滤。该方法的优点是能发现用户新的兴趣点,但缺点是当系统用户和资源逐渐增多时,系统性能会逐渐降低;另外,在系统使用的初期,难以发现相似的用户。典型的系统有Web watcher,Let’s Browse,GrouLens,Firefly和Siteseer等。
还有其它的一些提供个性化服务的信息搜索系统同时采用了基于内容和协作过滤两种技术。如:webSIFT,FAB,Anatagonomy和Dynamicprofiler等,结合这两种过滤技术可以克服协作过滤的稀疏性难题,使用用户已浏览的内容来预测用户对其它资源的评价,进而增加资源评价的密度,再利用这些评价进行协作过滤,从而改善协作过滤的效率[5]。
参考文献
[1] 网络信息检索及其发展趋势研究
[2] 基于结构化向量空间模型的中文信息检索系统研究与实现
[3] 搜索引擎检索功能的性能评价研究
[4] 基于本体的Web信息检索系统及其关键技术研究
[5] 基于内容的个性化Web信息检索系统的设计与实现
第三篇:lucene工作总结
Lucene工作总结
关键字: lucene总结
公司项目:portal中期刊文章内容作为大字段存储在Oracle中,首页有一个搜索功能:要求将所有包括搜索字段的文章的标题列出来(文章的内容存储在Oracle的CLOB字段中),也就是要用Lucene实现对数据库的大字段进行索引(索引通过计划任务定时建立索引)和搜索。。
==================定时建立索引文件:===============
Main方法: Java代码
1.package zxt.lucene.index;2.3.import java.util.Timer;4.public class IndexerServer { 5.6.7./** 8.* 定时调用建立索引任务 9.* @author wulihai 10.* @create 2009-06-02 11.*/ 12.public static void main(String[] args){ 13.String propFile = “directory.properties”;14.Config.setConfigFileName(propFile);15.Timer timer = new Timer();16.LuceneDBIndexerTask luceneTask=LuceneDBIndexerTask.getInstance();17.timer.scheduleAtFixedRate(luceneTask, 0,DataTypeUtil.toLong(Constant.CREATE_INDEX_SLEEP_TIME));18.} 19.20.}
定时调用建立索引任务: Java代码
1.package zxt.lucene.index;2.3.import java.util.Timer;4.public class IndexerServer { 5.6.7./** 8.* 定时调用建立索引任务 9.* @author wulihai 10.* @create 2009-06-02 11.*/ 12.public static void main(String[] args){ 13.String propFile = “directory.properties”;14.Config.setConfigFileName(propFile);15.Timer timer = new Timer();16.LuceneDBIndexerTask luceneTask=LuceneDBIndexerTask.getInstance();17.timer.scheduleAtFixedRate(luceneTask, 0,DataTypeUtil.toLong(Constant.CREATE_INDEX_SLEEP_TIME));18.} 19.20.}
建立索引的核心实现: Java代码
1.package zxt.lucene.index;2.import java.io.BufferedReader;3.import java.io.File;4.import java.io.IOException;5.import java.io.StringWriter;6.import java.sql.Connection;7.import java.sql.DriverManager;8.import java.sql.ResultSet;9.import java.sql.SQLException;10.import java.sql.Statement;11.import java.text.SimpleDateFormat;12.import java.util.Arrays;13.import java.util.Date;14.import java.util.TimerTask;15.16.import oracle.sql.CLOB;17.18.import org.apache.lucene.analysis.standard.StandardAnalyzer;19.import org.apache.lucene.document.Document;20.import org.apache.lucene.document.Field;21.import org.apache.lucene.index.IndexWriter;22.23./** 24.* 建立索引的任务类 25.* @author wulihai 26.* @create 2009-06-02 27.*/ 28.public class LuceneDBIndexerTask extends TimerTask { 29.//缺省索引目录
30.private static String DEFAULT_INDEX_DIR=“C:IndexDB”;31.//临时索引目录的父目录
32.private File parentDir=null;33.//被搜索的索引文件
34.private static LuceneDBIndexerTask index=new LuceneDBIndexerTask();35.36.//构造方法
37.private LuceneDBIndexerTask(){ 38.String dirStr=Constant.INDEX_STORE_DIRECTORY;39.if(dirStr!=null&&!“".equals(dirStr)){ 40.this.parentDir=new File(dirStr);41.42.}else{ 43.this.parentDir=new File(DEFAULT_INDEX_DIR);44.} 45.46.if(!this.parentDir.exists()){ 47.this.parentDir.mkdir();48.} 49.} 50.51./** 52.* 单实例访问接口 53.* @return 54.*/ 55.public static LuceneDBIndexerTask getInstance(){ 56.return index;57.} 58.59./** 60.* 锁定目录以及文件 61.* 只允许单线程访问 62.* 63.*/ 64./*public synchronized void singleRunning(){ 65.if(flag==false){ 66.flag=true;67.run(parentDir);68.} 69.}*/ 70.71./** 72.* 为数据库字段建立索引 73.*/ 74.public void run(){ 75.System.out.println(”====LuceneDBIndexerTask$run()===============“);76.77.System.out.println(”~~~开始建立索引文件~~~~~~~~~~~~~~~“);78.Connection conn=null;79.Statement stmt=null;80.ResultSet rs=null;81.try { 82.Class.forName(Constant.DB_DRIVER_STRING);83.conn = DriverManager.getConnection(Constant.DB_URI_STRING, Constant.DB_USERNAME, Constant.DB_PWD);84.stmt = conn.createStatement();85.rs = stmt.executeQuery(Constant.DB_QUERY_STRING);
86.File file=new File(parentDir+File.separator+new SimpleDateFormat(”yyyyMMddHHmmss“).format(new Date())+File.separator);87.if(!file.exists()){ 88.file.mkdir();89.} 90.IndexWriter writer = new IndexWriter(file,new StandardAnalyzer(), true);91.long startTime = new Date().getTime();92.while(rs.next()){ 93.Document doc = new Document();94.doc.add(new Field(”ARTICLEID“, rs.getString(”ARTICLEID“), Field.Store.YES,Field.Index.TOKENIZED));95.doc.add(new Field(”TITLE“, rs.getString(”TITLE“), Field.Store.YES,Field.Index.TOKENIZED));96.doc.add(new Field(”USERNAME“, rs.getString(”USERNAME“), Field.Store.YES,Field.Index.TOKENIZED));97.doc.add(new Field(”USERID“, rs.getString(”USERID“), Field.Store.YES,Field.Index.TOKENIZED));98.//对日期建立索引
99.String createdate=new SimpleDateFormat(”yyyy-MM-dd“).format(rs.getTimestamp(”CREATEDATE“));100.doc.add(new Field(”CREATEDATE“, createdate, Field.Store.YES,Field.Index.TOKENIZED));101.//对大字段建立索引
102.BufferedReader in=null;103.String content=”“;104.CLOB clob =(CLOB)rs.getClob(”CONTENT“);105.if(clob!= null){ 106.//得到一个读入流
107.in=new BufferedReader(clob.getCharacterStream());108.StringWriter out=new StringWriter();109.int c;110.while((c=in.read())!=-1){ 111.out.write(c);112.} 113.content=out.toString();114.} 115.doc.add(new Field(”CONTENT“, content, Field.Store.YES, Field.Index.TOKENIZED));116.writer.addDocument(doc);117.} 118.writer.optimize();119.writer.close();120.121.//测试一下索引的时间
122.long endTime = new Date().getTime();123.System.out.println(”索引文件“+file.getPath()+”建立成功...“);124.System.out.println(”这花费了“ +(endTimestartTime)+ ” 毫秒!“);131.} else { 132.System.out.println(”0个结果!“);133.} 134.} 135.136.return results;137.138.} 139.140./** 141.* 确定搜索索引所在目录目录 142.*/ 143.private File getTargetDir(File dir){ 144.int length = dir.listFiles().length;145.File searchFile = null;146.147.// length=3的时候最多
148.// 同时搜索和同时建索引的时候会出现length=4 149.if(length >= 2){ 150.// 找到次最新建立的索引文件 151.String[] names = dir.list();152.Arrays.sort(names);153.searchFile = new File(dir + File.separator + names[length-2]);154.} 155.if(length == 1){ 156.File files[] = dir.listFiles();157.searchFile = files[0];158.} 159.if(length == 0){ 160.// 如果没有索引文件则,建立第一个索引
161.// TestDBIndexer.getInstance().isInstanceRunning();162.// search();163.} 164.165.return searchFile;166.} 167.// 168.// public static void main(String[] args)throws Exception { 169.// new LuceneDBQuery().search(”纳税人“);170.// } 171.172.}
配置文件管理类: Java代码
1.2.package com.liferay.portal.util;3.4.import java.io.IOException;5.6.import org.jdom.Document;7.import org.jdom.Element;8.import org.jdom.JDOMException;9.import org.jdom.input.SAXBuilder;10.11.public class LuceneDBQueryUtil { 12.13.public static String getIndexPath(){ 14.15.String filePath = ”zxt_index.xml“;16.String indexPath=”“;17.SAXBuilder builder = new SAXBuilder(false);18.try { 19.Document doc = builder.build(Thread.currentThread().getContextClassLoader().getResource(filePath));20.Element rootElement = doc.getRootElement();21.Element index=rootElement.getChild(”index“);22.indexPath=index.getText();23.System.out.println(indexPath);24.} catch(JDOMException e){ 25.e.printStackTrace();26.} catch(IOException e){ 27.e.printStackTrace();28.} 29.return indexPath;30.31.32.} 33.}
配置文件:zxt_index.xml Xml代码
1. 2.
3.
第四篇:信息安全毕业论文
唐山工业职业技术学院毕业论文
唐山工业职业技术学院
毕 业 论 文
课题:__________________
学院:__________________
专业:__________________
班级:__________________
学号:__________________
姓名:__________________
指导老师:______________
定稿日期:_______________
唐山工业职业技术学院毕业论文
信息安全论文
摘要: 随着计算机技术和网络技术的发展,网络安全问题,在今天已经成为网络世界里最为人关注的问题之一,危害网络安全的因素很多,他们主要依附于各种恶意软件,其中病毒和木马最为一般网民所熟悉。针对这些危害因素,网络安全技术得以快速发展,这也大大提高了网络的安全性。本文结合实际情况,首先介绍了信息安全的起源、然后具体分析了信息安全所面对的不通过方面的威胁,并且具体介绍了信息安全技术,最后也对以后的发展进行了一些期望,希望能够在这安全方面做得更好,更加完善。
关键词:网络安全、信息安全技术、网络威胁。
一、引言
信息安全起源于计算机安全。计算机安全就是计算机硬件的物理位置远离外部威胁,同时确保计算机软件正常、可靠地运行,随着网络技术不断地发展,计算机安全的范围也在不断地扩大,其中涉及到数据的安全、对数据的随机访问限制和对未授权访问的控制等问题。由此,单纯的计算机安全开始向信息安全演进。互联网的出现使得这种通信更加频繁,由此而衍生出来的信息安全问题层出不穷。
近年来,百度收索引擎被恶意攻击,致使服务器瘫痪;腾讯公司业务系统黑客入侵后得到权限,并被勒索百万人民币。2008年公安部网监局调查了7起网络木马程序案件,每起案件的木马销售获利均超过1000万元,据有关方面统计,目前美国由于每年网络信息安全问题而遭到的经济损失超过170亿美元,德国、英国也均在数十亿美元以上,日本、新加坡在这方面的问题也很严重。另一方面,病毒、流氓软件的大肆泛滥又让人们开始对杀毒软件产生怀疑,杀毒软件永远落后于病毒的传播,因此人们对不断更新变种的病毒防不胜防。
二、信息安全定义
“信息安全”曾经仅是学术界所关心的事情,就像“计算机”、“网络”这些术语一样,以前都是学术界从事具体研究的人员想了解其究竟解决相关问题。但是随着互联网的普及,信息安全已经变得家喻户晓,危及到信息安全的因素也越来越多,因此对它的重视程度也在逐渐提高。由于理解的形式不同,国内外对“信息安全”没有统一的定义。
《中华人民共和过计算机信息系统安全保护条例》的定义:“保障计算机及其相关的和配套的设备、设施(网络)的安全,运行环境的安全,保障信息安全,保障计算机功能的正常发挥,以维护计算机信息系统的安全”。国家信息安全重点实验室的定义:“信息安全涉及到信息的机密性、完整性、可用性、可控性。综合起来说,就是要保障电子信息的有效性”。国际标准化委员会的定义:“为数据处理系统而采取的技术的和管理的安全保护,保护计算机硬件、软件、数据不因偶然的或恶意的原因而遭到破坏、更改、显露”。
广义的信息安全是指网络系统的硬件、软件及其系统中的信息受到保护。信息安全又以下几个特性:
(1)保密性:保护数据不受非法截获和未经授权浏览。对于敏感数据的传输尤为重要,同时也是通信网络中处理用户的私人信息所必须的。存储信息的机密性主要通过访问控制来
唐山工业职业技术学院毕业论文
实现,不同的用户对不同的数据拥有不同的权限。
(2)完整性:能保障被传输、接收或存储的数据是完整的和未被篡改的特性。对于保证重要数据的精确性尤为关键。除了数据本身不能破坏外,数据的完整性还要求数据的来源具有正确性和可信性。
(4)可控性:保证信息和信息系统的授权认证和监控管理。可确保某个实体(人或系统)的身份的真实性,也可确保执政者对社会的执法管理行为。
(4)可用性:尽管存在可能的突发事件如供电中断、自然灾害、事故或攻击等,但用户依然可得到或使用数据,服务也处于正常运转状态。当然,数据不可用也可能是由软件缺陷造成的,如微软的Windows总是有缺陷被发现。(5)非否认性:能够保证信息行为人不能否认其信息行为。可防止参与某次通信交换的一方事后否认本次交换曾经发生过。数据签名技术是解决不可否认性的重要手段之一。总体来看,信息安全就是要保证信息的基本属性不被破坏,信息按照发送方的意愿成功被接收方接收。
三、信息安全的体系结构
信息安全是一个完整、系统的概念,它既是一个理论问题,又是一个工程实践问题。由于计算机网络的开放性、复杂性和多样性,使得网络安全系统需要一个完整的、严谨的体系结构来保证。1995年ISO颁布了ISO GB/T9487.2-1995标准,即五大类安全服务、八大种安全机制和相应的安全管理标准。
其中五大类安全服务包括认证服务、访问控制服务、数据保密性服务、数据完整性服务和抗否认性服务。
(1)认证服务:提供对通信中对等实体和数据来源的认证。
(2)访问控制服务:用来防止未授权用户非法使用系统资源,包括用户身份认证和用户权限确认。
(4)数据保密性服务:为防止网络个系统之间交换的数据被截获或被非法存取而泄密,提供机密保护。同时,对有可能通过观察信息流就能推导出信息的情况进行防范。(4)数据完整性服务:用于阻止非法实体对交换数据的修改、插入、删除以及在数据交换过程中的数据丢失。
(5)抗否认性服务:用于防止发送方在发送数据后否认发送和接收方在接收到数据后否认受到或者伪造数据的行为。
八大种安全机制包括加密机制、数字签名机制、访问控制机制、数据完整性机制、认证机制、业务流填充机制、路由控制机制、公正机制。
四、影响网络信息安全的因素分析
计算机通信网络的安全涉及到多种学科,包括计算机科学、网络技术、通信技术、密码技术、信息安全技术、应用数学、数论、信息论等十数种,这些技术各司其职,保护网络系统的硬件、软件以及系统中的数据免遭各种因素的破坏、更改、泄露,保证系统连续可靠正常运行。
唐山工业职业技术学院毕业论文
4.1影响计算机通信网络安全的客观因素。
4.1.1网络资源的共享性。
计算机网络最主要的一个功能就是“资源共享”。无论你是在天涯海角,还是远在天边,只要有网络,就能找到你所需要的信息。所以,资源共享的确为我们提供了很大的便利,但这为系统安全的攻击者利用共享的资源进行破坏也提供了机会。
4.1.2网络操作系统的漏洞。
操作系统漏洞是指计算机操作系统本身所存在的问题或技术缺陷。由于网络协议实现的复杂性,决定了操作系统必然存在各种的缺陷和漏洞。
4.1.4网络系统设计的缺陷。
网络设计是指拓扑结构的设计和各种网络设备的选择等。网络设备、网络协议、网络操作系统等都会直接带来安全隐患。
4.1.4网络的开放性。
网上的任何一个用户很方便访问互联网上的信息资源,从而很容易获取到一个企业、单位以及个人的信息。
4.1.5恶意攻击。
恶意攻击就是人们常见的黑客攻击及网络病毒.是最难防范的网络安全威胁。随着电脑教育的大众化,这类攻击也越来越多,影响越来越大。无论是DOS 攻击还是DDOS 攻击,简单的看,都只是一种破坏网络服务的黑客方式,虽然具体的实现方式千变万化,但都有一个共同点,就是其根本目的是使受害主机或网络无法及时接收并处理外界请求,或无法及时回应外界请求。具体表现方式有以下几种:(1)制造大流量无用数据,造成通往被攻击主机的网络拥塞,使被攻击主机无法正常和外界通信。(2)利用被攻击主机提供服务或传输协议上处理重复连接的缺陷,反复高频的发出攻击性的重复服务请求,使被攻击主机无法及时处理其它正常的请求。(4)利用被攻击主机所提供服务程序或传输协议的本身实现缺陷,反复发送畸形的攻击数据引发系统错误而分配大量系统资源,使主机处于挂起状态甚至死机。
DOS 攻击几乎是从互联网络的诞生以来,就伴随着互联网络的发展而一直存在也不断发展和升级。值得一提的是,要找DOS 的工具一点不难,黑客网络社区都有共享黑客软件的传统,并会在一起交流攻击的心得经验,你可以很轻松的从Internet 上获得这些工具。所以任何一个上网者都可能构成网络安全的潜在威胁。DOS 攻击给飞速发展的互联网络安全带来重大的威胁。然而从某种程度上可以说,D0S 攻击永远不会消失而且从技术上目前没有根本的解决办法。
4.2影响计算机网络通信安全的主观因素。
主要是计算机系统网络管理人员缺乏安全观念和必备技术,如安全意识、防范意思等。
五、计算机网络的安全策略
5.1物理安全策略。
唐山工业职业技术学院毕业论文
物理安全策略目的是保护计算机系统、网络服务器、打印机等硬件实体和通信链路免受自然灾害、人为破坏和搭线攻击;验证用户的身份和使用权限、防止用户越权操作;确保计算机系统有一个良好的电磁兼容工作环境;建立完备的安全管理制度,防止非法进入计算机控制室和各种偷窃、破坏活动的发生。物理安全策略还包括加强网络的安全管理,制定有关规章制度,对于确保网络的安全、可靠地运行,将起到十分有效的作用。网络安全管理策略包括:确定安全管理等级和安全管理范围;制订有关网络操作使用规程和人员出入机房管理制度;制定网络系统的维护制度和应急措施等。
5.2常用的网络安全技术。
由于网络所带来的诸多不安全因素,使得网络使用者必须采取相应的网络安全技术来堵塞安全漏洞和提供安全的通信服务。如今,快速发展的网络安全技术能从不同角度来保证网络信息不受侵犯,网络安全的基本技术主要包括网络加密技术、防火墙技术、操作系统安全内核技术、身份验证技术、网络防病毒技术。
5.2.1 网络加密技术。
网络加密技术是网络安全最有效的技术之一。一个加密网络,不但可以防止非授权用户的搭线窃听和入网,而且也是对付恶意软件的有效方法之一。网络信息加密的目的是保护网内的数据、文件、口令和控制信息,保护网上传输的数据。网络加密常用的方法有链路加密,端点加密和节点加密三种。链路加密的目的是保护网络节点之间的链路信息安全;端点加密的目的是对源端用户到目的端用户的数据提供加密保护;节点加密的目的是对源节点到目的节点之间的传输链路提供加密保护。用户可根据网络情况选择上述三种加密方式。信息加密过程是由形形色色的加密算法来具体实施的,它以很小的代价提供很牢靠的安全保护。在多数情况下,信息加密是保证信息机密性的唯一方法。据不完全统计,到目前为止,已经公开发表的各种加密算法多达数百种。
如果按照收发双方的密钥是否相同来分类,可以将这些加密算法分为常规密码算法和公钥密码算法。在实际应用中,人们通常将常规密码和公钥密码结合在一起使用,比如:利用DES 或者IDEA 来加密信息,而采用RSA 来传递会话密钥。如果按照每次加密所处理的比特来分类,可以将加密算法分为序列密码算法和分组密码算法,前者每次只加密一个比特。
5.2.2 防火墙技术。
防火墙技术是设置在被保护网络和外界之间的一道屏障,是通过计算机硬件和软件的组合来建立起一个安全网关,从而保护内部网络免受非法用户的入侵,它可以通过鉴别、限制,更改跨越防火墙的数据流,来实何保证通信网络的安全对今后计算机通信网络的发展尤为重要。现对网络的安全保护。防火墙的组成可以表示为:防火墙= 过滤器+ 安全策略+ 网关,它是一种非常有效的网络安全技术。在Internet 上,通过它来隔离风险区域与安全区域的连接,但不防碍人们对风险区域的访问。防火墙可以监控进出网络的通信数据,从而完成仅让安全、核准的信息进入,同时又抵制对企业构成威胁的数据进入的任务。
根据防火墙所采用的技术不同,我们可以将它分为四种基本类型:包过滤型、网络地址转换—NAT、代理型和状态监测型。
包过滤型产品是防火墙的初级产品,其技术依据是网络中的分包传输技术,工作在网络层。网络上的数据都是以“包”为单位进行传输的,数据被分割成为一定大小的数据包,每一个数据包中都会包含一些特定信息,如数据的源地址、目标地址、源端口和目标端口等。防火墙通过读取数据包中的地址信息来判断这些“包”是否来自可信任的安全站点,一旦发现
唐山工业职业技术学院毕业论文
来自危险站点的数据包,防火墙便会将这些数据拒之门外。但包过滤防火墙的缺点有三:一是非法访问一旦突破防火墙,即可对主机上的软件和配置漏洞进行攻击;二是数据包的源地址、目的地址以及IP 的端口号都在数据包的头部,很有可能被窃听或假冒;三是无法执行某些安全策略。
网络地址转化—NAT。“你不能攻击你看不见的东西”是网络地址转换的理论基础。网络地址转换是一种用于把IP 地址转换成临时的、外部的、注册的IP 地址标准。它允许具有私有IP 地址的内部网络访问因特网。当数据包流经网络时,NAT 将从发送端的数据包中移去专用的IP 地址,并用一个伪IP 地址代替。NAT 软件保留专用IP 地址和伪IP 地址的一张地址映射表。当一个数据包返回到NAT 系统,这一过程将被逆转。当符合规则时,防火墙认为访问是安全的,可以接受访问请求,也可以将连接请求映射到不同的内部计算机中。当不符合规则时,防火墙认为该访问是不安全的,不能被接受,防火墙将屏蔽外部的连接请求。如果黑客在网上捕获到这个数据包,他们也不能确定发送端的真实IP 地址,从而无法攻击内部网络中的计算机。NAT 技术也存在一些缺点,例如:木马程序可以通过NAT 进行外部连接,穿透防火墙。
代理型防火墙也可以被称为代理服务器,它的安全性要高于包过滤型产品, 它分为应用层网关和电路层网关。代理服务器位于客户机与服务器之间,完全阻挡了二者间的数据交流。从客户机来看,代理服务器相当于一台真正的服务器;而从服务器来看,代理服务器又是一台真正的客户机。当客户机需要使用服务器上的数据时,首先将数据请求发给代理服务器,代理服务器再根据这一请求向服务器索取数据, 然后再由代理服务器将数据传输给客户机。从内部发出的数据包经过这样的防火墙处理后,就好像是源于防火墙外部网卡一样,从而可以达到隐藏内部结构的作用,这种防火墙是网络专家公的最安全的防火墙。缺点是速度相对较慢。
监测型防火墙是新一代的产品,这一技术实际已经超越了最初的防火墙定义。它是由Check Point 软件技术有限公司率先提出的,也称为动态包过滤防火墙。总的来说,具有:高安全性,高效性,可伸缩性和易扩展性。实际上,作为当前防火墙产品的主流趋势,大多数代理服务器也集成了包过滤技术,这两种技术的混合显然比单独使用具有更大的优势。总的来说,网络的安全性通常是以网络服务的开放性和灵活性为代价的,防火墙只是整个网络安全防护体系的一部分,而且防火墙并非万无一失。除了使用了防火墙后技术,我们还使用了其他技术来加强安全保护,数据加密技术是保障信息安全的基石。
5.2.4 操作系统安全内核技术。
操作系统安全内核技术除了在传统网络安全技术上着手,人们开始在操作系统的层次上考虑网络安全性,尝试把系统内核中可能引起安全性问题的部分从内核中剔除出去,从而使系统更安全。操作系统平台的安全措施包括:采用安全性较高的操作系统;对操作系统的安全配置;利用安全扫描系统检查操作系统的漏洞等。美国国防部技术标准把操作系统的安全等级分成了D1、C1、C2、B1、B2、B4、A 级,其安全等级由低到高。目前主要的操作系统的安全等级都是C2 级,其特征包括:①用户必须通过用户注册名和口令让系统识别;②系统可以根据用户注册名决定用户访问资源的权限;③系统可以对系统中发生的每一件事进行审核和记录;④可以创建其他具有系统管理权限的用户。
5.2.4 身份验证技术身份验证技术。
身份验证技术身份验证技术是用户向系统出示自己身份证明的过程。身份认证是系统查核用户身份证明的过程。这两个过程是判明和确认通信双方真实身份的两个重要环节,人们常把这两项工作统称为身份验证。它的安全机制在于首先对发出请求的用户进行身份验证,唐山工业职业技术学院毕业论文
确认其是否为合法的用户,如是合法用户,再审核该用户是否有权对他所请求的服务或主机进行访问。从加密算法上来讲,其身份验证是建立在对称加密的基础上的。
为了使网络具有是否允许用户存取数据的判别能力,避免出现非法传送、复制或篡改数据等不安全现象,网络需要采用的识别技术。常用的识别方法有口令、唯一标识符、标记识别等。口令是最常用的识别用户的方法,通常是由计算机系统随机产生,不易猜测、保密性强,必要时,还可以随时更改,实行固定或不固定使用有效期制度,进一步提高网络使用的安全性;唯一标识符一般用于高度安全的网络系统,采用对存取控制和网络管理实行精确而唯一的标识用户的方法,每个用户的唯一标识符是由网络系统在用户建立时生成的一个数字,且该数字在系统周期内不会被别的用户再度使用;标记识别是一种包括一个随机精确码卡片(如磁卡等)的识别方式,一个标记是一个口令的物理实现,用它来代替系统打入一个口令。一个用户必须具有一个卡片,但为了提高安全性,可以用于多个口令的使用。
5.2.5 网络防病毒技术。
在网络环境下,计算机病毒具有不可估量的威胁性和破坏力。CIH 病毒及爱虫病毒就足以证明如果不重视计算机网络防病毒,那可能给社会造成灾难性的后果,因此计算机病毒的防范也是网络安全技术中重要的一环。网络防病毒技术的具体实现方法包括对网络服务器中的文件进行频繁地扫描和监测,工作站上采用防病毒芯片和对网络目录及文件设置访问权限等。防病毒必须从网络整体考虑,从方便管理人员的能,在夜间对全网的客户机进行扫描,检查病毒情况;利用在线报警功能,网络上每一台机器出现故障、病毒侵入时,网络管理人员都能及时知道,从而从管理中心处予以解决。
访问控制也是网络安全防范和保护的主要策略,它的主要任务是保证网络资源不被非法使用和非常访问。它也是维护网络系统安全、保护网络资源的重要手段,可以说是保证网络安全最重要的核心策略之一。它主要包括:身份验证、存取控制、入网访问控制、网络的权限控制、目录级安全控制、属性安全控制等。计算机信息访问控制技术最早产生于上世纪60年代,随后出现了两种重要的访问控制技术,自主访问控制和强制访问控制。随着网络的发展,为了满足新的安全需求,今年来出现了以基于角色的访问控制技术,基于任务的访问控制。
六、结束语
总的来说,网络安全不仅仅是技术问题,同时也是一个安全管理问题。网络攻击的日益猖獗已经对网络安全造成了很大的威胁。我们必须综合考虑安全因素,制定合理的目标、技术方案和相关的配套法规等。世界上不存在绝对安全的网络系统,随着计算机网络技术的进一步发展,网络安全防护技术也必然随着网络应用的发展而不断发展。
计算机病毒形式以及传播途径日趋多样化,计算机安全问题日益复杂话,我们必须正确认识、感知、防范计算机病毒的攻击,以保护计算机数据安全,使得计算机网络发挥其积极的作用,只要对其有充分的认识,就能筑起心理上和技术防范措施上的防线。对于任何黑客的恶意攻击,只要了解了他们的攻击手段,具有丰富的网络知识,就可以抵御黑客们的疯狂攻击。减少因网络安全引起的不必要的损失。
因此,加强计算机技术和技能的学习,掌握各种基础软件的使用技巧,已经刻不容缓。
第五篇:LIB2.0中关于高校图书馆信息检索系统的探索
一、高校图书馆信息检索系统的现状
随着计算机技术的高速发展,图书馆信息检索系统已经完成从手工方式向计算机方式的转变。读者在信息检索系统中输入关键词,信息检索系统从馆藏资源中检索出满足读者需求的馆藏资源,并标注出馆藏资源所在的位置以及该资源的馆藏数量和可借数量。同时读者还可以对暂时没有可借的馆藏资源进行预约,这些服务方式极大的方便了读者,减少了读者寻找馆藏资源的时间,一定程度上提高了馆藏资源的利用率。
检索系统缺乏与读者的交互。检索系统无法获知读者的兴趣以及读者对这些馆藏资源的反馈,无法针对读者提供个性化的服务。读者只能单方向接受检索系统结果,没有办法参与检索系统的建设。检索系统缺乏指导性。对于高校这个特殊群体来说,学生的层次是有区别的,刚进入学校的学生没有足够的知识来选择合适的馆藏资源来促进他们的学业,这就需要在检索系统中加入更多的指导因素,指导学生选择更合适的馆藏资源。检索的结果缺乏动态性。检索系统主要通过标题、关键字、作者等信息进行检索。而这些信息在检索系统中是不会变化的,这也就导致了检索结果的静态性。静态的检索结果反映不出馆藏资源的优劣、读者的喜好等信息。
这些缺点影响着检索系统的使用效果及馆藏资源的利用率,同时检索系统也不能为读者提供个性化的服务。如何解决这些缺点成为当前以及未来信息检索系统的迫切要求。
二、lib2.0中高校图书馆信息检索系统
(一)推荐书目互动平台
推荐书目,又名导读书目、选读书目,它是为了某一个特定目的将某类或特定主题的书目推荐给特定的人群。推荐书目在我国自古有之,现存最早的推荐书目是敦煌发现的《杂抄》(伯2171号卷子),为当时读书人列出一份包括《史记》、《三国志》、《春秋》等25种文献在内的书目清单。推荐书目平台在充分考虑高校图书馆的特殊性前提下,构建了可设置的多个主题与学科专栏的平台,形成以下几个类型的推荐:
第一,按学科专业推荐。高校的学生均从属于特定的专业,如,计算机专业,金融专业,外语等。如何学好这个专业是学生在高校阶段首要关心的话题。推荐书目广泛邀请该专业的教师或高年级的学生参与构建学科专业推荐书目,以他们的知识和经验来指导、帮助其他读者顺利的完成学业。
第二,按学业课程推荐。高校的学生每学期均要完成一定的课程,如何学好这些课程也是学生关心比较多的一个话题。在学业课程推荐中邀请已完成该课程的同学进行推荐,介绍他们当年学习时阅读的书籍,同时邀请课程教师对推荐书目进行修正和补充,以确保推荐书目的质量。
第三,按主题推荐。同一专业的学生毕业后可能从事不同技术方向的工作,如计算机专业的学生,毕业后可以从事c语言、c++语言、c#语言、java语言等方向的工作,不同方向所要阅读的书籍也大相径庭。通过教师和学生广泛参与这些主题的书籍推荐,形成了一系列不同主题的推荐书目。学有余力的同学按照自己的兴趣选择不同的方向来阅读书籍、扩展自己的知识面,提高自己的能力,为将来走向社会打下良好的基础。
推荐书目平台与信息检索系统是一个有机的整体。读者在输入检索条件检索信息时,系统自动检索这些关键词的推荐书目信息,以供读者参考。读者在阅读了相关的推荐书籍后,可以添加该书籍的阅读心得,以方便后来的阅读者。这种基于检索系统的推荐书目平台,改变传统信息环境下“推荐者一推荐书目一读者”的单向推荐书目模式,形成循环的推荐书目系统环节链。读者、检索系统与推荐书目平台三者的流程关系。
检索系统引入推荐书目,方便了教师与学生的参与,加强了受众的互动与交流,实现了阅读的分享与互动。众多用户通过检索系统的广泛参与推荐书目平台,确保了推荐书目的质量。同时拥有推荐书目平台的检索系统也实现了检索的平面化向网状化转变。
专题信息库针对同一学科可设置多个知识点,这些知识点构建成知识网络系统,形成在学科内共享领域知识。所有读者均可参与专题信息库的建设,设立知识点,解释知识点,通过共享写作的方式,共同维护专题信息库的质量与权威。
通过在检索系统中嵌入专题信息库,既能促进已有资源的使用,又能为图书馆增加新的资源。它的应用提供了一种崭新的图书馆信息检索系统个性化信息服务的模式。
(三)tag标签云
tag是一种用户决定、更为自由灵活的分类方式,这个标签名可以来自关键词,也可以来自分类。通过tag,不同用户可以进行交叉查询,即用户可通过关键词找到其他用户的收藏 列表,也可以通过大家收藏的url找到其他用户。这样,用户在提供信息的同时,也从他人的信息中受益。
传统的高校信息检索系统主要通过对文件的标题与关键字的搜索达到检索目的,这种搜索方式简单、准确,但不够智能。在检索系统中嵌入tag,提高了检索系统的智能化。用户参与使用tag主要有三种方式: 读者对自己搜索过的图书进行标签。这种标签对馆藏进行重新的聚类,可以极大的方便他人或自己再次使用馆藏资源。读者在检索系统中输入关键字进行检索,检索系统在提供传统检索结果的基础上,智能的检索该关键字对应的tag,这样,读者就可以通过他人的tag更方便地找到自己需要的图书。在浏览某tag对应图书时,检索系统智能化的列出该图书所对应的其他tag,读者可以通过这些tag进行网状的浏览,确定自己的目标资源。
tag代表了一种新的组织和管理信息的方式,它不同于传统的、针对文件本身的关键字搜索,而是一种模糊化、智能化的分类。在检索系统中嵌入tag功能,更加符合高校图书馆中“体验者”提高检索结果的相似程度,极大提高了高校图书馆提供个性化信息服务的能力。
(四)优化检索
传统检索系统主要通过书籍标题、主题、作者等关键字进行搜索。检索的结果是静态的,忽略了读者对检索系统的参与,无法列出最优化的搜索结果。
lib2.0下的检索系统嵌入了推荐书目平台、专题信息库与tag标签云,这为检索的优化提供了基础。检索的优化主要依靠以下四个动态因素:第一、书籍是否被推荐,以及被推荐的情况;第二、书籍是否被专题信息库引用;第三、书籍的tag是否包含搜索的关键词;第四、书籍的借阅量。在用户输入关键词进行搜索时,系统通过赋予这四个因素不同的搜索权重值,自动计算满足关键词的书籍权重,并按照权重顺序进行排序。在检索系统中引入动态检索因素后,检索系统能很好的体现了读者的参与情况,并能为读者提供个性化或有针对性的服务。
文档为doc格式
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
比较研究国内大学图书馆书目检索系统
书目检索(BibliographicRetrieval)是以文献线索为检索对象的信息检索。检索系统存储的是以二次信息(目录、索弓丨、文摘等)为对象的信息,它们是女献信息的外部特征与内容特征......
信息检索毕业论文(合集五篇)
上机检索实习题目实验一. 利用 “CNKI期刊全文数据库“检索我校欧阳钟辉、江义火老师、吴昌钱老师在2000到2014年发表的有关“计算机”方面的文章,记下论文篇数、第一篇文章......
《水利水电技术标准全文检索系统》2013年第一次升级
《水利水电技术标准全文检索系统》 2013年第一次升级更新《水利水电技术标准全文检索系统》自去年开始在我院局域网上运行,日前,对该全文检索系统进行了2013年第一次升级更新......
大学生毕业论文与信息检索(大全)
2014—2015学年第二学期《毕业论文写作与信息检索》考试题 姓名: 学号: 班级: 成绩: 一、单项选择题(共10分) 1、浏览超星数字图书馆,应首先安装( D )。 A. Apabi Reader B. A......
信息资源管理专业独立本科毕业论文参考题目
信息资源管理专业独立本科毕业论文参考题目 1、试论信息资源管理特征 2、论信息资源管理的产生背景及前途 3、试论企业信息资源管理应注意的几个问题 4、论信息系统项目管理......
毕业论文与信息检索考试题(本站推荐)
2014—2015学年第二学期《毕业论文写作与信息检索》考试题 姓名: 学号: 班级: 成绩: 一、单项选择题(共10分) 1、浏览超星数字图书馆,应首先安装( D )。 A. Apabi Reader B. A......
图书馆藏书目检索系统的主要功能和使用方法专题
OPAC书目检索系统使用方法 图书馆馆藏书目检索系统OPAC书目检索系统的使用方法及操作步骤如下: 1. 书目检索:输入要查询书目的题名,该系统即可检索到该书的具体信息:索书号、作......
浅谈乡镇政府信息公开的纵深推进毕业论文
浅谈乡镇政府信息公开的纵深推进 [论文关键词]乡镇政府;信息公开;运行机制;观念 [论文内容提要]纵深推进乡镇政府信息公开是一个系统工程,不仅要生成适应乡镇政府信息公开......