信息检索论文(完整版)

时间:2019-05-13 21:42:49下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《信息检索论文(完整版)》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《信息检索论文(完整版)》。

第一篇:信息检索论文(完整版)

信息检索论文(完整版)

网络信息检索工具研究

摘 要 网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。

关键词 因特网;网络检索;检索工具

Abstract The quick increase of net in formation makes it more and more difficult for people to get useful information.Net search tools emerged as the times require.The paper introduce several kinds and functions of net search tools , put forward the development tendency of net search tools.Key words Internet;net search;search tool

席卷而来的因特网正将全世界的丰富信息资源带到我们每一个人面前,已成为知识经济时代不可或缺的基本工具。然而在这样无边无尽的信息世界,找寻所需要的信息却成为一个极大的难题。网络信息检索工具由此产生并迅速繁荣发展,毫无疑问地成为这一信息海洋的航标与灯塔。了解网络信息检索工具,熟悉其功能,将大大提高我们的检索效率。

网络信息检索工具的类型

网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。按检索资源的类型,可分为两大类:即非web资源检索工具和web资源检索工具。

1.1非web资源检索工具

非web 资源检索工具是以 FTP、Telnet、Gopher等为检索对象。

(1)FTP类的检索工具

这是一种实时的联机检索工具,用户首先要登陆到对方的计算机,登陆后即可以进行文献搜索及文献传输有关的操作。使用 FTP(文件传输协议)几乎可以传输任何类型的正文文件、二进制文件、图像文件、声音文件、数据压缩文件等。在这类检索工具中,Archie是最常用的。Archie是自动标题检索软件,它借助于 FTP来访问。用户只需告诉其要检索文件名的有关信息便可获得文件所在的主机名、路径。与一般检索工具不同的是,它不用主题来实现相应的检索,而只能根据文件名和目录名进行检索。它是获取免费软件和共享软件资源不可缺少的工具。

(2)Telnet 类的检索工具

它指的是借助远程登陆在网络通信协议的支持下,在远程计算机上登陆,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的资源。

使用Telnet协议进行远程登陆时需要满足以下条件:本地计算机上必须装有包含Telnet协议的客户程序;必须知道远程主机的IP地址或域名;必须知道登录标识与口令。Telnet远程登录服务分为以下4个过程:

a.本地与远程主机建立连接。该过程实际上是建立一个TCP连接,用户必须知道远程主机的IP地址或域名;

b.将本地终端上输入的用户名和口令及以后输入的任何命令或字符以 NVT(Net Virtual Termin al)格式传送到远程主机。该过程实际上是从本地主机向远程主机发送一个IP数据报;

c.将远程主机输出的NVT格式的数据转化为本地所接受的格式送回本地终端,包括输入命令回显和命令执行结果;

Telnet类的检索工具的特点为只有文字模式,缺乏展现多媒体的能力;不同的系统,采用不同的指令与操作方式;必须拥有登陆口令和密码;使用者人数受到限制;查得的资料需逐页的显示,不利于大幅度的翻页检视。

HYTE LNET是用于 Telnet 信息资源的检索工具。它以超文本形式分门别类的汇集并罗列了数量相当多的 Telnet信息资源,在远程登录后,对方系统往往设有专门的检索型工具,以方便用户查找和利用。

(3)基于菜单式的检索工具----Gopher

Gopher是一种交互式、菜单式信息查询软件,它将各种信息资源加以分类,再用菜单的形式显示给用户。Gopher采用客户机/服务模式。当用户启动一Gopher 客户程序时,建立与Gopher服务器的连接,Gopher 服务器发送一 Gopher 菜单给用户的客户程序。菜单中的每一项都对应一个信息文件或另一个菜单。若用户选定的菜单项对应一个信息文件,则Gopher 将检索这个文件并显示其内容;若选定的菜单项对应另一个菜单,Gopher 将检索这个新菜单,使用户能够在这个新菜单中挑选一个新菜单项。这样,在菜单的引导下,当用户选择了一个菜单项时,Gopher软件将自动确定该菜单项所驻留的计算机,用户可以对因特网上的远程联机系统进行实时访问。Gopher只支持纯文字环境,无法提供影像、声音服务。目前通过Gopher可以进行以下类型信息查询:文本文件信息查询、Telnet信息查询、电话簿查询、专有格式文件查询。

这类检索工具是一种分布式信息查询工具,它将用户的请求自动转换成FTP或Telnet 命令,在一级一级的菜单引导下,用户可以选取自己感兴趣的信息资源。这对于不熟悉网络资源、网络地址和查询命令的用户是十分简便的方法。在这类检索工具中最常见的是 Veronica和Jughead。如Veronica用于检索可由 G opher 菜单访问的信息资源,是与Gopher配套的检索工具。它根据用户给出的检索词进行检索,可检索文件名、目录名、文档及其他信息资源。d.最后,本地终端对远程主机进行撤消连接。该过程是撤销一个TCP连接。

1.2 web资源检索工具

web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的 web 检索工具多种多样,大体分为三类:搜索引擎、目录型检索工具、多元搜索引擎。

(1)搜索引擎

搜索引擎使用自动索引软件来发现、收集并标引网页 ,建立数据库;以 Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录 , 并返回结果且按相关度排序输出。使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。此类检索工具的优点是信息量大且新 , 速度快;缺点是准确性较差。著名的搜索引擎如Meta Vista、Excite、天网、悠游等。

根据其逻辑功能的不同,可分为:搜索器、分析器、索引器、检索器、用户接口。搜索器,也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器的功能是根据分析器生成的关键词,建立从关键词到网页 URL 的关系索引倒排文档,即建立索引数据库。检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;另外,检索策略的构造和输入方式也会直接影响其检索结果。一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。

(2)目录型检索工具

它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,也有采用图书分类方法的。使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。有代表性的目录型检索工具如 Y ahoo、G alaxy、Lycos、网易、263 等。现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。

(3)多元搜索引擎

多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面 , 且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差。常用的多元搜索引擎有DOGPI LE、INFEREN等。

多元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。

多元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数, 指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,多元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受;而对检索结果的显示,不同的多元搜索引擎有不同的处理技术,由于多元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同多元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。多元搜索引擎搜索将用户的检索式同时转给不同的引擎帮助检索,并将检索结果中重复的部分删去。这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间,节省了时间,查全率高,漏检率低;但是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,查准率低。

网络信息检索工具的功能

网络检索工具产生和发展的历史虽然不长,但它的功能却非常强大,关键词检索(Keyword)是最基本功能,包括以下几个方面:

2.1布尔逻辑检索

布尔检索在网络信息资源检索中使用的相当广泛,常用的布尔逻辑算符有 3 种: 逻辑或(运算符为 OR/ or ,有时也可用“|”符号表示)、逻辑与(运算符为 AND/ and ,有时也可用“&”、“+ ”号表示)、逻辑非(运算符为NOT/ not,有时也可用“!”、“-”号表示)。检索中使用逻辑算符是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑算符表达检索要求,除要掌握检索课题的相关因素外,还应注意布尔算符对检索结果的影响。对同一个布尔逻辑提问式来说,不同的运算次序,其检索结果亦不同。

2.2 词组检索

词组检索是将一个词组作为一个独立运算单元,进行严格匹配以提高检索的精度和准确度。词组检索是一般数据库中最常用的方法,是通过使用逗号、双引号和括号进行检索。逗号的作用类似于 OR ,但“越多越好”,因为查寻时找到的关键词越多,文档排列的位置越靠前,例如:查寻输入“计算机”、“办公自动化”和“WORD2000”,则查寻结果中,同时包含“计算机”、“办公自动化”和“Word2000”的文档将出现在搜索结果的最前边。双引号的作用就是把引号内的关键词的组合当作一个字符串看待,然后进行检索。例如,要检索有关古典音乐方面的信息 ,可以连同引号在内键入“classic music”,检索时就把“c1assic music”作为一个词来进行检索。括号的作用与数学的括号相一致,使括号内的操作符先起作用。例如 , 如果输入的关键词是:(网址OR文档)AND(搜索OR查找),则实际检索时,关键词就是“网址搜索”、“网址查找”或“文档搜索”、“文档查找”。

2.3 字段检索

字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的手段,多以字段限定方式实现。搜索引擎常用的字段有: Ti2tle/t(表示查找标题中包含检索提问式的页面)、Subjec(表示查找主题中包含检索提问式的页面)、Text(表示文本中包含检索提问式的页面)、bost(主机。表示在指定的服务器上查找页面)、URL/ u(表示查找URL 中包含检索提问式的页面)、domain(域名表示查找指定域名的各页面)、1ihk(链接。表示查找含有链接至URL 的页面)等。

2.4 截词检索

为提高查全率而设计,绝大多数网络检索都支持这一功能,有的是自动截词 , 有的是有条件的截词,尤其在西文检索工具中更是广泛使用。因为西方语言的构词灵活,在词干上加上不同性质的前缀和后缀,就可以派生出很多新的词汇,这些词之间的基本含义是一致的,如果不采取措施在检索式中列出一个词的所有派生形式,就容易出现漏捡。截词检索按截断的位置分后截断、前截断、中截断3种类型。不同的系统所使用的截词符也不同,常用的有“?”、“| S”、“3 ”等,因此 , 截词检索也称为通配符检索。例如,热点 3代表“热点问题”、“热点新闻”、“热点报道”等词。

2.5 位置检索

位置检索是指允许指定 2 个单词之间的词序和词距的检索。词序指单词之间前后顺序 , 词距指 2 个单词之间间隔单词数。其操作符多为“NEAR”。例如 , 网络 NEAR 图书馆 , 表示检索结果中网络与图书馆二词之间的位置比较临近。每个支持位置检索的搜索引擎对 NEAR 操作的字段间隔数的设置是不同的 , 有的设置在25个单词之内。

2.6 概念检索

概念检索是指使用某一检索提问词进行检索时 , 能同时对该词的同义词、近义词、广义词、狭义词同样进行检索 , 以达到扩大检索 , 避免漏检的目的。例如 , 当您使用自行车检索时 , 检索结果不仅包括自行车的内容 , 还包含脚踏车、单车等的内容。

网络信息检索工具性能分析方法

3.1检索工具性能分析的内容

网络信息检索工具在标引过程中,大多数采用了传统检索工具的标引技术。它包括:分类标引技术、主题词标引技术和关键词标引技术等。其实现方法大多是使用计算机自动标引技术来实现的。因此网络信息检索工具的性能分析方法和内容也主要参考传统检索工具标准来进行。同时,根据网络信息的特点,适当增加相应的性能指标和技术指标。

(1)收录信息范围。收录范围主要指该搜索引擎网络信息的搜集范围和报道范围,网络搜索引擎从收录范围分为专用搜索引擎和通用搜索引擎。

(2)查全率。查全率指在查询主题的所有信息中,查出信息和全部信息的比率。它是评价网络信息检索工具的一个重要定量指标。但是,无论是传统文献检索工具还是网络信息搜索引擎,这都是一个难于计算的指标,主要原因在于信息的总量是未知的,通常是一个大概数字,在网络信息中信息的总量更加难于计算。

(3)查准率。查准率是在查到的全部信息中,符合查询要求的信息数量所占的比率。

(4)检索速度。检索速度是衡量搜索引擎的一个重要指标,它包括网络传输速度和查询速度组成。

(5)检索方法。检索方法指搜索引擎提供的检索组合方法,主要指逻辑组配(and、or、not 等)方法,是否提供截词检索等。

(6)检索途径。检索途径指检索的人口点。对于网络检索工具,其检索途径主要是关键词检索和分类检索%由于网络信息类型的复杂性,检索工具通常提供网站检索、网页检索、新闻检索等,主要是按照信息类型提供检索途径。

(7)死链率。死链率指在查到的信息中,不能链接的占查到总数的比率。用来反映网络信息检索工具的可靠性。

(8)错链率。错链率指在查到的信息中,不能链接到正确站点的链接数占查到总数的比率。用来反映网络信息检索工具的可靠性和准确性。

(9)结果处理。结果处理主要指是否将检索结果排序,排序的主要方法是按照与检索关键词的相关程度,或者是关键词出现的频数排序。经过排序的检索结果,用户首先看到的是最接近用户需要的信息。需要注意的是,关键词出现频率高的网络信息并不一定和用户的检索要求相吻合。

除了这些主要的技术指标外,网络信息检索工具的评价和性能分析还包括∃更新周期、信息搜集方式、界面设计和帮助等%评价的方法主要包括定性分析评价和定量分析评价两种。

3.2统计分析法评价网络信息检索工具

在对网络检索工具的定量分析评价中,统计分析是最常用的方法之一。在用统计分析方法对网络信息检索工具进行分析评价时,应采用以下步骤:

(1)确定评价目标

(2)确定评价项目。根据评价的目的要求,确定分析评价的项目和需要调查统计的项目,并制作调查表格。

(3)浏览网站。通过对网站的浏览,确定该检索工具的收录范围,包括主题范围和信息类型范围。

(4)选择关键词。对网络检索工具进行统计分析,必须用实际的关键词在检索土具中查找,然后对查找结果进行分析,因此必须有检索的关键词。同时,在统计时,不可能对所有的关键词和网络中的所有信息进行统计,通常采用抽样调查的方法,选取若干关键词,通过对若干关键词查询结果的统计分析,来分析网络信息检索工具的一般情况。

(5)计算统计结果 %根据统计结果计算查全率和查准率等,其计算方法如下 设样本数为n ,单个关键词的查准率为C1,死链率为 D1,错链率为 E1,则平均查准率

平均死链率

平均错链率

上述结果通常可以反映该搜索引擎的基本性能,但是由于样本的选取范围和选取数量的限制,这些数字往往有可能与实际的查询结果有一定出入。

(6)汇总分析结果,得出结论。对统计结果进行分析,进而分析该检索工具的信息数量、信息质量和可靠性 ,并做出判断和结论。

网络信息检索工具的发展趋势

科学技术的日新月异和用户需求的不断提高促使网络检索工具相应发展,其发展趋势大致可以分为以下几个方面:

一是检索工具的智能化。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表达的检索要求进行分析,形成检索策略进行检索。它主要包括智能搜索引擎、智能浏览器、智能化自动索引软件。检索工具的智能化的内涵在于检索工具具有学习、分析、辨别推理的能力,它们按照用户的要求,对信息进行更深一步的分析,然后交由用户。

二是用户友好化进一步提高。未来科技的发展都要以人为本,网络信息检索也不例外,用户友好化是一个重要的发展趋势。它主要包括两个方面的内容,一是用户界面友好化,使用户更方便、快捷的使用各种检索工具,满足用户各种检索要求。另一方面是更好的检索结果提供方式,使用户方便的进行浏览、选择和利用。

三是信息提供的深入化。这也包括两个方面,一是检索深度的提高,现阶段,网络检索大多实行相关性检索,其结果往往是海量的,这会分散用户的注意力,背离原有的目的。为避免这种情况,就要求提高检索深度,由相关性检索向直接性检索发展。另一方面是检索内容的综合化与专业化相结合。网络既提供广泛的信息,又提供更深的内容,依次服务于用户。

5.网络信息检索工具的竞争力要素

5.1众多的网络信息检索工具面临着竞争的局面

虽然网络信息检索工具几乎都供免费使用,但实际上,开发、维护这些检索工具的信息服务机构多数以盈利为目的。

每一个商业性信息服务机构为了收回开发网络信息检索工具所投入的资金,为维护和进一步发展所开发的检索工具还需继续投人,并力求获得更多盈利而信息市场空间是有限的,故各种网络信息检索工具都面临着竞争的局面。网络信息检索服务机构股票的上市,正说明了网络信息检索服务是一种商业活动,以盈利为目的而不可避免市场竞争。

也有一些属于非盈利性的开发机构,它们所开发的网络信息检索工具一般仅为本单位 如高等学校人员服务,并且规模也不大,投入资金有保障,但也有一个保证质量以取得实效的问题。现在,这类检索工具中一些投人较大而有相当规模者,也要求推向市场 ,作为第三产业经营管理,因而也要面临市场竞争。

5.2有效服务是增强网络信息检索工具竞争力的核心

网络信息检索工具竞争取胜的主要标志是拥有更多的用户,提高检索工具的声誉和权威性。用户数量及他们对检索工具的评价是关键。

一个网络信息检索工具实际上有两部分用户一部分是希望利用检索工具获取信息以解决自己问题的用户(这是在明面上的用户),一般为其免费服务,但也有少数项目可以收费;另一部分是希望利用检索工具传播自身信息的用户(这是在其背后的用户),其中多数用户要付费,是网络信息服务机构收益的主要来源。但这两部分用户都很重要,缺一不可,而且互相影响。很明显,一个用户很少、声誉不高、没有权威性的网络信息检索工具,它的各种收入是不可能很多的。

用户数量的增长和声誉的提高来自于有效的服务,特别是对希望利用检索工具获取信息以解决自己问题的那一部分用户的有效服务。有效服务是增强网络信息检索工具竞争力的核心。有效服务是以 网络信息检索工具的各种竞争力要素为基础的。

5.3网络信息检索工具竞争力诸要素

(1)检索工具对服务对象的适应能力

(2)覆盖率和信息量

(3)标引深度和标引准确率

(4)检索功能的多样性和高效性

(5)数据库提供信息的时效性

(6)检索工具的易用程度

(7)导航服务、文献数据库服务、具体信息发布传递服务相结合

(8)特色服务项目

(9)注重中国特色

(10)减负原则的贯彻

(11)联合经营

(12)价格策略

网络信息检索工具的研究具有非常重要的意义 , 随着信息技术和新一代因特网的发展 , 它的研究和应用也将迈上一个新的台阶 , 我们期待着网络信息检索工具的发展为网络信息资源检索带来一个美好的明天。

参 考 文 献

[1 ] 彭丽喃.专门、专业网络检索工具研究 [J ].现代情报 , 2004 ,(1): 89— 90.[2 ] 王相华.网络信息检索工具发展现状及趋势 [J ].今日科技 , 2002 ,(8): 27— 29.[3 ] 高凡.基于关键词的网络信息资源检索 [J ].情报杂志 , 2003 ,(11): 90— 92.[4 ] 张彦洁 , 张向华.网络信息资源的检索方法和技巧[J ].现代情报 , 2003 ,(6): 22— 24.[5 ] 谌新华.网络信息资源搜索方法 [ J ].现代情报 ,

第二篇:信息检索论文

应用化学

化学与化工信息检索论文

题目:造纸污水处理技术现状及进展

学生姓名------学号--------专业应用化学指导教师----

2010年12月 25日

造纸污水处理技术现状及进展

摘要:本文在查阅相关资料的基础上,介绍了国内外的造纸废水处理的常用方法,并对各种方法进行了评价和分析,综述了造纸废水处理研究的现状和进展。

关键词:造纸;废水处理;治理技术

随着造纸工业的迅速发展,造纸工业废水已经成为水环境的重要污染源之一。在造纸过程中,除纤维素和部分半纤维素之外的大量有机物要进入废水中,并且即使经过充分的废液回收利用,也还是或多或少地会有一些纤维素和半纤维素流失进入废水中。含有大量有机物的造纸废水排入水体,对水体会造成不同程度的污染。同时造纸过程中通常还需要加入一些必要的化学药剂和化学助剂,这些物质流失进入水体中更是加重了水体污染[1]。造纸工业的漂白工段通常是采用含氯化合物漂白,导致排出的漂白废水中含有大量的氯化有机物,其中的氯苯酚、氯化脂肪酸、氯化树脂酸、dioxin等有毒且难以处理的氯化有 机物,对环境中的生物具有强烈的毒害、致畸、致多发性脑神经病变作用[2],因此如何有效地去除造纸废 水中的含氯有机物已经成为废水处理的一大难题。本文在查阅大量文献资料的基础上主要介绍国内外处理造纸废水的方法和新技术,并就国内外治理造纸废水的现状和未来的发展前景加以评述。

1概况

据经贸委粗略估计,目前我国大小造纸厂约有近万家。造纸工业总的特点是:使用原料种类多、生产工艺类型多、中小企业多、技术装备落后者多。调查统计表明,造纸工业废水年排放总量达17亿t,占工业废 水总排放量的10以上。造 纸工业废水主要包括黑液或红液(蒸煮制浆废水)、中段废水(制浆洗涤、筛选、漂白废水)、造纸 白水(抄纸废水)三大类,其中蒸煮黑液的环境污染最为严重,占整个造纸工业污染的90%。制浆废水 BOD、COD、SS、pH、色度、浊度等均严重超标;中段废水成分与制浆废水相近,但浓度低,富含漂白工段产生的对环境危害最大的有机氯化物;抄纸废水中主要含有细小纤维、填料(高岭土等)和胶料(松香等),BOD值较低。造纸工业废水的治理是国内外造纸行业亟待解决的难题[3]。

2治理方法

2.1物理化学法

物理化学法是通过物理或者化学反应的作用来达到去除废水中的污染物的目的,主

要有以下方法:

2.1.1臭氧法

臭氧氧化技术已问世多年,近年来,由于低成本的臭氧发生装置和臭氧处理装置的出现而重新成为研究热点。臭氧(O3)是一种强氧化剂,O3作为两性离子,能选择性地分解发色基团。安郁琴[4]将经过化学混凝处理后和经过化学混凝过滤吸附处理后的麦革浆黑液利用臭氧法处理,处理 20分钟后脱色率可以达到 82.1%,但 CODCr去除率仅 15.8%,BOD5去除率为24.8%,Ff1此可见,臭氧脱色效果显著,但对 CODCr和 BOD5的去除效果不明显。臭氧在水中的溶解度较低,如何更有效地使臭氧溶解于水中从而提高其利用率已经成为该技术研究的热点。使用臭氧法也会产生其它副产物,其中最受关注的是羰基化合物中的醛类,比如甲醛、乙醛,这些物质具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。

2.1.2光催化氧化

光催化氧化技术是近年来比较活跃的研究领域,光催化氧化技术是在光化学氧化技术的基础上发展起来的。张志军等[5]利用中压汞灯作光源,研究了氯代二苯并一对一二哑英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反应,在室温下,4h内DCCD、PCDD和OCDD分别降解87.2%、84.6%和91.2%。M.Cristina Yeber等

[6]将 TiO2、Zno同定在玻璃上,对漂白废水进行了光催化氯化处理,处理 120min后,废水的色度可完全去除,总酚含量减少了85%,TOC减少了50%,处理后残留有机物的急性毒性和AOX比处理前大为减少,高分子化合物几乎全部降解。

2.1.3混凝法

混凝法是目前国内外重点研究的方向之一,该法适应性强、基建投资低、管理简单,是水处理常用的方法,在造纸行业的废水处理中使用普遍。造纸废水中由于含有大量纤维和化学药剂,所以一般在处理造纸废水时首先要用混凝法除去这些物质。张学洪、解庆林[9]等利用聚合氯化铝处理广西某造纸厂的造纸终端废水(CODcf=400mg/L),处理后可以达到国家污水排放标准(CODcf<100 mg/L)。黄国林、乐长高等[1O]利用水溶性酚醛树脂和硫酸反应得到的聚合物处理抚州某造纸厂制浆车间排污口的废水,在最佳工艺条件下反应时,CODc和ss去除率分别可以达到80%一85%和 90% 一95%,处理水可以达到排放标准。

2.2 生物法

废水的生物处理方法就是利用微生物的新陈代谢功能使废水中呈溶解状和胶体状的有机污染物被降解并转化成无害稳定的物质,使废水得到净化。生物法处理废水因其运行成本低,效果较好而在废水处理中得到了广泛应用。造纸废水中含有大量有机物质,废水的可生化性较好,可以为生物法的微生物提供大量的营养物质,从而能保证微生物的正常生长繁殖和生物法处理废水的正常运行。利用生物法对造纸废水进行二级处理可有效去除BOD、COD。造纸废水生物处理法主要有以下几种:

2.2.1好氧生物处理法

利用好氧微生物(主要为好氧菌)的新陈代谢作用来降解污染物,其中应用最多的主要是活性污泥法,我国的科研人员对活性污泥法处理造纸废水进行了大量的研究,取得了许多成功的经验。造纸废水中的木素是不易生物降解的物质,活性污泥对木素具有极好的吸附性能,通过生物降解和活性污泥吸附作用,可达到除去木素的目的,从而降低溶解木素的浓度。芬兰OULU纸浆厂[11]利用活性污泥法加污泥曝气再生处理漂白硫酸盐纸浆废水,可使BOD去除率达 90%,COD去除率达84%。活性污泥法由于其处理成本低、易于管理、处理效果较好而在废水处理中的应用越来越多。

2.2.2生物膜法

相对于活性污泥系统而言,生物膜系统具有如下显著优点:高容积负荷、更强的抗毒能力和耐负荷冲击能力、无须污泥回流且处理设施紧凑。朱光灿、吕锡武等[12]研究了采用脱木素—缺氧—好氧生物膜工艺处理造纸废水。其中的脱木素工艺可有效地将黑液中碱木素脱稳析出,并提高废水的可生化性,当废水 pH=5,绝干纤维污泥与废水 COD质量之比为 1.1,硫酸铝投加量为 160m g/L时,COD去除率大于 63%。生物法在利用微生物处理造纸废水时候,如果造纸废水中含有大量不利于微生物生长的物质时候,生物法处理效果较差,因此在制浆造纸过程中可以通过改变漂白剂的种类,提高造纸废水的可生化性,使其更利于生物法处理。

2.3 其他方法

2.3.1电化学法

利用电化学法进行废水的处理是电化学法获得应用的典型领域。通过电化学反应中的直接或者间接氧化和还原作用,可以破坏有毒或难降解有机物的结构,去除其生物毒性,提高其可生化性。电化学法处理废水一般无需加入化学药品,后处理简单,占地面积小,管理方便,被称为清洁处理法。景峰、王耀新、朱文菊等将电化学和凝聚沉淀法两种方法联合起来处理造纸废水,使造纸废水COD去除率达到55%~70%,色度去除,率达90%~95%[13]。目前关于电化学法的许多问题特别是降解机理、处理速度和经济

性问题尚未完全解决,电化学处理废水电耗较高,使该方法的工业应用受到限制。

2.3.2湿式空气氧化法

湿式空气氧化法是目前研究较多的新型处理方法,即在高温、高压下在液相中利用空气或者氧气作为氧化剂,将废水中的有机物氧化成二氧化碳和水,从而达到去除污染物的目的。国内从80年代开始进行湿式空气氧化法的研究,先后进行了造纸黑液、含硫废水、酚水及煤制气废水、农药废水、印染废水等的实验研究,目前,湿式空气氧化法在国内尚处于试验阶段。与常规方法相比,湿式空气氧化法具有适用范围广、处理效率高等优点。但由于湿式空气氧化法一般要求在高温高压的条件下进行,对设备材料的要求较高,须耐高温、高压并耐腐蚀,因此设备费用高,系统的一次性投资大,在实际推广应用方面仍存在着一定的局限性。

2.3.3超临界水氧化法

在处理难降解有机废水方面,超临界水氧化技术是目前研究较为活跃的新技术。由于超临界水气液 相界面消失.成为一均相体系,因而超临界水中的有机物反应速度极快。Model等[14]对有机炭含量达 27.33 g/L的废水进行超临界水氧化处理,在实验条件下,1分钟内就使有机氯和有机炭的去除率分别达到99.99%和99.97%。超临界水氧化技术具有良好的工业应用前景,但是由于对反应条件要求较为苛刻(高温、高压),对设备要求偏高,因此还有一些实际的技术问题需要解决。造纸废水治理技术展望

随着全球可持续发展战略的实施,循环经济和 清洁生产技术越来越受到人们的关注,造纸工业废水治理从末端治理向清洁生产工艺、物质循环利用、废水回用综合防治方向发展。未来造纸工业废水治理将突出以下几个方面:

(1)贯彻循环经济理念、重视清洁生产技术的开发与应用,提高物质的转化率和循环使用率,从源头上削减各污染物的产生量并在厂内将大量废水循环回用,实现封闭循环,结合废水综合治理,最终实现废水零排放。

(2)综合目前国内外技术发展情况,应重视开发和引进先进的治理技术:重视黑液 处理技术(主要为碱 回收 技术)、重 视 SS、BOD、COD 的去除技术及脱色技术。

(3)应重视 生物处理方法在造纸工业废水处理中的应用,生物技术具有成本低、效益高、与其他方法组合可大大提高造纸废水的处理率,随着分子生物学技术、物种微生物技术的发展和应用,具有高效、耐毒性的菌种不断培育成功,为生物技术的广泛应用提供了前提条件。

(4)人工湿地处理系统作为一种成本低廉、节能降耗、简单易行、效果显著、无二次污染的废水处理技术,是造纸废水处理的新方法[15]。

(5)废纸造纸企业均存在诸多设计、建造、管理问题,阻碍废水回用现状的进一步改善。节水空间仍然很大。生产过程中,应加强管理,培养员工节水意识。调动员工积极性,根据实际生产经验,提出合理的回改进措施[16]。

参考文献

[1] 张 珂,陈仁锐。丁明秀,等.造纸工业污染防治技术与环境管理[M].北京:轻工业出版社,1988.14-15.

[2] 谢 澄,陈中豪,疏明君,等.生物流化床~化学絮凝法处理纸浆漂白废水[J].工业用水与废

水,2002,33(I):27-30.

[3] 黄夏银,冯彬.造纸废水处理技术研究现状及展望[J].污染防治技术,2004,12:17(4):9-11.

[4] 刘全校,安郁琴.臭氧 用于治理造纸废水.纸和造纸,2000,7:44.

[5] 张志军,包志成,王克欧.二氧化钛催化下的氯代二苯并一对一二哑英光解反应[J].环境化学,1996,15(1):47.

[6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of

C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.

[9] 张学洪,解庆林,李金城,等,造纸废水的混凝处理研究[J].桂林工学院学报,2000,(4):

189-191.

[10] 黄国林,乐长高,粱平.利用聚合物处理造纸废水的研究[J,环境科学与技术,1997,(1):

24—26.[11] 范懋功.活性 污泥法处理造纸废水….给水排水,1996,22(12):29—31.

[12] 朱光灿,吕锡武,宋海亮,等,脱木素一缺氧一好氧生物膜工艺处理造纸废水试验研究[J],给水排水,2004.30(1):56—59.

[13] 景 峰,王耀新,宋文菊,试论电化学一凝聚法处理造纸废水[J].黑龙江环境通报,2000,24(2):

81—82.

[14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US

Patent:4543(9).1 985.09.24.

[15] 朱光灿,吕锡武,宋海亮,等,造纸废水治理技术研究现状及展望[J],污染防治技术,2004.17(4):14.

[16] 张金红,废纸造纸废水回用工艺现状及改造实例[J],湖北造纸,2010.3:38.

第三篇:信息检索论文

关于数字化学习资源利用的思考

人资1W 学号:10213103

姓名:陈磊 班级:10摘 要:随着教育信息化工程的整体推进,要求数字化学习资源的建设也要同步地向前发展。正确认识数字化学习资源建设的现状,并提出正确有效的举措与做法,对于数字化学习资源的建设具有重要的指导作用。

关 键 词:数字化学习资源、发展趋势、应用与开发、质量监控

一、关于数字化学习资源的内容———要关注国际上教育思想的转变

1.1在考虑数字化学习资源建设的过程中,首先应当看到,从上世纪90年代末到本世纪初这几年间,整个国际教育界的教育思想有一个大的转变。[1] 由于在网络环境下既有丰富的学习资源,又有很强的交互性,便于自主学习、自主探究,所以,随着网络的普及,在建构主义理论的支持下,基于网络的“以学生为中心”的教育思想在上世纪90年代初期、中期甚至到90年代末都一直很流行,而传统的“以教师为中心”的教育思想则受到严厉的批判。与此同时,在教学过程中教师必不可少的主导作用(如正确的启发引导、重点与难点的分析把握、促进新知与旧知之间的联系等等)也被当作糟粕扔掉了。

与国际教育界上述教育思想观念的转变相适应,数字化学习资源建设的内容也要相应地实现由支持“以教为主”或“以学为主”,转变为支持“学教并重”。1.2 支持“以教为主”的数字化学习资源,由于其主要关注点是辅助教师解决教学中的重点、难点,提高教学效率,更好地向学生传授知识(而对学生自主学习、自主探究等活动则缺乏相应的关注与支持),故其内容强调要为一线教师的学科教学提供多媒体课件、CAI课件、典型课例、教学设计方案和各类试题等资源;支持“以学为主”的数字化学习资源,由于其主要关注点是要促进学者的自主学习、自主探究活动和小组的协作学习、协作探究活动(而对如何辅助教师的“教”,则缺乏相应的关注与支持),故其内容应是能起认知探究工具作用与协作交流工具作用的数字化学习资源。

二、关于数字化学习资源的管理———要关注两个新的发展趋势

关于数字化学习资源的管理,有两个新的发展趋势值得我们关注。

2.1目前对数字化学习资源的管理,主要考虑的问题是如何通过数据库存储方式对学习资源的数据内容进行有效的管理,但管理数字化学习资源的最终目的,是为了能在教学过程中充分地利用这些资源。所以,我们在建设数字化学习资源的过程中不仅应当关注学习资源的数据内容管理,同时也应当关注(甚至更应当关注)学习资源应用环境的支持与管理。

学科群资源网站是以不同学科的数字化学习资源为核心,建设起一个集资源共建共享、在线课件开发、联机备课、学科信息发布、互动交流等功能于一体的多学科、多层次的学科网站群,目的是使数字化学习资源的利用能更加符合教师和学生的思维方式与行为习惯。

2.2目前,绝大部分省、市或地区的数字化学习资源都是分散存储于该省、市的各个学校或该地区的不同学习资源网站上,应当采用何种机制才能对分散存储的资源进行有效管理并进行共建、共享,这是数字化学习资源建设关注的焦点之一。我们认为,建立“区域内分布式资源网络管理系统”是有效解决大范围数字化学习资源整合与共享问题的较佳方案。建设区域内分布式资源网络管理系统的核心技术包括两项内容:

2.2.1对资源目录的集中管理

本地区的学习资源中心(例如省电教馆)要为广大用户提供一个能覆盖本地区所有数字化学习资源网站的资源目录管理系统,以便本地区不同学习资源网站之间的互相访问与资源共享。而且,还要有专人对该资源目录系统进行经常性维护,从而达到本地区范围内各资源站点目录的同步更新与统一管理。与此同时,系统还应提供专用的教学搜索引擎,以实现对不同资源站点上相关信息的快速查询与检索;当用户需要打开某个资源时,资源目录管理系统应提供重定向功能 2.2.2对资源数据的分布式存储

数字化学习资源网络系统是由多个资源站点组成的,资源网内每一个提供资源信息服务的站点都是资源网中的一个节点———用于存储实际的物理资源,资源节点之间基于一定的信任授权关系进行资源互访,资源元数据信息与本地区学习资源中心目录管理系统中的目录信息保持同步,因此可以实现网络系统内数字化学习资源的分布式存储和集中式管理,并在本地区范围内提供广泛的基于共享的数字化学习资源服务。

三、关于数字化学习资源的质量监控———评审机制的建立和实施

3.1当前数字化学习资源的建设呈无序状态,很多单位在组织资源建设时,只注重数量而忽视质量。应该通过建立有效的数字化学习资源评审机制,并提高评审结果的科学性和权威性来规范资源建设行为。与此同时,还应制定具有可操作性的数字化学习资源评价指标体系,这种评价指标的制定要突出数字化学习资源的教育特性和新课程标准对学习资源的要求,并要以素质教育和创新教育为基本出发点。3.2 为了保证数字化学习资源评审的科学性与有效性,应当采用专家评审与群众(用户)评价相结合的方式。

专家评审应建立包括几方面专业人员的评审小组,通常应该包括学科教学专家、教育技术专家、信息技术人员、统计人员(对资源评审结果进行统计)等。在整个评审过程中每个成员应各司其职,把好相应环节的质量关。

群众(用户)评价从时间上看,分为使用前评价和使用后评价两种。使用前评价是根据事先制定的数字化学习资源评价指标体系,为不同用户编写不同的问卷来获取评价信息及相应的得分———使用前的评价得分。使用后评价则主要依据公开发布该资源后被引用情况的统计信息(如被点击次数、被下载次数、被引用次数等)以及用户使用该资源后在网上的评论信息,把二者结合起来(即把被引用情况的统计信息和网上的评论信息结合起来)进行综合评价,才能得出相应的得分———使用后的评价得分。再对使用前评价和使用后评价所产生的两种得分作加权统计———由此即可得出群众(用户)评价的总得分。

最后,将专家评审的结果与群众(用户)评价的总得分二者结合起来,这才是能够保证数字化学习资源评审科学性与有效性的最终结果,并可以此作为确定该数字化学习资源评价等级以及收费标准的主要依据。

【参考文献】

[1]何克抗,从Blending Learning看教育技术理论的新发展[J].电化教育研究,2004,(3):1~6.2

第四篇:信息检索论文

居民用电远程抄表系统

长期以来,供电企业电能数据的抄算都是基于电能表的手工作业方式,即每月定期派人到各用户那里抄录电能表的用电数据作为电费计算和收缴的依据。随着电力负荷的急剧增长,一户一表和直供到户等营销举措的不断深入,用电企业纷纷将家属宿舍的用电治理业务交还供电企业,致使供电企业的电量抄录的工作量急剧膨胀。白银供电公司在城网农网改造结束后,仅市区居民直供用户将达到9万户,就地分散的手工抄表根本无法适应用电治理的需要。因此,远程抄表系统的技术研究和产品开发势在必行。

1远程自动抄表系统的现状及其特点

一般情况下,一个家属楼单元有14~18块低压电能表,单元子区数据采集器负责采集其下属的电能表电量数据,配变集中器则负责收集配电变压器下面的所有单元子区采集器的数据。从数据传输的角度看,其组网方式有:两级纯专线组网方式、两级混合组网方式、两级载波组网方式。

从组网拓扑的角度讲,只要在用户电能表、单元子区采集器、配变集中器采用专用信道通信,远程自动抄表系统的缆线工程量就非常大,有线专用信道的维护也有一定困难。鉴于这种情况,各科研单位和厂商都在努力做到取消单元子区采集器,实现用户电能表与配变集中器的直接低压电力线载波通信,这样就大大减少了缆线工程量,而且数据远程传输的组网拓扑与低压配电网保持一致,有利于系统的运行维护和用户数量的模数化扩展。这种拓扑要求一个用户终端,不但要实现电能计量,还要实现数据信息的编码、解码、载波收发等功能。可以构成完全基于低压电力线信道的载波电能表 配变集中器 营业站主机的组网拓扑。实践证实:目前市场上已经开发出来的窄带调制的低压载波表和配变集中器很难保证电量或控制数据的可靠传输。主要原因是低压电力线载波信道的特性随机性、时变性很大,非常地不稳定。因此,低压电力线载波技术是直接通过电力线组网的远程抄表系统进一步推广应用的瓶颈。

2试点居民小区远程抄表系统方案

在为试点居民小区远程抄表系统做的总体技术方案设计时,本文遵循三条基本原则:

(1)在试点小区的配电变压器和小区住户之间不敷设任何专用有线信道,数据的上行或下行传送必须使用现成的低压电力线作为数据媒介。

(2)只在配电变压器和住户地点对应安装数据的收发装置,建立起各用户电能表终端与配变集中器的直接数据链路,中间不安装任何硬件上的中继或第二级集中转发装置。

(3)用户电能表终端除了记录电量外,它还应该执行就地保护和远方监控功能。

2.1系统组成结构

系统由营业站用电治理主机、配电变压器集中器、接在配电变压器低压电力线上的多个用户电能表终端(接于A相的A1~Ap终端、接于B相的B1~Bm终端、接于C相的C1~Cn终端)和通信信道组成。配电变压器集中器和用户电能表终端分别与配电变压器、用户一一对应并就地分布式安装。用电治理信息只能在系统的上下级之间传输。其中用电治理主机到配电变压器集中器的信息传输媒介采用扩频无线信道或公共电话网(第一级信道),配电变压器集中器到用户电能表终端的信息传输媒介利用低压电力线载波信道(第二级信道)。显然,整个系统与配电变压器下面的电压电力网一样呈树形分布结构,可随用户发展和负荷增长任意扩展。

本系统的任务在于实现低压用户电量数据的远程传输和抄算,对低压电力用户的负荷和用电进行远程监控。

由于使用了分布式安装结构,在系统建设上与集中抄表箱用电系统相比,无须庞大繁琐的缆线工程,施工难度将会大幅下降。系统的扩展将随用户或配变数量的递增而模数化扩展,就象增加一个用户增加一块电能表那样简单。因此,系统扩展极具伸缩性,不会象集中式系统那样新建时资源闲置,用户发展时容量又不够。应该说,这个系统比较符合营业用电治理系统发展的主流方向。

2.2网络通信协议的选择与研究

在计算机网络中,信道共享技术已经比较成熟。一般可分为两类,即受控接入和随机接入。

随机接入共享信道的特点是所有用户都可以根据自己的意愿随机地发送信息。实际上就是争用接入,征用胜利者才能获得总线,从而发送自己的信息。典型的随机接入是载体侦听多重访问/冲突检测(CSMA/CD)网络,其为总线型结构,如图2所示。后文重点介绍的基于CEbus的扩频载波线性扫频信号(Chirp)由于具有自相关性,所以适用于CSMA网络。结合电力线的传输特性,综合比较各种网络,在本文所要开发的远抄系统中选用CSMA协议应该是比较合适的。CSMA协议网络的缺点,如时延不确定、重载时效率下降,对数据传输量较小的远程抄表系统来讲,并不是值得考虑的问题。

2.3用户电能表终端的总体设计

用户电能表终端由AC/DC开关电源模块、电量传感器模块、故障保护模块、计量模块、负荷控制模块、LED显示模块、MCU系统模块、低压扩频载波通信模块构成。

多输出开关电源负责为用户电能表终端供电,它输出DC 5V0.5A和DC±15V0.5A电源各一组,其交流输入的设计范围为AC220V±20。为了降低电源模块的体积,采用TOP2XX脉宽调制功率开关为核心器件,构成单端反激式电路。

故障保护模块负责监视低压用户的负荷电器的运行情况,当发生短路、过流、漏电或电网电压超标时,向MCU系统模块发出信号请求执行断电控制程序。

计量模块负责把用户的用电功率转化为频率正比于功率大小的脉冲串,提供给MCU系统模块进行电量计算。即使用户实施了窃电行为,它仍然可以输出正确的电量计算脉冲串,并向MCU系统发出窃电信号。

负荷控制模块是一个受MCU系统输出的TTL电平控制的大功率交流无触点开关,能够过零关断或开启6kW的负荷功率。

MCU系统由AT89C528位单片机、X5045看门狗芯片和DS1302时钟日历芯片构成。它是用户电能表终端的计算监控中心,主要负责对电量脉冲串进行计算或处理,执行就地或远方的负荷控制程序,与低压扩频载波通信模块进行数据交换并控制其收发信。

显示模块由一个8位LED及其动态扫描控制芯片构成,主要完成电量数据的旧的查询显示,便于用户了解自己的电量或电费情况。

低压扩频载波模块主要由SSCP200低压电力线扩频载波网络控制器、前置功放和电力线耦合电路构成,负责对MCU系统送来的数据进行线性扫频调制,放大后耦合到电力线上,对通过电力线送来的载波信号进行扫频解调后送给MCU系统。这种数据通信采用了收发分时控制的半双工通信。该模块与配变集中器的设计通信距离为1000m。在信道特性最恶劣的情况下,也要保证不小于600m。

2.4配电变压器集中器的总体设计

配变集中器主要由三个分相耦合的低压扩频通信模块、三个按相配置的电能表模块、MCU单片机系统、3个双口RAM和一个工控机系统及电话线调制解调器构成。

低压扩频载波通信模块分相配置,是为了杜绝跨相耦合载波信号,电能表和MCU电路按相配置是为了使集中器能够并行处理各相的用户终端数据,增加数据传输和处理速度。以上电路基本上与用户终端类似,只是不具备故障保护、窃电侦测和负荷控制电路而已。

在配变集中器内设置电能表模块便于对每一相的总电量进行计量和统计分析,以作为用电治理部门考核线损和平衡3相负荷的依据。

工控机完成与每一相的MCU系统交换数据,并通过Modem和公用电话网与营业站抄算主机交换数据信号。上行和下行数据要经过工控机的处理,并在不需要数据通信的时候储存在工控机的磁盘中。鉴于数据处理量不是很大,选用486工控机就能满足要求。

2.5营业站抄算主站的总体设计

营业站抄算主机主要由PC机、电话线Modem及其软件构成。主要负责营业站到配电变压器集中器之间的数据指令的调制发送、解调接受及综合分析处理。另外,电话线Modem还可以将营业站用电治理主机与电费托收银行联机。

PC微机主要完成用户用电数据的采集,送电能表参数、用电信息、欠费警告及断电控制,不安全和违章用电监视报警,用户用电治理及查询,报表输出等功能。

其中,用电采集程序可以进行定时统抄、不定时统抄及单用户随时查抄;用电量可按地址统计,也可按相位统计,以便合理地调整配电变压器A、B、C三相负载的配置,使供电系统的性能发挥得更好;在电费结算时,可通过分时计费,合理定价,使负载基本恒定;电表参数、用电信息可送到用户终端,从而非常方便地修改电能表参数,显示用户的用电量及结算电费;欠费警告及断电控制功能可督促用户按时交费;不安全和违章用电监视报警功能可使用电监察人员迅速准确地维护用电秩序;日报表、月报表、年报表的形成和输出方便而快捷。

3结论与展望

3.1研究结论

我们在几种不同的环境下对用户电能表终端和配变集中器进行了测试,取得了比较满足的结果。依照CEBus标准编制的程序,在传输过程中,没有发现误码的存在。不同的测试环境下,干扰强度与信道输入阻抗的波动范围是影响扩频载波可靠通信距离的两个主要因素,数据通信成功的平均帧延迟时间与平均通信距离的关系较大。

户表采集器的性能指标如下:

·载波通信距离:架空网或电缆电网均可达1000m;

·抄表成功率:可达99.7;

·抄表正确率:100;

·读数准确度:计数精度达到小数点后两位,用户电能表读数与标准电能表的误差不大于1个字(即0.5kWh);

·时钟误差:天天小于 1s;

·用户电能表功耗:待机时≤200mW,发送数据时≤700mW,发送时间≤25ms,接收灵敏度≤2mW;

·采用工业级芯片,环境温度:-20~ 85℃;

·工作电压:AC165~260V;

·掉电保护:电源断电情况下,数据可保存10年;

3.2总结与展望

电能直供到户是供电企业最重要的营销举措,这使得电能营销部门的电能抄算业务量成倍增长。采用新的远程抄表技术来改善用电治理和电能营销的装备水平、优化电能市场服务的技术手段是供电企业最紧迫的需求。

我国的低压电能供给都是以配电变压器为一个台区单元,在配电变压器和用户之间不使用任何独立的中继通信设备或专用信道,直接利用低压电力线构成与低压电网系统结构相对应的用户电能表终端+配变集中器+营业站电能抄算主机组网的远程抄表系统,我们认为这符合低压远抄系统的主流发展方向,因而具有推广应用前景。

具有低压扩频载波数据远传功能的用户电能表终端和配变集中器是构成本文所提出的远程抄表方案的核心装置。最终的技术目的的实现必须建立在成功地开发用户电表终端和配变集中器的基础之上,还要做营业站抄算主机的软件编制和数据库编制。显然本文所做的工作还离这一目标有相当长的一段距离。本文只是对用户电能表终端及其扩频载波通信模块作了实用化开发设计和样机试制,并且通过样机的现场测试。配变集中器、软件只作了一个方案性的设计。

本文所取得的另一个成果就是,把用户电能表终端设计成一个智能化的综合性终端,除了完成电能的记录和计量外,它还具有用户现场防窃电、防误接线、故障保护、远方停送电、远方修改电能表参数和负荷控制功能,这些技术手段对提高供电企业的用电治理水平无疑具有积极的意义。

参考文献

[1]邵源,钟炬,等.关于低压用户集中抄表系统综述.电力系统自动化,1999(9).[2]徐平平,邱玉春.电力集中抄表中的通信技术.电力系统通信,1999(4).[3]杨士中.静电无绳广播方法.[4]周世炜,张绍卿,洪文学.一种基于电力配电网络的双向工频通信技术.电子技术,1999(8).[5]邱玉春.利用电力线组网的监控网络协议选择.现代通信,2000(1).[6]邱玉春,徐平平.低压电力线载波通信特性分析.电力系统通信,1998:6(48).

第五篇:信息检索论文

论搜索引擎中文自动分词技术

【摘要】

搜索引擎是应用在web上的软件系统,它以一定的策略搜集和发现信息,再对信息进行处理和组织后为用户提供web信息查询服务。搜索引擎分三个大模块:网页搜集,预处理和查询服务。其中对搜索信息的预处理阶段的关键技术是中文分词和建立倒排文件,本文主要论述搜索引擎工作过程中的中文自动分词技术。

【关键字】:搜索引擎,中文分词,分词方法,分词难题 【正文】

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度等大型搜索引擎一直是人们讨论的话题。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

一、为什么要进行分词?

汉语是世界上最古老和最丰富的语言之一,但是汉语语法才有将近一百年的历史,而且现代汉语白话文的形成历史也比较短,加上汉语自身的特点,因此它的形式化研究更加困难。对英文而言,是以词为单位,词与词之间有空格隔开,而中文是以字为单位,多个字连在一起才能构成一个表达具体含义的词,词与词之间没有分割,因此,对于支持自然语言检索的工具,从语句中划分出具有独立意义的词的过程即进行中文分词必不可少。

二、什么是中文分词?

中文分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后,根据用户的关键词串用各种匹配方法进行的一种技术。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

三、中文分词与搜索引擎

分词技术使用在搜索引擎网页预处理阶段。搜索引擎网页预处理第一步是为原始网页建立索引,形成索引网页库;第二步是对网页进行切分,也就是分词,将每一篇网页转化为一组次的集合;最后将网页索引词的映射转化为索引词到网页的映射,形成倒排文件。

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。而且中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

四、中文分词技术的分类

我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。(一)基于字典、词库匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下:

(1)最大正向匹配法(MaximumMatching Method)通常简称为MM法

其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理…… 如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

(2)逆向最大匹配法(Recerse MaximumMatching Method))通常简称为RMM法

RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士 / 研究 / 生产”。

(3)最少切分法:使每一句中切出的词数最小。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

(二)全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。(1)全切分

全切分要求获得输入序列的所有可接受的切分形式,而部分切分只取得一种或几种可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略,都可能会遗漏正确的切分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得了所有可能的切分形式,因而从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式,它的句子覆盖率和分词覆盖率均为100%,但全切分分词并没有在文本处理中广泛地采用。(2)基于词的频度统计的分词方法:

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

(三)基于知识理解的分词方法

该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

(四)一种新的分词方法

并行分词方法:这种分词方法借助于一个含有分词词库的管道进行 ,比较匹配过程是分步进行的 ,每一步可以对进入管道中的词同时与词库中相应的词进行比较 ,由于同时有多个词进行比较匹配 ,因而分词速度可以大幅度提高。这种方法涉及到多级内码理论和管道的词典数据结构。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

五、分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

(一)切分歧义

就人对汉语的理解而言,汉语的分词是一个理解的过程,这个过程综合了词法、语法、语义等各种信息。因此,一个理想的分词系统也应综合运用这些信息,而在计算机处理中这些信息的提取又是以分词为前提的。所以,分词与这些信息的运用是既相联系又相制约的一种相辅相成的关系,而纯粹的机械切分必然会带来切分歧义。

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:学历史知识,因为“学历”和“历史”都是词,那么这个短语就可以分成“学历”和“历史”。这种称为交叉歧义。像这种交叉歧义十分常见由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

(二)新词

专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“张三虎是山东人”中,“张三虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“张三虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“张三虎头虎脑的”中,“张三虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等,还有目前网络流行语词,如“有没有”、“伤不起”“神马浮云”、“童鞋们”、“萝莉”等等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

判断一个系统的中文分词功能好坏,主要在于消歧功能和对未登录词识别功能。并且优秀的分词策略应该是尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。

【参考文献】

【1】 吴胜远;并行分词方法的研究--《计算机研究与发展》1997年07期

【2】 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年

【3】 梁斌;走进搜索引擎 电子工业出版社 2007年1月

【4】(美)克罗夫特;搜索引擎:信息检索实践 机械工业出版社

2010年

下载信息检索论文(完整版)word格式文档
下载信息检索论文(完整版).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    信息检索论文

    《现代信息检索》课程心得体会 摘要:为了培养大学生对科技信息资源检索与利用的能力,我校开设了现代信息检索这门课程。人文社科学院11策划班在本学期开设的这门课程,通过8周的......

    信息检索论文

    信息检索实验报告 题目:现代会计发展趋势分析 学院: 班级: 学号: 姓名: 成绩: 辽宁工程技术大学基础教学部 现代会计发展方向分析 摘要:综合考虑我国各级会计人员的主要工作任务的......

    信息检索论文(范文大全)

    关于“基于MATLAB的随机信号分析方法”的科技文献检索 (西北大学信息与科学技术学院,西安,710127) 摘要:随机信号的分析对现代通信有极其重大的意义。 本设计通过使用MATLAB工具......

    信息检索论文

    信息检索与搜索引擎(论文) 网页净化与消重技术 学院(系):信息科学与工程学院 专 业:计算机应用技术 年 级: 学生 姓名: 学 号指导 教师 网页净化(noise reduction):识别和清除网......

    信息检索论文

    信息检索与利用论文 学院:机械与电子学院 专业:机械电子工程 班级: 093152 姓名: 学号: 09315205 指导教师: 2012年 04 月日检索题目:机械产品绿色设计 分析课题:本课题的学......

    信息检索期末论文

    在研究“氧化锌半导体薄膜的制备及表征”课题中,信息检索的应用 首先当我们拿到课题“氧化锌半导体薄膜的制备及表征”课题之后,我们马上需要做的是查找相关的文献,获取相关的......

    信息检索论文综述

    垃圾渗滤液处理技术 研究进展 班级:06级环境工程3班 学号:2006650703 姓名:宋美虹 指导老师:石露 垃圾渗滤液处理技术研究进展 摘要:近年来城市垃圾的处理处置问题已经成为人......

    信息检索论文[五篇]

    人力资源管理浅论 孙立帆 (班级 国财务11-05班 学号20111381) 【摘要】我国人力资源管理策略,主要是不断提高人力资源管理者素质和管理水平。在经历发达国家先进经验与市场......