河北大学信息检索选修论文

时间:2019-05-13 15:30:47下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《河北大学信息检索选修论文》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《河北大学信息检索选修论文》。

第一篇:河北大学信息检索选修论文

因特网信息检索与利用检索报告 2009445143 郭孟羲

关于智能电网研究综述

一、课题分析。

智能电网(smart power grids),就是电网的智能化,也被称为“电网2.0”,它是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用,实现电网的可靠、安全、经济、高效、环境友好和使用安全的目标,其主要特征包括自愈、激励和包括用户、抵御攻击、提供满足21世纪用户需求的电能质量、容许各种不同发电形式的接入、启动电力市场以及资产的优化高效运行。包括电力、通信、自动化、软件等行业。

智能电网将是我国电网未来的发展方向。国家电网公司2010年1号文件就是《关于加快推进坚强智能电网建设的意见》,提出三个阶段的“坚强智能电网”建设的规划:2009~2010年为规划试点阶段,重点开展规划工作;2011~2015年为全面建设阶段,加快建设华北、华东、华中“三华”特高压同步电网,初步形成智能电网运行控制和互动服务体系;2016~2020年为引领提升阶段,全面建成统一的“坚强智能电网”。而根据国家电网此前的规划,到2020年智能电网总投资规模接近4万亿元。

“十二五规划”期间,智能电网建设将进入全面建设阶段,预计国家投资额将近2万亿元。智能电网的发展将带动风电、太阳能、生物质能等新能源的进一步发展。(科技日报2010年10月)

专业分流后,我选择了电气工程及自动化专业,智能电网有关课题迅速出现在我的视野,紧跟国家“十二五“发展潮流,大力发展智能电网,本文意在调查、分析、研究关于智能电网有关问题。

二、检索工具选择。1.springer数据库

2、中国期刊全文数据库

3、中国优秀博硕士论文全文数据库

三、检索词和检索结果。

1、springer数据库

以“smart power grids”为检索词进行了精确检索,时间段设为2005年12月至2010年12月,共检索出6篇外国文献。

2、中国期刊全文数据库

以“智能电网+智能电力系统”检索项:篇名;从2005年到2010年范围:全部期刊;排序:相关度,共检索出1209条。

3、中国优秀博硕士论文全文数据库

以“智能电网+智能电力系统”为检索式,检索项:题名,从2005到2010模糊检索,共检索出8篇论文。

因特网信息检索与利用检索报告 2009445143 郭孟羲

四、研究综述。

通过阅读先关文献发现近几年对于智能电网的研究主要集中在解决目前电网设备落后问题,将其应用于提高能源利用等方面,及智能电网要实现的目标。(1)《The Importance, Design and Implementation of a Middleware for Networked Control Systems》(Studies in Computational Intelligence, 2011, Volume 324, Information Retrieval and Mining in Distributed Environments Pages)中提到奥巴马上任后提出的能源计划,除了已公布的计划,还将着重集中对每年要耗费1200亿美元的电路损耗和故障维修的电网系统进行升级换代,建立美国横跨四个时区的统一电网;发展智能电网产业,最大限度发挥美国国家电网的价值和效率,将逐步实现 美国太阳能风能地热能的统一入网管理;全面推进分布式能源管理,创造世界上最高的能源使用效率。

可以看出美国政府的智能电网有三个目的,一个是由于美国电网设备比较落后,急需进行更新改造,提高电网运营的可靠性;二是通过智能电网建设将美国拉出金融危机的泥潭;三是提高能源利用效率。

再有就是2006年,IBM公司提出的“智能电网”解决方案。IBM的智能电网主要是解决电网安全运行、提高可靠性,从其在中国发布的《建设智能电网创新运营管理-中国电力发展的新思路》白皮书可以看出,解决方案主要包括以下几个方面:一是通过传感器连接资产和设备提高数字化程度;二是数据的整合体系和数据的收集体系;三是进行分析的能力,即依据已经掌握的数据进行相关分析,以优化运行和管理。该方案提供了一个大的框架,通过对电力生产、输送、零售的各个环节的优化管理,为相关企业提高运行效率及可靠性、降低成本描绘了一个蓝图。是IBM一个市场推广策略。

(2)中国能源科学家武建东提出的“互动电网”。互动电网,英文为Interactive Smart Grid,它将智能电网的含义涵盖其中。互动电网定义为:在开放和互联的信息模式基础上,通过加载系统数字设备和升级电网网络管理系统,实现发电、输电、供电、用电、客户售电、电网分级调度、综合服务等电力产业全流程的智能化、信息化、分级化互动管理,是集合了产业革命、技术革命和管理革命的综合性的效率变革。它将再造电网的信息回路,构建用户新型的反馈方式,推动电网整体转型为节能基础设施,提高能源效率,降低客户成本,减少温室气体排放,创造电网价值的最大化。互动电网的功效包括:一是智能电网能够实现双向互动的智能传输数据,实行动态的浮动电价制度;二是可以利用传感器对发电、输电、配电、供电等关键设备的运行状况进行实时监控和数据整合,遇到电力供应的高峰期之时,能够在不同区域间进行及时调度,平衡电力供应缺口,从而达到对整个电力系统运行的优化管理;三是智能电网能够将新型可替代能源接入电网,比如太阳能、风能、地热能等,实现分布式能源管理;四是可以提高供电效率,减少能量损耗,改善供电质量,解决电网商业化运转;五是智能电表可以作为互联网路由器,推动电力部门以其终端用户为基础,进行通信、宽带业务或传播电视信号。为此,IT产业的深度革命和能源革

因特网信息检索与利用检索报告 2009445143 郭孟羲

命将成为孪生兄弟,智能电网改革将推动全球能源革命的深度扩散。通过建造互动的电网,将推进IT革命进入创新阶段;将为消费者提供更好的减少能源消耗的路径;将为整个社会节约成本、降低温室气体排放,并促进绿色经济占统治地位。

武建东认为,定义一个概念解放一个时代,把握一个概念焕发一个行业的潜能,而界定电网信息化的概念是确定一个国家电网现代化的基本前提。中国电网升级化路线应该定义为互动电网的变革,互动电网的发展是全球工业和信息业的一次新产业革命、技术革命和管理革命,应该以此为基础制定中国高起点的电网现代化的战略发展路线。

(3)华北电力大学曲朝阳在《智能电网知识可视化引擎研究》列举了智能电网的发展历程。

2005年科学家坎贝尔发明了一种技术,利用的是(Swarm群体行为)原理,让大楼里的电器互相协调,减少大楼在用电高峰期的用电量。坎贝尔发明了一种无线控制器,与大楼的各个电器相连,并实现有效控制。这个技术赋予电器于智能,提高能源的利用效率。

2006年,欧盟理事会的能源绿皮书《欧洲可持续的、竞争的和安全的电能策略》(A European Strategy forSustainable,Competitive and SecureEnergy)强调智能电网技术是保证欧盟电网电能质量的一个关键技术和发展方向。这时候的智能电网应该是指输配电过程中的自动化技术。

2006年中期,一家名叫“网点“(GridPoint)的公司最近开始出售一种可用于监测家用电路耗电量的电子产品,可以通过互联网通信技术调整家用电器的用电量。这个电子产品具有了一部分交互能够,可以看作智能电网中的一个基础设施。

2006 年,美国IBM公司曾与全球电力专业研究机构、电力企业合作开发了“智能电网”解决方案。这一方案被形象比喻为电力系统的“中枢神经系统”,电力公司可以通过使用传感器、计量表、数字控件和分析工具,自动监控电网,优化电网性能、防止断电、更快地恢复供电,消费者对电力使用的管理也可细化到每个联网的装置。这个可以看作智能电网最完整的一个解决方案,标志着智能电网概念的正式诞生。

2007年10月,华东电网正式启动了智能电网可行性研究项目,并规划了从2008年至 2030年的“三步走”战略,即:在2010年初步建成电网高级调度中心,2020年全面建成具有初步智能特性的数字化电网,2030年真正建成具有自愈能力的智能电网。该项目的启动标志着我国开始进入智能电网领域。

2008年美国科罗拉多州的波尔得(Boulder)已经成为了全美第一个智能电网城市,每户家庭都安装了智能电表,人们可以很直观地了解当时的电价,从而把一些事情,比如洗衣服、烫衣服等安排在电价低的时间段。电表还可以帮助人们优先使用风电和太阳能等清洁能源。同时,变电站可以收集到每家每户的用电情况。一旦有问题出现,可以重新配备电力。

因特网信息检索与利用检索报告 2009445143 郭孟羲

2008年9月 Google与通用电气联合发表声明对外宣布,他们正在共同开发清洁能源业务,核心是为美国打造国家智能电网。

2009年2月28日,作为华北公司智能电网建设的一部分——华北电网稳态、动态、暂态三位一体安全防御及全过程发电控制系统在京通过专家组的验收。这套系统首次将以往分散的能量管理系统、电网广域动态监测系统、在线稳定分析预警系统高度集成,调度人员无需在不同系统和平台间频繁切换,便可实现对电网综合运行情况的全景监视并获取辅助决策支持。此外,该系统通过搭建并网电厂管理考核和辅助服务市场品质分析平台,能有效提升调度部门对并网电厂管理的标准化和流程化水平。

美国谷歌2009年3月3日向美国议会进言,要求在建设“智能电网(Smart Grid)”时采用非垄断性标准。

2010年1月12日,国家电网公司制定了《关于加快推进坚强智能电网建设的意见》,确定了建设坚强智能电网的基本原则和总体目标。(4)智能电网的实现目标。,在《关于我国智能电网的发展与思考》一文中指出:智能电网的目标是实现电网运行的可靠、安全、经济、高效、环境友好和使用安全,电网能够实现这些目标,就可以称其为智能电网。

智能电网必须更加可靠—智能电网不管用户在何时何地,都能提供可靠的电力供应。它对电网可能出现的问题提出充分的告警,并能忍受大多数的电网扰动而不会断电。它在用户受到断电影响之前就能采取有效的校正措施,以使电网用户免受供电中断的影响。

智能电网必须更加安全—智能电网能够经受物理的和网络的攻击而不会出现大面积停电或者不会付出高昂的恢复费用。它更不容易受到自然灾害的影响。智能电网必须更加经济—智能电网运行在供求平衡的基本规律之下,价格公平且供应充足。智能电网必须更加高效—智能电网利用投资,控制成本,减少电力输送和分配的损耗,电力生产和资产利用更加高效。通过控制潮流的方法,以减少输送功率拥堵和允许低成本的电源包括可再生能源的接入。

智能电网必须更加环境友好—智能电网通过在发电、输电、配电、储能和消费过程中的创新来减少对环境的影响。进一步扩大可再生能源的接入。在可能的情况下,在未来的设计中,智能电网的资产将占用更少的土地,减少对景观的实际影响。智能电网必须是使用安全的—智能电网必须不能伤害到公众或电网工人,也就是对电力的使用必须是安全的。

参考文献

1、《The Importance, Design and Implementation of a Middleware for Networked Control Systems》,Studies in Computational Intelligence, 2011, Volume 324, Information Retrieval and Mining in Distributed Environments Pages,springer数据库。

2、《智能电网知识可视化引擎研究》,华北电力大学,曲朝阳,2010,年12月,中国优秀博硕士论文全文数据库。

因特网信息检索与利用检索报告 2009445143 郭孟羲

3、《武建东:中国能源改革路径选择》,中国改革,2009年7月。

4、《关于我国智能电网的发展与思考》,王熙喜,山西广播电视大学学报,2010年五月。

第二篇:信息检索论文

应用化学

化学与化工信息检索论文

题目:造纸污水处理技术现状及进展

学生姓名------学号--------专业应用化学指导教师----

2010年12月 25日

造纸污水处理技术现状及进展

摘要:本文在查阅相关资料的基础上,介绍了国内外的造纸废水处理的常用方法,并对各种方法进行了评价和分析,综述了造纸废水处理研究的现状和进展。

关键词:造纸;废水处理;治理技术

随着造纸工业的迅速发展,造纸工业废水已经成为水环境的重要污染源之一。在造纸过程中,除纤维素和部分半纤维素之外的大量有机物要进入废水中,并且即使经过充分的废液回收利用,也还是或多或少地会有一些纤维素和半纤维素流失进入废水中。含有大量有机物的造纸废水排入水体,对水体会造成不同程度的污染。同时造纸过程中通常还需要加入一些必要的化学药剂和化学助剂,这些物质流失进入水体中更是加重了水体污染[1]。造纸工业的漂白工段通常是采用含氯化合物漂白,导致排出的漂白废水中含有大量的氯化有机物,其中的氯苯酚、氯化脂肪酸、氯化树脂酸、dioxin等有毒且难以处理的氯化有 机物,对环境中的生物具有强烈的毒害、致畸、致多发性脑神经病变作用[2],因此如何有效地去除造纸废 水中的含氯有机物已经成为废水处理的一大难题。本文在查阅大量文献资料的基础上主要介绍国内外处理造纸废水的方法和新技术,并就国内外治理造纸废水的现状和未来的发展前景加以评述。

1概况

据经贸委粗略估计,目前我国大小造纸厂约有近万家。造纸工业总的特点是:使用原料种类多、生产工艺类型多、中小企业多、技术装备落后者多。调查统计表明,造纸工业废水年排放总量达17亿t,占工业废 水总排放量的10以上。造 纸工业废水主要包括黑液或红液(蒸煮制浆废水)、中段废水(制浆洗涤、筛选、漂白废水)、造纸 白水(抄纸废水)三大类,其中蒸煮黑液的环境污染最为严重,占整个造纸工业污染的90%。制浆废水 BOD、COD、SS、pH、色度、浊度等均严重超标;中段废水成分与制浆废水相近,但浓度低,富含漂白工段产生的对环境危害最大的有机氯化物;抄纸废水中主要含有细小纤维、填料(高岭土等)和胶料(松香等),BOD值较低。造纸工业废水的治理是国内外造纸行业亟待解决的难题[3]。

2治理方法

2.1物理化学法

物理化学法是通过物理或者化学反应的作用来达到去除废水中的污染物的目的,主

要有以下方法:

2.1.1臭氧法

臭氧氧化技术已问世多年,近年来,由于低成本的臭氧发生装置和臭氧处理装置的出现而重新成为研究热点。臭氧(O3)是一种强氧化剂,O3作为两性离子,能选择性地分解发色基团。安郁琴[4]将经过化学混凝处理后和经过化学混凝过滤吸附处理后的麦革浆黑液利用臭氧法处理,处理 20分钟后脱色率可以达到 82.1%,但 CODCr去除率仅 15.8%,BOD5去除率为24.8%,Ff1此可见,臭氧脱色效果显著,但对 CODCr和 BOD5的去除效果不明显。臭氧在水中的溶解度较低,如何更有效地使臭氧溶解于水中从而提高其利用率已经成为该技术研究的热点。使用臭氧法也会产生其它副产物,其中最受关注的是羰基化合物中的醛类,比如甲醛、乙醛,这些物质具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。

2.1.2光催化氧化

光催化氧化技术是近年来比较活跃的研究领域,光催化氧化技术是在光化学氧化技术的基础上发展起来的。张志军等[5]利用中压汞灯作光源,研究了氯代二苯并一对一二哑英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反应,在室温下,4h内DCCD、PCDD和OCDD分别降解87.2%、84.6%和91.2%。M.Cristina Yeber等

[6]将 TiO2、Zno同定在玻璃上,对漂白废水进行了光催化氯化处理,处理 120min后,废水的色度可完全去除,总酚含量减少了85%,TOC减少了50%,处理后残留有机物的急性毒性和AOX比处理前大为减少,高分子化合物几乎全部降解。

2.1.3混凝法

混凝法是目前国内外重点研究的方向之一,该法适应性强、基建投资低、管理简单,是水处理常用的方法,在造纸行业的废水处理中使用普遍。造纸废水中由于含有大量纤维和化学药剂,所以一般在处理造纸废水时首先要用混凝法除去这些物质。张学洪、解庆林[9]等利用聚合氯化铝处理广西某造纸厂的造纸终端废水(CODcf=400mg/L),处理后可以达到国家污水排放标准(CODcf<100 mg/L)。黄国林、乐长高等[1O]利用水溶性酚醛树脂和硫酸反应得到的聚合物处理抚州某造纸厂制浆车间排污口的废水,在最佳工艺条件下反应时,CODc和ss去除率分别可以达到80%一85%和 90% 一95%,处理水可以达到排放标准。

2.2 生物法

废水的生物处理方法就是利用微生物的新陈代谢功能使废水中呈溶解状和胶体状的有机污染物被降解并转化成无害稳定的物质,使废水得到净化。生物法处理废水因其运行成本低,效果较好而在废水处理中得到了广泛应用。造纸废水中含有大量有机物质,废水的可生化性较好,可以为生物法的微生物提供大量的营养物质,从而能保证微生物的正常生长繁殖和生物法处理废水的正常运行。利用生物法对造纸废水进行二级处理可有效去除BOD、COD。造纸废水生物处理法主要有以下几种:

2.2.1好氧生物处理法

利用好氧微生物(主要为好氧菌)的新陈代谢作用来降解污染物,其中应用最多的主要是活性污泥法,我国的科研人员对活性污泥法处理造纸废水进行了大量的研究,取得了许多成功的经验。造纸废水中的木素是不易生物降解的物质,活性污泥对木素具有极好的吸附性能,通过生物降解和活性污泥吸附作用,可达到除去木素的目的,从而降低溶解木素的浓度。芬兰OULU纸浆厂[11]利用活性污泥法加污泥曝气再生处理漂白硫酸盐纸浆废水,可使BOD去除率达 90%,COD去除率达84%。活性污泥法由于其处理成本低、易于管理、处理效果较好而在废水处理中的应用越来越多。

2.2.2生物膜法

相对于活性污泥系统而言,生物膜系统具有如下显著优点:高容积负荷、更强的抗毒能力和耐负荷冲击能力、无须污泥回流且处理设施紧凑。朱光灿、吕锡武等[12]研究了采用脱木素—缺氧—好氧生物膜工艺处理造纸废水。其中的脱木素工艺可有效地将黑液中碱木素脱稳析出,并提高废水的可生化性,当废水 pH=5,绝干纤维污泥与废水 COD质量之比为 1.1,硫酸铝投加量为 160m g/L时,COD去除率大于 63%。生物法在利用微生物处理造纸废水时候,如果造纸废水中含有大量不利于微生物生长的物质时候,生物法处理效果较差,因此在制浆造纸过程中可以通过改变漂白剂的种类,提高造纸废水的可生化性,使其更利于生物法处理。

2.3 其他方法

2.3.1电化学法

利用电化学法进行废水的处理是电化学法获得应用的典型领域。通过电化学反应中的直接或者间接氧化和还原作用,可以破坏有毒或难降解有机物的结构,去除其生物毒性,提高其可生化性。电化学法处理废水一般无需加入化学药品,后处理简单,占地面积小,管理方便,被称为清洁处理法。景峰、王耀新、朱文菊等将电化学和凝聚沉淀法两种方法联合起来处理造纸废水,使造纸废水COD去除率达到55%~70%,色度去除,率达90%~95%[13]。目前关于电化学法的许多问题特别是降解机理、处理速度和经济

性问题尚未完全解决,电化学处理废水电耗较高,使该方法的工业应用受到限制。

2.3.2湿式空气氧化法

湿式空气氧化法是目前研究较多的新型处理方法,即在高温、高压下在液相中利用空气或者氧气作为氧化剂,将废水中的有机物氧化成二氧化碳和水,从而达到去除污染物的目的。国内从80年代开始进行湿式空气氧化法的研究,先后进行了造纸黑液、含硫废水、酚水及煤制气废水、农药废水、印染废水等的实验研究,目前,湿式空气氧化法在国内尚处于试验阶段。与常规方法相比,湿式空气氧化法具有适用范围广、处理效率高等优点。但由于湿式空气氧化法一般要求在高温高压的条件下进行,对设备材料的要求较高,须耐高温、高压并耐腐蚀,因此设备费用高,系统的一次性投资大,在实际推广应用方面仍存在着一定的局限性。

2.3.3超临界水氧化法

在处理难降解有机废水方面,超临界水氧化技术是目前研究较为活跃的新技术。由于超临界水气液 相界面消失.成为一均相体系,因而超临界水中的有机物反应速度极快。Model等[14]对有机炭含量达 27.33 g/L的废水进行超临界水氧化处理,在实验条件下,1分钟内就使有机氯和有机炭的去除率分别达到99.99%和99.97%。超临界水氧化技术具有良好的工业应用前景,但是由于对反应条件要求较为苛刻(高温、高压),对设备要求偏高,因此还有一些实际的技术问题需要解决。造纸废水治理技术展望

随着全球可持续发展战略的实施,循环经济和 清洁生产技术越来越受到人们的关注,造纸工业废水治理从末端治理向清洁生产工艺、物质循环利用、废水回用综合防治方向发展。未来造纸工业废水治理将突出以下几个方面:

(1)贯彻循环经济理念、重视清洁生产技术的开发与应用,提高物质的转化率和循环使用率,从源头上削减各污染物的产生量并在厂内将大量废水循环回用,实现封闭循环,结合废水综合治理,最终实现废水零排放。

(2)综合目前国内外技术发展情况,应重视开发和引进先进的治理技术:重视黑液 处理技术(主要为碱 回收 技术)、重 视 SS、BOD、COD 的去除技术及脱色技术。

(3)应重视 生物处理方法在造纸工业废水处理中的应用,生物技术具有成本低、效益高、与其他方法组合可大大提高造纸废水的处理率,随着分子生物学技术、物种微生物技术的发展和应用,具有高效、耐毒性的菌种不断培育成功,为生物技术的广泛应用提供了前提条件。

(4)人工湿地处理系统作为一种成本低廉、节能降耗、简单易行、效果显著、无二次污染的废水处理技术,是造纸废水处理的新方法[15]。

(5)废纸造纸企业均存在诸多设计、建造、管理问题,阻碍废水回用现状的进一步改善。节水空间仍然很大。生产过程中,应加强管理,培养员工节水意识。调动员工积极性,根据实际生产经验,提出合理的回改进措施[16]。

参考文献

[1] 张 珂,陈仁锐。丁明秀,等.造纸工业污染防治技术与环境管理[M].北京:轻工业出版社,1988.14-15.

[2] 谢 澄,陈中豪,疏明君,等.生物流化床~化学絮凝法处理纸浆漂白废水[J].工业用水与废

水,2002,33(I):27-30.

[3] 黄夏银,冯彬.造纸废水处理技术研究现状及展望[J].污染防治技术,2004,12:17(4):9-11.

[4] 刘全校,安郁琴.臭氧 用于治理造纸废水.纸和造纸,2000,7:44.

[5] 张志军,包志成,王克欧.二氧化钛催化下的氯代二苯并一对一二哑英光解反应[J].环境化学,1996,15(1):47.

[6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of

C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.

[9] 张学洪,解庆林,李金城,等,造纸废水的混凝处理研究[J].桂林工学院学报,2000,(4):

189-191.

[10] 黄国林,乐长高,粱平.利用聚合物处理造纸废水的研究[J,环境科学与技术,1997,(1):

24—26.[11] 范懋功.活性 污泥法处理造纸废水….给水排水,1996,22(12):29—31.

[12] 朱光灿,吕锡武,宋海亮,等,脱木素一缺氧一好氧生物膜工艺处理造纸废水试验研究[J],给水排水,2004.30(1):56—59.

[13] 景 峰,王耀新,宋文菊,试论电化学一凝聚法处理造纸废水[J].黑龙江环境通报,2000,24(2):

81—82.

[14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US

Patent:4543(9).1 985.09.24.

[15] 朱光灿,吕锡武,宋海亮,等,造纸废水治理技术研究现状及展望[J],污染防治技术,2004.17(4):14.

[16] 张金红,废纸造纸废水回用工艺现状及改造实例[J],湖北造纸,2010.3:38.

第三篇:信息检索论文

关于数字化学习资源利用的思考

人资1W 学号:10213103

姓名:陈磊 班级:10摘 要:随着教育信息化工程的整体推进,要求数字化学习资源的建设也要同步地向前发展。正确认识数字化学习资源建设的现状,并提出正确有效的举措与做法,对于数字化学习资源的建设具有重要的指导作用。

关 键 词:数字化学习资源、发展趋势、应用与开发、质量监控

一、关于数字化学习资源的内容———要关注国际上教育思想的转变

1.1在考虑数字化学习资源建设的过程中,首先应当看到,从上世纪90年代末到本世纪初这几年间,整个国际教育界的教育思想有一个大的转变。[1] 由于在网络环境下既有丰富的学习资源,又有很强的交互性,便于自主学习、自主探究,所以,随着网络的普及,在建构主义理论的支持下,基于网络的“以学生为中心”的教育思想在上世纪90年代初期、中期甚至到90年代末都一直很流行,而传统的“以教师为中心”的教育思想则受到严厉的批判。与此同时,在教学过程中教师必不可少的主导作用(如正确的启发引导、重点与难点的分析把握、促进新知与旧知之间的联系等等)也被当作糟粕扔掉了。

与国际教育界上述教育思想观念的转变相适应,数字化学习资源建设的内容也要相应地实现由支持“以教为主”或“以学为主”,转变为支持“学教并重”。1.2 支持“以教为主”的数字化学习资源,由于其主要关注点是辅助教师解决教学中的重点、难点,提高教学效率,更好地向学生传授知识(而对学生自主学习、自主探究等活动则缺乏相应的关注与支持),故其内容强调要为一线教师的学科教学提供多媒体课件、CAI课件、典型课例、教学设计方案和各类试题等资源;支持“以学为主”的数字化学习资源,由于其主要关注点是要促进学者的自主学习、自主探究活动和小组的协作学习、协作探究活动(而对如何辅助教师的“教”,则缺乏相应的关注与支持),故其内容应是能起认知探究工具作用与协作交流工具作用的数字化学习资源。

二、关于数字化学习资源的管理———要关注两个新的发展趋势

关于数字化学习资源的管理,有两个新的发展趋势值得我们关注。

2.1目前对数字化学习资源的管理,主要考虑的问题是如何通过数据库存储方式对学习资源的数据内容进行有效的管理,但管理数字化学习资源的最终目的,是为了能在教学过程中充分地利用这些资源。所以,我们在建设数字化学习资源的过程中不仅应当关注学习资源的数据内容管理,同时也应当关注(甚至更应当关注)学习资源应用环境的支持与管理。

学科群资源网站是以不同学科的数字化学习资源为核心,建设起一个集资源共建共享、在线课件开发、联机备课、学科信息发布、互动交流等功能于一体的多学科、多层次的学科网站群,目的是使数字化学习资源的利用能更加符合教师和学生的思维方式与行为习惯。

2.2目前,绝大部分省、市或地区的数字化学习资源都是分散存储于该省、市的各个学校或该地区的不同学习资源网站上,应当采用何种机制才能对分散存储的资源进行有效管理并进行共建、共享,这是数字化学习资源建设关注的焦点之一。我们认为,建立“区域内分布式资源网络管理系统”是有效解决大范围数字化学习资源整合与共享问题的较佳方案。建设区域内分布式资源网络管理系统的核心技术包括两项内容:

2.2.1对资源目录的集中管理

本地区的学习资源中心(例如省电教馆)要为广大用户提供一个能覆盖本地区所有数字化学习资源网站的资源目录管理系统,以便本地区不同学习资源网站之间的互相访问与资源共享。而且,还要有专人对该资源目录系统进行经常性维护,从而达到本地区范围内各资源站点目录的同步更新与统一管理。与此同时,系统还应提供专用的教学搜索引擎,以实现对不同资源站点上相关信息的快速查询与检索;当用户需要打开某个资源时,资源目录管理系统应提供重定向功能 2.2.2对资源数据的分布式存储

数字化学习资源网络系统是由多个资源站点组成的,资源网内每一个提供资源信息服务的站点都是资源网中的一个节点———用于存储实际的物理资源,资源节点之间基于一定的信任授权关系进行资源互访,资源元数据信息与本地区学习资源中心目录管理系统中的目录信息保持同步,因此可以实现网络系统内数字化学习资源的分布式存储和集中式管理,并在本地区范围内提供广泛的基于共享的数字化学习资源服务。

三、关于数字化学习资源的质量监控———评审机制的建立和实施

3.1当前数字化学习资源的建设呈无序状态,很多单位在组织资源建设时,只注重数量而忽视质量。应该通过建立有效的数字化学习资源评审机制,并提高评审结果的科学性和权威性来规范资源建设行为。与此同时,还应制定具有可操作性的数字化学习资源评价指标体系,这种评价指标的制定要突出数字化学习资源的教育特性和新课程标准对学习资源的要求,并要以素质教育和创新教育为基本出发点。3.2 为了保证数字化学习资源评审的科学性与有效性,应当采用专家评审与群众(用户)评价相结合的方式。

专家评审应建立包括几方面专业人员的评审小组,通常应该包括学科教学专家、教育技术专家、信息技术人员、统计人员(对资源评审结果进行统计)等。在整个评审过程中每个成员应各司其职,把好相应环节的质量关。

群众(用户)评价从时间上看,分为使用前评价和使用后评价两种。使用前评价是根据事先制定的数字化学习资源评价指标体系,为不同用户编写不同的问卷来获取评价信息及相应的得分———使用前的评价得分。使用后评价则主要依据公开发布该资源后被引用情况的统计信息(如被点击次数、被下载次数、被引用次数等)以及用户使用该资源后在网上的评论信息,把二者结合起来(即把被引用情况的统计信息和网上的评论信息结合起来)进行综合评价,才能得出相应的得分———使用后的评价得分。再对使用前评价和使用后评价所产生的两种得分作加权统计———由此即可得出群众(用户)评价的总得分。

最后,将专家评审的结果与群众(用户)评价的总得分二者结合起来,这才是能够保证数字化学习资源评审科学性与有效性的最终结果,并可以此作为确定该数字化学习资源评价等级以及收费标准的主要依据。

【参考文献】

[1]何克抗,从Blending Learning看教育技术理论的新发展[J].电化教育研究,2004,(3):1~6.2

第四篇:信息检索论文

居民用电远程抄表系统

长期以来,供电企业电能数据的抄算都是基于电能表的手工作业方式,即每月定期派人到各用户那里抄录电能表的用电数据作为电费计算和收缴的依据。随着电力负荷的急剧增长,一户一表和直供到户等营销举措的不断深入,用电企业纷纷将家属宿舍的用电治理业务交还供电企业,致使供电企业的电量抄录的工作量急剧膨胀。白银供电公司在城网农网改造结束后,仅市区居民直供用户将达到9万户,就地分散的手工抄表根本无法适应用电治理的需要。因此,远程抄表系统的技术研究和产品开发势在必行。

1远程自动抄表系统的现状及其特点

一般情况下,一个家属楼单元有14~18块低压电能表,单元子区数据采集器负责采集其下属的电能表电量数据,配变集中器则负责收集配电变压器下面的所有单元子区采集器的数据。从数据传输的角度看,其组网方式有:两级纯专线组网方式、两级混合组网方式、两级载波组网方式。

从组网拓扑的角度讲,只要在用户电能表、单元子区采集器、配变集中器采用专用信道通信,远程自动抄表系统的缆线工程量就非常大,有线专用信道的维护也有一定困难。鉴于这种情况,各科研单位和厂商都在努力做到取消单元子区采集器,实现用户电能表与配变集中器的直接低压电力线载波通信,这样就大大减少了缆线工程量,而且数据远程传输的组网拓扑与低压配电网保持一致,有利于系统的运行维护和用户数量的模数化扩展。这种拓扑要求一个用户终端,不但要实现电能计量,还要实现数据信息的编码、解码、载波收发等功能。可以构成完全基于低压电力线信道的载波电能表 配变集中器 营业站主机的组网拓扑。实践证实:目前市场上已经开发出来的窄带调制的低压载波表和配变集中器很难保证电量或控制数据的可靠传输。主要原因是低压电力线载波信道的特性随机性、时变性很大,非常地不稳定。因此,低压电力线载波技术是直接通过电力线组网的远程抄表系统进一步推广应用的瓶颈。

2试点居民小区远程抄表系统方案

在为试点居民小区远程抄表系统做的总体技术方案设计时,本文遵循三条基本原则:

(1)在试点小区的配电变压器和小区住户之间不敷设任何专用有线信道,数据的上行或下行传送必须使用现成的低压电力线作为数据媒介。

(2)只在配电变压器和住户地点对应安装数据的收发装置,建立起各用户电能表终端与配变集中器的直接数据链路,中间不安装任何硬件上的中继或第二级集中转发装置。

(3)用户电能表终端除了记录电量外,它还应该执行就地保护和远方监控功能。

2.1系统组成结构

系统由营业站用电治理主机、配电变压器集中器、接在配电变压器低压电力线上的多个用户电能表终端(接于A相的A1~Ap终端、接于B相的B1~Bm终端、接于C相的C1~Cn终端)和通信信道组成。配电变压器集中器和用户电能表终端分别与配电变压器、用户一一对应并就地分布式安装。用电治理信息只能在系统的上下级之间传输。其中用电治理主机到配电变压器集中器的信息传输媒介采用扩频无线信道或公共电话网(第一级信道),配电变压器集中器到用户电能表终端的信息传输媒介利用低压电力线载波信道(第二级信道)。显然,整个系统与配电变压器下面的电压电力网一样呈树形分布结构,可随用户发展和负荷增长任意扩展。

本系统的任务在于实现低压用户电量数据的远程传输和抄算,对低压电力用户的负荷和用电进行远程监控。

由于使用了分布式安装结构,在系统建设上与集中抄表箱用电系统相比,无须庞大繁琐的缆线工程,施工难度将会大幅下降。系统的扩展将随用户或配变数量的递增而模数化扩展,就象增加一个用户增加一块电能表那样简单。因此,系统扩展极具伸缩性,不会象集中式系统那样新建时资源闲置,用户发展时容量又不够。应该说,这个系统比较符合营业用电治理系统发展的主流方向。

2.2网络通信协议的选择与研究

在计算机网络中,信道共享技术已经比较成熟。一般可分为两类,即受控接入和随机接入。

随机接入共享信道的特点是所有用户都可以根据自己的意愿随机地发送信息。实际上就是争用接入,征用胜利者才能获得总线,从而发送自己的信息。典型的随机接入是载体侦听多重访问/冲突检测(CSMA/CD)网络,其为总线型结构,如图2所示。后文重点介绍的基于CEbus的扩频载波线性扫频信号(Chirp)由于具有自相关性,所以适用于CSMA网络。结合电力线的传输特性,综合比较各种网络,在本文所要开发的远抄系统中选用CSMA协议应该是比较合适的。CSMA协议网络的缺点,如时延不确定、重载时效率下降,对数据传输量较小的远程抄表系统来讲,并不是值得考虑的问题。

2.3用户电能表终端的总体设计

用户电能表终端由AC/DC开关电源模块、电量传感器模块、故障保护模块、计量模块、负荷控制模块、LED显示模块、MCU系统模块、低压扩频载波通信模块构成。

多输出开关电源负责为用户电能表终端供电,它输出DC 5V0.5A和DC±15V0.5A电源各一组,其交流输入的设计范围为AC220V±20。为了降低电源模块的体积,采用TOP2XX脉宽调制功率开关为核心器件,构成单端反激式电路。

故障保护模块负责监视低压用户的负荷电器的运行情况,当发生短路、过流、漏电或电网电压超标时,向MCU系统模块发出信号请求执行断电控制程序。

计量模块负责把用户的用电功率转化为频率正比于功率大小的脉冲串,提供给MCU系统模块进行电量计算。即使用户实施了窃电行为,它仍然可以输出正确的电量计算脉冲串,并向MCU系统发出窃电信号。

负荷控制模块是一个受MCU系统输出的TTL电平控制的大功率交流无触点开关,能够过零关断或开启6kW的负荷功率。

MCU系统由AT89C528位单片机、X5045看门狗芯片和DS1302时钟日历芯片构成。它是用户电能表终端的计算监控中心,主要负责对电量脉冲串进行计算或处理,执行就地或远方的负荷控制程序,与低压扩频载波通信模块进行数据交换并控制其收发信。

显示模块由一个8位LED及其动态扫描控制芯片构成,主要完成电量数据的旧的查询显示,便于用户了解自己的电量或电费情况。

低压扩频载波模块主要由SSCP200低压电力线扩频载波网络控制器、前置功放和电力线耦合电路构成,负责对MCU系统送来的数据进行线性扫频调制,放大后耦合到电力线上,对通过电力线送来的载波信号进行扫频解调后送给MCU系统。这种数据通信采用了收发分时控制的半双工通信。该模块与配变集中器的设计通信距离为1000m。在信道特性最恶劣的情况下,也要保证不小于600m。

2.4配电变压器集中器的总体设计

配变集中器主要由三个分相耦合的低压扩频通信模块、三个按相配置的电能表模块、MCU单片机系统、3个双口RAM和一个工控机系统及电话线调制解调器构成。

低压扩频载波通信模块分相配置,是为了杜绝跨相耦合载波信号,电能表和MCU电路按相配置是为了使集中器能够并行处理各相的用户终端数据,增加数据传输和处理速度。以上电路基本上与用户终端类似,只是不具备故障保护、窃电侦测和负荷控制电路而已。

在配变集中器内设置电能表模块便于对每一相的总电量进行计量和统计分析,以作为用电治理部门考核线损和平衡3相负荷的依据。

工控机完成与每一相的MCU系统交换数据,并通过Modem和公用电话网与营业站抄算主机交换数据信号。上行和下行数据要经过工控机的处理,并在不需要数据通信的时候储存在工控机的磁盘中。鉴于数据处理量不是很大,选用486工控机就能满足要求。

2.5营业站抄算主站的总体设计

营业站抄算主机主要由PC机、电话线Modem及其软件构成。主要负责营业站到配电变压器集中器之间的数据指令的调制发送、解调接受及综合分析处理。另外,电话线Modem还可以将营业站用电治理主机与电费托收银行联机。

PC微机主要完成用户用电数据的采集,送电能表参数、用电信息、欠费警告及断电控制,不安全和违章用电监视报警,用户用电治理及查询,报表输出等功能。

其中,用电采集程序可以进行定时统抄、不定时统抄及单用户随时查抄;用电量可按地址统计,也可按相位统计,以便合理地调整配电变压器A、B、C三相负载的配置,使供电系统的性能发挥得更好;在电费结算时,可通过分时计费,合理定价,使负载基本恒定;电表参数、用电信息可送到用户终端,从而非常方便地修改电能表参数,显示用户的用电量及结算电费;欠费警告及断电控制功能可督促用户按时交费;不安全和违章用电监视报警功能可使用电监察人员迅速准确地维护用电秩序;日报表、月报表、年报表的形成和输出方便而快捷。

3结论与展望

3.1研究结论

我们在几种不同的环境下对用户电能表终端和配变集中器进行了测试,取得了比较满足的结果。依照CEBus标准编制的程序,在传输过程中,没有发现误码的存在。不同的测试环境下,干扰强度与信道输入阻抗的波动范围是影响扩频载波可靠通信距离的两个主要因素,数据通信成功的平均帧延迟时间与平均通信距离的关系较大。

户表采集器的性能指标如下:

·载波通信距离:架空网或电缆电网均可达1000m;

·抄表成功率:可达99.7;

·抄表正确率:100;

·读数准确度:计数精度达到小数点后两位,用户电能表读数与标准电能表的误差不大于1个字(即0.5kWh);

·时钟误差:天天小于 1s;

·用户电能表功耗:待机时≤200mW,发送数据时≤700mW,发送时间≤25ms,接收灵敏度≤2mW;

·采用工业级芯片,环境温度:-20~ 85℃;

·工作电压:AC165~260V;

·掉电保护:电源断电情况下,数据可保存10年;

3.2总结与展望

电能直供到户是供电企业最重要的营销举措,这使得电能营销部门的电能抄算业务量成倍增长。采用新的远程抄表技术来改善用电治理和电能营销的装备水平、优化电能市场服务的技术手段是供电企业最紧迫的需求。

我国的低压电能供给都是以配电变压器为一个台区单元,在配电变压器和用户之间不使用任何独立的中继通信设备或专用信道,直接利用低压电力线构成与低压电网系统结构相对应的用户电能表终端+配变集中器+营业站电能抄算主机组网的远程抄表系统,我们认为这符合低压远抄系统的主流发展方向,因而具有推广应用前景。

具有低压扩频载波数据远传功能的用户电能表终端和配变集中器是构成本文所提出的远程抄表方案的核心装置。最终的技术目的的实现必须建立在成功地开发用户电表终端和配变集中器的基础之上,还要做营业站抄算主机的软件编制和数据库编制。显然本文所做的工作还离这一目标有相当长的一段距离。本文只是对用户电能表终端及其扩频载波通信模块作了实用化开发设计和样机试制,并且通过样机的现场测试。配变集中器、软件只作了一个方案性的设计。

本文所取得的另一个成果就是,把用户电能表终端设计成一个智能化的综合性终端,除了完成电能的记录和计量外,它还具有用户现场防窃电、防误接线、故障保护、远方停送电、远方修改电能表参数和负荷控制功能,这些技术手段对提高供电企业的用电治理水平无疑具有积极的意义。

参考文献

[1]邵源,钟炬,等.关于低压用户集中抄表系统综述.电力系统自动化,1999(9).[2]徐平平,邱玉春.电力集中抄表中的通信技术.电力系统通信,1999(4).[3]杨士中.静电无绳广播方法.[4]周世炜,张绍卿,洪文学.一种基于电力配电网络的双向工频通信技术.电子技术,1999(8).[5]邱玉春.利用电力线组网的监控网络协议选择.现代通信,2000(1).[6]邱玉春,徐平平.低压电力线载波通信特性分析.电力系统通信,1998:6(48).

第五篇:信息检索论文

论搜索引擎中文自动分词技术

【摘要】

搜索引擎是应用在web上的软件系统,它以一定的策略搜集和发现信息,再对信息进行处理和组织后为用户提供web信息查询服务。搜索引擎分三个大模块:网页搜集,预处理和查询服务。其中对搜索信息的预处理阶段的关键技术是中文分词和建立倒排文件,本文主要论述搜索引擎工作过程中的中文自动分词技术。

【关键字】:搜索引擎,中文分词,分词方法,分词难题 【正文】

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度等大型搜索引擎一直是人们讨论的话题。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

一、为什么要进行分词?

汉语是世界上最古老和最丰富的语言之一,但是汉语语法才有将近一百年的历史,而且现代汉语白话文的形成历史也比较短,加上汉语自身的特点,因此它的形式化研究更加困难。对英文而言,是以词为单位,词与词之间有空格隔开,而中文是以字为单位,多个字连在一起才能构成一个表达具体含义的词,词与词之间没有分割,因此,对于支持自然语言检索的工具,从语句中划分出具有独立意义的词的过程即进行中文分词必不可少。

二、什么是中文分词?

中文分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后,根据用户的关键词串用各种匹配方法进行的一种技术。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

三、中文分词与搜索引擎

分词技术使用在搜索引擎网页预处理阶段。搜索引擎网页预处理第一步是为原始网页建立索引,形成索引网页库;第二步是对网页进行切分,也就是分词,将每一篇网页转化为一组次的集合;最后将网页索引词的映射转化为索引词到网页的映射,形成倒排文件。

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。而且中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

四、中文分词技术的分类

我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。(一)基于字典、词库匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下:

(1)最大正向匹配法(MaximumMatching Method)通常简称为MM法

其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理…… 如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

(2)逆向最大匹配法(Recerse MaximumMatching Method))通常简称为RMM法

RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士 / 研究 / 生产”。

(3)最少切分法:使每一句中切出的词数最小。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

(二)全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。(1)全切分

全切分要求获得输入序列的所有可接受的切分形式,而部分切分只取得一种或几种可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略,都可能会遗漏正确的切分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得了所有可能的切分形式,因而从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式,它的句子覆盖率和分词覆盖率均为100%,但全切分分词并没有在文本处理中广泛地采用。(2)基于词的频度统计的分词方法:

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

(三)基于知识理解的分词方法

该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

(四)一种新的分词方法

并行分词方法:这种分词方法借助于一个含有分词词库的管道进行 ,比较匹配过程是分步进行的 ,每一步可以对进入管道中的词同时与词库中相应的词进行比较 ,由于同时有多个词进行比较匹配 ,因而分词速度可以大幅度提高。这种方法涉及到多级内码理论和管道的词典数据结构。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

五、分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

(一)切分歧义

就人对汉语的理解而言,汉语的分词是一个理解的过程,这个过程综合了词法、语法、语义等各种信息。因此,一个理想的分词系统也应综合运用这些信息,而在计算机处理中这些信息的提取又是以分词为前提的。所以,分词与这些信息的运用是既相联系又相制约的一种相辅相成的关系,而纯粹的机械切分必然会带来切分歧义。

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:学历史知识,因为“学历”和“历史”都是词,那么这个短语就可以分成“学历”和“历史”。这种称为交叉歧义。像这种交叉歧义十分常见由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

(二)新词

专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“张三虎是山东人”中,“张三虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“张三虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“张三虎头虎脑的”中,“张三虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等,还有目前网络流行语词,如“有没有”、“伤不起”“神马浮云”、“童鞋们”、“萝莉”等等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

判断一个系统的中文分词功能好坏,主要在于消歧功能和对未登录词识别功能。并且优秀的分词策略应该是尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。

【参考文献】

【1】 吴胜远;并行分词方法的研究--《计算机研究与发展》1997年07期

【2】 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年

【3】 梁斌;走进搜索引擎 电子工业出版社 2007年1月

【4】(美)克罗夫特;搜索引擎:信息检索实践 机械工业出版社

2010年

下载河北大学信息检索选修论文word格式文档
下载河北大学信息检索选修论文.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    信息检索论文

    《现代信息检索》课程心得体会 摘要:为了培养大学生对科技信息资源检索与利用的能力,我校开设了现代信息检索这门课程。人文社科学院11策划班在本学期开设的这门课程,通过8周的......

    信息检索论文

    信息检索实验报告 题目:现代会计发展趋势分析 学院: 班级: 学号: 姓名: 成绩: 辽宁工程技术大学基础教学部 现代会计发展方向分析 摘要:综合考虑我国各级会计人员的主要工作任务的......

    信息检索论文(范文大全)

    关于“基于MATLAB的随机信号分析方法”的科技文献检索 (西北大学信息与科学技术学院,西安,710127) 摘要:随机信号的分析对现代通信有极其重大的意义。 本设计通过使用MATLAB工具......

    信息检索论文

    信息检索与搜索引擎(论文) 网页净化与消重技术 学院(系):信息科学与工程学院 专 业:计算机应用技术 年 级: 学生 姓名: 学 号指导 教师 网页净化(noise reduction):识别和清除网......

    信息检索论文

    信息检索与利用论文 学院:机械与电子学院 专业:机械电子工程 班级: 093152 姓名: 学号: 09315205 指导教师: 2012年 04 月日检索题目:机械产品绿色设计 分析课题:本课题的学......

    信息检索期末论文

    在研究“氧化锌半导体薄膜的制备及表征”课题中,信息检索的应用 首先当我们拿到课题“氧化锌半导体薄膜的制备及表征”课题之后,我们马上需要做的是查找相关的文献,获取相关的......

    信息检索论文(完整版)

    信息检索论文(完整版) 网络信息检索工具研究 摘 要 网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,......

    信息检索论文综述

    垃圾渗滤液处理技术 研究进展 班级:06级环境工程3班 学号:2006650703 姓名:宋美虹 指导老师:石露 垃圾渗滤液处理技术研究进展 摘要:近年来城市垃圾的处理处置问题已经成为人......