第一篇:知识工程与知识发现(讲稿22-专家系统)
第三章 专家系统(Expert System:ES)
专家系统是人工智能应用研究的一个重要领域。在20世纪60年代中期,正当大多数人热衷于博弈、定理证明、问题求解等研究时,另一个重要的研究领域---专家系统已悄然开始孕育。(由美国斯坦福大学的费根鲍姆E.A.Feigenbaum,1965年在他领导的研究小组内研究化学专家系统DENDRAL,68年完成并投入使用)。也正是专家系统的萌芽,才使得人工智能在后来出现的困难和挫折中很快找到了前进方向,开创了一条以知识为中心、面向应用开发的研究道路,使人工智能又进入了一个新的蓬勃发展时期。
专家系统实现了人工智能从理论研究走向实际应用,从一般思维规律探讨走向专门知识运用的重大突破,是人工智能发展史上的一次重要转折。
专家系统是一个具有大量专门知识,并能够利用这些知识去解决特定领域中需要由专家才能解决的那些问题的计算机程序。
自Feigenbaum后,相继出现了MYCIN专家系统、地质勘探专家系统PROSPECTOR,数学专家系统MACSYMA等。
知识工程的核心是专家系统,知识工程的发展首先决定于专家系统的发展,专家系统的发展必将推动人工智能的应用。
专家系统的开发有三个基本的要素:领域专家、知识工程师、大量实例。在建立专家系统时,首先由知识工程师把领域专家的专门知识总结出来,以适当的形式存入计算机,建立起知识库(KB),根据这些专门知识,系统可以进行推理,做出判断和决策,能够解决一些只有人类专家才能解决的困难问题。专家系统主要是指软件系统。
教学目的:
了解专家系统的基本概念 掌握专家系统的基本结构
掌握专家系统的知识获取方法和过程
了解专家系统的开发步骤、开发工具
3.1 专家系统的基本概念 3.1.1 什么是专家系统?
目前,对专家系统还没有一个严格公认的形式化定义。作为一种一般的解释,可以认为:
专家系统是一种具有大量专门知识与经验的智能程序系统,它能运用领域专家多年积累的经验和专门知识,模拟领域专家的思维过程,解决该领域中需要专家才能解决的复杂问题。
从上述解释可以看出,专家系统包含三个方面的内容:(1)专家系统是一种程序系统,但又具有智能,因此它不同于一般的程序系统,而是一种能运用专家知识和经验进行推理的启发式程序系统;
(2)(3)专家系统的智能来源于领域专家的知识、经验及解决问题的诀窍; 专家系统所要解决的问题,一般是那些本来应该由领域专家才能解决的问题。
3.1.2 专家系统的分类
专家系统都是针对某一应用领域而建立的。不同应用领域的专家系统,其功能、设计方法及实现技术也各不同。
对专家系统的类型,可以有多种不同的划分方法。1.按求解问题的性质分类
海叶斯-罗斯(F.Heyes-Rose)按照求解问题的性质,将专家系统分为以下10种类型:
(1)解释型专家系统
解释型专家系统的任务是通过对已知信息和数据的分析与解释,确定它们的含义。其主要特点有:
系统处理的数据量很大,而且往往是不准确的、错误的或不完全的; 系统能够从不完全的信息中得出解释,并能对数据做出某种假设; 系统的推理过程可能很复杂和很长,因而要求系统具有对自身推理过程做出解释的能力。
如,卫星图像分析、集成电路分析、石油测井数据分析、染色体分类等。(2)预测型专家系统
预测型专家系统的任务是通过对过去或现在知识状况的分析,推断未来可能发生的情况。其主要特点有:
系统处理的数据随时间变化,而且可能是不正确或不完备的; 系统需有适应时间变化的动态模型,能够从不完全和不准确的信息中得出预报,并达到快速响应的要求;
预测型专家系统的例子,主要有气象预报、军事预测、人口预测、经济预测和作物产量预测等。(3)诊断型专家系统
诊断型专家系统的任务是根据观察到的情况来推断出某个对象机能失常的原因。其主要特点:
能够了解被诊断对象和客体各组成部分的特性,以及它们之间的联系;
能够区分一种现象及其所掩盖的另一种现象;
能够向用户提出测量的数据,并从不确切信息中得出尽可能正确的诊断。
诊断型专家系统的例子特别多,有医疗诊断、电子或机械故障诊断以及材料失效诊断等。如,MYCIN、CASNET。(4)设计型专家系统
设计型专家系统的任务是根据设计要求,求出满足设计问题约束的目标配置。其主要特点有:
善于从多方面的约束中得到符合要求的设计结果; 系统需要检索较大的可能解空间;
善于分析各种子问题,并处理好子问题间的相互作用;
能够试验性地构造出可能设计,并易于对所得设计方案进行修改; 能够使用已被证明是正确的设计来解释当前的设计。
设计型专家系统的例子主要有:电路设计、土木建筑工程设计、机械产品设计、生产工艺设计等。(5)规划型专家系统
规划型专家系统的任务是要寻找出某个能够达到目标的动作序列或步骤。其主要特点有:
所要规划的目标可能是动态的或静止的;
所涉及的问题可能很复杂,要求系统能抓住重点,处理好各子目标间的关系和不确定的信息,并通过试验性动作得出可行的规划;
规划型专家系统可用于:机器人规划、交通运输调度、工程项目论证、通信与军事指挥以及农作物施肥方案规划等。(6)监视型专家系统
监视型专家系统的任务在于对系统、对象或过程的行为进行不断观察,并把观察到的行为与其应当具有的行为进行比较,以发现异常情况,发出警报。其主要特点有:
系统应具有快速反应能力,在造成事故之前及时报警; 系统发出的警报要有很高的精确度;
系统能够随时间和条件的变化而动态地处理其输入信息。
如,核电站的安全监视、防空监视与报警、国家财政的监控及农作物病虫害的监视与报警等。(7)控制型专家系统
控制型专家系统的任务是自适应地管理一个受控对象或客体的全面行为,使其满足预期要求。其主要特点有:
能够解释当前情况,预测未来可能发生的情况;
能够诊断可能发生的问题及其原因,不断修正计划,并控制计划的执行。
如,交通管制、商业管理、自主机器人控制、作战管理、生产过程控制和生产质量控制等许多方面。(8)调试型专家系统
调试型专家系统的任务是对失灵的对象给出处理意见和方法。它要求专家系统须具有规划、设计、预报和诊断等功能。
如,新产品或新系统的调试、维修设备的调整、测试与试验。(9)教学型专家系统
任务:是根据学生的特点、弱点和基础知识,以最适当的教学方案和教学方法对学生进行教学和辅导。其主要特点有:
同时具有诊断和调试功能; 具有良好的人机界面。(10)修理型专家系统
任务:是对发生故障的对象(系统或设备)进行处理,使其恢复正常工作。主要特点同时肯有诊断、调试、计划和执行等功能。
此外,还有:决策型专家系统、管理型专家系统等。2.按求解问题的要求分类
斯特菲克(M.Stefike)等人根据专家系统求解问题的要求及其难易程度由低到高将专家系统分为10个不同的层次。
(1)具有可靠知识和数据的小型搜索空间的专家系统
P263
这类专家系统要求解的问题最简单,它所具有的知识和数据都十分可靠,且问题的解空间也比较小。像这类简单任务的专家系统,只需经过穷举搜索方式即可得到问题的解。事实上,对这类问题,也没有研制专家系统的必要。
(2)所用知识和数据不完全可靠的专家系统
启发性知识推理或不确定性推理
(3)所求解问题的推理需要随时间变化的专家系统
这类专家系统所依据的数据是随时间变化的,因此它应该能够描述和模拟各 种数据随时间变化的情况。事实上,对预测性、实时性要求高的专家系统,对时变推理的要求就更高。目前研制这类专家系统的难度较大。
(4)所求解的问题是可分解的专家系统
这类任务的专家系统,可以把解空间划分成一些较小的子空间,并采用剪枝的方法,以减少搜索范围和搜索空间。(5)所求解的问题是不可分解的专家系统
这类任务的专家系统不能采用分解和剪枝的方法,而只能采用抽象空间的方法,即先暂时忽略某些细节问题,而集中考虑那些重要的原 5 则性问题的求解方法。
(6)所求解的问题不能划分为固定子问题的专家系统
由于所求解的问题不存在固定的子问题划分或可进行适当抽象的固定子问题序列,因此对这类问题的抽象必须体现规划的可变结构,这就需要专家系统能够采用自顶向下求解的抽象方法来进行问题求解。
(7)各子问题有相互影响的专家系统
由于自顶向下求解方法缺乏问题求解的反馈信息,当各子问题间相互影响时,该方法不能很好地解决这类问题。对此,可采用最小冒险原则,即决策不应在不成熟的情况下随意做出,而应推迟到有足够的信息时再做出。(8)需要多重推理的专家系统
在许多任务中,单一推理路径的能力较弱,需要采用多重线路推理,综合运用不同推理模型的优点,来扩大专家系统解决问题的能力。(9)利用多知识源的专家系统
在求解复杂问题时,采用多种知识来源对问题进行综合分析,可取得明显效果。如,在语音理解专家系统中,往往需要多种知识来源,这些知识通常被放在一个称为黑板的工作区中。(10)使用统一知识表示方法的专家系统
为便于对系统中的知识进行统一管理、使用和解释,目前专家系统的发展是采用多种知识表示的统一知识表示方法,对日趋庞大的知识库进行有效的管理和组织。在这方面,用面向对象方法统一知识表示已被多数专家系统及其开发工具所采用,并取得了良好的效果。3.按系统的体系结构分类
按系统的体系结构,专家系统可分为4种类型。(1)集中式专家系统
这是一种对知识和推理进行集中管理的一类专家系统。目前,得到成功应用的专家系统多属于这一类型。对这类专家系统,又可按照知识及推理机构的组织方式,细分为层次式结构、深-浅双层结构、多层 6 聚焦结构和黑板结构等。
层次结构:是指具有多层推理机制,逐层进行推理的专家系统。如,青光眼诊断专家系统,其推理模型可分为症状层、病变层及诊断层。深-浅双层结构:是指系统分别具有深层知识(问题领域内的原理性知识)库和浅层知识(领域专家的经验知识)库,并且相应地有两个推理机分别作用于两个不同知识库的专家系统。
多层聚焦结构:是指知识库中的知识是按动态分层组织的专家系统。它把对当前推理最有用、最有希望推出结论的知识称为“焦点”,并把它置于聚焦结构的最上层,把有希望入选的知识放在第二层,以此类推。
黑板结构:是指那种有多个知识库和多个推理机,并通过一个结构化的公共数据区(称为黑板)来交换信息的专家系统。这种专家系统通常用在那些求解问题较复杂的系统中。(2)分布式专家系统
分布式专家系统是指具有分布处理能力以及多专家系统、多知识元的协同处理能力的专家系统。分布式专家系统的主要特点有:第一,系统中的数据、知识及控制不但在逻辑上,而且在物理上都是分布的;第二,系统中的诸机构通过计算机网络实现互连,这些机构之间相互协作,可以求解单个机构难以解决,甚至不能解决的问题。目前,基于多Agent的研究是分布式专家系统研究的重点。(3)神经网络专家系统
这是运行人工神经网络技术建造的专家系统,目前尚处于研究阶段。(4)符号系统与神经网络相结合的专家系统
这是把基于连接主义的神经网络与基于符号处理的专家系统有机结合形成的一种混合型专家系统。这种专家系统可以充分发挥神经网络与符号系统的优点,克服它们的缺点,实现优势互补。至于神经网络与符号系统的结合,可以有多种方式。
如,为充分发挥神经网络学习能力强的优势,可把它用于知识的自动获取,而推理仍用符号机制。
3.1.3 专家系统的特点
专家系统的共同特点:(1)可具有一个或多个专家的知识和经验,能以接近于人类专家的水平在特定领域工作;
(2)能高效、准确、迅速地工作,不会像人类专家那样产生疲倦和不稳定;
(3)使人类专家的领域知识突破了时间和空间的限制,专家系统程序可永久保存,并可复制任意多的副本或在网上供不同地区或不同部分的人们使用;
(4)(5)(6)(7)(8)能进行有效推理,包括各种精确性推和非精确推理等; 具有透明性,能以可理解的方式解释推理过程;
具有自学习能力,可总结规律,不断扩充和完善系统自身; 能提高生产率,产生巨大的社会效益、经济效益等; 对推动人工智能等其他学科的发展具有重大作用。
总之,专家系统无论在当前还是未来,都是专家可以信赖和利用的高水平智能助手,是计算机革命的得力工具。3.2 专家系统的基本结构
专家系统的结构是指专家系统各组成部分的构造方法和组织形式。不同应用领域和不同类型的专家系统,其体系结构和功能也都不尽相同。
通常一个最基本的专家系统应由:知识库、数据库、推理机、解释机构、知识获取机构和用户界面6个部分组成。
图1 专家系统的基本结构
其主要功能描述如下:
(1)知识库(Knowledge Base)知识库是指以某种存储结构存储领域专家的知识,包括事实和可行的操作与规则等。为了建立专家库,需对领域问题的专家知识,用相应的知识表示方法将其表示出来,然后再进行形式化,并经编码放入知识库中。
所以,专家库的建立,首先要解决知识获取与知识表示的问题。知识获取是指知识工程师如何从领域专家那里获得将要纳入知识库的知识。知识表示要解决的问题是如何使用计算机能够理解的形式来表示和存储知识的问题。
通常,知识库中的知识分为两大类型:一类是领域中的事实,称为事实性知识,这是一种广泛公用的知识,也即写在书本上的知识及常识;另一类是启发性知识,它是领域专家在长期工作实践中积累起来的经验总结。
(2)数据库
也称全局数据库或综合数据库。是用于存储与求解问题有关的初始数据(如,事实、数据、初始状态(证据))和推理过程中得到的中间数据。
如,在医疗专家系统中,数据库中存放的仅是当前患者的情况,如姓名、年龄、症状等及推理过程中得到的一些中间结果、病情等;
在气象专家系统中,数据库中存放的是当前气象要素,如云量、温度、气压以及推理得到的中间结果等。
由此看出,专家系统数据库只是一个存储很少的用于暂存中间信息的工作存储器(也称内涵数据库),而不是通常概念上的用于存放大量信息的数据库(也称外延数据库)。
(3)推理机
推理机是一组用来控制、协调整个专家系统的程序。它根据全局数据库的当前内容,从知识库中选择可匹配的规则,并通过执行规则来修改数据库中的内容,再通过不断地推理导出问题的结论。推理机中包含如何从知识库中选择规则的策略和当有多个可用规则时如何消解规则冲突的策略。
(4)解释机构
用于向用户解释专家系统的行为,包括解释“系统是怎样得出这一结论的”、“系统为什么要提出这样的问题来询问用户”等用户需要解释的问题。
9(5)知识获取机构
知识获取是专家系统的一种辅助功能,它可为修改知识库中的原有知识和扩充新知识提供相应手段。
知识获取机构的基本任务是把知识加入到知识库中,并负责维持知识的一致性及完整性,建立起性能良好的知识库。
通常,不同的专家系统,知识获取功能和实现方法差别较大。如,① 有的系统首先由知识工程师向领域专家获取知识,然后通过相应的知识编辑软件把知识送到知识库中;
② 有的系统自身就具有部分学习功能,由系统直接与领域专家对话获取知识;
③ 有的系统具有较强的学习功能,可在系统运行过程中通过归纳、总结,得出新的知识。
总之,不管采用方式,知识获取都是目前专家系统研究中的一个重要问题。
(6)用户界面
也称人机接口,主要用于系统和外界之间的通讯与信息交换。通常,专家系统的使用者,包括最终用户、领域专家、知识工程师。
在这三种人中,最终用户和领域专家一般都不是计算机专业人员,因此用户界面必须适应非计算机人员的需求,不仅应把系统的输出信息转换为便于用户理解的形式,而且还应使用户能方便地操纵系统运行。
一般来说,用户界面应尽可能拟人化,尽可能使用接近自然语言的计算机语言,并能理解声音、图像等多媒体信息。3.3 专家系统的开发条件
在实际应用中,并非任何领域都适合开发专家系统。除了支撑环境、实现技术等方面应具备的条件外,通常要考虑如下要求:
1.问题领域的合适性
① 应用领域有使用专家系统的需求
② 领域问题适合用专家系统解决
③ 领域问题使用专家系统的合理性
对一个特定的领域问题,是否需要为其开发专家系统,还需考虑它 10 的合理性。通常,如下情况开发专家系统是不合理的:
问题求解需要很高的代价;
人类专家的知识被遗忘或在知识传递中被损失; 领域专家的知识或经验稀少; 在许多场合下需要人类专家知识; 在危险场合下需要人类专家知识。
④ 领域问题的难度和规模要适中
太小,会使开发专家系统失去意义;太大,则会使专家系统难以建立,即使建成了,其处理效率也比较低。
一般来说,对于一个领域问题,要使人们解决问题的能力达到专家水平,就需要经过多年的学习和实践,那么,这样的专家系统才有使用价值和实际意义。
从知识库规模来看,或处理问题所需知识(规则)的数量在100-1000之间,则比较适合用来研制实用的专家系统。若只有几十条知识,则过于简单,这种专家系统只能是一个演示程序,没什么价值;若有数千或上万条知识才能解决该领域问题,则此种专家系统又过于庞大和复杂了。
⑤ 问题的领域范围不能太宽
由于受人工智能技术水平的限制,目前在知识获取、知识表示、知识处理与应用等方面还没有一种有效的通用技术。因此,一个实用的专家系统所处理的问题一般应限制在一个相对窄的领域内,而不能太宽。如,医疗领域,目前要开发一个能冶百病的专家系统还很困难。人们正致力于分布、协同式的新一代专家系统。
2.领域专家的参与和专家知识的可表达性
有高水平领域专家的参与、专家知识的可表达性与可获得性是开发专家系统的重要条件。
① 要有公认的高水平领域专家的积极参与
该领域的一流专家,他不仅具有广泛的专业知识,而且在解决该领域的专业问题方面比一般人能力强。一般来说,领域专家的水平越高,与他合作开发出来的专家系统的性能就越好,也更容易被别的同行专家和用户所承认。
② 领域专家的知识应该是可表达的
③ 领域专家的经验应该是易获得的 3.4 专家系统的开发步骤
专家系统的开发是一项综合技术,一个成功的专家系统的开发需要知识工程师和领域专家的密切配合和坚持不懈的努力。
由软件工程的生命周期方法知,一个实用的专家系统的开发过程可类同一般软件系统的开发过程,分为认识、概念化、形式化、实现和测试等阶段。
① 认识阶段
知识工程师与领域专家合作,对领域问题进行需求分析。包括认识系统需要处理的问题范围、类型和各种重要特征、预期效益等,并确定系统开发所需的资源、人员、经费和进度等。
② 概念化阶段
把问题求解所需的专门知识概念化,确定概念之间的关系,并对任务进行划分,确定求解问题的控制流程和约束条件。
③ 形式化阶段
把已整理的概念、概念之间的关系和领域专门知识用适合于计算机表示和处理的形式化进行描述和表示,并选择合适的系统结构,确定数据结构、推理规则和有关控制策略,建立起问题求解模型。
④ 实现阶段
选择适当的程序语言或专家系统工具建立可执行的原型系统。⑤ 测试系统
通过大量的实例,检测原型系统的正确性及系统性能。通过测试原型系统,对反馈信息进行分析,进而进行必要的修改,包括重新认识问题,建立新的概念或修改概念之间的联系、完善知识表示与组织形式、丰富知识库的内容、改进推理方法等。
专家系统的这一开发过程,类似于一般软件系统开发过程的瀑布模型,各阶段目标明确,逐级深化。如下图所示。
图2 专家系统开发过程的瀑布模型
由于领域专家的知识是长期积累的经验和专门知识,因此知识工程师是不可能在短时间内获得所需的全部专家知识。这就需要采用增量式开发方法,即通过对基本功能的逐步扩大来完善系统。3.5 知识获取
知识获取一直是专家系统开发中的一个瓶颈问题。尽管已有许多人工智能工作者在这方面做了大量工作,希望实现知识的自动获取,即由建造的专家系统自动完成知识的获取,但至今仍无一种可以完全代替知识工程师的自动化方法。
目前,专家系统的知识获取一般是由知识工程师与专家系统中的知识获取机构共同完成的。知识工程师负责通过领域专家抽取知识,并用适当的知识表示方式把知识表示出来。专家系统的知识获取机构负责把知识转换为计算机可存储的内部形式,把它们存入知识库。在知识存储的过程中,要对知识进行一致性、完整性的检测。
3.5.1 知识获取的任务与方式
知识获取一般是指从某个或某些知识源中获取专家系统实现问题求解所需要的专门知识,并以某种形式在计算机中存储、传输与转移。知识获取的基本任务是为专家系统获取知识,建立起健全、完善、有效的知识库,以满足求解领域问题的需要。
1.知识获取的任务
主要做以下几方面工作:(1)抽取知识
抽取知识是指把蕴含于知识源(领域专家、书本、相关论文及系统的运行实践等)中的知识经过识别、理解、筛选、归纳等抽取出来,以用于建立知识库。
通常,知识并不是以某种现成的形式存在于知识源中的,为了从知识源中抽取知识还需要做大量的工作。如,对领域专家,虽然他们有丰富的知识和经验解 决该领域中的各种困难问题,但他们往往缺少对自己经验的总结与归纳,甚至有些经验是只可意会不可言传的。
另一方面,如果要求系统能够在自身的运行实践中通过机器学习功能从已有知识或实例中演绎、归纳出新知识,则系统自身必须具有一定的“学习”能力。这是对抽取知识的更高要求。
(2)知识表示
通常,知识源中的知识是以自然语言、图形、表格等形式表示的,而知识库中的知识则是用计算机能够识别的形式来表示的,二者之间有很大的差别。为使专家系统能够使用从知识源中抽取出来的知识,首先需要把这些知识用适当的知识表示出来。这一工作,通常是由工程师来完成的。
(3)知识输入
把用某种知识表示方法表示的知识经编辑、编译送入知识库的过程称为知识输入。目前,知识输入一般有两条途径:
① 利用计算机系统提供的编辑软件;(优点:简单、方便,无须编制专门程序即可直接使用)
② 利用专门编辑的知识编辑系统。(优点:针对性、实用性强,更符合知识输入的要求)
(4)知识检测
知识库的建立是通过对知识进行抽取、表示、输入等环节实现的,任何环节上的失误都会造成知识错误,直接影响到专家系统的性能。因此,必须对知识库进行检测,以便尽早发现和纠正可能出现的错误。
检测的主要任务是知识库中知识的一致性和完整性。2.知识获取的方式
知识获取的方式很多,如,按知识获取所要解决的问题,可将知识分为手功知识获取、智能知识编辑、知识发现系统及人工神经网络等知识获取方式;按知识获取的自动化程度分,知识获取可分为非自动知识获取和自动知识获取两种方式。
(1)手工知识获取
是一种通过知识工程师与领域专家长时间接触与多次交谈,直接从领域专 家的经验中,或者在领域专家的指导下从其他知识源中提取知识的方法。
所谓知识工程师,实际上是专家系统设计者与领域专家之间的一个中介专家,他既懂得如何与领域专家打交道,从领域专家或其他知识源中获得专家系统所需的知识,又熟悉知识处理,把获得的知识用合适的知识表示方法表示出来。
在实际专家系统的建造中,知识工程师的大多数工作是由专家系统的设计者及建造者担任的。知识工程师的主要任务为
与专家交谈,阅读有关文献,获取专家系统所需的原始知识; 对获得的原始知识进行分析、归纳、整理,形成用自然语言表达的知识条款,然后交领域专家审查。经反复交流,最后把知识条款确定下来;
把最后确定的知识条款用知识表示语言表示出来,交知识编辑器进行编辑输入。
(2)智能知识编辑
这种方法是建立一个智能知识编辑器,让拥有领域知识的专家通过智能知识编辑器直接与专家系统打交道,并由智能知识编辑器自动生成知识库。
所谓智能知识编辑器是指那种具有关于知识库结构的知识和会话能力的知识获取机构。此法目前备受重视。
(3)知识发现系统
这种方法是建立一个带有归纳、类比或其他高级功能的知识发现系统,是指通过实例或实际问题来总结、发现一些尚未为专家系统掌握或认识的新知识,将其装入知识库,使知识库的知识不断完善丰富。这种知识获取方法已成为机器学习的主要研究内容。
(4)人工神经网络知识获取
ANN是一种具有学习、联想和自组织能力的智能系统。在专家系统中,可利用人工神经网络的学习、联想、并行分布式等功能解决专家系统开发中的知识获取、表达和并行推理等问题。
建立ANN专家系统不需要组织大量的规则,也不需要进行树的搜索,而且通过神经网络可使机器进行自组织、自学习,不断地充实、丰富专家系统中原有的知识库,使专家系统中最困难的知识获取问题得到很好的解决。在范例十分丰 15 富情况下,还可借助ANN的学习机制来解决非精确推理中构造知识库的问题。
(5)非自动知识获取
此法分两步:首先由知识工程师从领域专家或其他知识源获取知识,然后再由知识工程师用某种知识编辑软件把它送到知识库中。涉及的技术有:
现场观察 问题讨论
问题描述(由领域专家描述) 问题分析(由领域专家分析) 系统精化
系统检查(由领域专家检查和评价) 系统验证(由领域专家验证)(6)自动知识获取
所谓自动知识获取是指系统自身具有获取知识的能力,它不仅可以直接与领域专家对话,从专家提供的原始信息中“学习”专家系统所需要的知识,而且还能从系统运行实践中总结、归纳出新的知识,发现和改正自身存在的错误,并通过不断地自我完善,使知识库逐步趋于完整、一致。为达此目的,它至少应具有如下能力:
具有语音、文字、图像的识别能力 具有理解、分析、归纳的能力 具有从自身运行过程中学习的能力
总之,知识的自动获取是一种理想的专家系统知识获取方式,涉及诸多研究领域,如,模式识别、自然语言理解、机器学习等。目前尚处于研究阶段,实现真正意义上的自动知识获取还任重道远。3.6 专家系统的评价
严格地说,评价是贯穿于整个专家系统建造过程的一项工作,只不过在开始阶段进行的评价可以是非正式的,而随着系统开发的深入,其评价工作应该越来越正式。
一般来说,当完成了系统原型的建造后,评价工作就必须随之进行,并同时利用评价结果去改进系统;当系统全部完成准备投入实际运行前,还应该对整个 系统做最后的评价。
目前,关于如何评价一个专家系统,尚无统一的标准。通常按如下三原则: 1.评价方法
评价专家系统的基本方法有两种:
① “轶事”的方法
此法是简单地启发式地使用一些例子来检测系统的工作情况,以评价系统的性能。这是人们在日常生活中经常使用的一种方法。如,人们往往用一个医生冶愈疑难病症的情况去评价该医生的医术水平。
② 实验的方法
此法强调通过实验来评价系统在处理数据库中的各种问题事例时的性能。要使用这种方法,必须规定某种严格的试验过程,以便把系统产生的解释与相应事例的实际解释进行比较。
此法看起来比轶事方法优越,但在具体实现方面和得到有代表性的事例方面,常会遇到一些严重困难。如,在医学领域,要得到一些常见病的病例比较容易,但要得到那些非常见病的有代表性的病例就比较困难。
2.评价内容
评价内容主要侧重于专家系统的正确性与实用性。它包括如下一些主要方面:
知识库中的知识是否正确和准确?
知识库中知识的一致性和完整性是否满足要求? 知识的表达方式是否合适?组织方式是否合理?
系统的推理是否正确?对各种问题能否给出正确答案?结果的可信度如何?
系统的解释功能是否完全与合理?
用户界面是否友好?使用是否方便?能否满足用户需求? 系统的解题效率如何?系统的响应速度能否满足用户要求? 系统的可扩展性和可移植性如何? 3.评价原则
概括起来,对专家系统的评价大致有以下原则:
评价系统的性能,看其是否达到了领域专家的水平,是否达到了实用的程度;
评价系统的灵活性,看是否便于修改和扩充知识库中的知识; 评价系统的透明性,看其解题过程及系统本身是否容易被用户和维护人员所理解?
评价系统的可用性,包括系统的使用方法是否简单易行,人机通信是否直观,运行效率是否令人满意,能否推广应用等;
评价系统的运行效率,看系统能否产生预期的经济效益和社会效益; 评价系统的意义,看系统的实现技术是否对促进专家系统的推广和发展有积极意义。
3.6 专家系统的开发工具与环境
所谓专家系统的开发工具与环境,实际上是一种为高效率开发专家系统而设计的高级程序系统或高级程序设计语言环境。
一般不同应用领域的专家系统,其基本结构和工作方式相似,但其领域知识却截然不同。前者体现了各种专家系统开发中的共性,后者则体现了不同专家系统中的个性。专家系统开发中的这种共性和个性,为各种开发工具的使用提供了基础。
从目前的现状看,专家系统开发工具和环境主要分为如下的5种类型: 1.程序设计语言
程序设计语言包括通用程序设计语言和人工智能语言。
通用程序设计语言的主要代表有:C、PASCAL、ADA等; 人工智能语言的主要代表有:LISP函数型语言、PROLOG逻辑型语言,以及C++、JAVA等为代表的面象对象语言。
2.知识工程语言
知识工程语言是一类专门用来建造和调试专家系统的语言,是为开发专家系统专门设计的一些特殊的高级工具。知识工程语言的种类很多,它们的复杂程度和具有的各种设施也各不相同。根据设计背景的不同,可将其划分为:骨架型知识工程语言和通用型知识工程语言两种。
(1)骨架型知识工程语言(Skeletal Knowledge Engineering Language)也称专家系统外壳,它是由一些已经成熟的具体专家系统演变而来的。其演变方法是:抽去这些专家系统中的具体知识,保留它们的体系结构和功能,再把专用的界面改为通用界面。这样,就可得到相应的专家系统外壳。可见,在专家系统外壳中,知识表示模式、推理机制等都是确定下来的。
由于专家系统外壳是一个精练出来的专家系统空壳,它缺少的只有知识,因此,当用它来建造专家系统时,只须把相应领域的专家知识用外壳规定的模式表示出来并装入知识库,就可快速地产生一个新的专家系统。
在专家系统发展过程中,发挥重要作用的专家系统外壳主要有:EMYCIN、KAS及EXPERT等。
(2)通用型知识工程语言(General Knowledge Engineering Language)也称为通用型专家系统开发工具,它是不依赖于任何已有专家系统,不针对任何具体领域,完全重新设计的一类专家系统开发工具。
与骨架系统相比,它具有更大的灵活性和通用性,并且对数据及知识的存取和查询提供了更多的控制手段。如,OPS5 OPS是美国卡内基—梅隆大学(CMU)的McDermott、Newell等人用LISP语言研制开发的一个基于规则的通用型知识工程语言。它自1975年诞生至今,已有OPS1,OPS2、OPS3、OPS4、OPS5、OPS5+、OPS5e、OPS7、OPS83等不同版本。这些版本之间差异较大,其中最有代表性的版本是OPS5。
OPS5由产生式规则库、推理机及综合数据库三部分组成。
OPS5的产生式规则库是一个无序规则的集合。规则库中的每条规则由规则名、条件及结论三部分组成,其一般形式为:
(P<规则名> <条件> → <结论>)
OPS5的推理机只提供前向推理,推理机按照“匹配---冲突消解---执行”的模式周期性地工作,直至求出了问题的解,或者没有规则的条件可被满足为止。
OPS5的综合数据库,用于存储当前求解问题的已知事实及求解过程中所得到的中间结论等。
OPS5的解释机制可以提供方便的交互式程序设计环境,用户可以跟踪、中断、检查、修改系统的状态,并能在运行过程中调试程序。这一特点对大型产生式系统具有重要意义。
OPS5已被用来开发了许多专家系统。如,用于帮助空军指挥员在航空母舰上指挥飞机起降的专家系统AIRPLAN等。
3.辅助型工具
辅助型工具是专家系统开发工具中支撑环境的一部分。与通用专家系统开发工具不同的是,这类工具主要包括一些用来帮助获取知识、表达知识的程序,以及帮助知识工程师在已定结构下设计专家系统的程序。这些程序一般承担着十分复杂的任务。
目前,已有一些实用的专家系统辅助工具问世。对这些工具,若按功能和特性可分为以下几种:
(1)专家系统设计辅助工具
用来实现专家系统的辅助设计。如,美国斯坦福大学开发的AGE等
(2)专家系统归纳工具
用来帮助开发者从大量的初始实例出发,归纳产生出规则或决策树,并排定以后用于咨询时向用户提问的顺序。(3)专家系统知识获取辅助工具
用来辅助专家系统进行知识获取,以加快专家系统的开发过程。如美国斯坦福大学开发的TEIRESIAS等。
(4)专家系统辅助建造工具
用来辅助建造专家系统。如,美国斯坦福大学开发的ROGET就是一个用来帮助领域专家直接建造诊断型专家系统的知识库的一个辅助工具。4.支持工具
也称为专家系统支持环境或支持工具集。通常,专家系统支持工具由辅助调试、知识库编辑器、输入/输出界面及解释工具体4个典型部分组成。它们用来实现与专家系统建造工具的连接,或作为它的一部分,以帮助用户与专家系统对话,辅助调试程序。
辅助调试工具与多数程序设计语言和知识工程语言一样,提供了相应的跟踪辅助功能及中断设施等。
知识库编辑器是一种基于文本编辑的知识编辑工具,它不仅简化了向系统输 20 入知识的任务,也减少了在构造和修改知识库时因编辑所产生的错误。其中,自动簿记模块用来记录用户对规则进行修改时的相关信息;语法检查模块用来帮助用户避免在打印上和句法上产生错误;一致性检查模块用来检查输入的规则和数据是否与系统已存在的知识相矛盾;知识抽取模块用来帮助实现新知识的输入。
输入/输出界面提供了实时知识获取工具和可让用户选择的多种不同输入/输出方式。
辅助解释工具用来向用户解释系统是如何得到某个特定结果的。
目前,已有不少专家系统支持工具。如,MORE是卡内基---梅隆大学研制的一个通过访问领域专家产生诊断规则的专家系统支持工具。
5.专家系统开发环境
专家系统开发环境是一种为高效率开发专家系统而设计和实现的大型智能计算机软件系统。随着AI技术和知识工程技术的不断发展,专家系统开发工具正朝着大型、通用、多功能的方向发展。
目前,国外已有一批较有影响的专家系统开发环境,如KEE、GUGU等。国内有1990年完成的《天马》专家系统开发环境。3.7 专家系统的进一步发展
对专家系统的发展,有一种观点认为专家系统需要采用各种定性模型,如物理的、感知的、认知的和社会的系统模型;另一种观点认为专家系统除采用各种定性模型外,还要运用人工智能和计算机技术的一些新思想与新技术,如分布式、协同式和学习机制等。3.7.1 新一代专家系统的特征
新一代专家系统应具有以下特征: 并行分布式处理 多专家协同工作 高级语言和知识语言描述 具有学习功能 引入新的推理机制 具有纠错和自完善能力 先进的智能人机接口 3.7.2 分布式专家系统
其目的在于把一个专家系统的功能经分解以后分布到各个处理机上去并行工作,从而在总体上提高系统的处理效率。为设计一个分布式专家系统,一般需要解决下述问题:
(1)功能分布
把系统功能分解为多个子功能,并均衡地分配到各个处理节点上。每个节点上实现一个或两个子功能,各节点合在一起作为一个整体完成一个完整的任务。
(2)知识分布
根据功能分布的情况,把有关知识合理划后,分配到各个处理节点上。
(3)接口设计
各个部分之间要相互独立,接口要易于通信、易于同步。
(4)系统结构
系统结构一方面与问题本身的性质有关,另一方面与硬件环境有关。
(5)驱动方式
系统各模块之间的驱动方式有以下几种:
控制驱动---当需要某个模块工作时,就直接将控制转到该模块,或将它作为一个过程直接进行调用;
数据驱动---当一个模块的输入数据齐备后,该模块就自动启动工作;
要求驱动---也称目标驱动,即从最顶层的目标开始逐层驱动下层的子目标;
事件驱动---当且仅当一个模块的相应事件集合中的所有事件都已经发生时,才驱动该模块开始工作。
3.7.3 协同式专家系统
当前现存的专家系统一般为单个专家系统,其解决问题的领域很窄,很难获得满意的应用。协同式专家系统是克服单专家系统局限性的一个重要途径。
协同式专家系统也称为“群专家系统”,是一种能综合若干个相近领域或一个领域的多个方面的分专家系统相互协作,共同解决一个更广领域问题的专家系统。协同式专家系统和分布式专家系统有一定的共性,它们都会涉及到多个分专家系统。但是,分布式强调的是处理的分布和知识的分布,它要求系统必须在多个处理机上运行;而协调式强调的是分系统之间的协同合作,各分专家系统也可在同一个处理机上运行。
要设计协同式专家系统,一般要解决以下几个问题:(1)任务的分解
根据领域知识,将确定的总任务合理地划分为若干个子任务(各个子任务间允许有一定的重叠),每个子任务对应着一个分专家系统。
(2)公共知识的导出
把各子任务所需知识的公共部分分离出来形成一个公共知识库,供各分专家系统共享。
(3)“讨论”方式
用“黑板”(即设在内存的一个可供各分专家系统随机存取的存储区)作为各分专家系统进行讨论的园地。
(4)裁决问题
所谓裁决问题是指如何由多个分专家系统来决定某个问题。其解决办法与问题的性质有关,若为选择问题,可采用少数服从多数的方法;若为评分问题,则可采用加权平均法等办法;若为互补问题,则可采用互相配合的方法。
(5)驱动方式
这个问题与分布式专家系统中所采用的驱动方式基本上是一样的。在分布式专家系统中介绍的驱动方式对协同式专家系统同样可用。
第二篇:数据挖掘与知识发现(讲稿7-神经网络挖掘)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
第7章
基于神经网络的数据挖掘技术
人工神经网络ANN(Artificial Neural Network)是反映人脑结构及功能的一种数学模型,它是由大量的简单处理单元经广泛并行互连形成的一种网络系统。用以模拟人类进行知识的表示与存储以及利用知识进行推理的行为。它是对人脑系统的简化、抽象和模拟,具有人脑功能的许多特征。
目前,人工神经网络已在模式分类、机器视觉、机器听觉、智能计算、机器人控制、信号处理、组合优化问题求解、联想记忆、编码理论、医学诊断、金融决策、数据挖掘等领域得到广泛应用。
7.1 基于知识的神经网络(KBANN)
神经网络用于数据挖掘的困难之一是,对经过训练的神经网络的输出结果很难给出直观的解释。许多学者试图将专家系统和神经网络相结合,设计出兼有专家系统和神经网络优点的混合系统。其中,基于知识的神经网络就是其中最有代表性的一种系统。
基于知识的神经网络包含如下四个阶段:
① 规则库表示阶段:提取原始的领域知识并将其组织成规则库;(属人工智能内容)
② 映射阶段:将上述规则库中的每条规则映射成一个小的子网络,全体子网络就构成了一个原始网络结构;
③ 学习阶段:用训练样本对上述网络进行训练;(应用人工神经网络学习算法)④ 规则提取阶段:将上述训练好的神经网络再映射成规则库。
其典型结构图为:
图1 基于知识的神经网络的信息流程
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1)原始规则库转化为神经网络结构
(1)合取规则
在与肯定条件相对应的网络连接权设置为,在与否定条件相对应的网络连接权设置为,在与结论相对应的神经元的阈值设置为(2P1)/2,其中P是肯定条件的个数。经验表明,在KBANN中,通常设置为4能取得较好的效果。如,规则
A:B,C,D,not(E)
图2 合取规则转化为神经网络示间图
(2)析取规则
KBANN对与每个析取条件相对应的连接权设置为,对与结论相对应的神经元阈值设置为/2。如,规则
图3 析取规则转化为神经网络示意图
2)知识库转化为神经网络示例
设(a)为规则库;(b)为规则的层次结构,其中,实线代表必要关系,虚线表示抑制关系;(c)为由规则库转化而来的神经网络,其中,为了处理析取规则而引入X和Y结点,实线连接代表权重均设置为,它代表规则库中的依赖关系;细线代表有待进一步学习的连接权,它反映知识的精化。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
7.2 基于KBANN的规则提取方法
基于KBANN在数据挖掘中的作用集中体现在规则提取阶段,这一问题在神经网络研究领域十分活跃。这里,主要给出一些从前馈网络(如,多层感知器MLP)中提取规则的方法。几乎所有的规则提取方法都假设经过训练的神经网络的神经元,要么处于活跃状态,要么处于不活跃状态。
1.有代表性的规则提取方法
(1)LRE方法
用LRE方法对MLP进行规则提取主要两步:
每一步,对网络中的每个隐层结点和输出结点搜索不同的输入组合,使得输入加权和大于当前结点的阈值;
对每一个组合产生一条规则,其前件是各个输入条件的合取。如,Either、KT和Subset算法就是LRE方法中有代表性的三种方法。它们的特点:生成的规则均较容易理解,但这三种方法有如下缺点:① 搜索空间大,故搜索效率低;② 前后生成的规则有可能发生重复;③ 不能保证所有有用的规则均被产生出来。
针对Subset算法的缺点,Towell等提出了MofN方法,该算法的基本思想是将所有权值分成若干个等价类,在每个等价类中成员的作用基本相似,因而可以相互互换。MofN方法通过六个步骤,从训练好的神经网络中提取规则,它们分别是:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
① 分类---即将连接权分成若干等价类; ②平均---即将每个等价类中的权值平均化; ③ 去除---即去除对神经元的作用较小的等价类;
④ 优化---即在去除了部分连接权后,对神经元的阈值进行优化; ⑤ 提取---即从经优化的神经网络中提取规则; ⑥ 简化---即将上述规则简化,使其更易于理解。
(2)黑箱方法
黑箱方法仅考虑从前馈神经网络的输入和输出的行为来提取规则。所以称之为黑箱是因为在提取规则时不考虑神经网络的类型和结构,主要关心输入和输出间的映射关系。
(3)提取模糊规则
在模糊神经网络和神经网络模糊系统的研究中,有些模糊神经网络和神经网络模糊系统中包含模糊规则的提取和精化方法。
(4)从递归网络中提取规则
该方法将递归网络的状态和有限自动机的状态相对应,可提高神经网络的泛化能力。
2.一些新规则的提取方法
本节主要介绍Taha和Ghosh的最新研究工作,其中包含三种规则提取方法:
(1)二值输入输出规则提取算法(BIO-RE)
该方法属于一种简单的黑箱方法,它对二值输入的神经网络进行规则提取,若原始输入不是二值的,则必须先将其二值化:
yi1ifxii
0otherwise其中,xi为原始输入;i为阈值;yi是与xi相对应的二值化输入。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
图4 感知器模型
它的算法为:
输入:经训练好的神经网络
输出:规则(库)
步骤:
① 给出对应于各二值输入模式的神经网络输出O(Y){oj(Y)|oj{0,1}};
② 将二值输入和输出相对应,构成一个真值表;
③ 由上式真值表生成相应的布尔函数,即所需的规则(库)。
BIO-RE算法所提取的规则有如下一般形式:
IF [Not]输入变量 [[And] [Not]输入变量]* → 结论j 其中,[·]---表示任选项;[·]*---表示可重复0次或n次。
若最终提取的规则为
IfY1AndNoYt2ThenO1 则必须将其改写为
IfX11AndX22ThenO1
由此可见,一个“真”二值输入变量(如,Y1)表示“X11”;一个否定的二值输入变量(如,NotY2)表示“X22”
此法当输入输出本来就是二值的,或经二值化后不会显著影响其性能且输入变量不太大时,用BIO-RE算法是合适的,否则此方法就不太适用。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
(2)部分规则提取算法(Partial-RE)
针对BIO-RE算法的不足,Partial-RE算法仅关心主要的连接权的组合,对每个隐层结点或输出层结点j,将输入结点j的正负连接权按降序排列,形成两个集合。然后从最大的正连接权开始,比如从第i个结点进入的连接权最大,该算法判断在不考虑其他结点输入的情况下,能否使结点j激活。若存在这样的结点j,则生成一条规则
cf
IfNodeiNodej
其中,cf表示该条规则的置信度:
1,若响应函数为Sigmoid型n_1exp(wjixij)i1n_
cfmin(1,wjixij),若响应函数为线性阈值函数
i11,若响应函数为阶跃函数这里,wji为输入xi与结点j间的连接权;j为结点j的阈值;称为置信参数,是一个小正数(0.10.3)。
若发现结点i足够强使得结点j被激活,则结点i即被标记,今后当考察结点j时,结点i将不被考虑。Partial-RE算法继续检查剩余的正连接权,直到发现一个带正连接权的结点不能单独激活结点j时为止。
必须注意:Partial-RE算法假定所有的输入均有相同的取值范围,这样它们对隐层结点的影响仅由权值决定。因此,必须对原始输入变量先进行量化:
zi_1.0xu1.0exp((i2i))2i
其中,zi是原始输入变量xi经量化后的值;i为输入X的标准均方差,ui是X的均值。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
此外,该算法还寻找负权结点,在激活时,则产生如下规则:
IfcfNotNodegNodej
不仅如此,该算法还寻找正权和负权的组合,并激活隐层或输出层结点,则产生如下规则:
cf
IfNodeiAndNotNodegNodej
当所有的规则都生成后,将它们改写成如下形式:
IfXiicfAndXggConsequentj
实验结果表明,Partial-RE算法比较适合于规模较大的问题,因为此时提取所有规则是一个NP-完全问题,而提取一部分最重要的规则是切实可行的办法。
(3)全部规则提取算法(Full-RE)
Full-RE算法与Partial-RE算法相比,它可以从连续输入、归一化输入及二值化输入等各种神经网络中提取规则,具有较好的普适性。
对每个隐层结点j,Full-RE算法首先生成以下中间规则:
cf
If(wjiXij)Consequentj
_由于存在一组Xi满足中间规则,这样就必须知道Xi的取值范围。每个输入特征Xi(ai,bi)可以用k个小区间来离散化为
Di{di,0ai,di,1,,di,k1,di,kbi}
当Full-RE算法发现离散化存在多组解时,它将根据连接权的符号选择Xi的最大或最小离散化值。若wji是负的,则Full-RE算法选择Xi的最大离散化值,否则选择Xi的最小离散化值。离散化后形成下列线性规化问题:
Minimizewj1D1wj2D2wjnDn 使得
____
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
___
wj1D1wj2D2wjnDnj 且Di{di,0ai,di,1,,di,k1,di,kbi},1in。
可以用任何一种求解线性规划问题的工具来求解该线性规划问题,从而得到X的取值范围。假设一个可行解为x1e1和x2e2,从输入X1和X2到结点j的连接权分别是正数和负数,则Full-RE算法如下规则:
IfX1e1cfAndX2e2hj
其中,aieibi。隐层和输出层间提取的规则可以表示为
cf
Ifh1Andh2Ok
Full-RE算法将中间规则和隐层与输出层间提取的规则复合形成新的规则,复合的方法是对每个隐层结点hj,将hj替换为中间规则中后件为hj的前件,最终形成的规则的一般形式为
cf
If简单布尔表达式[And简单布尔表达式]*结论j
值得注意的是,由于由Full-RE算法提取的规则中对前提条件的个数不作限制,而仅对相邻层间规则中的前提条件个数作限制。所以,当输入特征是二值时,就不需要二值化过程。7.3 基于ANN的数据挖掘示例
《吴一帆,基于模糊神经网络的数据挖掘算法.caj,长沙电力学院学
报,2002(4)》
第三篇:数据挖掘与知识发现(讲稿9--遗传算法)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
第九章
基于遗传算法的数据挖掘
面向属性的数据挖掘方法是基于逻辑的,神经网络挖掘方法是基于方程的,而本章要介绍的遗传算法,则是一种基于十字表的数据挖掘方法。它也是一种典型的知识发现方法。
遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。它最早由美国密执安大学的Holland教授提出,起源于60年代对自然和人工自适应系统的研究。70年代De Jong基于遗传算法的思想在计算机上进行了大量的纯数值函数优化计算实验。在此基础上,由Goldberg在80年代对其进行了归纳总结,形成了遗传算法的基本框架。9.1 遗传算法概要
对于一个求函数最大值的优化问题(最小值类同),一般可描述为如下的数学规划模型:
maxf(X)
s.t.XR
(9-1)
RU式中,X[x1,x2,,xn]T为决策变量;f(X)为目标函数(线性或非线性;离散或连续;单峰或多峰);U为基本空间;R为U上的一个子集。满足约束条件的解X称为可行解,集合R表示由所有满足约束条件的解组成的一个集合,叫做可行解集合。
图1 最优优问题的可行解及可行解集合
传统的求最优解或近似最优解的方法主要有:枚举法、分枝定界法、1
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
启发式算法和搜索算法。随着问题种类的不同,以及问题规模的扩大,要寻找到一种能以有限的代价来解决上述最优化问题的通用方法仍是一个难题。而遗传算法正好能为此类问题提供一个有效途径和通用框架,开创了一种新的全局优化搜索算法。
遗传算法是模拟生物进化过程的计算模型,它是自然遗传学和计算机科学相互结合渗透而形成的新的计算方法。
生物的进化过程主要是通过染色体之间的交叉和变异来完成的。在遗传算法中,将n维决策向量X用n个记号Xi,i1,2,,n所组成的符号串来表示X:
XX1X2XnX[X1,X2,,Xn]T
把每一个Xi,i1,2,,n看作一个遗传基因,它的所有可能取值称为等位基因。这样,X就可看作是由n个遗传基因所组成的一个染色体(或个体)。对于每个个体,要按照一定的规则确定出其适应度。个体的适应度与其对应的个体表现型X的目标函数值相关联,X越接近于目标函数的最优点,其适应度越大;反之适应度越小。所有染色体X就组成了问题的搜索空间。
生物的进化是以集团为主体的。与此对应,遗传算法的运算对象是由M个个体所组成的集合,称为群体。与生物一代一代的自然进化过程类似,遗传算法的运算过程也是一个反复迭代过程,第t代群体记为P(t),经过一代遗传和进化后,得到第t1代群体,也是由多个个体组成的集合,记为P(t1)。这个群体不断地经过遗传和进化操作,并且每次都按优胜劣汰的规则将适应度较高的个体更多的遗传到下一代,这样最终在群体中将会得到一个优良的个体X,它达到或接近于问题的最优解X*。
遗传算法中最优解的搜索过程也模仿生物的这种进化过程。使用所谓的遗传算子作用于群体P(t)中,进行下述的遗传操作,从而得到新一 2
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
代群体P(t1)。主要操作有:
选择:根据各个个体的适应度,按照一定的规则或方法,从第t代群体P(t)中选择出一些优良的个体遗传到下一代群体P(t1)中; 交叉:将群体P(t)内的各个个体随机搭配成对,对每一对个体,以某个概率(称为交叉概率)交换它们之间的部分染色体; 变异:对群体P(t)中的每一个个体,以某一概率(称为变异概率)改变某一个或某一些基因座上的基因值为其他的等位基因。遗传算法的运算步骤为:
(1)初始化:设置进化代数计数器t0;设置最大进化代数T;随机生成M个个体作为初始群体P(0);
(2)个体评价:计算群体P(t)中各个个体的适应度;(3)选择运算:将选择算子作用于群体;(4)交叉运算:将交叉算子作用于群体;
(5)变异运算:将变异算子作用于群体。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t1);
(6)终止条件判断:若tT,则tt1,转到步骤二;若tT,则以进化过程中所得到的具有最大适应度的个体作为最优解输出,终止计算。
遗传算法的执行过程如下图所示:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
图1 遗传算法的执行过程
9.2 遗传算法的特点
与传统的优化算法:单纯形法、梯度法、动态规划法和分枝定界法相比,遗传算法是一类可用于复杂系统优化计算的鲁棒性搜索算法。其特点主要有:
遗传算法以决策变量的编码作为运算对象。而传统的优化算法往往是直接利用决策变量的实际值本身来进行优化计算; 遗传算法直接以目标函数值作为搜索信息。而传统的优化算法不仅需要利用目标函数值,而且往往需要目标函数的导数值等其他一些辅助信息才能确定搜索方向;
遗传算法同时使用多个搜索点的搜索信息。而传统的优化算法往往从解空间中的一个初始点开始最优解的迭代搜索过程; 遗传算法使用概率搜索技术。而传统的优化算法往往使用的是确定性的搜索方法,一个搜索点到另一个搜索点的转移有确定的转移方法和转移关系,这种确定性往往也有可能使得搜索永远达不到最优点,因而限制了算法的应用范围。
9.3 遗传算法的应用
遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,对问题的种类有很强的鲁棒性,所以广泛应用于很
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
多学科。
(1)优化函数(2)组合优化(3)生产调度问题(4)自动控制(5)机器人学(6)图像处理(7)人工生命(8)遗传编码(9)机器学习
9.4 遗传算法的构成要素及形式定义
构成遗传算法的要素主要有:染色体编码方法、个体适应度评价、遗传算子、基本遗传算法的运行参数。
(1)染色体编码方法
在实现对一个问题用遗传算法进行求解之前,必须先对问题的解空间进行编码,以便于它能够由遗传算法进行操作。最常用的编码方法是二进制编码、浮点数编码、格雷码编码、符号编码等。
如,二进制编码方法是遗传算法中最常用的一种编码方法,它使用的编码符号集是由二进制符号集0和1所组成的二值符号集{0,1},它所构成的个体基因型是一个二进制编码符号串。
二进制编码符号串的长度与问题所要求的求解精度有关。假设某一参数的取值范围是[Umin,Umax],若用长度为l的二进制编码符号串来表示该参数,则它总共能够产生2l种不同的编码,即为:
00000000...00000000=0 ——> Umin 00000000...00000001=1 ——> Umin1
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
.....11111111...11111111=2*2*2…2-1——>Umax 则二进制编码的编码精度为:
sUmaxUmin l21假如,对于x∈[0,1023],若用10位长的二进制编码来表示该参数的话,则下述符号串:
X:
0 0 1 0 1 0 1 1 1 1
就可表示一个个体,它所对应的参数值为x=175。此时的编码精度s=1。
(2)适应度函数
在遗传算法中,模拟自然选择的过程主要通过评估函数和适应度函数来实现的。前者是用来评估一个染色体的优劣的绝对值,后者是用来评估一个染色体相对于整个群体的优劣的相对值的大小。
但在遗传算法中,评估函数和适应度函数的计算与应用比较相近,所以一般文献中常混为一谈。
(3)遗传算子
基本遗传算法使用下列三种遗传算子:
选择算子:按照某种策略从父代中挑选个体进入中间群体,如使用比例选择;
交叉算子:随机地从中间群体中抽取两个个体,并按照某种交叉策略使两个个体互相交换部分染色体码串,从而形成两个新的个体。如使用单点交叉;
变异算子:通常按照一定的概率(一般较小),改变染色体中某些基因的值。
(4)基本遗传算法的运行参数
基本遗传算法有下述4个运行参数需要提前设定:(目前无合理的理论依据)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
M:群体大小:即群体中所含个体的数量,一般取20-100; T:遗传算法的终止进化代数,一般取为100-500; pc:交叉概率:一般取为0.4-0.99; pm:变异概率:一般取为0.0001-0.1。基本遗传算法的形式定义为:
SGA(C,E,P0,M,,,,T)
其中,C---个体的编码方法;
E---个体适应度评价函数;
P0---初始群体;
M---群体大小;
---选择算子;
---交叉算子;
---变异算子;
T---遗优越性运算终止条件。9.5 遗传算法的数学理论
1.模式
定义:模式表示一些相似的模块,它描述了在某些位置上具有相似结构特征的个体编码串的一个子集。
不失一般性,以二进制编码为例,个体是由二值字符集V={0,1}中的元素所组成的一个编码串,而模式却是由三值字符集V{0,1,*}中的元素所组成的一个编码串,其中“*”表示通配符,它既可被当作“1”,也可被当作“0”。如,H=1***001*就是一个模式,串A=10100011与B=10110010都是与模式H相匹配的字符串,称为两者相似。
定义:模式H的第一个和最后一个常量之间的距离称为模式的定义长度,记为(H)。
定义:模式中常量的个数称为模式的阶数,记为O(H)。
如上例中,(H)6,O(H)4。再如(*****1**)1,O(*******1)1 显然,当字符串的长度固定时,模式的阶数越高,能与该模式匹配的字符串(称为样本)数就越少,因而该模式的确定性也就越高。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
2.模式定理
在引入模式的概念之后,遗传算法的实质可看作是对模式的一种运算。对基本遗传算法而言,也就是某一模式H的各个样本经过选择运算、交叉运算、变异运算之后,得到一些新的样本和新的模式。
假设在进化过程中的第t代时,当前群体P(t)中能与模式H匹配的个体数(样本数)记为m(H,t),下一代群体P(t1)中能与模式H匹配的个体数记为m(H,t1)。则在选择算子、交叉算子、变异算子的连续作用下,模式H的样本数m(H,t)的变化情况分析如下:(1)选择算子的作用
基本遗传算法中的选择算子使用的是比例选择算子。将当前群体中适应度的总和记为F(t)F(Ai),在这个算子作用下,与模式H所匹配
i的各个个体Ai能够平均复制Mm(H,t1)
F(Ai)个个体到下一代群体中,即 F(t)Mf(H,t)F(t)AiHP(t)MF(Ai)F(t)AiHP(t)Mf(H,t)f(H,t)m(H,t)m(H,t)_F(t)F(t)
(9-2)
F(t)式中,f(H,t)是第t代群体中模式H所隐含个体的平均适应度;
_F(t)M是第t代群体的平均适应度。
若再假设模式H的平均适应度总是高出群体平均适应度的倍,则(9-2)式可改写为
m(H,t1)m(H,t)(1C)
(9-3)由此可见,m(H,t1)为一等比级数。其通项公式为
m(H,t)m(H,0)(1C)t
(9-4)显然,有
若C>0,则m(H,t)呈指数级增长;
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
若C<0,则m(H,t)呈指数级减少。
由此可得如下结论:在选择算子作用下,对于平均适应度高于群体平均适应度的模式,其样本数将呈指数级增长;反之,呈指数级减少。(2)交叉算子的作用
以单点交叉算子为例,见图所示的一个模式。
隐含在该模式中的样本与其他个体进行交叉操作时,根据交叉点的位置不同,有可能破坏该模式,也可能不破坏该模式而使其继续生存到下一代群体中。下面估算该模式生存概率ps的下界。
显然,当随机设置的交叉点在模式的定义长度之内时,将有可能破坏该模式;而当随机设置的交叉点在模式定义长度之外时,肯定不会破坏该模式。则由交叉概率pc发生时,模式H的生存概率的下界为
ps1pc(H)l(9-5)
这样,经过选择算子和交叉算子作用之后,模式H的样本数满足下式:
m(H,t1)m(H,t)(1C)[1pc(H)l1]
(9-6)
由式(9-6)知,在其他值固定的情况下(C>0)
(H)越小,则m(H,t)越呈指数增长; (H)越大,则m(H,t)越不容易呈指数增长。(3)变异算子的作用
这里,以常用的基本位变异算子为例进行研究。
若某一模式被破坏,则必然是模式描述形式中通配符“*”之处的某一基因发生了变化,其发生概率是:
1(1pm)O(H)当pm1时,有:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1(1pm)O(H)O(H)pm
由此可知,在变异算子作用下,模式H的生存概率大约是:
ps1O(H)pm
(9-7)显然知
O(H)越小,模式H越易于生存; O(H)越大,模式H越易被破坏。
综合上面的各式,并忽略一些极小项,则比例选择算子、单点交叉算子、基本位变异算子的连续作用下,群体中模式H的子代样本数为:
m(H,t1)m(H,t)f(H,t)F(t)_[1pc(H)l1O(H)pm]
(9-8)
[模式定理] 遗传算法中,在选择、交叉和变异算子的作用下,具有低价、短的定义长度,并且平均适应度高于群体平均适应度的模式将按指数级增长。
模式定理阐述了遗传算法的理论基础,说明了模式的增长规律,同时也给遗传算法的应用提供指导作用。9.6 积木块假设与遗传算法欺骗问题
1.积木块假设
具有模式定理中所述的呈指数增长的模式称为积木块或基因块。之所以称为积木块,是由于遗传算法的求解过程并不是在搜索空间中逐一地测试各个基因的枚举组合,而是通过一些较好的模式,像搭积木一样,将它们拼接在一起,从而逐渐地构造出适应度越来越高的个体编码串。
模式定理说明了积木块的样本呈指数增长,亦即说明了用遗传算法寻找最优样本的可能性,但它并未指明遗传算法一定能够寻找到最优样本。
[积木块假设] 个体的基因块通过选择、交叉、变异等遗传算子作用,能够拼接在一起,形成适应度更高的个体编码。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
注:积木块假设已得到完整而严密的数学证明,但大量的应用实践也已说明了其有效性。
2.遗传算法欺骗问题(GA Deceptive Problem)
应用实践表明,存在着一类用遗传算法难以求解的问题,这类称为“GA-难”的问题往往不满足积木块假设,即由基因块之间的拼接,往往会欺骗遗传算法,使其进化过程偏离最优解。
原因:各种研究结果表明,属于“GA-难”的问题一般包含有孤立的最优点,即在这个最优点周围是一些较差的点,从而使得遗传算法较难通过基因之间的相互拼接而达到这个最优点的模式。实际上,目前也尚无解决这类问题的较好方法或策略。所幸的是,现实所遇到的各种应用问题中,很少有这种奇怪的性质。9.7 基于遗传算法的数据挖掘示例
【示例】从200名脑出血和脑血栓病例中,按如下属性:“病人的既往史”、“起病方式”、“局部症状”、“病理反射”、“膝腱反射”和“病情发展”等六个方面,找出这两类病人的识别规则。其中
(1)病人的既往史
包括:高血压(有01,无00)、动脉硬化(有01,无00);(2)起病方式
快(01)、慢(00);(3)局部证状
偏瘫(是01,否00)
瞳孔不等大(是01,否00)
两便失禁(是01,否00)
语言障碍(是01,否00)
意识障碍(无00,深度01,轻度10)
(4)病理反射
阳(01),阴(00)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
(5)膝腱反射
无(00),活跃(01),不活跃(10)
(6)病情发展
快(01),慢(00)
则可选30个病例作为训练样本,100个作为测试样本。
a)采用二进制编码方式。每个训练样本是由11个特征和1个类别组成,每个特征和类别都由2位二进制字符表示。那么,将样本编码成二进制字符串的消息就是一个由22位条件和2位结论组成的二元组。如,消息M=[***00101,01] b)假设训练集是由15个脑出血和15个脑血栓患者组成30个训练样本。本实验在对30个训练样本进行学习后,得到12条规则,学习终止于第170代。
(参见P201《数据仓库与数据挖掘》,陈文伟、黄金才编,人民邮电出版社,2004)
c)获取如下的7条主要规则:
(1)if 高血压=有∧瞳孔不等大=是∧膝腱反射=不活跃 then 脑出血(11)
(2)if 瞳孔不等大=是∧语言障碍=是 then 脑出血(12)
(3)if 高血压=有∧起病方式=快∧意识障碍=深度 then 脑出血(13)(4)if 高血压=有∧病情发展=快 then 脑出血(15)
(5)if 高血压=有∧动脉硬化=有∧起病方式= 慢 then 脑血栓(13)(6)if 动脉硬化=有∧病情发展=慢 then 脑血栓(15)(7)if 动脉硬化=有∧意识障碍=无 then 脑血栓(12)以上括号内的数值表示该规则的适应值。
第四篇:建设工程法规及相关知识讲义22
十九、档案法(0分;0分;1分)
(一)掌握建设工程档案的种类
1、工程准备阶段文件
2、监理文件
3、施工文件
4、竣工图和竣工验收文件
(二)掌握建设工程档案的移交程序
1、各主要参建单位向建设单位移交工程文件(1)基本规定
《建设工程文件归档整理规范》(GB/T50328—2001)规定,建设、勘察、设计、施工、监理等单位应将工程文件的形成和积累纳入工程建设管理的各个环节和有关人员的职责范围。建设单位在工程招标及与勘察、设计、施工、监理等单位签订合同时,应对工程文件的套数、费用、质量、移交时间等提出明确要求。勘察、设计、施工、监理等单位应将本单位形成的工程文件立卷后向建设单位移交。
建设单位应当收集和整理工程准备阶段、竣工验收阶段形成的文件,并应进行立卷归档。建设单位还应当负责组织、监督和检查勘察、设计、施工、监理等单位的工程文件的形成、积累和立卷归档工作,并收集和汇总勘察、设计、施工、监理等单位立卷归档的工程档案。
建设工程项目实行总承包的,总包单位负责收集、汇总各分包单位形成的工程档案,并应及时向建设单位移交;各分包单位应将本单位形成的工程文件整理、立卷后及时移交总包单位。建设工程项目由几个单位承包的,各承包单位负责收集、整理立卷其承包项目的工程文件,并应及时向建设单位移交。(2)工程文件的归档范围及质量要求
对与工程建设有关的重要活动、记载工程建设主要过程和现状、具有保存价值的各种载体的文件,均应收集齐全,整理立卷后归档。归档的工程文件应为原件。工程文件的内容及其深度必须符合国家有关工程勘察、设计、施工、监理等方面的技术规范、标准和规程。(3)工程文件的归档
归档文件必须完整、准确、系统,能够反映工程建设活动的全过程。归档的文件必须经过分类整理,并应组成符合要求的案卷。根据建设程序和工程特点,归档可以分阶段进行,也可以在单位或分部工程通过竣工验收后进行。勘察、设计单位应当在任务完成时,施工、监理单位应当在工程竣工验收前,将各自形成的有关工程档案向建设单位归档。凡设计,施工及监理单位需要向本单位归档的文件,应按国家有关规定单独立卷归档。
1页
工程档案一般不少于两套,一套由建设单位保管,一套(原件)移交当地城建档案馆(室)。勘察、设计、施工、监理等单位向建设单位移交档案时,应编制移交清单,双方签字、盖章后方可交接。
2、建设单位向政府主管机构移交建设项目档案
列及城建档案馆(室)档案接收范围的工程,建设单位在组织工程竣工验收前,应提请城建档案管理机构对工程档案进行预验收。建设单位未取得城建档案管理机构出具的认可文件,不得组织工程竣工验收。列人城建档案馆(室)接收范围的工程,建设单位在工程竣工验收后3个月内,必须向城建档案馆(室)移交一套符合规定的工程档案。
停建、缓建建设工程的档案,暂由建设单位保管。对改建、扩建和维修工程,建设单位应当组织设计、施工单位据实修改、补充和完善原工程档案。对改变的部件,应当重新编制工程档案,并在工程竣工验收后3个月内向城建档案馆(室)移交。
3、重大建设项目档案验收(1)验收组织 1)项目档案验收的组织
国家发展和改革委员会组织验收的项目,由国家档案局组织项目档案的验收;
(2)国家发展和改革委员会委托中央主管部门(含中央管理企业,下同)、省级政府投资主管部门组织验收的项目,由中央主管部门档案机构、省级档案行政管理部门组织项目档案的验收,验收结果报国家档案局备案;
(3)省以下各级政府投资主管部门组织验收的项目,由同级档案行政管理部门组织项目档案的验收;(4)国家档案局对中央主管部门档案机构、省级档案行政管理部门组织的项目档案验收进行监督、指导。项目主管部门、各级档案行政管理部门应加强项目档案验收前的指导和咨询,必要时可组织预检。2)项目档案验收组的组成
(1)国家档案局组织的项目档案验收,验收组由国家档案局、中央主管部门、项目所在地省级档案行政管理部门等单位组成;
(2)中央主管部门档案机构组织的项目档案验收,验收组由中央主管部门档案机构及项目所在地省级档案行政管理部门等单位组成;
(3)省级及省以下各级档案行政管理部门组织的项目档案验收,由档案行政管理部门、项目主管部门等单位组成;
(4)凡在城市规划区范围内建设的项目,项目档案验收组成员应包括项目所在地的城建档案接收单位;
2页
(5)项目档案验收组人数为不少于5人的单数,组长由验收组织单位人员担任。必要时可邀请有关专业人员参加验收组。(2)验收申请
项目建设单位(法人)应向项目档案验收组织单位报送档案验收申请报告,并填报《重大建设项目档案验收申请表》。项目档案验收组织单位应在收到档案验收申请报告的10个工作日内作出答复。(3)验收要求 1)项目档案验收会议
项目档案验收应在项目竣工验收3个月之前完成。项目档案验收以验收组织单位召集验收会议的形式进行。项目档案验收组全体成员参加项目档案验收会议,项目的建设单位(法人)、设计、施工、监理和生产运行管理或使用单位的有关人员列席会议。2)档案质量的评价
检查项目档案,采用质询、现场查验、抽查案卷的方式。抽查档案的数量应不少于100卷,抽查重点为项目前期管理性文件、隐蔽工程文件、竣工文件、质检文件、重要合同、协议等。
项目档案验收应根据DA/T28—2002《国家重大建设项目文件归档要求与档案整理规范》,对项目档案的完整性、准确性、系统性进行评价。3)项目档案验收意见的主要内容 4)档案验收结果
项目档案验收结果分为合格与不合格。项目档案验收组半数以上成员同意通过验收的为合格。项目档案验收合格的项目,由项目档案验收组出具项目档案验收意见。
项目档案验收不合格的项目,由项目档案验收组提出整改意见,要求项目建设单位(法人)于项目竣工验收前对存在的问题限期整改,并进行复查。复查后仍不合格的,不得进行竣工验收,并由项目档案验收组提请有关部门对项目建设单位(法人)通报批评。造成档案损失的,应依法追究有关单位及人员的责任。
例:重大建设项目档案验收应在项目竣工验收()个月前完成。(09真)A、1 B、2 C、3 D、4 【参考答案】C
3页
二十、税法(0分;1分;1分)
(一)熟悉纳税人的权利和义务
纳税人的权利包括特殊情况下延期纳税的权利和收取完税凭证的权利。
纳税人因有特殊困难,不能按期缴纳税款的,经批准可以延期缴纳税款,但是最长不得超过三个月。纳税人未按照规定期限缴纳税款的,扣缴义务人未按照规定期限解缴税款的,税务机关除责令限期缴纳外,从滞纳税款之日起,按日加收滞纳税款万分之五的滞纳金。纳税人的义务。包括依法纳税义务、出境清税义务和纳税人报告义务。例:根据《税收征收管理法》规定,对不按时缴纳税款的,税务机关可从滞纳税款之日起,按日加收滞纳税款()的滞纳金。(10真)A、万分之五 B、千分之五 C、万分之三 D、千分之三 【参考答案】A
(二)了解税务管理的制度
税务管理是税收征管程序中的基础性环节,主要包括三项制度,分别是税务登记制度、账簿凭证管理制度和纳税申报管理制度。
注意纳税人必须持证办理的事项。
税人办理下列事项时,必须持税务登记证件: 1.开立银行账户; 2.申请减税、免税、退税;
3.申请办理延期申报、延期缴纳税款; 4.领购发票;
5.申请开具外出经营活动税收管理证明; 6.办理停业、歇业等。
二十一、建设工程法律责任(3分;2分;4分)
(一)掌握民事责任的种类和承担民事责任的方式
1、民事责任的种类
4页
民事责任主要划分为两类,即违约责任和侵权责任。侵权责任不同于违约责任,其区别主要体现:
侵权行为违反的是法定义务,违约行为违反的是约定义务; 侵权行为侵犯的是绝对权,违约行为侵犯的是相对权; 侵权行为的法律责任包括财产责任和非财产责任,违约行为的责任仅限于财产责任。侵权行为可分为一般侵权行为与特殊侵权行为。
一般侵权行为,是指行为人基于主观过错实施的,适用侵权责任一般构成要件和一般责任条款的致人损害的行为。
特殊侵权行为,是指由法律直接规定,适用侵权责任特殊构成要件和特别责任条款的致人损害的行为。其中,与工程建设密切相关的行为有:①环境污染致人损害的侵权行为。②地面施工致人损害的侵权行为。③建筑物及地上物致人损害的侵权行为。
例:下列选项中,当事人应承担侵权责任的是()。(10真)A、工地的塔吊倒塌造成临近的民房被砸塌 B、某施工单位未按照合同约定工期竣工 C、因台风导致工程损害 D、某工程存在质量问题 【参考答案】A
2、承担民事责任的方式有10种。
即停止侵害;排除妨碍;消除危险;返还财产;恢复原状;修理、重作、更换;赔偿损失;支付违约金;消除影响、恢复名誉;赔礼道歉。例1:下列法律责任中,属于民事责任承担方式的是()。(11真)A、警告 B、罚款 C、支付违约金 D、没收财产 【参考答案】C 例2:民事违约责任的承担形式有()。(11真)A、赔偿损失 B、采取补救措施
5页
C、定金制裁 D、精神损害赔偿 E、赔礼道歉 【参考答案】ABC
(二)掌握工程建设领域常见行政责任种类和行政处罚程序
1、工程建设领域常见行政责任种类 行政处罚
在我国工程建设领域,对于建设单位、勘察、设计单位、施工单位、工程监理单位等参建单位而言,行政处罚是更为常见的行政责任承担形式。行政处罚的种类包括:(1)警告。(2)罚款。
(3)没收违法所得、没收非法财物。(4)责令停产停业。
(5)暂扣或者吊销许可证、暂扣或者吊销执照。
(6)行政拘留。行政拘留的期限是1日以上,15日以下。(7)法律、行政法规规定的其他行政处罚。
例:按照行政处罚法的规定,()可以设定除限制人身自由以外的行政处罚。(10真)(注:此题超纲)A、法律 B、行政法规 C、部门规章 D、地方性法规 【参考答案】B
结合《行政处罚法》规定的六种具体行政处罚种类,我国工程建设领域的法律、行政法规所设定的行政处罚种类主要有:警告、罚款、没收违法所得、没收违法建筑、构筑物和其他设施、责令停业整顿、责令停止执业业务、降低资质等级、吊销资质证书(同时吊销营业执照)、吊销执业资格证书或其他许可证、执照等。
行政处分也是一种行政责任形式。行政处分。即由国家机关、企事业单位对其工作人员违反行政法规或政纪的行为所实施的制裁。
6页
行政处分分为:警告、记过、记大过、降级、撤职、开除。例:下列属于行政处罚的是()(09真)A、没收财产 B、罚金 C、撤职 D、责令停产停业 【参考答案】D
2、行政处罚程序(1)行政处罚的决定程序 一般规则
1)违法事实不清的,不得给予行政处罚。
2)行政机关在作出行政处罚决定之前,应当告知当事人作出行政处罚决定的事实理由和依据,并告知当事人依法享有的权利。
3)当事人有权进行陈述和申辩。行政机关不得因当事人申辩而加重处罚。程序种类 1)简易程序
简易程序,是指针对违法事实确凿并有法定依据,对公民处以50元以下、对法人或者其他组织处以1000元以下罚款或警告的行政处罚而设定的行政处罚程序。适用简易程序可以当场作出行政处罚决定。
2)一般程序
一般程序,是指普遍适用的行政处罚程序,适用于除适用简易程序的行政处罚以外的其他行政处罚。3)听证程序
听证程序,是指针对行政执法机关作出吊销资质证书、执业资格证书、责令停产停业、责令停业整顿(包括属于停业整顿性质的,责令在规定的时限内不得承接新的业务)、责令停止执业业务、没收违法建筑物、构筑物和其他设施以及处以较大数额罚款等行政处罚,而设定的行政处罚程序。对于适用听证程序的行政处罚,行政机关在作出行政处罚决定前,应当告知当事人有要求举行听证的权利;当事人要求听证的,行政机关应当组织听证。当事人不承担行政机关组织听证的费用。(2)、行政处罚的执行程序
行政处罚决定一旦作出,就具有法律效力,当事人应当在行政处罚决定的期限内予以履行。当事人对
7页
行政处罚决定不服申请行政复议或者提起行政诉讼的,除法律另有规定的以外,行政处罚不停止执行。
(三)掌握犯罪构成与刑罚种类
1、刑罚种类
主刑:管制、拘役、有期徒刑、无期徒刑、死刑。注意:最轻的主刑是管制。拘役与管制的区别。
附加刑:罚金、剥夺政治权利、没收财产。注意罚金与罚款的区别。
2、熟悉工程建设领域犯罪的构成
主要包括重大责任事故罪:生产作业中违反安全管理规定,或者强令他人违章冒险作业,因而发生重大伤亡事故或其他严重后果。
重大劳动安全事故罪:安全生产设施或者安全生产条件不符合国家规定,因而发生重大伤亡事故或造成其他严重后果。
工程重大安全事故罪:违反国家规定,降低工程质量标准,造成重大安全事故的行为。
例:施工单位偷工减料,降低工程质量标准,导致整栋建筑倒塌,12名工人被砸死。该行为涉嫌触犯()。(09真)A、重大责任事故罪 B、重大劳动安全事故罪 C、工程重大安全事故罪 D、以其他方式危害公共安全罪 【参考答案】C
8页
第五篇:安全知识竞赛22
必答题一、二年级
1、小学生不应直接参预扑救火灾。√
2、过马路如果遇到没有人行道的马路时要靠右侧路边行走。√
3、千万不要把陌生人带回家(√)
4、坐车的时候,可以把头伸到窗户外面。×
5、打雷时,可以站到大树下面。×
6、可以把手指头插到插座里。×
7、如果发现邻居发生火灾,要及时报警,报警电话是(B)。
A、120B、119C、122D、1108、放学路上如果被陌生人跟踪,你认为最好的做法是(C)。
A、与陌生人拼B、赶快跑回家C、打110报警
9、当你单独一人在家时,遇有陌生人敲门,你认为最好的做法是(C)。
A、把门打开问他有什么事B、打开门,让他进来C、始终不开门
11、点燃的蚊香应放在(C)。
A、窗口B、桌子上C、地板砖上
12、乘坐公共汽车时,下列行为最不安全的是(C)。
A、行车时扶好扶手 B、在车厢内随意站立 C、将手或身子置于车窗外三、四年级
1、看完电视后,可以用湿冷抹布擦拭后盖及荧光屏。×
2、高速公路上,乘车时不要站立,不要随便开窗和摇晃。(√)
3、室内着火,火势较大,如果当时门窗紧闭,应立即打开门窗。×
4、当人触电后,须先立即使病人脱离电源后,方可抢救。√
5、火灾逃跑时,遇到浓烟,应直立行走。(×)
6、发生火灾时可以组织学生参加救火。×
7、打雷时,要就地蹲下,远离旗杆、高塔、烟囱、大树等。√
8、食品加工过程不卫生,不能吃。(√)
9、爬高不是非常危险的游戏(×)
10、上体育课时,穿不穿运动服装和运动鞋无所谓。×
11、建筑工地上存在安全隐患,不能去玩。√
12、只要不影响交通,可以在道路上使用旱冰鞋代步。
五、六年级
1、发生火灾时可以组织学生参加救火。×
2、被火烧伤或被开水烫伤时,如果身边有冰块,可以用冰块冰敷伤不需要再去医院×
3、在火场中逃生,要注意防止烟熏,要低头弯腰快速逃离现场。√
4、植物是绿色食品,可随便吃。(×)
5、火灾逃跑时,遇到浓烟,应直立行走。×
6、在室内发现煤气味,要立即打开排气扇。×
7、家里起火时,可以往身上浇水,以免引火烧身。√
8、上体育课时,穿不穿运动服装和运动鞋无所谓。×
9、上体育课不带与体育课无关的物品,如别针、小刀等金属、硬物上体育课。√
10、春秋游时如遇突发事件,要服从老师指挥,尽快有序地撤离到安全地带。√
11、用煤气时,火被吹灭,不要马上关煤气。(×)
12、如在室内发现煤气味,要立即开窗。(√)
共答题
1、如果在校外有人向你敲诈要钱,你应该怎么做?
2、幼儿园小朋友小明在大街上和妈妈走散了,你应该怎么做?
3、小东家发生火灾,他身上的衣服着火了,你应该怎么做?
4、父母还没下班,如果你放学回家时发现门开着屋里东西很乱,你应该怎么做?
5、小学生小青在河边散步,突然发现有一人掉进河里,你应该怎么做?
6、当你上课时,地震来了,你应该怎么做?
抢答题
1、每年全国的“中小学生安全教育日”是在(A)月份。
A、三B、六C、九D、十
2、油锅起火时,正确的灭火方法是(C)。
A、往锅里倒水B、赶快把锅端起来C、把锅盖盖上
3、家中电视机着火了,下更做法错误的是(B)。
A、迅速切断电源B、用灭火器对准荧光屏灭火C、用水把火灭掉
4、未满(C)岁的儿童,不能在马路上骑自行车。
A、10B、11C、12D、145、放置时间(A)的食品,不能食用。
A、过久B、短C、不久
6、幼儿园小朋友小明在大街上和妈妈走散了,他应该(A)。
A、找警察叔叔帮忙B、在原地等待C、找过路的人帮忙
7、一个未成年人被绑架,对他自己比较有利的做法是(C)。
A、大声斥责歹徒 B、绝食抗争 C、假装与歹徒合作,然后伺机逃跑
8、乘坐公共汽车、电车、出租车时,不准携带(C)。
A、食品B、饮料C、易燃易爆物品
9、观看燃放烟花爆竹,应至少远离燃放点(C)米以上。
A、1B、2C、1010、发生食物中毒,自己能采取的最有效的应急措施是(B)。
A、多喝开水B、催吐C、找解毒药
11、如果家里有人突发危险疾病,应拨打的电话是(B)。
A、110B、120C、119D、12212、遇到交通事故,应拨打的电话是(D)。
A、110B、120C、119D、12
2风险题
1、在家里遇震时如何应急?
2、打雷闪电时应注意哪些事项?
3、在上体育时脚不慎扭伤,你应该怎么做?
4、放学回家的路上,应注意哪些安全问题?
5、在餐厅,应注意哪些安全问题?
6、雷击前的征兆。