第一篇:云计算环境下的数据挖掘研究论文
摘要:文章首先对云计算的特点进行简要分析, 在此基础上对云计算环境下的数据挖掘进行研究。期望通过本文的论述能够对数据挖掘效率的提高有所帮助。
关键词:云计算;数据挖掘;服务;云计算的特点分析
1.1 超大规模
国内外大型互联网企业纷纷建立起云平台, 开启一大批服务器, 如Google公司、亚马逊公司、微软公司等公司都建立了云平台, 大幅度提升了网络平台数据运算效率、存储效率和交互效率, 使云计算具备超大规模特点。
1.2 虚拟化
云平台是向网络平台提供资源的平台, 网络用户可借助云计算技术在任意位置获取应用服务, 这种应用服务不是固定实体, 而是虚拟化的。在云平台上, 需要运行虚拟化的搜索、储存、上传下载操作, 网络用户无需了解资源的获取渠道, 只要通过终端设备就可以获取网络服务信息, 实现数据快速互传。
1.3 可靠性高
云平台可提高数据互传、存储的可靠性, 其采用计算节点同构可互传、数据多副本容错等措施增强服务的可靠性, 即使在数据传输或存储丢失的情况下, 也可以找回渠道恢复数据, 与计算机自带硬盘相比, 网络云计算平台的可靠性更高。
1.4 通用性强
云计算技术的针对性不强, 对其他设备没有过高的要求, 只需在网络平台上建设平台, 配备足够的服务器, 就可以实现云计算技术的应用。在同一云平台的支撑下, 可满足不同设备的运行要求。
1.5 扩展性好
云平台既可以满足不同类型企业的需求, 也可以满足个人用户需求, 其本身带有动态伸缩性。用户可根据自身需求对空间、功能进行定制, 满足个性化的应用要求, 使云平台具备良好的扩展性。
1.6 按需服务
云平台可提供充足的空间, 便于用户在云平台上存储、调用、传输数据资源。为了避免用户过度占用云平台资源, 云平台一般设置了计费标准, 要求用户按需购入占用量, 促使云平台成为可交易的资源。云计算环境下的数据挖掘
2.1 数据挖掘服务层次结构
2.1.1 基础设施层
该层主要为整个数据挖掘服务提供存储和计算资源, 在基础设施层运行中, 通过接口可连接网络资源与物理资源, 实现不同类型资源的高度共享。该层还提供数据挖掘服务的虚拟化接口, 满足资源对接要求, 为资源存储、共享提供技术支撑。
2.1.2 虚拟化层
在云计算技术上建立数据挖掘服务模式, 利用虚拟化层快速处理大量资源。在结构体系中, 虚拟化层根据云计算技术虚拟化汇聚分布式资源, 在封装处理虚拟资源的基础上, 分类和管理不同资源, 从而提高挖掘服务执行效率。在对资源进行封装后, 通过开发和利用平台层实现资源共享。虚拟化技术是资源封装的重要技术, 既可以提高资源运行效率, 也可以实现对资源的合理调动, 提高服务模式的便捷性。
2.1.3平台层
在数据挖掘服务模式中,平台层作为数据核心服务部分, 负责管理不同数据及其功能, 实现不同服务目录的高效管理。用户可根据服务内容和使用需求组合不同服务目录, 发挥数据功能性管理作用。在平台层中, 可有效调度计算资源, 提高计算资源的运行效率, 这使得平台层在数据挖掘服务中占据着不可替代的地位。
2.1.4 应用层
该层由终端层和接口层组成, 其中接口层为用户提供服务等级, 满足各种服务请求, 终端层将服务请求显示出来, 并且可根据请求的服务内容作出评价。在终端层的内容访问中, 根据用户访问请求、访问内容对访问接入作出不同选择, 再结合用户访问情况, 借助终端设备实现数据挖掘服务。
2.2 体系的建模流程
2.2.1 对服务进行自定义
在数据挖掘服务运行时, 可通过自定义完成相关数据的搜集, 从而快速找到与之相关的资源。由此可以使数据挖掘人员开展工作时, 对候选加以充分利用, 进而形成服务目录, 为用户使用提供方便。
2.2.2 组件构建
在对数据挖掘服务组件进行构建时, 应当确保调用服务接口的统一性, 同时在构建其它服务组件时, 需要绑定服务和数据, 从而构建起数量更多的组件, 为用户提供所需的数据挖掘服务模式。
2.3 数据挖掘体系的服务过程
2.3.1 分析阶段
该阶段主要负责分析数据挖掘内容, 确定需要挖掘的数据, 根据对应的数据服务内容设置相应的服务模式, 并对服务模式作出定义。为保证数据挖掘与实际需求相符, 在数据挖掘时需先进行数据分析, 深入到外部环境中调查市场发展趋势和市场需求情况, 以市场为导向开发大数据挖掘模式, 使云计算下的数据挖掘服务更具备高效性、实用性和针对性。
2.3.2 设计阶段
该阶段要根据前期市场调查情况对数据挖掘服务方案进行设计, 最终确定符合用户使用习惯的数据处理模式。数据挖掘服务模式设计不仅关系到用户体验的满意程度, 而且还影响着数据挖掘服务运行效率。在某些特定的情况下, 甚至可能对供应商与消费者带来利益冲突, 阻碍数据挖掘服务在信息化环境中的有效应用, 为了解决上述问题, 必须以市场调查为前提开展数据挖掘服务模式设计, 避免不必要的矛盾。
2.3.3 开发阶段
在该阶段, 一套相对完整的数据挖掘服务体系会随着设计得以呈现, 各种服务内容与方法在该阶段中得到合理应用。体系开发时, 应对各项功能进行定义, 并将所有的功能整合到一起, 以此来实现多种不同的服务目标, 确保数据挖掘服务模式的高效运行。对体系进行开发的过程中, 可基于服务接口的实现, 对相关的功能进行有效地协调, 从而使开发出来的功能更符合用户的使用需要, 由此可使数据挖掘服务的价值得以充分体现, 有利于推动数据挖掘服务市场的持续、稳定发展。结论
综上所述, 云计算以其自身所具备的诸多特点, 在诸多领域中得到越来越广泛的应用。本文在简要阐述云计算特点的基础上, 对云计算环境下的数据挖掘进行分析研究, 提出数据挖掘服务模式的构建方法, 以期能够对数据挖掘效率的进一步提升有所帮助。
参考文献
[1]孙亮.数据挖掘服务模式应用云计算的优化策略探究[J].黑河学院学报, 2018(01):23-25.[2]王勃, 徐静.基于云计算的Web数据挖掘Hadoop仿真平台研究[J].电子设计工程, 2018(01):43-44.[3]包科, 蔡明.高速接入网云计算平台的大数据挖掘算法研究[J].机床与液压, 2017(12):143-144.[4]冯丽慧.云计算和挖掘服务融合下的大数据挖掘体系架构设计及应用[J].电脑编程技巧与维护, 2017(12):132-133.
第二篇:云计算和大数据下在线教育研究
云计算和大数据环境下的在线教育研究
1.引言
当前云计算和大数据技术的出现,面对在线教育交互中产生的大量复杂数据,可以实现识别、分析、挖掘并组织隐含在学习者交互过程中的结构化、非结构化数据信息,开发交互过程数据的价值,发现其隐性诉求并预测学习支持服务趋势,并以其为导向改进和拓宽在线教育服务,达到在线教育服务与学习者需求的双向平衡。本文就是立足于对在线教育的交互瓶颈和需求分析,构建基于大数据和云计算支持的在线教育交互平台模型。重点研究交互平台功能实现,使在线的学习者和教师可以实现完美的在线交互活动,并且对交互的数据进行深入挖掘分析,解决目前在线教育所面临的弊端。
2.在线教育交互平台现状分析
在线教育交互分为个别化交互和社会性交互,前者是学习者和学习资料之问的交互,后者是学习者和教师或者学习者之问的交互,社会性交互是提高在线教育交互水平的关键因素。随着在线教育的交互信息资源增加,在线学习者和在线教师的需求不断发展和提高,在线教育出现了许多问题。
针对服务应用。目前在线教育的交互平台缺乏统一身份认证体系,需要进行身份重复验证,给用户造成不便同时给系统增加安全隐患;缺乏统一的应用展现,用户信息分散在各个应用中,且服务功能重复,堆砌浪费;使用方法、界面和质量不统一,给平台使用和维护管理造成不便。在线学习时间的碎片化趋势对学习者的终端设备要求很高,造成学习质量下降;缺乏跨终端的资源共享系统,影响学习效率和满意度,改变终端学习,增加数据丢失、病毒入侵等安全问题。
针对信息资源的存储和分析挖掘。随着在线学习者和在线教师的服务需求日益个性化和专业化,对于服务质量也越来越看重,在线教育交互平台必须根据在线学习者和在线教师的需求作出相应的策略改变,以适应服务需求的不断改变和提高。由于在线教育是基于互联网的学习方式,学生和学习资源、教师与学生、学生与学生之间的交流是通过网络全方位进行,所以需要通过对学习交流的分析挖掘出在线学习者和教师的需求。在线教育的信息资源总量日益增大,主要的数据资源包括结构化和非结构化信息,以及在线教育平台内部以异构化数据为主的相关信息,且每天以大量的非结构化数据和异构性数据资源为主。但是目前对于这些异构性数据和非结构化数据的记录、存储和统计技术,完全不能满足在线教育交互平台的数据需求。因此对平台产生的结构化、非结构化、异构性大量数据进行分析和深度挖掘潜在价值成为必然,为在线学习者和教师反馈快速、及时、高效、安全的信息分析结果。3.在线教育交互平台应用云计算和大数据
3.1 云计算和大数据与在线教育交互平台
云计算是通过互联网络庞大的计算处理能力,将待处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算和分析,最后将处理结果回传给用户。大数据技术是数据分析的前沿技术,需要从各种各样类型的数据中,快速获得有价值信息的能力,是需要新处理模式才能实现更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。云计算强调的是动态计算能力,大数据注重的是静态的计算对象。云计算弥补了目前大数据的存储和运行的最大问题,就是提供了运算平台,而大数据则运用分布式处理手段应用于这个平台之上,两者是相辅相成的关系。
云计算与大数据结合应用,前者强调计算能力,后者看重存储能力。大数据需要处理大量复杂数据的能力,包括数据获取、整理、转换、统计,即强大的计算能力,而云计算需要大量数据作为运算的基础,所以两者的结合是必然趋势。实际应用中,云计算的出现和兴起促进了大数据的广泛应用,而大数据和云计算的结合应用更是出现在许多领域,现已扩展到公共问题领域。但是目前还没有进入在线教育行业。
借助云计算的优势,在线教育交互平台上的用户无需考虑在线学习时终端设备的运算、存储和负载能力的问题,可以更好的实现教育资源共享和教育网络协同工作,大幅度提高教育资源的利用率和运行效率。云存储屏蔽了数据丢失、病毒入侵等问题,保障了数据安全和用户信息私密,是在线教育交互平台最安全可靠的数据存储中心。用户使用终端设备访问教育资源进行在线学习和交流,都会产生并积累大量结构化和非结构化数据,不仅体量大而且增长速度很快。其中非结构化数据已占数据总量的八成以上,但目前的数据分析处理算法和软件不能达到对非结构化数据的处理要求。大数据技术的应用却可以高速实时处理在线教育平台产生的复杂海量数据,为在线教育平台实时洞察学习者的变化、把握学习者的需求、提高教育质量提供支持。对在线教育平台上大量的不相关信息,进行深度复杂分析,为未来教育需求趋势提供预测分析,这是应用大数据的在线教育与传统在线教育本质的不同。
3.2 基于云计算和大数据的在线教育交互平台应用模型分析
根据上述分析,随着在线教育日益同质化,在线教育机构需要在保障教育资源丰富和高质量的同时,更好的分析在线学习者和教师的偏好,为平台的每个用户提供有针对性的个性化服务。下面将利用云计算和大数据的优势构建符合学习者和教师需求的高质量在线教育交互平台模型,如图1所示。
应用云计算和大数据技术的在线教育交互平台主要分为用户应用服务层、数据资源处理层、基础设施硬件层三部分,依次分析三部分功能实现。
3.2.1用户服务应用层
在线教育交互平台的用户主要为两类,即在线教师和在线学习者。针对不同的用户,访问的授权和界面不同,尽可能为用户提供个性化的精准服务,主要表现为属于用户自己的展现网页。服务应用内容主要分为四类,包括在线教学内容、教学管理、交流互动和学习管理,如图2所示。
服务应用层是资源对外交互的窗口,是用户使用资源的桥梁,与用户体验的便捷性有很大关系。因此应用服务层是根据用户需求,对信息资源请求重构和提供,实现信息资源的服务分类,用户享受个性化的服务资源。
平台对每个用户展现的内容是不相同的。针对教师,平台实时反馈在线学习者的情况和分析结果,尤其是对学习者的学习风格和偏好的分析,实时跟踪学生在课前、课中和课后的情况,完成课程反馈,对学生在平台上的行为、学习记录智能跟踪记录分析。针对学习者,构成学习、答疑、测评、互动四位一体的学习模式,运用丰富的学习资源,根据后台的数据挖掘。提供学习进度安排和个性化的学习方案。实现以学生为中心的在线教育方式。实现自主个性化学习、个性化即时笔记、针对性课程复习和测评,多方式在线交互的方式。
在线教育交互平台的用户看到的是良好的服务交互界面,无需知道后台数据资源整合过程,完全由平台的数据资源处理层完成,所以拥有更好的用户体验。平台是所有教学资源的集散地,整合资源方便统一管理和使用,同一份资源,只需保存一份,通过资源关联,可以在任意系统中快速调用。同时避免数据库急剧增长,极大地减轻网络负荷,减少用户和平台的工作时间,维持资源唯一性,资源发生更改时所有使用该资源的应用均自动更新。
3.2.2数据资源处理层
中问层是数据资源处理层,主要为三部分。第一部分是对数据进行标准化处理,第二部分是进行数据挖掘分析整合。第三部分是数据库。中问层的核心是第二部分,也是在线教育交互平台的核心。如图3所示。
面对迅速增加的复杂数据,在线教育交互平台利用云计算和大数据进行现代数据管理,支持所有数据类型,如文件、图片、视频、博客、点击流和地理空问数据等,并以“云存储”持久存储于数据中心,保持数据实时更新,实现数据共享、分析、发现、整合和优化数据,提升数据价值。
利用负载平衡优势,有效透明地扩展网络设备和服务器的带宽、增加在线教育交互平台的吞叶量、加强平台网络数据处理能力、提高服务的灵活性和可用性。面对用户大量的并发访问或数据流量,可以分担到多台设备上处理,减少教师和学习者的等待响应的时间;同时做并行处理,处理结果汇总返回到在线交互平台,平台系统处理能力得到大幅度提高。
离线数据是用户访问的各种数据库中的信息资源,是从服务器端、客户端、代理服务器端中采集的用户访问信息和行为信息。利用大数据技术进行数据处理,清除不需要的数据,用聚类、分类等算法对处理之后的数据进行模式分析,成立样本数据资源为数据流挖掘分析作准备。在线数据是由于数据流的动态性和流量大的特点,在实现数据流挖掘时,对流入的数据流,利用云计算做到占用内存少,处理速度快,实现关联规则、分类和聚类的挖掘。
整合数据是将离线数据作为样本库的参考,对在线数据进行分析,及时有效的反馈结果,并且随着时间的推移和用户对信息资源的需求改变,及时更新资源分析结果。通过数据挖掘过程,对数据过滤、分析和整合,建立多资源分类结果,按照用户的不同需求进行决策,形成索引为用户访问和使用服务提供便利。整合数据主要是为整合用户做准备,将用户的信息资源进行相似度分析,对于类似的用户归类,进行同类信息资源的分配。根据在线学习者的基本信息、学习风格、学习满意度和学习感知四维度的服务需求,可实现用户的定制服务、个性化服务、精准服务,便于用户方便提取自己需要的资源。最后将用户需要的资源根据授权不同。做统一标准化处理。上传至服务应用层,展现于用户的界面。
4.基于云计算和大数据的在线教育交互平台应用优势
云计算和大数据结合对在线教育的发展具有巨大的促进作用,不仅是针对提供的服务,更是对教育发展的促进,增强在线教育的核心竞争力,保持在线教育的健康发展。4.1实现针对不同用户的个性化精准服务
在从以资源为核心的在线教育平台建设到以用户为核心的个性化在线教育平台建设过程中,最主要的变化的就是针对不同用户提供不同的个性化服务。而云计算和大数据的应用就在于加强对在线教育的平台用户研究与交互数据的分析利用。并基于分析结果。改善服务内容,提升个性化服务的质量,完成平台对用户的跟踪服务、精准服务、知识关联服务和宣传推广服务。面对平台快速增长的数据,从中提取有价值的信息,实时分析反馈,建立不同类别的用户模型,达到针对不同用户提供针对性服务、增强用户体验、提高服务质量的目标。即使分析的数据源相同,但是由于提供对象不同,分析结果会不同,提供的服务也不同,做到精准服务。即使是同类用户,针对不同的个体,分析数据源不同,结果不同,提供的服务也不尽相同,做到个性化服务。
4.2提供教育发展动向以及热点的变化
通过大数据和云计算技术,改变了被动更新教学资源的情况,变成根据在线学习者的需求主动更新资源,提升了在线教育平台的作用。不仅为在线学习者提供了需要的学习资源,也为在线教师提供更有质量的教学资源和研究依据。在线教育交互平台通过对用户数据的收集、整理、分析、深度挖掘和汇总,在宏观上分析相关教育领域的发展动向和热点变化,更快地洞察最新的学习者兴趣走向,以及相关领域的内容进展,更新在线平台的学习资源,并且保证学习内容的实时性和前沿性。同时通过汇总结果有效评估在线学习者对各种教学资源的使用情况,并且根据热点分析和目前已有教学资源交叉对比,可以有效评估教学资源的质量,利于在线教育交互平台持久发展。4.3提供无限量的数据存储能力和更可靠的数据安全性
随着在线教育交互的发展,信息数据量迅猛增长,产生出大量的半结构化、非结构化信息数据,对存储的要求愈加严格。云计算的出现使得海量数据的存储与运算得到了解决,分布式存储的方式可以持续收集大量数据,不会造成存储空问的不足。在线教育交互平台应用“云存储”方式,保证存储数据的可靠性,并能够实时更新,有效解决海量数据资源的查询、管理等问题。云计算使用数据多副本容错、设备同构可互换等手段来保障平台的数据存储安全。数据存储到“云”中,不会受到计算机病毒或硬盘损坏造成的数据丢失。同时解放了用户对终端设备能力的要求。4.4提高在线教育交互平台管理能力
应用云计算和大数据的在线教育交互平台,能够面向具体应用的数据需求,做到快速、及时和有效地响应。根据需求的变化和增长,平台具有很好的性能扩展空问和扩容时稳定和可靠的支持,高效处理多种类型数据。在线教育机构以此平台为基础利用云计算技术和大数据的优势,充分挖掘自身数据价值,实现数据资产从成本中心到利润中心的转变。通过整合数据资产,对数据资产进行标准化,形成灵活可扩展、易于更新、可管控的、可隔离、绿色环保的高效分析型数据管理交互平台,实现支持标准开发、用户自服务、多元化开发多种应用支持模式,形成松祸合、可异构的基础数据和应用数据两级数据管理层次。同时,在线教育机构可以驾驭自身数据资产,全面提升平台的数据信息管理能力,尽力获取对在线学习者和在线教师的洞察,以数据驱动在线教育的发展。
5.结论
对于在线教育交互这个重要研究领域而言,云计算和大数据技术的出现不仅影响着在线教育交互的形态,也为交互信息分析提供了新的思路和手段。一方面,新的技术使交互行为不断向着实时化和碎片化的方向发展,使交互过程日益复杂;另一方面,新的技术又使获得大量交互数据、特别是行为数据成为了可能,从而有更多了解在线学习过程和进行教学决策的依据。在线教育交互作为信息服务,尽管在线教育交互平台有资源的优势,但在技术等方面的劣势也限制了其本身的发展。本文构建基于大数据和云计算支持的在线教育交互平台模型,分析平台的功能实现,使在线的学习者和教师可以实现完美的在线交互活动,总结出利用云计算和大数据的在线教育交互平台的特点优势。因此,在线教育交互平台的快速发展需要利用云计算和大数据创新提升在线教育交互的核心竞争力。
第三篇:数据挖掘教学方法研究论文
摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
关键词:数据挖掘;进阶课程;教学方法研究;本科高年级
学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。
1数据挖掘等进阶课程所面临的问题
1.1进阶课程知识体系的综合性
进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。
1.2进阶课程的教学的目的要求
进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。
2数据挖掘等进阶课程的具体教学方法
进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。
2.1进阶课程的课堂教学
数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。
2.2进阶课程的课后教学
对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。
2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。
3结语
数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。
参考文献:
[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,2016(35).[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,2011(04).
第四篇:大数据与云计算论文
大数据与云计算
摘 要:大数据(Big Data)这个概念近年来在越来越多的场合、被越来越多的人提及,并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本
专题报告包含以下四个方面内容:1.大数据的价值;2.大数据带来的挑战;3.大数据研究成果;4.云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,大数据主要着眼于“数据”,提供数据采集、挖掘、分析的技术和方法;云计算技术主要关注“计算”,提供IT 解决方案。大数据、云计算技术可以促进持续审计方式的发展、总体审计模式的应用、审计成果的综合应用、相关关系证据的应用、高效数据审计的发展和大数据审计师的发展。强化大数据、云计算技术审计应用的措施包括制定长远发展战略、加快审计法规建设、建立行业平台、加强研发和提高利用能力。关键词:大数据 云计算 数据挖掘 对审计影响 政策建议 引言
目前,大数据伴随着云计算技术的发展,正在对全球经济社会生活产生巨大的影响。大数据、云计算技术给现代审计提供了新的技术和方法,要求审计组织和审计人员把握大数据、云计算技术的内容与特征,促进现代审计技术和方法的进一步发展。
一、大数据、云计算的涵义与特征
随着云计算技术的出现,大数据吸引了全世界越来越多的关注。哈佛大学社会学教授加里·金(2012)说: “这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”(一)大数据的涵义与特征
“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。2009 年,“大数据”概念才逐渐开始在社会上传播。而“大数据”概念真正变得火爆,却是因为美国奥巴马政府在2012 年高调宣布了其“大数据研究和开发计划”。这标志着“大数据”时代真正开始进入社会经济生活中来了。“大数据”(big data),或称巨量资料,指的是所涉及的数据量规模大到无法利用现行主流软件工具,在一定的时间内实现收集、分析、处理或转化成为帮助决策者决策的可用信息。互联网数据中心(IDC)认为“大数据”是为了更经济、更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据具有4 个特点: 第一,数据体量巨大(Volume),从TB 级别跃升到PB 级别。第二,处理速度快(Velocity),这与传统的数据挖掘技术有着本质的不同。第三,数据种类多(Variety),有图片、地理位置信息、视频、网络日志等多种形式。第四,价值密度低,商业价值高(Value)。存在单一数据的价值并不大,但将相关数据聚集在一起,就会有很高的商业价值(金良,2012)。大数据时代,不仅改变了传统的数据采集、处理和应用技术与方法,还促使人们思维方式的改变。大数据的精髓在于促使人们在采集、处理和使用数据时思维的转变,这些转变将改变人们理解和研究社会经济现象的技术和方法。
(1)是在大数据时代,不依赖抽样分析,而可以采集和处理事物整体的全部数据。19 世纪以来,当面临大的样本量时,人们都主要依靠抽样来分析总体。但是,抽样技术是在数据缺乏和取得数据受限制的条件下不得不采用的一种方法,这其实是一种人为的限制。过去,因为记录、储存和分析数据的工具不够科学,只能收集少量数据进行分析。如今,科学技术条件已经有了很大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大量增加,而且未来会越来越多。随着大数据分析取代抽样分析,社会科学不再单纯依赖于抽样调查和分析实证数据,现在可以收集过去无法收集到的数据,更重要的是,现在可以不再依赖抽样分析。
(2)是在大数据时代,不再热衷于追求数据的精确度,而是追求利用数据的效率。当测量事物的能力受限制时,关注的是获取最精确的结果。但是,在大数据时代,追求精确度已经既无必要又不可行,甚至变得不受欢迎。大数据纷繁多样,优劣掺杂,精准度已不再是分析事物总体的主要手段。拥有了大数据,不再需要对一个事物的现象深究,只要掌握事物的大致发展趋势即可,更重要的是追求数据的及时性和使用效率。与依赖于小数据和精确性的时代相比较,大数据更注重数据的完整性和混杂性,帮助人们进一步认识事物的全貌和真相。
(3)是在大数据时代,人们难以寻求事物直接的因果关系,而是深入认识和利用事物的相关关系。长期以来,寻找因果关系是人类发展过程中形成的传统习惯。寻求因果关系即使很困难且用途不大,但人们无法摆脱认识的传统思维。在大数据时代,人们不必将主要精力放在事物之间因果关系的分析上,而是将主要精力放在寻找事物之间的相关关系上。事物之间的相关关系可能不会准确地告知事物发生的内在原因,但是它会提醒人们事情之间的相互联系。人们可以通过找到一个事物的良好相关关系,帮助其捕捉到事物的现在和预测未来。(二)云计算的涵义与特征
“云计算”概念产生于谷歌和IBM 等大型互联网公司处理海量数据的实践。2006 年8 月9 日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会首次提出“云计算”的概念。2007 年10 月,Google 与IBM 开始在美国大学校园推广云计算技术的计划,这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持(Michael Mille,2009)。目前全世界关于“云计算”的定义有很多。“云计算”是基于互联网的相关服务的增加、使用和交付模式,是通过互联网来提供动态易扩展且经常是虚拟化的资源。美国国家标准技术研究院(NIST)2009年关于云计算的定义是: “云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。”根据这一定义,云计算的特征主要表现为: 首先,云计算是一种计算模式,具有时间和网络存储的功能。其次,云计算是一条接入路径,通过广泛接入网络以获取计算能力,通过标准机制进行访问。第三,云计算是一个资源池,云计算服务提供商的计算资源,通过多租户模式为不同用户提供服务,并根据用户的需求动态提供不同的物理的或虚拟的资源。第四,云计算是一系列伸缩技术,在信息化和互联网环境下的计算规模可以快速扩大或缩小,计算能力可以快速、弹性获得。第五,云计算是一项可计量的服务,云计算资源的使用情况可以通过云计算系统检测、控制、计量,以自动控制和优化资源使用。(三)大数据与云计算的关系
从整体上看,大数据与云计算是相辅相成的。大数据主要专注实际业务,着眼于“数据”,提供数据采集、挖掘、分析的技术和方法,强调的是数据存储能力。云计算主要关注“计算”,关注IT 架构,提供IT 解决方案,强调的是计算能力,即数据处理能力。如果没有大数据的数据存储,那么云计算的计算能力再强大,也难以找到用武之地;如果没有云计算的数据处理能力,则大数据的数据存储再丰富,也终究难以用于实践中去。
从技术上看,大数据依赖于云计算。海量数据存储技术、海量数据管理技术、MapReduce 编程模型都是云计算的关键技术,也都是大数据的技术基础。而数据之所以会变“大”,最重要的便是云计算提供的技术平台。数据被放到“云”上之后,打破了过去那种各自分割的数据存储,更容易被收集和获得,大数据才能呈现在人们眼前。而巨量的数据也只能依靠云计算强大的数据处理能力,才能够“淘尽黄沙始得金”。
从侧重点看,大数据与云计算的侧重点不同。大数据的侧重点是各种数据,广泛、深入挖掘巨量数据,发现数据中的价值,迫使企业从“业务驱动”转变为“数据驱动”。而云计算主要通过互联网广泛获取、扩展和管理计算及存储资源和能力,其侧重点是IT 资源、处理能力和各种应用,以帮助企业节省IT部署成本。云计算使企业的IT 部门受益,而大数据使企业的业务管理部门受益。
从结果看,大数据与云计算带来不同的变化。大数据对社会经济带来的变化是巨大的,涉及到各个领域。大数据已经与资本、人力一起作为生产的主要因素影响着社会经济的发展。数据创造价值,而挖掘数据价值、利用数据的“推动力”就是云计算。云计算将信息存储、分享和挖掘能力极大提高,更经济、高效地将巨量、高速、多变的终端数据存储下来,并随时进行计算与分析。通过云计算对大数据进行分析、总结与预测,会使得决策更可靠,释放出更多大数据的内在价值。
二、大数据、云计算技术对审计的影响分析
审计技术和方法的发展是随着科学和管理技术的发展而发展的。现代审计技术和方法体系是在原始的查账基础上从低级向高级、从不完备到比较完备发展起来的。在业务和会计处理手工操作阶段,审计实施的是账表导向的审计技术和方法;当内部控制理论和方法全面应用于业务和会计处理时,审计实施的是系统导向的审计技术和方法;当风险管理理论和方法全面应用于业务和财务管理时,审计实施的是风险导向审计技术和方法;与风险导向审计技术和方法并行的是,计算机技术广泛应用于业务和会计处理时,审计实施的是IT 审计技术和方法。目前,面对大数据、云计算技术的产生和发展,审计人员需要应时而变来适应由此而带来的变化,分析大数据、云计算技术对审计方式、审计抽样技术、审计报告模式、审计证据搜集等技术和方法的影响。(一)大数据、云计算技术促进持续审计方式的发展
传统审计中,审计人员只是在被审计单位业务完成后才进行审计,而且审计过程中并不是审计所有的数据和信息,只是抽取其中有的一部分进行审计。这种事后和有限的审计对被审计单位复杂的生产经营和管理系统来说很难及时做出正确的评价,而且对于评价日益频繁和复杂的经营管理活动的真实性和合法性则显得过于迟缓。随着信息技术迅速发展,越来越多的审计组织对被审计单位开始实施持续审计方式,以解决审计结果与经济活动的时差问题。但是,审计人员实施持续审计时,往往受目前业务条件和信息化手段的限制,取得的非结构化数据无法数据化,或者无法取得相关的明细数据,致使对问题的判断也难以进一步具体和深入。而大数据、云计算技术可以促进持续审计方式的发展,使信息技术与大数据、云计算技术较好交叉融合,尤其对业务数据和风险控制“实时性”要求较高的特定行业,如银行、证券、保险等行业,在这些行业中实施持续审计迫在眉睫。如审计组织对商业银行的审计,实行与商业银行建立业务和数据系统的接口,在开发的持续审计系统中固化了非结构化数据结构化和数据分析模块,该模块可以在海量贷款客户中挖掘、分析出行业性和区域性贷款风险趋势,实现在线的风险预警,并将发现的风险数据、超预警值指标及问题登记为疑点,并建立实时审计工作底稿,按照重要程度进行归类、核实或下发给现场审计人员进行现场核实,以较好处理非结构化数据的利用和数据的实时分析利用问题。(二)大数据、云计算技术促进总体审计模式的应用
现时的审计模式是在评价被审计单位风险基础上实施抽样审计。在不可能收集和分析被审计单位全部经济业务数据的情况下,现时的审计模式主要依赖于审计抽样,从局部入手推断整体,即从抽取的样本着手进行审计,再据此推断审计对象的整体情况。这种抽样审计模式,由于抽取样本的有限性,而忽视了大量和具体的业务活动,使审计人员无法完全发现和揭示被审计单位的重大舞弊行为,隐藏着重大的审计风险。而大数据、云计算技术对审计人员而言,不仅仅是一种可供采用的技术手段,这些技术和方法将给审计人员提供实施总体审计模式的可行性。利用大数据、云计算技术,对数据的跨行业、跨企业搜集和分析,可以不用随机抽样方法,而采用搜集和分析被审计单位所有数据的总体审计模式。利用大数据、云计算技术的总体审计模式是要分析与审计对象相关的所有数据,使得审计人员可以建立总体审计的思维模式,可以使现代审计获得革命性的变化。审计人员实施总体审计模式,可以规避审计抽样风险。如果能够收集总体的所有数据,就能看到更细微、深入的信息,对数据进行多角度的深层次分析,从而发现隐藏在细节数据中的对审计问题更具价值的信息。同时,审计人员实施总体审计模式,能发现从审计抽样模式所不能发现的问题。大数据、云计算技术给审计人员提供了一种能够从总体把握审计对象的技术手段,从而帮助审计人员能从总体的视角发现以前难以发现的问题。
(三)大数据、云计算技术促进审计成果的综合应用
目前,审计人员的审计成果主要是提供给被审计单位的审计报告,其格式固定,内容单一,包含的信息量较少。随着大数据、云计算技术在审计中广泛应用,审计人员的审计成果除了审计报告外,还有在审计过程中采集、挖掘、分析和处理的大量的资料和数据,可以提供给被审计单位用于改进经营管理,促进审计成果的综合应用,提高审计成果的综合应用效果。首先,审计人员通过对审计中获取的大量数据和相关情况资料的汇总、归纳,从中找出财务、业务和经营管理等方面的内在规律、共性问题和发展趋势,通过汇总归纳宏观性和综合性较强的审计信息,为被审计单位投资者和其他利益相关者提供数据证明、关联分析和决策建议,从而促进被审计单位管理水平的提高。其次,审计人员通过应用大数据、云计算技术,可以将同一问题归入不同的类别进行分析和处理,从不同的角度、不同的层面整合提炼以满足不同层次的需求。再次,审计人员将审计成果进行智能化留存,通过大数据、云计算技术,将问题规则化并固化到系统中,以便于计算或判断问题发展趋势,向被审计单位进行预警。最后。审计人员将审计成果、被审计单位与审计问题进行关联,并进行信息化处理,在进行下次审计时,减少实地审计的时间和工作量,提高审计工作的效率。(四)大数据、云计算技术促进相关关系证据的应用
审计人员在审计过程中,应根据充分、适当的审计证据发表审计意见,出具审计报告。但是,在大数据、云计算环境下,审计人员既面临巨量数据筛选的考验,又面临搜集适当审计证据的挑战。审计人员在搜集审计证据时,传统的思维路径都是基于因果关系来搜集审计证据,而大数据分析将会更多地运用相关关系分析来搜集和发现审计证据。但从审计证据发现的角度来看,由于大数据技术提供了前所未有的跨领域、可供量化的维度,使得审计问题大量的相关信息能够得以记录和计算分析。大数据、云计算技术没有改变事物间的因果关系,但在大数据、云计算技术中对相关关系的开发和利用,使得数据分析对因果逻辑关系的依赖降低了,甚至更多地倾向于应用基于相关关系的数据分析,以相关关系分析为基础的验证是大数据、云计算技术的一项重要特征。在大数据、云计算技术环境下,审计人员能搜集到的审计证据大多是电子证据(秦荣生,2013)。电子证据本身就非常复杂,云计算技术使获取有因果关系的证据更加困难。审计人员应从长期依赖因果关系来搜集和发现审计证据,转变成为利用相关关系来搜集和发现审计证据。(五)大数据、云计算技术促进高效数据审计的发展
直到今天,审计人员的数字审计技术依然建立在精准的基础上。这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以审计人员必须尽可能精准地量化被审计单位的业务。随着大数据、云计算技术成为日常生活中的一部分,审计人员应开始从一个比以前更大、更全面的角度来理解被审计单位,将“样本= 总体”植入审计人员的思维中。相比依赖于小数据和精确性的时代,大数据更强调数据的完整性和混杂性,帮助审计人员进一步接近事情的真相,“局部”和“精确”将不再是审计人员追求的目标,审计人员追求的是事物的“全貌”和“高效”。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现。在实施审计时,审计人员应利用大数据、云计算技术,使用分布式拓朴结构、云数据库、联网审计、数据挖掘等新型的技术手段和工具,以提高审计的效率。
(六)大数据、云计算技术促进大数据审计师的发展
大数据、云计算时代,数据的真实、可靠是大数据发挥作用的前提。这客观上要求专业人员来对大数据的真实性、可靠性进行鉴证,审计人员可以扮演这种角色,或者称为数据审计师。能对大数据真实性、可靠性进行鉴证的数据审计师应该是计算机科学、数学、统计学和审计学领域的专家,他们应有大数据分析和预测的评估能力。数据审计师应恪守公正的立场和严守保密的原则,面对海量的数据和纷繁复杂的相关关系,选取分析和预测工具,以及解读数据及数据计算结果是否真实、可靠。一旦出现争议,数据审计师有权审查与分析结果相关的运算法则、统计方法以及数据采集、挖掘和处理过程。数据审计师的出现是为满足以市场为导向来解决数据真实性、可靠性问题的需求,这与20 世纪初期为了处理财务信息虚假而出现的审计人员一样,都是为了满足新需求而出现的。
三、大数据挖掘
数据的价值只有通过数据挖掘才能从低价值密度的数据中发现其潜在价值,而大数据挖掘技术的实现离不开云计算技术。在业界,全球著名的Google、EMC、惠普、IBM、微软等互联网公司都已经意识到大数据挖掘的重要意义。上述IT 巨头们纷纷通过收购大数据分析公司,进行技术整合,希望从大数据中挖掘更多的商业价值。数据挖掘通常需要遍历训练数据获得相关的统计信息,用于求解或优化模型参数,在大规模数据上进行频繁的数据访问需要耗费大量运算时间。数据挖掘领域长期受益于并行算法和架构的使用,使得性能逐渐提升。过去15 年来,效果尤其显著。试图将这些进步结合起来,并且提炼。GPU平台从并行上得到的性能提升十分显著。这些GPU平台由于采用并行架构,使用并行编程方法,使得计算能力呈几何级数增长。即便是图形处理、游戏编程是公认的复杂,它们也从并行化受益颇多。研究显示数据挖掘、图遍历、有限状态机是并行化未来的热门方向。MapReduce 框架已经被证明是提升GPU 运行数据挖掘算法性能的重要工具。D.Luo 等提出一种非平凡的策略用来并行一系列数据挖掘与数据挖掘问题,包括一类分类SVM 和两类分类SVM,非负最小二乘问题,及L1 正则化回归(lasso)问题。由此得到的乘法算法,可以被直截了当地在如MapReduce 和CUDA 的并行计算环境中实现。K.Shim 在MapReduce 框架下,讨论如何设计高MapReduce 算法,对当前一些基于MapReduce 的数据挖掘和数据挖掘算法进行归纳总结,以便进行大数据的分析。Junbo Zhang 等提出一种新的大数据挖掘技术,即利用MapRedue 实现并行的基于粗糙集的知识获取算法,还提出了下一步的研究方向,即集中于用基于并行技术的粗糙集算法处理非结构化数据。F.Gao 提出了一种新的近似算法使基于核的数据挖掘算法可以有效的处理大规模数据集。当前的基于核的数据挖掘算法由于需要计算核矩阵面临着可伸缩性问题,计算核矩阵需要O(N2)的时间和空间复杂度来计算和存储。该算法计算核矩阵时大幅度降低计算和内存开销,而且并没有明显影响结果的精确度。此外,通过折中结果的一些精度可以控制近似水平。它独立于随后使用的数据挖掘算法并且可以被它们使用。为了阐明近似算法的效果,在其上开发了一个变种的谱聚类算法,此外设计了一个所提出算法的基于MapReduce 的实现。在合成和真实数据集上的实验结果显示,所提出的算法可以获得显著的时间和空间节省。Christian Kaiser 等还利用MapReduce 框架分布式实现了训练一系列核函数学习机,该方法适用于基于核的分类和回归。Christian Kaiser 还介绍了一种扩展版的区域到点建模方法,来适应来自空间区域的大量数据。Yael Ben-Haim 研究了三种MapReduce 实现架构下并行决策树分类算法的设计, 并在Phoenix 共享内存架构上对SPRINT 算法进行了具体的并行实现。F.Yan 考虑了潜在狄利克雷分配(LDA)的两种推理方法——塌缩吉布斯采样(collapsed Gibbssampling,CGS)和塌缩变分贝叶斯推理(collapsedvariational Bayesian,CVB)在GPU 上的并行化问题。为解决GPU 上的有限内存限制问题,F.Yan 提出一种能有效降低内存开销的新颖数据划分方案。这种划分方案也能平衡多重处理器的计算开销,并能容易地避免内存访问冲突。他们使用数据流来处理超大的数据集。大量实验表明F.Yan 的并行推理方法得到的LDA 模型一贯地具有与串行推理方法相同的预测能力;但在一个有30 个多核处理器的GPU 上,CGS 方法得到了26倍的加速,CVB 方法得到了196 倍的加速。他们提出的划分方案和数据流方式使他们的方法在有更多多重处理器时可伸缩,而且可被作为通用技术来并行其它数据挖掘模型。Bao-Liang Lu 提出了一种并行的支持向量机,称为最小最大模块化网络(M3),它是基“分而治之”的思想解决大规模问题的有效的学习算法。针对异构云中进行大数据分析服务的并行化问题G.Jung 提出了最大覆盖装箱算法来决定系统中多少节点、哪些节点应该应用于大数据分析的并行执行。这种方法可以使大数据进行分配使得各个计算节点可以同步的结束计算,并且使数据块的传输可以和上一个块的计算进行重叠来节省时间。实验表明,这种方法比其他的方法可以提高大约60% 的性能。在分布式系统方面,Cheng 等人 提出一个面向大规模可伸缩数据分析的可伸缩的分布式系统——GLADE。GLADE 通过用户自定义聚合(UDA)接口并且在输入数据上有效地运行来进行数据分析。文章从两个方面来论证了系统的有效性。第一,文章展示了如何使用一系列分析功能来完成数据处理。第二,文章将GLADE 与两种不同类型的系统进行比较:一个用UDA 进行改良的关系型数据库(PostgreSQL)和MapReduce(Hadoop)。然后从运行结果、伸缩性以及运行时间上对不同类型的系统进行了比较。
四、总结 大数据的超大容量自然需要容量大,速度快,安全的存储,满足这种要求的存储离不开云计算。高速产生的大数据只有通过云计算的方式才能在可等待的时间内对其进行处理。同时,云计算是提高对大数据的分析与理解能力的一个可行方案。大数据的价值也只有通
过数据挖掘才能从低价值密度的数据中发现其潜在价值,而大数据挖掘技术的实现离不开云计算技术。总之,云计算是大数据处理的核心支撑技术,是大数据挖掘的主流方式。没有互联网,就没有虚拟化技术为核心的云计算技术,没有云计算就没有大数据处理的支撑技术。
参考文献
秦荣生.大数据、云计算技术对审计的影响研究 何清.大数据与云计算
张为民.云计算: 深刻改变未来
文峰.云计算与云审计———关于未来审计的概念与框架的一些思考
Big data and cloud computing Big Data(Big Data)in recent years, more and more occasions, the concept is mentioned more and more people, And often, and cloud computing together, what is the relationship between cloud computing and big data become a hot topic.this Special report contains the following four aspects: 1.The value of big data;2.Big data challenge;3.Big data research;4.Cloud computing is the mainstream way of data mining.Through this report on our understanding of big data, as well as the understanding of the value of big data, large data processing and mining technology, large data mainly focus on “data”, provide the technology and methods of data collection, mining and analysis;Cloud computing technology focusing on “computing”, providing IT solutions.Big data and cloud computing technology can promote the development of continuous audit mode, the overall audit mode of application, the audit results of comprehensive application, the application of related evidence, the development of efficient data audit and the development of large data auditor.Strengthen big data and cloud computing technology measures of audit applications include set up long-term development strategy, accelerate the construction of the audit regulations, establish a platform, to strengthen research and development and improve the utilization ability.Keywords: big data cloud computing data mining impact on the audit policy Suggestions
第五篇:数据挖掘研究现状
一、时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
二、研究现状
KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽萃诰蚝椭斗⑾至形樘庵?成为当前计算机科学界的一大热点。
此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。
不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove
ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。
三、内容和本质
随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。
其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。
数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
四、发展方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世