第一篇:云计算环境下网络技术研究论文
引言
云计算是一种比较全面的互联网计算模型,其主要作用是灵活自如地调用每一种IT技能。伴随着大数据时代的到来,云计算作为一种新兴的技术,对提升、优化大数据及信息的处理有着巨大的作用,云计算环境下的网络技术发展又向前迈进一大步。
1云计算技术的研究
云计算的计算方式是利用互联网,在各种网络技术(如计算机、网络、通信技术)的综合应用下实现的。云计算获得数据及信息的方法主要是利用与互联网相连接的硬件设备。“云”是对网络的一种形象表达,多的意思。网络技术的发展也推进着云计算技术的发展,被越来越多的人熟知和应用。云计算主要是建立一种随时变化的信息源数据库,主要是通过分布计算与虚拟化的手段,将许多相对分散的信息数据聚集而形成[1]。云计算形成的信息源数据库是随着自身所使用的网络资源不断变化的。云计算中转嫁硬件设备的方法为企业极大地节约了经济成本,同时也节约了人力成本。客户与任务之间主要靠互联网联系在一起,这是信息技术发展的趋势,云计算则适应了这一趋势。
2云计算网络技术体系框架
信息处理硬件负责云计算的主要工作,云计算市场呈现一种蓬勃发展的态势,促使着处理硬件需求量的增加。互联网信息处理的规模化、模拟化都受到信息处理硬件发展的影响。信息处理平台基于横向和纵向的两种交流实现,在以前的处理平台中主要采用纵向交流,随着大数据时代的发展,横向数据交流量不断增加,云计算网络的体系骨架进一步完善。云计算网络骨架(从工作任务到最终的客户)一般可以分为四种:
(1)在虚拟机之间的网络交互;
(2)服务器之间的网络交互;
(3)数据中心之间的网络交互;
(4)用户与数据信息中心之间的网络交互。其中发生在数据信息中心内部的是服务器、虚拟机之间的两种网络交互方式。网络交互是发生在虚拟机之间的,主要是在虚拟交换机中进行。网络交互发生在服务器之间的,利用交换机进行交互,在服务器中通过纵向和横向两种流量交互实现。网络交互发生在数据中心之间的,可分情况对待:同城时,可选用城域网解决;不同城时,可选用骨干网解决。数据中心可能因数据量的增多而不能及时完成操作,需要增设数据中心进行操作,由此出现二层网络的搭架。网络交互发生在用户与数据信息中心的,主要通过城域网完成交互。现实生活中,升级的业务、剧增的信息数据、流量增大的用户与信息数据中心之间,都促使着更大型、更智能的网络宽带的出现,从而更好地进行数据信息的传输。多个数据信息中心的出现也为我们带来了新的问题,例如:如何快速地进行数据信息中心的转换。
3云环境下的网络新技术
3.1虚拟机本地互访网络
目前状况下,对同一台服务器内部虚拟机之间的交互连接使用虚拟交换机就可以完成。虚拟机一般单靠软件实现网络互联,不需要硬件设施的运行[2]。虽然这种网络交互发生在虚拟机之间,其互访简单易行,但存在不少隐患:(1)虚拟机之间的流量得不到有效的监控,传统的系统已不能适应现有的云计算;
(2)当虚拟机通过虚拟机的流量增大时,服务器信息数据中心的负担加大,会影响虚拟机的性能。针对以上两个问题,现已有了解决的方案。IEEE的802.1QgbEdgeVirtualBridging和IEEE的802.1BrBridgePortExtension,就是针对这两个问题提出来的。两者方案各有优劣,802.1Br需要硬件的支持,802.1Qgb需要修改交换机的驱动。在具体应用中选择哪一种方案,还需要进一步的实践检验。
3.2数据中心二层互访网络
当前,数据中心普遍采用的是树状三层网络架构,分别为接入层、汇聚层以及核心层。出现两个服务器位于树状结构的不同分支时,就需借助核心层来实现运行,但在这期间耗费了大量的时间,云环境下对横向流量增加的性能需求已完全不能得到满足。若采用增设防火墙的方式,相当于在整个计算过程中增加了一个VLAN,但虚拟机也会因超出VLAN的范畴导致运行出现问题。解决方式是减缩树状结构(三层变两层,删除汇聚层)。对数据中心的影响是结构实现扁平化,服务器能力得到强化,从而实现虚拟机的正常运行[3]。数据中心的结构扁平化的过程中也会出现一系列的问题。多台通过虚拟化技术虚拟出的服务器,增加了数据信息中心的网络规模。传统的方法通过树状协议绕路解决,很明显这种方法已不适用现有的需求。控制平面和数据的平面虚拟化技术产生,解决了这个难题,同时对宽带的利用强化。
3.3数据中心跨站点二层互访网络
大数据时代到来后,随着互联网技术及其应用的发展,如何保证数据信息的安全成为信息时代的主题。传统方法在解决这个问题时,选择对数据扩容以及备份,但备份的内容牵扯到数据信息中心时,就需要对数据信息中心进行备份操作。在云计算的环境下,需要构建跨数据中心的的二层互访网络(即进行分布式计算机以及对虚拟机跨点迁移),在目前看来,实现数据中心直连的状况很少,主要还是选择二层互联(通过在IP网上打隧实现)的方式。最新的技术仍为个人私有,传输过程中实现数据信息中心相互独立,确保IP互联的永续性[4]。
3.4用户接入网络
在云计算环境下,数据中心二层互访网络的构建使得用户在接入网络时会遇到以下情况:
(1)多站式的分布计算,让用户在选择数据信息中心时产生困惑;
(2)如何快速在业务虚拟机与数据中心之间切换、迁移。在实际具体操作中,用户大多会选择DNS技术,对新技术LISP使用率较低。DNS技术主要是分散IP地址,用户与数据信息中心的交联就是通过分散出来的IP实现的。我们可以假设一个条件:虚拟机跨数据中心转移,IP地址保持不变。在这种情况下,NAT设备就可以发挥作用,它可让IP地址转化为多个虚拟IP以便用户切换。
3.5SND技术
SND是与当前网络技术发展相适应的技术,主要用于控制和分离的分离。传统技术中主要通过拆分控制层实现三层架构。SDN作为最新的网络技术受到广泛的欢迎,当前数据中心的网络互联就是靠它来实现,整合信息资源,从而使得网络虚拟化以及虚拟机之间的迁移实现[5]。
4云计算网络发展的展望
在云计算环境下,对网络技术的发展提出更高的要求。一种网络技术的需求可能会出现多种解决办法,因此在实际应用中,需要根据实际情况实际分析。目前国外通过数据中心间的光纤直连,来解决数据中心之间的数据互联剧增的问题,这对中国来说有着相当大的借鉴意义。通过多种技术而实现不同设备之间的数据共连是网络技术发展的新方向。
5结束语
社会的发展催促着网络技术的更新换代,传统技术在新形势下逐步暴露出自身的不足。云计算环境下,需要更高层次的网络技术做支撑,以满足社会发展对网络更新换代提出的要求。新的网络技术层出不穷,如上文中提到的SND技术、虚拟网络技术等等,以适应新的社会需求。但是要注意新的网络技术并不成熟,还要进一步投入研究。随着社会以及网络技术的不断发展,基于云环境下的网络技术定会有新的突破,以服务于现代化建设。
第二篇:云计算环境下的网络技术研究
云计算环境下的网络技术研究
摘要:随着互联网的普及应用,使得人们生活内容更加丰富多彩,并且从根本上改变了人们传统的生活习惯,网络已经成为日常生活中不可或缺的组成部分。特别是在云计算环境下,网络技术在国民经济发展、社会进步中所发挥的作用更是与日俱增。如何更好的把握时代脉搏,创新研发符合世界经济发展规律的网络技术成为当前研究领域重要课题之一。为此,本文将针对当前云计算环境下网络新挑战作为切入点,深入分析并探寻未来网络技术发展方向,以丰富现有研究成果,推动相关研究进一步发展。
关键词:云计算;网络技术;国民经济;社会进步;时代脉搏
前言:网络技术的发展可以说是日新月异,自从上个世纪40年代中期计算机诞生以来,网络逐步成为日常生活中的重要娱乐方式。云计算通过虚拟化技术、分布式计算等方式将网络信息资源整合,形成一个资源池,动态的将网络资源分配给具有使用需求的用户,继而创造良好的社会效益及经济效益的一种服务模式,并且随着世界经济一体化趋势不断发展,网络资源在各国竞争中发挥的作用愈加明显。因此,如何应用更新、更具前瞻性的网络技术来抢占市场先机,壮大本国相关产业成为一个不容忽视的问题。1 云计算环境下网络技术面临的新挑战解析 1.1海量数据信息对宽带及延迟提出更高要求
随着互联网的普及应用,网络经济正以飞速发展,人们每天都可以从中感受出网络技术的变化。特别是在云计算环境下,个人信息、企业及政府职能部门敏感数据通过云存储技术进行保存已经成为网络技术发展的主流趋势。然而,由于网络的触角已经延伸至社会经济生产生活的方方面面,每天互联网中都会生成海量的数据信息,并通过网络传输方式上传至云端进行存储。在此过程中,受到网络延迟以及宽带带宽的影响,敏感数据容易发生丢失或者损害,造成用户无法正常使用,并且相关数据恢复难度较大,造成了一定的不利影响。因此,云计算环境下,海量数据面前,网络延迟以及宽带带宽问题已经成为限制网络技术发展的重要因素,由此产生的数据安全数据存储问题亟待解决。1.2二层网络亟待建立
众所周知,由于采用虚拟机动态迁移技术能够使得数据中心的操作具有更大的灵活性及快捷性,大幅提升其工作效率而被广泛认可及接受,成为当前网络技术中应用范围较广的一种应用技术。然而,当前采用的虚拟机动态迁移技术无法改变虚拟机的IP地址、MAC地址,带来的最明显问题即在于当虚拟机发生迁移之后,虚拟机自身原有网络配置将与新环境无法适应,正常通信得不到有效保障,因而最终酿成业务连续性受到影响的不利结果。因而,云计算环境下要想实现跨域场情境下的虚拟机实时运转,就需要将所有发生动态迁移的虚拟机纳入到一个统一的二层网络中,以满足用户的上网需求。而二层网络的建立在目前尚未展开,进一步降低了云计算环境下网络技术所带来的便利性。2 云计算环境下网络技术研究方向
针对云计算环境下网络技术面临的挑战,本文在综合总结了国内外关于该领域及该可以的研究成果后,总结出了如下几方面网络技术研发应用方向,以供相关研究借鉴参考。2.1接入技术
接入技术被业界形象的称之为“最后一公里”技术,意指本地网络运营商与用户之间的一段连接[1]。当前应用前景比较明朗的接入技术如下:
2.1.1ADSL ADSL又被称作为非对称数字用户线,是DSL家族系列中应用范围最广的一种,除了ADSL外,其他DSL接入技术包括:HDSL、VDSL、IDSL等。ADSL主要是利用现有的电话双绞线作为网络传输的介质,具有成本低廉等优势,经过不断丰富及完善,当前ADSL传输峰值已经达到了115Kbps,完全能够满足企事业单位、政府职能部门、个人用户的使用需求。并且ADSL的非对称性与终端用户的网络访问特点具有较为明显的一致性:个人用户多数应用都是以客户方式从网上去获取数据,如WWW、FTP,只在个别时候才向网络大量发送数据,如发送附带多媒体信息的电子邮件,因此下行数据量大、上行数据量小。随着固定电话走入千家万户,ADSL的应用前景将会更加明显,其技术改进方向也集中于提高网络数据传输速率及稳定性等方面。
2.1.2线缆调制解调器 线缆调制解调器的客户群体主要集中于家庭用户,是在当前电缆基础上将分配网络的主干部分改为光缆通信,继而在各个节点位置实现光电转化,再经由通州电缆将网络信号传输至用户家里。线缆调制解调器可以广泛应用于Internet访问、电视节目点播、数据电话等拓展业务,其市场应用前景极其广阔。当前现有技术条件下Internet访问的最高峰值可以达到30Mbps,而上行速率可到到2M左右。尽管线缆调制解调器是一个共享网络,随着用户的增加、宽带及节点数量的激增而会产生网络延迟现象,但是其较高的带宽在目前尚可以满足用户使用需求,其所享受的宽带资源仍然是所有接入技术中最高的网络数据传输方式。
2.1.3无线接入技术(WLAN)
无线接入技术是近些年来随着网络通信技术快速发展而形成的一种新型数据传输、通讯方式。相较于ADSL、线缆调制解调器,无线接入技术是通过无限介质将用户与网络节点相连接,以实现用户与网络间无障碍数据惜惜传递的目的,其需要遵循一定的网络协议,并且该协议内容也成为无线接入技术的核心及关键内容[2]。其最明显的特征即为可以向用户提供实时的移动接入业务,不管用户是在闹市区还是乡村郊外,随时可以将自身感触、心得体会上传至网络空间,网络共享具有极大的便利性,因而该技术成为当下网络技术研究中的重要领域及方向,是今后网络业务开展的重要保障之一。2.2IPv6技术
虚拟机动态迁移技术不能改变IP地址、MAC地址的问题已经困扰人们多时,该问题的存在使得移动网络技术应用受到很大程度影响,加剧了网络服务商与用户之间的对立形势。IPv6技术的出现几乎完美的解决地址不能及时变更的问题,使得网络连接更加快捷。当前IPv6技术为用户提供了128位的IP地址,使得地址数量得到大幅提升,有效的解决了IP地址资源危机。并且其所使用的“可聚集全球统一计算地址”构造与当前网络拓扑结构较为一致,使得线缆调制解调器能够最大化发挥功用[3]。但是当前IPv6技术的应用尚无法广泛推广,主要原因在于其升级存在诸多困难。因此,IPv6技术今后研究的重点方向即为构建以下三种机制:兼容IPv4的IPv6地址、双IP协议栈和基于IPv4隧道的IPv6。结论:综上所述,云计算环境下网络技术研究领域在当前乃至今后一段时期内主要集中于网络数据传输技术及动态地址分配技术两个方面。本文中所分析的网络技术研究内容比较切合实际应用需求,对研究工作能够起到一定的指导作用,希望通过本文能够促使网络技术研究迈上一个更高的发展阶段。参考文献:
[1]周志勇.云计算环境下网络信息安全技术发展研究[J].中国高新技术企业,2014,12(25):40-41.[2]宋焱宏.云计算环境下的网络安全技术[J].网络安全技术与应用,2014,25(08):178-179.[3]王丽敏.云计算环境下的网络信息资源管理[J].信息与电脑(理论版),2014,33(10):92-93.
第三篇:云计算中MapReduce技术研究
云计算中MapReduce技术研究
孙香花
(长江师范学院数学与计算机学院,重庆,408100)
摘要: MapReduce是云计算的核心技术之一,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。
关键词:MapReduce技术;云计算应用;云计算;并行计算;
MapReduce technology of cloud computing
SHUN Xiang-hua(1、College of Mathematics and Computer Science,Yangtze Normal university, Chongqing,,410081)
Abstract: MapReduce is one of the core technology of cloud computing, which is parallel data processing system provides a simple, elegant solution.Its main purpose is to a large cluster of systems in large data sets in parallel, and parallel computing for large-scale data.This paper focus on the cloud of MapReduce technologies.MapReduce first introduced the relevant knowledge, the current research situation of MapReduce are introduced and Analysis;MapReduce model put forward the current research issues;Finally, the summary text and the future trends.Key words: MapReduce technology;cloud computing applications;cloud computing;parallel computing;
1、引言
随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了互联网数据处理能力的相对不足。由于待处理数据越来越多,多到了很难在一台或有限数目的存储服务器内容纳,且更无法由一台或数目有限的计算服务器就能处理这样的海量数据。因此,如何实现资源和计算能力的分布式共享以及如何应对当前互联网数据量高速增长的势头,是目前互联网界亟待解决的问题。正是在这样一个发展背景下,云计算应运而生[1]。
云计算是由并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)发展而来[2,3]。云计算的核心技术之一是MapReduce,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算[4-6]。
近几年来由于数据的大量增长,Mapreduce受到了较多的关注,获得了较大的发展,但还没有形成成熟的、系统化的理论体系[7]。目前国内外进行MapReduce分析技术研究的机构都显示了对MapReduce的高度关注,并在不同的体系结构上都进行了实现,尤其是在开源hadoop平台上对其所做的研究提供了更多的研究机遇。因此对MapReduce的研究不仅具有收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
重要的应用价值,更具有重要的学术意义[8,9]。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。2、MapReduce相关研究
目前国内外文献中对MapReduce模型都有相应的研究。主要体现在以下几个方面: 基于MapReduce的初等研究及改进:在Goole提出的原始模型的基础上提出一些新的改进方法,或是对怎样提高MapReduce算法的效率上去进行研究。如:文献[10]提出了一种改进型的MapReduce编程模型,该模型继承了传统的MapReduee模型对map函数和reduce函数的定义.对map和reduce过程进行了改进优化。文献[11]中的HPMR是建立在多核集群上的高性能计算支撑平台。它继承并改进了MapReduce并行编程模式,使其适合高性能计算需求。并让并行程序的编写和运行变得非常简单,同时又保持很高的性能。
对大规模的数据挖掘:利用MapReduce模型对于云平台的海量数据进行挖掘,抓取网页相关数据,或是对网页内容去重等到相关的大规模数据的研究等。如:文献[12]详细描述SPRINT并行算法在HadooP中的MapReduce编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。
基于MapReduce并行模型的一些设计方法与实现或是计算方法的实现,如:文献[13]结合MapReduce的长处,提出研究和实现一个完整的高性能并行计算系统,以GPU为硬件基础并配合基于MapReduce并行计算模型平台进行大规模数据处理。文献[14]提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduee架构简化了分布式程序设计。
MapReduce的综述:文献[15]重点讨论了MapReduce模型的相关研究,并对采用或是实现了这些模型的相应公司的技术进行了探讨,是一篇综述类型的学位论文。MapReduce模型的研究与应用:文献[16]介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。
当前的研究中,对于云计算中并行计算模型的研究主要是针对于MapReduce模型,而对于MapReduce模型的研究主要在两个方面展开,一个方面为对MapReduce模型的改进,但是对于改进后的模型的实现平台没有研究;另一个方面为MapReduce模型的应用,也是当前的主要研究方向。
3、MapReduce相关研究问题
MapReduce是由Google提出的一种并行分布式编程模型[17-19]。在MapRedcue 模型中用户只须指定一个map函数来处理一个输入的key/value对,产生中间结果key/value对集,再通过一个由用户指定的reduce函数来处理中间结果中具有相同key值的value。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理[20-21]。
图1说明了用 MapReduce 来处理大数据集的过程,MapReduce 的计算过程很简单,计算利用一个输入key/value对集,来产生一个输出key/value对集[22]。MapReduce库的用户用两个函数表达这个计算:map和reduce。首先,用户自定义的map函数,接受一个输入对,然后产生一个中间key/value对集。然后,MapReduce库把所有具有相同中间key I的中间value聚合在一起,然后把它们传递给reduce函数。最后,用户自定义的reduce函数,接收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
受一个中间key 和相关的一个value集。它合并这些value,形成一个比较小的value集[23-25]。
图1、Mapreduce的计算流程
随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了对MapReduce这种并行计算模式的研究变得越来越重要,由此也产生了一系列的相关研究问题,分别如下所列出[26-28]:
1、MapReduce模型只需执行简单的计算,对于隐藏并行化、容错、数据分布、负载均衡的那些问题是如何实现的。
2、Google的MapReduce执行流程。
3、对MapReduce模型的实现。
4、对MapReduce模型进行改进。
5、提高Mapreduce的运算效率的方法。
6、基于MapReduce模型的应用。
7、基于MapReduce模型的设计方法及实现 对于以上所列出这些研究问题,目前国内外都有相关的研究,对于这些研究问题在很大程度上仍然有可研究性。
4、未来研究趋势
MapReduce作为一个通用可扩展的并行计算模型,它用来有效地处理海量数据,不断地从中挖掘出有价值的信息,成为互联网企业发展的必然选择。很多现实世界对海量数据的处理,都可以用这种模型来表示。当前在云计算中使用的分布式并行运算基本上是采用的MapReduce计算模型,不过国内的研究仍然有点滞后,同时,当前的主要研究都放在其应用上,比如说网页抓取等,真正去研究算法本身的并不多,尤其是在提高算法本身的效率上,以及算法的优化等都研究较少。
根据上面的论述和分析可以看出,对于云计算中并行计算模型的研究和应用主要是对于MapReduce模型的,而对MapReduce模型的应用是当前的主要研究方向。本课题在分析MapReduce模型的基础上,提出了如下的研究内容:
1、利用MapReduce强大的计算能力,把MapReduce模型应用到一些经典的算法中。所要解决的主要问题是经典的算法的选取,即要满足利用MapReduce模型的条件,还要解决的是两个算法的比较及评价问题;
2、利用MapReduce强大的计算能力,把MapReduce模型应用到一些数值计算问题中去,所要解决的主要问题是数值计算问题的分解和结束条件,还要解决的是两个算法的比较问题及新算法的评价问题。
收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
4、结束语
本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。参考文献 [1] [2] [3] [4] [5] 张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433 金海,漫谈.云计算[J].中国计算机学会通讯,2009,5(6):22-25 吴吉义,平玲娣, 潘雪增等.云计算:从概念到平台[J].电信科学,2009,12:23-30 陈康, 郑纬民.云计算:系统实例与研究现状[J].软件学报.2009,20(5):1337-1348 尹国定,卫红.云计算—实现概念计算的方法[J].东南大学学报:自然科学版,2003,33(4):502-506 [6] 武永卫,黄小猛.云存储[J].中国计算机学会通讯,2009,5(6):44-52 [7] Lamel.R Google’s Mapreduce Programming Model-revisited [J].Science of Computer Programming, 2008, 7(1): 208-237.[8] 万至臻.基于Mapreduce模型的并行计算平台的设计与实现[I].浙江大学.2008 [9] 吴晓伟.MapReduce并行编程模式的应用和研究[I].中国科学技术大学.2009.[10] 周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛.2009.2(11):11-12 [11] 郑启龙,王昊,吴晓伟等.HPMR:多核集群上的高性能计算支撑平台[J].微电子学与计算.2008,25(9):21-23 [12] 王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机.2009,22(11):22-25 [13] 瞿李峰.基于GPGPU的MapReduce高性能并行计算模型研究与应用[I].桂林理工大学.2009.[14] 郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程.2007,33(22):83-85 [15] 周敏.MapReduce综述[I].暨南大学.2008.[16] 杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术.2009, 25(4)23-26 [17] Luis M V, Luis Rodero Merino, Juan Caceres, Maik Lindner.A break in the clouds: toward a cloud definition.ACM SIGCOMM Computer Communication Review, 2009,39(1):50-55 [18] Robert L G,Gu Yunhong,Michael Sabala,Zhang Wanzhi。Compute and storage clouds using wide area high performance networks。Future Generation Computer Systems,2009,25(2):179-183 [19] Daniel J A.Data management in the cloud: limitations and opportunities.Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2009,32(1):3-12 [20] 郑启龙.HPMR在并行矩阵计算中的应用[J].计算机工程.2010(8).[21] 徐志伟,廖华明,余海燕.网络计算系统的分类研究[J].计算机学报.2008,31-9:1509—1515.[22] M.Kruijf and K.Sankaralingam.MapReduce for the Cell B.E.Architecture[J].Technical Report No.TR1625,Computer Science Department,University of Wisconsin,Madison,2007.[23] Colby Ranger,Ramanan Raghuraman,Arun Penmetsa,Gary Bradski,Christos Kozyrakis.Evaluating MapReduce for Multi-core and Multi-processor Systems,Proceedings of the 13th Intl,Symposium on High-Performance Computer Architecture(HPCA).收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
Phoenix,AZ, February 2007.[24] J.Dean and S.Ghemawat.Mapreduce:Simplified data processing on large clusters.In OSDI,pages 137-150,2004.[25] D.V.Kalashnikov,S.Prabhakar,and S.E.Hambrusch.Main memory evaluation of monitoring Queries over moving objects.Distributed and Parallel Databases,15(2):117-135,2004.[26] J.Dean.Experiences with mapreduce,an abstraction for large-scale computation.In Proc.IEEEP ACT,2006.[27] 钟伟彬,周梁月,潘军彪等.云计算终端的现状和发展趋势[J].电信科学,2010,3:22-26 [28] 陈国良,孙广中,徐云.并行计算的一体化研究现状与发展趋势[J].科学通报,2009,54(8):1043-1049
地址:重庆市涪陵区李渡聚龙大道98号长江师范学院数学与计算机学院办公室
孙香花 邮编: 408100
收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
第四篇:云计算论文
浅谈云计算
白娟
(运城学院 信息管理与信息系统 1106)
【摘要】云计算是当前计算机领域的一个热点。它的出现宣告了低成本提供超级计算时代的到来。云计算
将改变人们获取信息、分享内容和互相沟通的方式。此文阐述了云计算的简史、概念、特点、保护和发展前景,并对云计算的发展及前景进行了分析。
【关键词】云计算特点,云计算保护,云计算发展前景
1.云计算相关知识
1.1简史
1983年,太阳电脑(Sun Microsystems)提出“网络是电脑”(“The Network is the Computer”),2006年3月,亚马逊(Amazon)推出弹性计算云(Elastic Compute Cloud;EC2)服务。
2006年8月9日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次提出“云计算”(Cloud Computing)的概念。Google“云端计算”源于Google工程师克里斯托弗·比希利亚所做的“Google 101”项目。
2007年10月,Google与IBM开始在美国大学校园,包括卡内基梅隆大学、麻省理工学院、斯坦福大学、加州大学柏克莱分校及马里兰大学等,推广云计算的计划,这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持(包括数百台个人电脑及BladeCenter与System x服务器,这些计算平台将提供1600个处理器,支持包括Linux、Xen、Hadoop等开放源代码平台)。而学生则可以通过网络开发各项以大规模计算为基础的研究计划。
2008年1月30日,Google宣布在台湾启动“云计算学术计划”,将与台湾台大、交大等学校合作,将这种先进的大规模、快速将云计算技术推广到校园。
2008年2月1日,IBM(NYSE: IBM)宣布将在中国无锡太湖新城科教产业园为中国的软件公司建立全球第一个云计算中心(Cloud Computing Center)。
2008年7月29日,雅虎、惠普和英特尔宣布一项涵盖美国、德国和新加坡的联合研究计划,推出云计算研究测试床,推进云计算。该计划要与合作伙伴创建6个数据中心作为研究试验平台,每个数据中心配置1400个至4000个处理器。这些合作伙伴包括新加坡资讯通信发展管理局、德国卡尔斯鲁厄大学Steinbuch计算中心、美国伊利诺伊大学香宾分校、英特尔研究院、惠普实验室和雅虎。
2008年8月3日,美国专利商标局网站信息显示,戴尔正在申请“云计算”(Cloud Computing)商标,此举旨在加强对这一未来可能重塑技术架构的术语的控制权。
2010年3月5日,Novell与云安全联盟(CSA)共同宣布一项供应商中立计划,名为“可信任云计算计划(Trusted Cloud Initiative)”。
2010年7月,美国国家航空航天局和包括Rackspace、AMD、Intel、戴尔等支持厂商共同宣布“OpenStack”开放源代码计划,微软在2010年10月表示支持OpenStack与Windows Server 2008 R2的集成;而Ubuntu已把OpenStack加至11.04版本中。2011年2月,思科系统正式加入OpenStack,重点研制OpenStack的网络服务。1.2概念
狭义云计算是指计算机基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
广义云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是计算机和软件、互联网相关的,也可以是其他的服务。云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。1.3云计算特点
被普遍接受的云计算特点如下:(1)超大规模
“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
(2)虚拟化
云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。
(3)高可靠性
“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
(4)通用性
云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
(5)高可扩展性
“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6)按需服务
“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。(7)极其廉价
由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。
(8)潜在的危险性
云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别象银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的前提。
2.云计算的隐私保护和发展前景
2.1浅谈云计算环境下的隐私权保护
目前,云计算受到产业界的极大推崇并推出了一系列基于云计算平台的服务。但在已经实现的云计算服务中,安全问题一直令人担忧,以至于使得安全和隐私问题成为云计算普及过程中面临的一个巨大挑战。文章主要探讨云计算的隐私问题。在概述网络隐私权特点的基础上,指出了云计算环境下隐私的特殊性,分别从客户端、网络传输、服务器端三个方面阐述了网络隐私权存在的安全隐患。最后,从法律、技术、监管等方面分析了云计算环境下隐私权保护的方案。
互联网以及与之相关的产业发展日新月异,云计算(Cloud Computing)作为一种新的服务模式,受到各方的关注,特别是在产业界受到极大的推崇。目前,几乎所有著名IT公司的战略重点中都涉及了云计算,并推出了一系列基于云计算平台的服务。Amazon的EC2和Google的Google App Engine都是典型的云计算服务,它们使用Internet来连接外部用户,把大量的软件和IT基础设施作为一种服务对外提供。此外,还有微软的Live Meeting、Cisco的WebEx、IBM的“蓝云”等等。
但是,目前的云计算有其“先天性”不足,对于广大网民来说,首当其冲的就是隐私保护问题。正如美国军事安全专家格雷格?康蒂(GregConti)所担心的:云计算在给人们带来巨大便利的同时,该服务中所存在的不足也将危及企业用户和普通网民的隐私安全。据世界隐私论坛近日发布的一份报告声称,如果企业期望通过利用云计算服务来降低IT成本
和复杂性,那么首先应保证这个过程中不会带来任何潜在的隐私问题。IDC对CIO和IT主管的调查也显示,安全仍是云计算主要关注的问题,大约75%的人表示他们担心云计算安全问题(包括隐私安全)。由此可见,隐私安全问题是云计算发展的最主要障碍之一。2.2云计算的发展前景
云计算被视为科技业的下一次革命,它将带来工作方式和商业模式的根本性改变。首先,对中小企业和创业者来说,云计算意味着巨大的商业机遇,他们可以借助云计算在更高的层面上和大企业竞争。自1989年微软推出Office办公软件以来,我们的工作方式已经发生了极大变化,而云计算则带来了云端的办公室——更强的计算能力但无须购买软件,省却本地安装和维护。
其次,从某种意义上说,云计算意味着那些对计算需求量越来越大的中小企业,不再试图去买价格高昂的硬件,而是从云计算供应商那里租用计算能力。在避免了硬件投资的同时,公司的技术部门可以节省大量的技术维护时间。以亚马逊为例,其云计算产品价格便宜,吸引了大批中小企业,甚至《纽约时报》、红帽等大型公司。
[6] 云计算对商业模式的影响体现在对市场空间的创新上。Google Apps是关于创新的理论中的新市场创新。当互联网变得越来越快和可依赖,用户正从桌面电脑上的软件应用转向基于互联网的应用。同时,云计算开发新产品拓展新市场的成本非常低。比如,如果用户对Gmail的需求突然出现猛增,谷歌的云计算系统会自动为Gmail增加容量和处理器的数量,无需人工干预,而且增加和调整都不增加成本。依赖云计算,谷歌能以几乎可以忽略不计的成本增加新的服务。有观点认为,云计算受到热捧的背后,还反应了超级计算机市场的角力。超级计算机应用一度因需要非常昂贵的硬件投入而面临极高的推广门槛,云计算却宣告了低成本提供超级计算服务的可能,一旦云计算得到了广泛的推广,可以乐观地估计,超级计算机市场的春天即将到来。参 考 文 献
[1]武星,王旻超,张武,李青.云计算研究综述[J].科技创新与生产力,2011,06:49-55.[2]刘晓乐.计算机云计算及其实现技术分析[J].电子科技.2009(12)[3]叶晓勇.简述云计算[J].黑龙江科技信息.2009(24)[4] 王丽安.Internet云计算技术[J].科协论坛(下半月).2011(10)[5]狄明远,周铁城.云计算浅析[J].科技风.2009(13)社,2004年9月出版; [6] 张亚东.浅谈云计算发展现状与趋势[J].科技致富向导.2011(12)[7] 唐红,徐光侠.云计算研究与发展综述[J].数字通信.2010(03)
[8] 李晓伟,沈艳秋.云计算及其发展进程[J].科技信息.2011(15)
第五篇:大数据与云计算论文
大数据与云计算
摘 要:大数据(Big Data)这个概念近年来在越来越多的场合、被越来越多的人提及,并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本
专题报告包含以下四个方面内容:1.大数据的价值;2.大数据带来的挑战;3.大数据研究成果;4.云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,大数据主要着眼于“数据”,提供数据采集、挖掘、分析的技术和方法;云计算技术主要关注“计算”,提供IT 解决方案。大数据、云计算技术可以促进持续审计方式的发展、总体审计模式的应用、审计成果的综合应用、相关关系证据的应用、高效数据审计的发展和大数据审计师的发展。强化大数据、云计算技术审计应用的措施包括制定长远发展战略、加快审计法规建设、建立行业平台、加强研发和提高利用能力。关键词:大数据 云计算 数据挖掘 对审计影响 政策建议 引言
目前,大数据伴随着云计算技术的发展,正在对全球经济社会生活产生巨大的影响。大数据、云计算技术给现代审计提供了新的技术和方法,要求审计组织和审计人员把握大数据、云计算技术的内容与特征,促进现代审计技术和方法的进一步发展。
一、大数据、云计算的涵义与特征
随着云计算技术的出现,大数据吸引了全世界越来越多的关注。哈佛大学社会学教授加里·金(2012)说: “这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”(一)大数据的涵义与特征
“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。2009 年,“大数据”概念才逐渐开始在社会上传播。而“大数据”概念真正变得火爆,却是因为美国奥巴马政府在2012 年高调宣布了其“大数据研究和开发计划”。这标志着“大数据”时代真正开始进入社会经济生活中来了。“大数据”(big data),或称巨量资料,指的是所涉及的数据量规模大到无法利用现行主流软件工具,在一定的时间内实现收集、分析、处理或转化成为帮助决策者决策的可用信息。互联网数据中心(IDC)认为“大数据”是为了更经济、更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据具有4 个特点: 第一,数据体量巨大(Volume),从TB 级别跃升到PB 级别。第二,处理速度快(Velocity),这与传统的数据挖掘技术有着本质的不同。第三,数据种类多(Variety),有图片、地理位置信息、视频、网络日志等多种形式。第四,价值密度低,商业价值高(Value)。存在单一数据的价值并不大,但将相关数据聚集在一起,就会有很高的商业价值(金良,2012)。大数据时代,不仅改变了传统的数据采集、处理和应用技术与方法,还促使人们思维方式的改变。大数据的精髓在于促使人们在采集、处理和使用数据时思维的转变,这些转变将改变人们理解和研究社会经济现象的技术和方法。
(1)是在大数据时代,不依赖抽样分析,而可以采集和处理事物整体的全部数据。19 世纪以来,当面临大的样本量时,人们都主要依靠抽样来分析总体。但是,抽样技术是在数据缺乏和取得数据受限制的条件下不得不采用的一种方法,这其实是一种人为的限制。过去,因为记录、储存和分析数据的工具不够科学,只能收集少量数据进行分析。如今,科学技术条件已经有了很大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大量增加,而且未来会越来越多。随着大数据分析取代抽样分析,社会科学不再单纯依赖于抽样调查和分析实证数据,现在可以收集过去无法收集到的数据,更重要的是,现在可以不再依赖抽样分析。
(2)是在大数据时代,不再热衷于追求数据的精确度,而是追求利用数据的效率。当测量事物的能力受限制时,关注的是获取最精确的结果。但是,在大数据时代,追求精确度已经既无必要又不可行,甚至变得不受欢迎。大数据纷繁多样,优劣掺杂,精准度已不再是分析事物总体的主要手段。拥有了大数据,不再需要对一个事物的现象深究,只要掌握事物的大致发展趋势即可,更重要的是追求数据的及时性和使用效率。与依赖于小数据和精确性的时代相比较,大数据更注重数据的完整性和混杂性,帮助人们进一步认识事物的全貌和真相。
(3)是在大数据时代,人们难以寻求事物直接的因果关系,而是深入认识和利用事物的相关关系。长期以来,寻找因果关系是人类发展过程中形成的传统习惯。寻求因果关系即使很困难且用途不大,但人们无法摆脱认识的传统思维。在大数据时代,人们不必将主要精力放在事物之间因果关系的分析上,而是将主要精力放在寻找事物之间的相关关系上。事物之间的相关关系可能不会准确地告知事物发生的内在原因,但是它会提醒人们事情之间的相互联系。人们可以通过找到一个事物的良好相关关系,帮助其捕捉到事物的现在和预测未来。(二)云计算的涵义与特征
“云计算”概念产生于谷歌和IBM 等大型互联网公司处理海量数据的实践。2006 年8 月9 日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会首次提出“云计算”的概念。2007 年10 月,Google 与IBM 开始在美国大学校园推广云计算技术的计划,这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持(Michael Mille,2009)。目前全世界关于“云计算”的定义有很多。“云计算”是基于互联网的相关服务的增加、使用和交付模式,是通过互联网来提供动态易扩展且经常是虚拟化的资源。美国国家标准技术研究院(NIST)2009年关于云计算的定义是: “云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。”根据这一定义,云计算的特征主要表现为: 首先,云计算是一种计算模式,具有时间和网络存储的功能。其次,云计算是一条接入路径,通过广泛接入网络以获取计算能力,通过标准机制进行访问。第三,云计算是一个资源池,云计算服务提供商的计算资源,通过多租户模式为不同用户提供服务,并根据用户的需求动态提供不同的物理的或虚拟的资源。第四,云计算是一系列伸缩技术,在信息化和互联网环境下的计算规模可以快速扩大或缩小,计算能力可以快速、弹性获得。第五,云计算是一项可计量的服务,云计算资源的使用情况可以通过云计算系统检测、控制、计量,以自动控制和优化资源使用。(三)大数据与云计算的关系
从整体上看,大数据与云计算是相辅相成的。大数据主要专注实际业务,着眼于“数据”,提供数据采集、挖掘、分析的技术和方法,强调的是数据存储能力。云计算主要关注“计算”,关注IT 架构,提供IT 解决方案,强调的是计算能力,即数据处理能力。如果没有大数据的数据存储,那么云计算的计算能力再强大,也难以找到用武之地;如果没有云计算的数据处理能力,则大数据的数据存储再丰富,也终究难以用于实践中去。
从技术上看,大数据依赖于云计算。海量数据存储技术、海量数据管理技术、MapReduce 编程模型都是云计算的关键技术,也都是大数据的技术基础。而数据之所以会变“大”,最重要的便是云计算提供的技术平台。数据被放到“云”上之后,打破了过去那种各自分割的数据存储,更容易被收集和获得,大数据才能呈现在人们眼前。而巨量的数据也只能依靠云计算强大的数据处理能力,才能够“淘尽黄沙始得金”。
从侧重点看,大数据与云计算的侧重点不同。大数据的侧重点是各种数据,广泛、深入挖掘巨量数据,发现数据中的价值,迫使企业从“业务驱动”转变为“数据驱动”。而云计算主要通过互联网广泛获取、扩展和管理计算及存储资源和能力,其侧重点是IT 资源、处理能力和各种应用,以帮助企业节省IT部署成本。云计算使企业的IT 部门受益,而大数据使企业的业务管理部门受益。
从结果看,大数据与云计算带来不同的变化。大数据对社会经济带来的变化是巨大的,涉及到各个领域。大数据已经与资本、人力一起作为生产的主要因素影响着社会经济的发展。数据创造价值,而挖掘数据价值、利用数据的“推动力”就是云计算。云计算将信息存储、分享和挖掘能力极大提高,更经济、高效地将巨量、高速、多变的终端数据存储下来,并随时进行计算与分析。通过云计算对大数据进行分析、总结与预测,会使得决策更可靠,释放出更多大数据的内在价值。
二、大数据、云计算技术对审计的影响分析
审计技术和方法的发展是随着科学和管理技术的发展而发展的。现代审计技术和方法体系是在原始的查账基础上从低级向高级、从不完备到比较完备发展起来的。在业务和会计处理手工操作阶段,审计实施的是账表导向的审计技术和方法;当内部控制理论和方法全面应用于业务和会计处理时,审计实施的是系统导向的审计技术和方法;当风险管理理论和方法全面应用于业务和财务管理时,审计实施的是风险导向审计技术和方法;与风险导向审计技术和方法并行的是,计算机技术广泛应用于业务和会计处理时,审计实施的是IT 审计技术和方法。目前,面对大数据、云计算技术的产生和发展,审计人员需要应时而变来适应由此而带来的变化,分析大数据、云计算技术对审计方式、审计抽样技术、审计报告模式、审计证据搜集等技术和方法的影响。(一)大数据、云计算技术促进持续审计方式的发展
传统审计中,审计人员只是在被审计单位业务完成后才进行审计,而且审计过程中并不是审计所有的数据和信息,只是抽取其中有的一部分进行审计。这种事后和有限的审计对被审计单位复杂的生产经营和管理系统来说很难及时做出正确的评价,而且对于评价日益频繁和复杂的经营管理活动的真实性和合法性则显得过于迟缓。随着信息技术迅速发展,越来越多的审计组织对被审计单位开始实施持续审计方式,以解决审计结果与经济活动的时差问题。但是,审计人员实施持续审计时,往往受目前业务条件和信息化手段的限制,取得的非结构化数据无法数据化,或者无法取得相关的明细数据,致使对问题的判断也难以进一步具体和深入。而大数据、云计算技术可以促进持续审计方式的发展,使信息技术与大数据、云计算技术较好交叉融合,尤其对业务数据和风险控制“实时性”要求较高的特定行业,如银行、证券、保险等行业,在这些行业中实施持续审计迫在眉睫。如审计组织对商业银行的审计,实行与商业银行建立业务和数据系统的接口,在开发的持续审计系统中固化了非结构化数据结构化和数据分析模块,该模块可以在海量贷款客户中挖掘、分析出行业性和区域性贷款风险趋势,实现在线的风险预警,并将发现的风险数据、超预警值指标及问题登记为疑点,并建立实时审计工作底稿,按照重要程度进行归类、核实或下发给现场审计人员进行现场核实,以较好处理非结构化数据的利用和数据的实时分析利用问题。(二)大数据、云计算技术促进总体审计模式的应用
现时的审计模式是在评价被审计单位风险基础上实施抽样审计。在不可能收集和分析被审计单位全部经济业务数据的情况下,现时的审计模式主要依赖于审计抽样,从局部入手推断整体,即从抽取的样本着手进行审计,再据此推断审计对象的整体情况。这种抽样审计模式,由于抽取样本的有限性,而忽视了大量和具体的业务活动,使审计人员无法完全发现和揭示被审计单位的重大舞弊行为,隐藏着重大的审计风险。而大数据、云计算技术对审计人员而言,不仅仅是一种可供采用的技术手段,这些技术和方法将给审计人员提供实施总体审计模式的可行性。利用大数据、云计算技术,对数据的跨行业、跨企业搜集和分析,可以不用随机抽样方法,而采用搜集和分析被审计单位所有数据的总体审计模式。利用大数据、云计算技术的总体审计模式是要分析与审计对象相关的所有数据,使得审计人员可以建立总体审计的思维模式,可以使现代审计获得革命性的变化。审计人员实施总体审计模式,可以规避审计抽样风险。如果能够收集总体的所有数据,就能看到更细微、深入的信息,对数据进行多角度的深层次分析,从而发现隐藏在细节数据中的对审计问题更具价值的信息。同时,审计人员实施总体审计模式,能发现从审计抽样模式所不能发现的问题。大数据、云计算技术给审计人员提供了一种能够从总体把握审计对象的技术手段,从而帮助审计人员能从总体的视角发现以前难以发现的问题。
(三)大数据、云计算技术促进审计成果的综合应用
目前,审计人员的审计成果主要是提供给被审计单位的审计报告,其格式固定,内容单一,包含的信息量较少。随着大数据、云计算技术在审计中广泛应用,审计人员的审计成果除了审计报告外,还有在审计过程中采集、挖掘、分析和处理的大量的资料和数据,可以提供给被审计单位用于改进经营管理,促进审计成果的综合应用,提高审计成果的综合应用效果。首先,审计人员通过对审计中获取的大量数据和相关情况资料的汇总、归纳,从中找出财务、业务和经营管理等方面的内在规律、共性问题和发展趋势,通过汇总归纳宏观性和综合性较强的审计信息,为被审计单位投资者和其他利益相关者提供数据证明、关联分析和决策建议,从而促进被审计单位管理水平的提高。其次,审计人员通过应用大数据、云计算技术,可以将同一问题归入不同的类别进行分析和处理,从不同的角度、不同的层面整合提炼以满足不同层次的需求。再次,审计人员将审计成果进行智能化留存,通过大数据、云计算技术,将问题规则化并固化到系统中,以便于计算或判断问题发展趋势,向被审计单位进行预警。最后。审计人员将审计成果、被审计单位与审计问题进行关联,并进行信息化处理,在进行下次审计时,减少实地审计的时间和工作量,提高审计工作的效率。(四)大数据、云计算技术促进相关关系证据的应用
审计人员在审计过程中,应根据充分、适当的审计证据发表审计意见,出具审计报告。但是,在大数据、云计算环境下,审计人员既面临巨量数据筛选的考验,又面临搜集适当审计证据的挑战。审计人员在搜集审计证据时,传统的思维路径都是基于因果关系来搜集审计证据,而大数据分析将会更多地运用相关关系分析来搜集和发现审计证据。但从审计证据发现的角度来看,由于大数据技术提供了前所未有的跨领域、可供量化的维度,使得审计问题大量的相关信息能够得以记录和计算分析。大数据、云计算技术没有改变事物间的因果关系,但在大数据、云计算技术中对相关关系的开发和利用,使得数据分析对因果逻辑关系的依赖降低了,甚至更多地倾向于应用基于相关关系的数据分析,以相关关系分析为基础的验证是大数据、云计算技术的一项重要特征。在大数据、云计算技术环境下,审计人员能搜集到的审计证据大多是电子证据(秦荣生,2013)。电子证据本身就非常复杂,云计算技术使获取有因果关系的证据更加困难。审计人员应从长期依赖因果关系来搜集和发现审计证据,转变成为利用相关关系来搜集和发现审计证据。(五)大数据、云计算技术促进高效数据审计的发展
直到今天,审计人员的数字审计技术依然建立在精准的基础上。这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以审计人员必须尽可能精准地量化被审计单位的业务。随着大数据、云计算技术成为日常生活中的一部分,审计人员应开始从一个比以前更大、更全面的角度来理解被审计单位,将“样本= 总体”植入审计人员的思维中。相比依赖于小数据和精确性的时代,大数据更强调数据的完整性和混杂性,帮助审计人员进一步接近事情的真相,“局部”和“精确”将不再是审计人员追求的目标,审计人员追求的是事物的“全貌”和“高效”。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现。在实施审计时,审计人员应利用大数据、云计算技术,使用分布式拓朴结构、云数据库、联网审计、数据挖掘等新型的技术手段和工具,以提高审计的效率。
(六)大数据、云计算技术促进大数据审计师的发展
大数据、云计算时代,数据的真实、可靠是大数据发挥作用的前提。这客观上要求专业人员来对大数据的真实性、可靠性进行鉴证,审计人员可以扮演这种角色,或者称为数据审计师。能对大数据真实性、可靠性进行鉴证的数据审计师应该是计算机科学、数学、统计学和审计学领域的专家,他们应有大数据分析和预测的评估能力。数据审计师应恪守公正的立场和严守保密的原则,面对海量的数据和纷繁复杂的相关关系,选取分析和预测工具,以及解读数据及数据计算结果是否真实、可靠。一旦出现争议,数据审计师有权审查与分析结果相关的运算法则、统计方法以及数据采集、挖掘和处理过程。数据审计师的出现是为满足以市场为导向来解决数据真实性、可靠性问题的需求,这与20 世纪初期为了处理财务信息虚假而出现的审计人员一样,都是为了满足新需求而出现的。
三、大数据挖掘
数据的价值只有通过数据挖掘才能从低价值密度的数据中发现其潜在价值,而大数据挖掘技术的实现离不开云计算技术。在业界,全球著名的Google、EMC、惠普、IBM、微软等互联网公司都已经意识到大数据挖掘的重要意义。上述IT 巨头们纷纷通过收购大数据分析公司,进行技术整合,希望从大数据中挖掘更多的商业价值。数据挖掘通常需要遍历训练数据获得相关的统计信息,用于求解或优化模型参数,在大规模数据上进行频繁的数据访问需要耗费大量运算时间。数据挖掘领域长期受益于并行算法和架构的使用,使得性能逐渐提升。过去15 年来,效果尤其显著。试图将这些进步结合起来,并且提炼。GPU平台从并行上得到的性能提升十分显著。这些GPU平台由于采用并行架构,使用并行编程方法,使得计算能力呈几何级数增长。即便是图形处理、游戏编程是公认的复杂,它们也从并行化受益颇多。研究显示数据挖掘、图遍历、有限状态机是并行化未来的热门方向。MapReduce 框架已经被证明是提升GPU 运行数据挖掘算法性能的重要工具。D.Luo 等提出一种非平凡的策略用来并行一系列数据挖掘与数据挖掘问题,包括一类分类SVM 和两类分类SVM,非负最小二乘问题,及L1 正则化回归(lasso)问题。由此得到的乘法算法,可以被直截了当地在如MapReduce 和CUDA 的并行计算环境中实现。K.Shim 在MapReduce 框架下,讨论如何设计高MapReduce 算法,对当前一些基于MapReduce 的数据挖掘和数据挖掘算法进行归纳总结,以便进行大数据的分析。Junbo Zhang 等提出一种新的大数据挖掘技术,即利用MapRedue 实现并行的基于粗糙集的知识获取算法,还提出了下一步的研究方向,即集中于用基于并行技术的粗糙集算法处理非结构化数据。F.Gao 提出了一种新的近似算法使基于核的数据挖掘算法可以有效的处理大规模数据集。当前的基于核的数据挖掘算法由于需要计算核矩阵面临着可伸缩性问题,计算核矩阵需要O(N2)的时间和空间复杂度来计算和存储。该算法计算核矩阵时大幅度降低计算和内存开销,而且并没有明显影响结果的精确度。此外,通过折中结果的一些精度可以控制近似水平。它独立于随后使用的数据挖掘算法并且可以被它们使用。为了阐明近似算法的效果,在其上开发了一个变种的谱聚类算法,此外设计了一个所提出算法的基于MapReduce 的实现。在合成和真实数据集上的实验结果显示,所提出的算法可以获得显著的时间和空间节省。Christian Kaiser 等还利用MapReduce 框架分布式实现了训练一系列核函数学习机,该方法适用于基于核的分类和回归。Christian Kaiser 还介绍了一种扩展版的区域到点建模方法,来适应来自空间区域的大量数据。Yael Ben-Haim 研究了三种MapReduce 实现架构下并行决策树分类算法的设计, 并在Phoenix 共享内存架构上对SPRINT 算法进行了具体的并行实现。F.Yan 考虑了潜在狄利克雷分配(LDA)的两种推理方法——塌缩吉布斯采样(collapsed Gibbssampling,CGS)和塌缩变分贝叶斯推理(collapsedvariational Bayesian,CVB)在GPU 上的并行化问题。为解决GPU 上的有限内存限制问题,F.Yan 提出一种能有效降低内存开销的新颖数据划分方案。这种划分方案也能平衡多重处理器的计算开销,并能容易地避免内存访问冲突。他们使用数据流来处理超大的数据集。大量实验表明F.Yan 的并行推理方法得到的LDA 模型一贯地具有与串行推理方法相同的预测能力;但在一个有30 个多核处理器的GPU 上,CGS 方法得到了26倍的加速,CVB 方法得到了196 倍的加速。他们提出的划分方案和数据流方式使他们的方法在有更多多重处理器时可伸缩,而且可被作为通用技术来并行其它数据挖掘模型。Bao-Liang Lu 提出了一种并行的支持向量机,称为最小最大模块化网络(M3),它是基“分而治之”的思想解决大规模问题的有效的学习算法。针对异构云中进行大数据分析服务的并行化问题G.Jung 提出了最大覆盖装箱算法来决定系统中多少节点、哪些节点应该应用于大数据分析的并行执行。这种方法可以使大数据进行分配使得各个计算节点可以同步的结束计算,并且使数据块的传输可以和上一个块的计算进行重叠来节省时间。实验表明,这种方法比其他的方法可以提高大约60% 的性能。在分布式系统方面,Cheng 等人 提出一个面向大规模可伸缩数据分析的可伸缩的分布式系统——GLADE。GLADE 通过用户自定义聚合(UDA)接口并且在输入数据上有效地运行来进行数据分析。文章从两个方面来论证了系统的有效性。第一,文章展示了如何使用一系列分析功能来完成数据处理。第二,文章将GLADE 与两种不同类型的系统进行比较:一个用UDA 进行改良的关系型数据库(PostgreSQL)和MapReduce(Hadoop)。然后从运行结果、伸缩性以及运行时间上对不同类型的系统进行了比较。
四、总结 大数据的超大容量自然需要容量大,速度快,安全的存储,满足这种要求的存储离不开云计算。高速产生的大数据只有通过云计算的方式才能在可等待的时间内对其进行处理。同时,云计算是提高对大数据的分析与理解能力的一个可行方案。大数据的价值也只有通
过数据挖掘才能从低价值密度的数据中发现其潜在价值,而大数据挖掘技术的实现离不开云计算技术。总之,云计算是大数据处理的核心支撑技术,是大数据挖掘的主流方式。没有互联网,就没有虚拟化技术为核心的云计算技术,没有云计算就没有大数据处理的支撑技术。
参考文献
秦荣生.大数据、云计算技术对审计的影响研究 何清.大数据与云计算
张为民.云计算: 深刻改变未来
文峰.云计算与云审计———关于未来审计的概念与框架的一些思考
Big data and cloud computing Big Data(Big Data)in recent years, more and more occasions, the concept is mentioned more and more people, And often, and cloud computing together, what is the relationship between cloud computing and big data become a hot topic.this Special report contains the following four aspects: 1.The value of big data;2.Big data challenge;3.Big data research;4.Cloud computing is the mainstream way of data mining.Through this report on our understanding of big data, as well as the understanding of the value of big data, large data processing and mining technology, large data mainly focus on “data”, provide the technology and methods of data collection, mining and analysis;Cloud computing technology focusing on “computing”, providing IT solutions.Big data and cloud computing technology can promote the development of continuous audit mode, the overall audit mode of application, the audit results of comprehensive application, the application of related evidence, the development of efficient data audit and the development of large data auditor.Strengthen big data and cloud computing technology measures of audit applications include set up long-term development strategy, accelerate the construction of the audit regulations, establish a platform, to strengthen research and development and improve the utilization ability.Keywords: big data cloud computing data mining impact on the audit policy Suggestions