大数据环境下的数据安全性探讨(5篇模版)

时间:2019-05-12 05:51:32下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《大数据环境下的数据安全性探讨》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《大数据环境下的数据安全性探讨》。

第一篇:大数据环境下的数据安全性探讨

大数据环境下的数据安全性探讨

学号:E41314059 姓名:李俊梅 专业:信息安全

一.引言

随着互联网、物联网、云计算等新兴技术的高速发展,各种智能终端、社交网络服务的大量涌现,全球数据量出现了巨幅增长。据相关数据统计,仅在2011年就达到1.8万亿GB。互联网数据中心预计到2020年全球数据将翻50倍。显而易见,真正的大数据时代已经到来。一方面,云计算技术的成熟,为这些多样化的数据提供了存储和运算的平台。与此同时,数据挖掘和人工智能等技术为大数据时代提供了信息参考,大数据的快速发展进一步扩大信息的开放程度,但是随之而带来的数据的安全性,防止数据泄露和保障数据安全已经成为我们研究的课题

二.大数据的概念与特征

大数据本身是一个较为抽象的概念,我们从表面上理解规模庞大的数据,但是随着应用的越来越广泛,对大数据研究越来越深,可以发现大数据不仅是在数量规模上庞大,而且还包括数据结构相当复杂,数据与数据之间的关联程度相当高。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。当前,普遍较为统一对大数据特征的认识可以用4V来表达:数据规模大(Volume),数据种类多(Varity),数据要求处理速度快(Velocity),数据价值密度低(Value),概括为所谓的四V特性。这些特征让大数据即区别与传统的数据概念,又体现出大数据的复杂。大数据除了有四个特性之外,大数据时代的数据还呈现出其他三个特征。第一个特征是数据类型繁多。第二个特征是数据价值密度相对较低。第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

三.大数据面临的安全挑战

大数据的广泛应用注定了大数据的安全保卫战必须是持久战。在大数据时代,各种智能终端、互联网社交服务和各种数字化存储无处不在。不得不承认,大数据已经遍布各行各业,互联网的高速发展使得获得数据十分便利,同时也给信息安全带来了巨大的挑战。当前,数据安全的形势也不容乐观,需要保护的数据量增长已经超过了数据总量的增长。首先个人隐私很容易通过互联网泄露,随着社交网络、电子商务的兴起,们之间的联系越来越依赖网络,个人的信息会分散在不同的网络位置,只要将个人的相关数据聚集起来分析,就可以很容易获取个人的相关信息,从而分析出个人的隐私数据。上升到国家层面,大数据也可能给国家安全带来隐患。但是在网络高速发展的今天,如果在大数据处理技术方面落后的话,就可能导致数据的单向性。一些发达国家诸如美国已经开始大数据研发计划,大数据技术的发展和完善有助于增强国家数据的安全性。其次,网络普及化使大数据极易受到攻击。网络的高速发展,各个行业领域利用大数据技术能实现彼此资源共享和数据互通。加之云计算技术的普及,为大数据提供了一个开放的环境,将分布在不同区域的资源进行快速整合,智能化分配,从而实现数据资源的共享。正因为大数据处于一个开放的环境中,吸引黑客对其中的有价值的数据感兴趣,比如个人的银行账户信息等成为主要攻击目标。也就是说,在当今开放的网络化社会,大数据的本身数据量庞大,而且数据之间关联性强,对于黑客而言,只要付出相对低的成本,就可以获得巨大的收益。再次,数据的非结构化对大数据存储提出新要求。在大数据之前,数据存储一般分为关系型数据库和文件服务器两种。而相对于当前的大数据来说,数据类型的多样化也使我们措手不及。如今大数据一般都采用NoSQL数据库存储技术,该技术具有可扩展性和可用性等优点,但该技术仍然存在诸多漏洞,没有内置足够的安全性。所以时常会发生类似于身份验证、输入验证等大量安全问题。最后,计算机技术的发展也增加了安全风险。随着计算机网络技术的发展,各种服务器、防火墙、无线路由等网络设备的更新普及,数据挖掘等新兴技术越来成熟,为大数据智能化采集以及智能化数据分析性提供极大的方便。但是,我们也必须注意到一个问题就是技术的快速发展也会相应地增加了大数据的安全风险。一方面,从大数据本身的安全性来说,自身的防护也有不完善的地方,存在着漏洞。虽然云计算对大数据提供极大的方便,但云毕竟是一个开放的环境,对大数据的安全性无法提供最大的保证;API(Application Programming Interface,应用程序编程接口)访问安全权限控制以及密钥生成、存储技术和数据管理方面的不足都有造成数据泄漏的可能。同时大数据他本身可以成为一个可持续攻击的载体,有大量的恶意代码存在其中很难被发现,从而达到持续隐藏性攻击的目的。另一方面,黑客攻击的技术也在逐步提高,数据挖掘和数据分析技术的原理被黑客利用作为攻击的主要技术。

四.大数据安全策略

4.1 大数据存储安全策略

基于云计算架构的大数据,数据的存储和操作都是以服务的形式提供。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,涉及数据传输、隔离、恢复等的问题。解决大数据的安全存储,一是数据加密。在大数据安全服务的设计中,大数据可以按照数据安全存储的需求,被存储在数据集的任何存储空间,通过SSL(安全套接层)加密,实现数据集的节点和应用程序之间移动保护大数据。在大数据的传输服务过程中,加密为数据流的上传与下载提供有效的保护。应用隐私保护和外包数据计算,屏蔽网络攻击。二是分离密钥和加密数据,使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开。同时,定义产生、存储、备份、恢复等密钥管理生命周期。三是使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。四是数据备份。通过系统容灾、敏感信息集中管控和数据管理等产品,实现端对端的数据保护,确保大数据损坏情况下有备无患和安全管控。4.2 大数据应用安全策略

随着大数据应用所需的技术和工具快速发展,大数据应用安全策略主要从以下几方面着手:一是防止APT攻击。借助大数据处理技术,针对APT安全攻击隐蔽能力强、长期潜伏、攻击路径和渠道不确定等特征,设计具备实时检测能力与事后回溯能力的全流量审计方案,提醒隐藏有病毒的应用程序。二是用户访问控制。根据大数据的密级程度和用户需求的不同,将大数据和用户设定不同的权限等级,并严格控制访问权限。而且,通过单点登录的统一身份认证与权限控制技术,对用户访问进行严格的控制,有效地保证大数据应用安全。三是整合工具和流程。整合点平行于现有的连接的同时,减少通过连接企业或业务线的SIEM工具的输出到大数据安全仓库,以防止这些被预处理的数据被暴露算法和溢出加工后的数据集。同时,通过设计一个标准化的数据格式简化整合过程,同时也可以改善分析算法的持续验证。四是数据实时分析引擎。数据实时分析引擎融合了云计算、机器学习、语义分析、统计学等多个领域,通过数据实时分析引擎,从大数据中第一时间挖掘出黑客攻击、非法操作、潜在威胁等各类安全事件,第一时间发出警告响应。

4.3 大数据管理安全策略

通过技术措施来保护大数据的安全必然重要,但管理也很关键。大数据的管理安全策略主要有:一是规范建设。大数据建设是一项有序的、动态的、可持续发展的系统工程,一套规范的运行机制、建设标准和共享平台建设至关重要。规范化建设可以促进大数据管理过程的正规有序,实现各级各类信息系统的网络互连、数据集成、资源共享,在统一的安全规范框架下运行。二是建立以数据为中心的安全系统。基于云计算的大数据存储在云共享环境中,为了大数据的所有者可以对大数据使用进行控制,可以通过建设一个基于异构数据为中心的安全方法,从系统管理上保证大数据的安全。三是融合创新。大数据是在云计算的基础上提出的新概念,大数据时代应以智慧创新理念融合大数据与云计算,以智能管道与聚合平台为基础,提升数据流量规模、层次及内涵,在大数据流中提升知识价值洞察力。积极创造大数据公司技术融合平台,寻找数据洪流大潮中新的立足点,特别是在数据挖掘、人工智能、机器学习等新技术的创新应用融合创新。

五.结束语

大数据是信息化时代的“石油”。大数据转化为信息和知识的速度与能力将成为这个时代的核心竞争力之一,而大数据面临的安全挑战却不容忽视。只有大数据技术和大数据安全“两条腿”走路时,大数据才可以真正成为这个时代的驱动力量。

第二篇:大数据环境下初中信息技术教学浅议

大数据环境下初中信息技术教学浅议

【摘 要】作为社会最前沿的技术,信息技术在时代进步过程中不断发展。培养学生对信息技术的兴趣和意识,让学生掌握处理信息的基本技能,是初中信息技术课的主要目标。那么教学实践中如何践行这一目标呢?笔者通过本文简谈之。

【关键词】初中;信息技术;教育教学

信息技术由于具有较强的实用性和实践性,已经被纳入到中学素质教育中,并以培养学生计算机知识应用能力为主要目标。随着大数据时代的到来,中学信息技术教学既获得了机遇又需面对挑战,而怎样在机遇和挑战中提升教学有效性、改善教学现状,成为每个中学信息技术教师需要思考的问题。那么如何实施信息技术的教学呢?

一、注重培养学生的信息素养

在信息化社会的今天,信息素养已成为科学素养的重要构成部分。迅速地筛选和获取信息、准确地鉴别信息、创造性地加工和处理信息,将是所有社会成员应具备的、如同“读、写、算”一样重要的,终生有用的基础能力之一。对于21世纪的学生来讲,我们应努力培养他们基本的“信息素养”。

1.获取信息的能力。能够根据自己的学习要求,主动地、有目的地去发现信息,并能通过各种媒体,如互联网、书籍、报纸、电视等,或者自己亲自调查、参观等,收集到所需要的信息。

2.分析信息的能力。能够将丰富的获取到的信息进行筛选鉴别自己所需要的信息,判断它的可信度,然后对认为真实有用的信息进行分类。

3.加工信息的能力。将不同渠道获取的同一类信息进行综合,结合自己原有的知识,重新整理组织、存储,并能够简洁明了地传递给他人。

4.利用信息的能力。利用所掌握的信息,使用信息技术或其他手段,分析、解决生活和学习中的各种实际问题。

我们要充分利用学校教学的优势,通过各种形式的教育,使学生将上述信息的获取、分析、加工、利用等能力,内化为自身的思维习惯和行为方式。而在所有形式的教育中,创设一个在实际生活学习中使用信息技术解决问题的学习环境,是培养学生“信息素养”的关键。

二、注重学习兴趣的培养

教育家苏姆林斯基曾说过:“学习兴趣是学习活动的重要动力。”学习兴趣是学生基于自己的学习需要而表现出来的一种认识倾向,它在学生的学习中具有重要的作用。开始学习信息技术课时学生往往怀着好奇、兴奋的心理,但随着学习内容的深入,有的内容需要机械重复地训练,有的内容枯燥无味难度大,这样学生的学习热情就会慢慢降下来。根据建构意义新的学习理论,教师应由知识的传授者、灌输者转变为学生主动建构意义的帮助者、促进者,要充分激发学生的学习兴趣,帮助他们形成正确的学习动机。因此,教师要采取灵活多样的教学方式,激发学生的学习兴趣和主动探索的愿望。

三、培养学生的创新意识和创新能力

当今世界正在进入知识经济时代,知识的不断创新,高科技的迅速产业化,使得经济持续增长。而在这一时代,起核心作用的是知识创新,它是技术创新的基础,是技术进步和经济增长的革命性力量。因此二十一世纪需要的是有创新意识、具有创新精神和创新能力的人才。这就要求教育者,在教育过程中注重开发学生的创造潜力,鼓励启发学生主动思考,善于思考,学会独立思考,突出创新意识的培?B,强调创新能力的提高。

培养学生的创新意识和创新能力,首先要为学生创造尽可能多的环境和机会,给学生留有更多的思维空间,不须面面俱到,包办学生所做的一切。只有在自主学习的环境里,学生才有可能发挥创造性,体验创新的乐趣。例如:在讲WORD图文混排时,需要用到绘图工具栏,我只是把工具栏上重点工具,如阴影、三维效果、填充、自选图形等提示了一下,具体的操作留给学生自己完成。学生们凭着他们敏锐的观察,丰富的想象,做出了一幅幅好的作品。后来我对几副想象力丰富的作品给予了表扬,课堂气氛达到了高潮。在亲自实践的过程中,他们的创新意识和创新能力得到了充分的体现。

四、注重与其他学科的整合

信息技术课程的目的之一就是培养学生获取信息、处理信息的能力,而相应的信息应是与中小学生各科的学习内容相关的知识,这就产生了信息技术课程如何与其他学科课程整合的问题。课程整合是指用不同课程的素材和能力整合在一起,使学习的目标处于一个具体的,现实的情况,要求用到多种知识和能力。现代教育引入了以计算机为主的信息技术教学手段,提出了以超媒体方式组织教学信息的思想,这就为信息技术课程与其它学科课程的整合提供了理论基础和技术手段。

将中小学信息技术课程与其他课程整合,就是以其他学科知识的学习作为载体,把信息技术课程作为工具和手段渗透到其他学科的教学中去,从而在学习信息技术课程的同时,又能培养学生解决其他学科问题的综合能力。结合初一语文教学,我校采用的“计算机与语文识字教学整合”就是一个比较成功的例子。它主要是利用多媒体识字教学软件,让学生观看生字的笔画、笔顺、部首、间架结构、正确读音和汉字编码,同时跟随教学软件进行听、说、读、写、打(打字)的训练,通过人机交互进行自我学习、自我检查和自我提高。

五、注重青少年信息道德的培养

在信息技术蓬勃发展之际,人们往往只看到了它所带来的巨大利益,而忽视了信息技术中某些不利因素给青少年成长造成的干扰和不良影响。例如:在互联网上除了大量丰富的学科知识外,也有许多不健康的内容,有时还有计算机犯罪,计算机病毒肆虐等,而这些正是信息技术教育中容易忽略的问题。因此在学习网络这一章时,我不仅要讲解因特网的优秀之处,而且不断向学生渗透思想品德教育,培养学生健康的信息意识和信息伦理道德。

六、总结

随着信息社会的发展,教育信息化的实现,对教育既是机遇又是挑战,从培养模式上提出了更高的要求。在培养目标上,要求德智体美全面发展,具有高度创新能力和使用信息化手段能力;在培养内容上,教育需要对课程结构和教学内容进行改革。主要侧重在使学生掌握学习的方法,使每一个受教育者都具有自我获取知识和更新知识的能力;在培养方法上,教育需要更新观念,要寻求新的模式和传播手段,以适应终身教育,全民教育的需要。

第三篇:大数据环境下网络舆情管理方法研究

大数据环境下网络舆情管理方法研究

摘 要:随着互联网技术的快速发展及其广泛的应用,网络舆论信息的产生体量、传播速度和影响范围等方面都发生了巨大变化。这些变化要求舆情管理工作者在舆情管理理念、管理方法等方面必须与时俱进。大数据既是一种新技术,也是一种新方法,它侧重于信息挖掘和预测。将大数据运用到网络舆情管理工作之中,必将对舆情管理产生重要作用。在大数据环境下,网络舆情的管理方法也必将发生变革与创新。探讨大数据环境下网络舆情分析方法,以大数据为背景和前提创新网络舆情管理方法,总结大数据下舆情管理理念、视角、方式和方法等方面的变革与创新的思路,具有重要意义。

关键词:网络舆情;大数据;管理方法;变革与创新

DOI:10.15938/j.cnki.iper.2017.01.025

中图分类号: G641文献标识码:A文章编号:1672-9749(2017)01-0124-06

据《第37次中国互联网络发展状况统计报告》(由中国互联网络信息中心(简称:CNNIC)在2016年1月发布)显示,截至2015年12月,中国网民规模达6.88亿,全年新增网民3951万人。互联网普及率为50.3%,中国手机网民规模达6.20亿,手机上网使用率为90.1%[1]。随着移动互联网(Mobile Internet)、社交网络(Social Networking)、电子商务(Electronic Commerce)等的迅速发展,互联网的边界和应用范围有了极大扩展,各种信息和数据极具增多,并正在迅速膨胀变大。

网民们经常通过互联网表达意愿、观点,讨论各种话题,以表达自己的思想观点和诉求。互联网既是一个收纳器,聚集网民思想动态表达、文化和社会生活信息;又是一个扩音器,传播大众的社会舆论。在社交媒体时代,人们通过互联网平台表达社情民意,体现自己的意愿、态度和评论观点。舆情作为社会舆论的一个风向标,开展舆情分析主要是针对民众态度、观点的收集整理,分析出民众相关的意见倾向,客观体现舆情动态。

作为世界上网民数量最多、互联网访问量最大的国家,有效地分析网络舆情,对于政府,媒体、大型企事业单位都有着非常重要的意义。从政府的角度,有效的舆情管理有利于政府了解公众态度和诉求,有助于提升政府的政务管理和构建良好的社会和网络环境;从企业的角度,有效的舆情管理有利于企业掌握用户和大众对产品质量、产品功能与服务的评价及客户特征信息,更好地提供个性化产品与服务,实现利润增长,更有利于企业了解用户和大众对企业社会形象的反馈和认知,提升企业品牌知名度和社会声誉;从媒体的角度,有效的舆情管理能够突破传统信息搜集和发布渠道,更能够通过对公众舆论深入分析,提升新闻效果,实现新闻价值增值。因此,社会各界都非常重视网络舆情分析,并不断创新舆情的分析和管理的方式和方法,都是想最大化舆情的价值。

一、大数据及网络舆情的相关定义及特点

1.大数据的定义及特点

随着人们对大数据的研究和理解的不断深入,大数据已不仅仅是一个技术方面的名词了。而今,大数据相关的理论无论从内涵还是外延上,都在不断丰富和充实。关于大数据的定义,不同的机构和学者从不同的角度给出略有差异的定义:如高德纳咨询公司(2013)提出,大数据是指具有更强的洞察力和流程优化能力的海量、多样化的信息[2]。维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。Gartner对大数据的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量高增长率和多样化的信息资产” [3]。

IDC市场研究公司2012年提出,“大数据”是为了从大容量的、不同类型的数据中获取有价值的信息而设计的新型架构和技术[2],并对大数据的采用三步法进行了界定,如图1所示。首先,从数据源场景方面,可以有三种情况,或者说需要具备三种情况至少满足一种,即大数据的容量大于等于100TB或数据源于超高速的数据流(Data Streaming),或数据产生的年增速大于60%;其次,必须部署在可动态适应的基础设施(dynamically adaptable infrastructure)上。这里的基础设施既可以是传统的scale-up架构,也可以是水平扩展架构(scale-out infrastructure);最后,必须有两个以上的数据源或数据格式,或者高速流数据源(如点击流或机器产生的数据流)。有了以上三个步骤的界定,才可以形成大数据。IDC指出“大数据技?g描述了一种新一代技术和架构,以非常经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值” [2]。

尽管对大数据的定义角度各有不同,但大数据的核心本质和特征的表述和定义相对比较统一,均认为大数据与传统意义数据具有本质区别。较传统数据相比,在数据基础上,大数据更倾向于全体数据而非抽样;在分析方法上,更强调相关分析而非因果分析;在分析效果上,追求的是效率而非绝对精确和在数据规模上强调相对数据而不是绝对数据。

在数据和信息的规模/体量方面、在内容形式和数据结构方面具有复杂性/变化频度多样、在产生速度方面及价值密度等四个方面都极大地超越了传统的数据形态,具有4V特征:

第一,数据规模大(Volume)

第二,数据种类多样(Variety)

第三,数据处理速度快(Velocity)

第四,数据价值密度高(Value)

如图2所示:大数据的4V特征。

具体而言,一是数据规模大(Volume):从容量角度,大数据具有数据容量大,“容量”或“体量”,从 TB→PB→EB级,每级都是按照进率1024(2的十次方)计算,这足以说明大数据规模之庞大。二是数据种类多样(Variety):结构化数据、非结构化数据以及半结构化数据,Web数据、文字、语音音频数据、图片图像数据、视频数据、模拟信号等数据都体现了数据的多样性。三是速数据处理速度快(Velocity):对数据访问、处理、交付等速度的要求快,而且数据产生速度也非常之快;四是价值(Value):大数据的核心价值在于资源优化配置,通过搜集海量数据,进而展开全量数据挖掘,分析数据背后的相关性,开展预测分析,获得数据的应用价值。

这些特性使得大数据与传统数据区别开来,强调了大数据是具有结构松散性、形式复杂性和有利用价值的数据信息资源[3]。

2.网络舆情的定义与特点

“舆情(Public Opinion)”翻译为“民众或公众的意愿、意见或观点”。根据百度百科:舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众?ψ魑?客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

有学者从社会学视域考察舆情的定义,认为舆情是指社会各阶层民众对社会现象或事件所持有的情绪、态度、观点、看法、意见和行为倾向等[4]。网络舆情则是社会总体舆情的一个组成部分,是以网络为载体存在,以网络传播方式汇聚、形成和表达的舆情,是在互联网上的民众情绪、态度和意见汇聚的总和[5]。

网络舆情的信息来源主要有:网络新闻(如:搜狐、新浪、人民网,或以RSS为基础聚合类新闻,如头条等),论坛贴吧(如:BBS,百度贴吧,天涯,西祠胡同等),新闻评论,社会化媒体社交网络(即时通讯工具:如:聊天室、QQ、微信、微博、博客等),搜索引擎(如:百度,google等),网络发起线上活动、网络调查、电子邮件等。

通常我们把网络舆情的基本特征概括为自由性与可控性、互动性与即时性、丰富性与多样性、隐匿性与外显性、情绪化与非理性、个体化与群体极化性[6]。如图3所示:网络舆情的特征

3.大数据是网络舆情管理的有效方式之一

大数据的目的在于发现新的知识与洞察并进行科学决策。大数据与网络舆情具有非常相似的特征。从这点上可见,利用大数据的手段管理网络舆情是网络舆情管理的有效方式之一。首先,大数据能够全方位记录民意,完整展现社会舆情,大数据体量巨大,从TB级到PB乃至ZB级别,能够完全、完整的记录社会民众的社情民意;其次,大数据的特点是挖掘数据背后的相关联性,因此,大数据能精准体现舆情背后的事件、相关人员以及读者等要素内在逻辑和社会关联;最后,大数据具有很强的预测能力,通过分析事件的读者特征(群体肖像刻画)、被关注程度/热度、传播速度、传播范围、发展趋势、影响程度和网民情绪变化等,也可以针对某个观点的深度研究,从而预测舆情走向,帮助决策者进行决策和判断。因此,大数据技术为网络舆情的预测提供了重要的技术、理论支撑和保证,也成为舆情研究关键技术的支撑和核心概念。

二、基于大数据技术网络舆情管理的一般步骤与方法

网络舆情的管理模型主要分为:信息采集、信息预处理、舆情分析、舆情报告四个步骤。如图4所示:大数据管理模块及流程示意。

1.信息采集

信息采集当前常用方式是网络爬虫技术。在网络爬虫的爬行策略中,应用最为基础的是深度优先遍历策略、广度优先遍历策略。对于信息抓取过程,要求信息抓取的覆盖范围要全面。高速发展的信息高速路使得网络信息数据容量不断增大、信息和数据的类型更加丰富和复杂、网页数量不断增多,这对舆情信息抓取的效率和全面性提出了更高的要求。

大数据网络舆情信息搜集改变了传统网络舆情信息的搜索采集方式,采用定向站点信息抓取辅以全面的实时监控、聚合内容(RSS)、社交网站信息搜集和摘要搜集等搜集技术,与传统人工监测采集相结合的方式进行,抓取效率和覆盖范围都有突破性进展。

数据监测要全面和实时,要做到精细采集信息数据。笔者整理了较为常用的监测范围和基本监测指标,如表1所示。

2.信息处理

信息处理主要包括数据清洗(Data Cleaning)、信息提取、文本分类等。信息处理的主要任务是将采集的各种信息转化成格式化文本存入数据库。

网络舆情在大数据环境中流动和变化速度非常快,因此,在信息处理部分,要求信息处理的时效性。

3.舆情挖掘与分析

大数据分析就是对海量数据进行分析、梳理和加工,获得具有价值的产品(Product)和服务(Service)或深刻洞见(Insight)的数据及处理方法。数据分析的主要技术手段是采用数据挖掘(Data Mining),数据挖掘又称数据库中的知识发现,即从数据库的大量数据中揭示出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程[7]。

舆情分析的技术方法主要有文本分类、聚类分析(不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别)、热点发现(利用关键词过滤、语义分析、数值统计识别热点和敏感话题)、话题识别、主题检测与跟踪、观点/文本倾向性识别和分析(对文章的观点进行倾向性分析和统计,识别正负面信息)、自动摘要等计算技术挖掘网络文本内容蕴含的各种观点(Opinion)、喜好(Preference)、态度(Attitude)、情感(Emotion)等,也可以明确网络传播者的意图和倾向,以及影响程度、影响范围和发展趋势。

当前一些实验室、研究机构等依据大数据分析的方法和实际的工作相结合,开发和建立了以下舆情专属的分析模型和方法。如:人民网推出的“舆论共识度”指数将为中国网络舆论场的研究和社会舆论的理性引导提供新的观察视角和决策依据。它把网络用户分为媒体、网民和意见领袖三大群体,通过对不同群体的舆论分析,对每月前十或前100的社会热点问题进行评估,形成“舆论共识度”,进而对用户对舆论话题的共识程度进行评价。

互联网与国家治理研究中心、中山大学大数据传播实验室设计的“网民认知模型”,通过透析网民对不同事件的情绪变化、态度偏向等,评测用户“正负能量”,分别从“网民情绪指数”“网民理性指数”和“网民态度指数”三个维度来评价具体热点事件当中网络舆论场的“网民正能量指数”,对舆情分析和研判也非常有帮助。

还有机构建立的热度评估指数,通过话题在传统媒体报道量、网络媒体报道量、微博量、论坛帖文量、博客文章量,转发数量、用户跟贴数量、评论数量、被关注数量、传播的速度和范围、关注的用户形态特征等相关数据,之后加权各项指标,得到每个热度事件或话题的综合热度指数。

更有一些专项深入分析,如针对传播源头的分析、传播渠道的分析、意见领袖的分析、传播主体挖掘分析或针对隐性数据(网络日志)的分析。

也有专家学者提出,舆情分析需要是一个综合分析模式,以大数据的方式为重点,同时要结合专项话?}市场调研、综合民意调查(定性与定量)、软件与人工、分析师与专家会商等方式相结合的方法来分析。

4.舆情报告

舆情分析的结果需要以报告的方式呈现,并将分析报告反馈或发布,为用户、管理者和决策者提供依据。

舆情报告要求舆情分析数据要真实可靠,分析方法要恰当准确,描述要符合客观事实,结论要简明扼要、通俗易懂。舆情报告中恰当采用示意图、图表、列表等展示形式,可以更形象、清晰、直观,并且更逻辑地展示舆情事件的发生、发展和变化,舆情的发展态势等。针对不同的表达目的可以选用不同的图表或图示方式,如:描述事件发展趋势可用折线图表示、展示用户立场或观点的比例可用饼状图、体现热点人群的分布可以用散点分布图、表示频率分布可以用网状图或柱状图、说明事态发展变化可以用流程图、用户之前或背后的人际关系可以用网状关系图等。丰富的图表工具可以更形象、生动的表述舆情的现状、发展和变化。

三、大数据环境下舆情管理模式变革与管理方法创新

虽然,目前对大数据研究越来越热,国内诸多大的互联网公司、各行业内的企业及科研机构都投入了巨大的人力、物力开展大数据及大数据下舆情研究,但在我国大数据研究依然处于探索阶段,在很多方面还只是停留在理论或对未来的畅想阶段。例如:在技术方面,目前常见的舆情监测工作的主要手段仍以人工检索为主,尽管也使用了市面相对成熟的相关搜索软件进行辅助搜索,但搜索舆情的技术仍采用传统的二维搜索方式,即主题关键词和网络平台二维坐标,由舆情管理的工作人员对采集的信息进行二次加工成舆情产品。而且搜索的舆情信息结果多为一级文本信息,对于深层次的多级舆情信息,如新闻、微博后的评论,网民的社会关系,网民针对某一事件评论反映出的情绪变化等数据无法深度挖掘,仍靠人工采集和分析判断。受制于舆情分析人员的知识水平和价值判断的不同,极有可能导致有价值的舆情信息丢失,无法准确及时预测舆情走势,大大降低了舆情监测工作的效率、准确性。

随着互联网的发展、自媒体的兴起,网络、通信技术在人们信息领域深入运用,发布者在人口统计学方面的特征、发布的载体、发布的形式、传播渠道、信息的数量和形式等有了全新的变化,这对舆情的管理提出了更高的要求,要求变革网络舆情管理方式以适应大数据时代的新形势。因此,舆情管理工作者在舆情管理的理念、模式和方式方法上均需要有相应的变革与创新。

1.舆情工作者的研究视角需要发生转变

舆情工作者要从全局角度,把舆情研究从单一向度的内容研究向多元化、多向度内容及关系研究方向转化。网络数据和信息背后体现的人的行为轨迹和复杂的人与人的社会关系(Social networking),所以关系研究将成为未来的研究重点。大数据的特征之一“关联分析”,通过社会话语表达、社会关系分析、社会心理描绘、社会诉求预测等多个角度[8],进行多向度的分析研究能够帮助构建立体化、全局化和动态化的网络舆情数据系统,通过舆情分析,挖掘网络舆情和社会动态背后的深层次关系,实现网络舆情管理和社会治理的紧密联动、同步推进。

2.舆情的研究方法需要创新

即便是研究的视角发生了改变,要想真正落实到具体工作中,研究方法的创新尤为关键。要在分析方法上更加丰富,结合数据挖掘技术分析(Data Mining)方法与行为分析(Behavior Analysis)方法的研究、结合云计算、移动可追塑性分析、个性化特征识别的网络机器人与社会心理分析实验因果模型等方法,一是要提升数据监测技术,实现对媒体、论坛、博客、微博、微信等各个网络平台数据的全面抓取和记录,特别是要提高对图片、音视频、模拟信号等数据的自动识别能力;二方面提高数据挖掘技术,从海量数据中快速识别有价值数据,并挖掘数据背后隐藏的规律。三要注重数据分析技术,包括关联分析、聚类分析、语义分析等等,自动分析网上言论背后的观点、意见倾向和信息、相互之间的关联性,揭示舆情发展趋势。四是确保数据安全和保密技术,包括网络攻击与攻击检测与防范问题、安全漏洞与安全对策问题、数据备份与恢复问题、灾难恢复问题等等,确保数据安全和保密[9]。

在数据分析方面,数据分析的准确性尤为重要。引入云计算的概念和技术,与大数据相结合,会使舆情分析更加准确。开展数据间、不同维度、不同领域的数据、多样化的数据间的关联分析,是十分重要的。专家认为舆情关联关系是网络舆情数据库中存在的一类重要的、可被发现的知识,引入网络舆情支持度和网络舆情可信度,可以更准确表示网络舆情间的关联度,量化网络舆情关联规则的相关性,从而使挖掘结果更准确。

3.研究结果要易懂、易应用和可视化呈现

大数据的真正价值是运用,舆情的最终价值是指导工作。研究结果的使用者未必是大数据和舆情分析的专家。因此,研究结果要求易懂易识,界面必须友好,结果必须可以直观识别。“用数据说话”。数据最有说服力,由于图表与列表能够清晰、直观、简洁、深刻、形象地表现舆情事件,因此舆情的研究结果要注重运用图表等可视化方式来展现。

4.重点强调舆情的预测,面向未来,做好舆情数据的再利用

大数据的核心是预测,未来舆情研究的重点应由舆情监测转向舆情预警和预测。舆情工作者通过收集分析互联网上关于社会热点或网民关注焦点事件的大量消息报道,发掘背后隐藏关系,进而预测事态发展趋势,为舆情事件处置提供决策参考。

展望未来,大数据时代数据使用的关键是数据再利用,数据再利用的意义在于:挖掘数据的潜在价值,实现数据重组的创新价值。基于大数据的舆情分析,能同时分析更多数据,揭露更多隐藏价值,使预测更准确,决策更合理。未来大数据将使舆情监测功能大大丰富,舆情分析功能更加强大,舆情预测能力进一步增强,这将实现全方位、立体式的综合舆情管理模式,实现舆情管理的价值最大化。

参考文献

[1] 中国互联网络信息中心(CNNIC).第37次中国互联网络发展状况统计报告[EB/OL].[2016-01-22].http://www.xiexiebang.com/hlwfzyj/hlwxzbg/hlwtjbg/201601/PO***51954.pdf.[2] 谢耘耕,刘锐,乔睿,等.大数据与社会舆情研究综述[J].新媒体与社会,2014(4):133-154.[3] 张宁熙.大数据在突发公共事件网络舆情信息工作中的应用[J].现代情报,2015(6):38-42.[4] 王宏伟.舆情信息工作策略与方法[M].北京: 中国人事出版社,2012:6.[5] 戴维民,刘轶.我国网络舆情信息工作现状及对策思考[J].图书情报工作,2014(1):24-29.[6] 刘毅.网络舆情研究概论[M].天津: 天津人民版社,2007:74.[7] 喻国明.大数据分析下的中国社会舆情:总体态势与结构性特征――基于百度热搜词(2009―2012)的舆情模型构建[J].中国人民大学学报,2013(5):2-9.[8] 李小娜.大数据时代社会舆情监测的转变和发展[J].青年记者,2015(11):69-70.[9] 卿立新.创新大数据时代的网络舆情管理[J].红旗文稿,2014(22):28-29.[责任编辑:张学玲]

第四篇:大数据(推荐)

《新技术讲座》论文2012-2013(1)

XXXX大学—

《微软新技术系列讲座》论文

大数据

一、背景及发展趋势

1.1.背景

大数据(BigData),或称巨量资料,指的是所涉及的资料规模巨大到无

/ 7

《新技术讲座》论文2012-2013(1)

法透过目前主流软件工具,在合理的时间内撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据作为时下最火热的IT行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

随着云时代的来临,大数据也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数

十、数百或甚至数千的电脑分配工作。

1.2.发展趋势

斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍。FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。

“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自

/ 7

《新技术讲座》论文2012-2013(1)

身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。

大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,目前已进入大数据时代,但现在的硬件明显已跟不上数据发展的脚步。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而现在提及“大数据”,通常是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

/ 7

《新技术讲座》论文2012-2013(1)

未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

二、实施应用

大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”———哈佛大学 社会学教授加里·金

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等 对于大数据的存储问题,以下问题不可忽视:

容量问题

/ 7

《新技术讲座》论文2012-2013(1)

这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB1的持续吞吐能力,非常适用于大数据分析。延迟问题

“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

安全问题

某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。

成本问题

对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,5 / 7

《新技术讲座》论文2012-2013(1)

数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

数据的积累

许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

灵活性

大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

应用感知

最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。

针对小用户

依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。

实际应用

/ 7

《新技术讲座》论文2012-2013(1)

包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。

三、心得体会

听完此次王老师的《大数据》讲座,让我受益匪浅。不仅充分了解了大数据的概念,大数据时代的起源、发展及实际应用产品的问世,而且对大数据的神奇很是惊讶。的确,未来的世界需要科技创新,需要技术变革,而大数据就是改变世界的助推器之一,作为即将进入IT行业的我们来说,这既是机遇,也是挑战!

/ 7

第五篇:大数据环境下的审计信息化(思路篇)

大数据环境下的审计信息化(思路篇)

前言:审计信息化工作十余年,面临着云计算、物联网、大数据、移动通讯和社交网络等新技术的挑战。本文希望通过对大数据的理解、审计中的应用分析,提出大数据服务与审计的一个角度或方向,进而形成相关信息化配套建设的思路。本文的编写希望得到读者的回馈,能够收到您的批评、指正。

一、大数据的定义和理解

(一)广泛定义对于大数据的理解现在并没有一个标准的定义,不过大家对于大数据都有一个共同的认识,那就是4V(Volume、Velocity、Variety、Veracity):1.(Volume)数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。2.(Velocity)要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。3.(Variety)数据多样性:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。4.(Veracity)价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。而简化一下描述,其实“大数据”是一个体量特别大,数据类别特别多的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

(二)审计的大数据特征从“大数据”概念产生的缘由来看审计行业是一个天然需要大数据概念及其实现技术的行业。我们分析如下:首先,审计行业的“生产对象”是被审计对象的数据,虽然说审计是对财政财务收支的监督。但是为了了解财务的真实情况,必然需要关注业务数据,这些行业的数据每一个都可以说是数据体量巨大。同时这些数据也是复杂多样的,结构化数据不用说了(二维表数据、立方体数据、空间数据等),非结构化数据例如:被审计单位的各种制度、文件、影像等。其次,审计的职责是查处财政财务的真实、合法和效益问题。查处过程中,需要在这些海量数据中进行关联、汇聚的查询或计算工作,而且这些计算需要同时作用在结构化、半结构化、非结构化数据之上。在没有大数据技术支撑之前,采用抽样或按领域分开的方式进行审计分析,无形中形成了数据之间的壁垒和分析的局限性。最后,审计工作中的审计思路、方法,虽然有章可循,但最终还要依赖于具体参与审计工作的人的智慧。这也就决定了所有的分析工作不能像其他的数据中心、数据分析、数据挖掘、决策支持系统一样,是相对“固化”的。而思路的火花是稍纵即逝的,对任何一个突然闪出的分析思路都应该在“秒级”响应。

(三)大数据的关键技术大数据关键技术包括数据抽取与集成、数据分析、数据解释3个领域。1.数据抽取与集成。大数据的一个重要特点是多样性。意味着其数据来源极其广泛。数据类型极为繁杂,这种复杂的数据环境要求必须对数据源中的数据进行抽取和集成。并采用统一定义的结构来存储这些数据。为保证数据质量,需要在数据抽取与集成后进行数据清洗。(1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。(2)数据存取:关系数据库、NOSQL、SQL等。(3)数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机'理解'自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。2.数据分析数据分析是大数据发挥其核心价值的重要流程,主要的分析技术有统计分析、数据挖掘、模型预测等,分析的结论可用于推荐系统、专家系统、商业智能和决策支持系统等。(1)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。(2)数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)(3)模型预测:预测模型、机器学习、建模仿真。3.数据解释在数据分析的基础上,终端用户往往最关心的是数据的展示方式,如果分析结果没有采用适当的解释方法,所得到的分析结论往往让用户难以理解,极端情况下甚至会误导用户。传统的解释方法仅是文本、图表等电脑终端上的直观显示,未来提升数据解释能力可以引入标签云(tag cloud)、关系图等可视化技术解决,甚至可以采用人机交互技术,在交互过程中逐步引导用户进入分析流程,达到最佳的数据解释效果。4.基础架构大数据价值的完整体现需要多种技术的协同。为了便于数据管理,需要建立云存储系统等存储结构化、非结构化、半结构化类型的数据。为了加速数据处理,需要采用云计算、云存储、分布式文件存储等分布式计算技术。通过索引与查询技术,提供搜索引擎服务,提高用户对大数据的使用效率。

二、大数据技术为审计打开的“窗”我们都知道传统的审计,无论是计算机辅助审计、计算机审计、自动化审计,都是在既定计划、既定方向上开展的,这对于制定计划、制定审计方案的人是一个考验,同时执行人也将艰难的去践行。原来在电子审计体系发展的研究中,有人曾提出过智能审计和智慧审计的概念,如何定义智能、智慧呢,如何实现智能、智慧呢?其实一直没有很好的可执行方案,大数据时代的来临,大数据技术的发展为我们破题了。我觉得大数据技术的运用至少能够带来以下几个方面的进化:

(一)审计计划彻底放开看到这个小标题,大家不要误会,不是说不要计划、随性开展审计项目。今后的计划分为两类:一是固定审计工作,二是专题审计工作。1.固定审计类似现在每年都要开展的部门预算执行审计一样,今后像社保、税收、环资、投资等审计都会进入固定审计工作。就因为大数据时代的来临,对于审计来说数据已经极大丰富,而且能够提供应对这些数据的采集、存储、处理、分析的大数据技术。2.专题审计(或者叫随机审计)不再像原来一样,年初制定计划,年中调整计划。而是采用征集审计专题,组织评审后形成专题审计工作(当然这里会有一些安全保密的问题需要处理)。征集的已经不再是一个思路,而是有大数据分析的结论依据支撑的审计方案。这也就意味着,专题审计的方向、形成时间都不固定了,虽然是无计划性的,但是很有“市场味”,不但广开思路,而且对外界响应更快、更灵活。

(二)审计思路彻底解放大数据时代来临,审计工作已经不再是计划经济了,对于审计人员来说可以去研究自己擅长的、关注的数据,通过大数据分析去寻找审计专题,形成审计项目。审计署通过鼓励10万审计人员进行“科研”,并择优支持(即形成专题审计项目)。专题提出人或团队获得支持(数据、资金、人员、政策等),开展审计实践,形成审计成果和审计研究成果,即完成审计的揭示、预防功能,又形成审计抵御积累。在现今的社会,已经不强求全面发展的人才,木桶原理也已经略显过时了。所以对于审计思路,也不要用条条框框去限制,让所有审计人员像创业者一样去发挥自己的特长,做某一点的冒尖者,何愁没有审计思路,没审计成果。

(三)审计效能进入蓝海我们都知道全国审计机关的人数已经有很多年没有增加了,但国民生产总值、财政资金总量都在大幅增长,经济社会的复杂度更是呈几何增长。通过计算机审计、数字化审计等方式,让审计效能也获得了大幅度提升。但是随着互联网时代的信息大爆炸(即摩尔第三定律),现有的信息化技术已经无法持续提升审计效能。审计效能的评价通常以审计人员数量作为基数,而提升审计效能的方法却不是以审计人员数量为基数。在大数据时代来临,我们将审计工作转向每一个审计人员都是效能提升的一个节点,才能使我们能够适应几何式的增长。而且效能提升节点之间可以进行网状连接,获得更强的效能提升可能,也是下一步效能提升的重点,只有让每个节点(审计人员)的都是效能提升因素,才能使审计效能进入蓝海。

三、利用大数据服务审计工作的思路从上述分析,如果利用大数据服务审计,将形成怎样的审计工作方式:

(一)审计模式的变化之前已经提到过,今后的审计没有什么计划规定,而只有固定和专题(随机)审计两类,固定的不需要计划,专题的无法计划。作为固定的审计工作,就像走流程一样,安排人去执行,类似巡逻,发现异常拉响警报,派人去调查。作为随机的审计工作,首先是由思路提出人申报(当然也可以安排专门的团队去研究),然后通过评审确定为审计项目。审计项目也往往不再是一个点、一个区域的项目,全部都是跨领域、跨地域(全国性)的综合性审计项目。

(二)审计工作的工作变化可以说审计人员不再像传统审计项目,在项目执行阶段不断地去寻找审计思路。而是在项目确定之前,通过数据分析确定好审计思路(想明白如何审计),真的下项目了,更多的是“体力活”。审计项目的执行方式也不再是派项目组到处跑,而是通过将专题审计分析的方案发给相关审计区域、领域的接口人,由他们帮助完成“体力活”。

(三)审计成果的变化审计成果的内容也将得到极大的扩展:首先成果的梳理方式都要像全国统一组织项目的成果一样进行梳理;其次由于所有的成果都不再是单点的,所以数额都会成线性增长;最后每年提出的专题审计数量、质量将直接影响当年的审计成果数量和质量。

四、大数据信息化的基础配套建设内容

(一)以大数据方式建设的数据中心大数据信息化,首先必须有一个大数据的数据中心。主要有以下几个特征:1.任何数据都是中心、又不是中心,数据之间的关联性是核心特征之一。数据之间的关联不会因为数据量、数据类型、数据形态而受影响。2.数据的检索速度都在秒级。对于数据的检索与查询都在秒级完成,这样才能提供最基础的数据服务。

(二)大数据的应用建设思路大数据应用功能可以拆分为四个层次:1.统计展示。此阶段的目的是描述“发生了什么(whathappened)”;我们采用统计报表工具解决这类问题。2.统计分析。此阶段更加注重的是“为什么发生(whydid it happen)”;我们采用的商务智能工具,即BI。3.数据挖掘。此阶段面对的不再是历史数据而是“正在发生、进行中(what’s happening)”的数据生产过程;采用数据挖掘和精算分析工具。4.模型预测。大数据分析正朝着有效预测这一目标发展,届时分析“将要发生什么(whatwill happen)”将成为可能。采用预测仿真、机器学习、建模仿真等工具。

下载大数据环境下的数据安全性探讨(5篇模版)word格式文档
下载大数据环境下的数据安全性探讨(5篇模版).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    大数据环境下的数据安全研究论文(五篇范文)

    大数据环境下的数据安全问题是信息化时代必须解决的问题。文章阐述了大数据的概念及特点以及其存在的一些问题,再来分析大数据环境下影响信息安全的因素,最后对如何保证大数据......

    大数据环境下的企业信用法律监管制度

    大数据环境下的企业信用法律监管制度 作者:天天论文网 日期:2016-2-3 9:16:21 点击:0 摘 要:大数据环境下,企业信用呈现体态虚拟化与数字化、影响因素广平化与纵深化的新特点,......

    基于大数据和互联网的河道环境[推荐]

    基于大数据和互联网+的河道环境 智能监控系统(REMS) -----为确保大英青山绿水保驾护航 一 、金山银山不如绿水青山: 1、2017年10月18日,中共中央总书记习近平在十九大报告中指......

    环境检测数据的有效位数

    第八章 监测数据的有效位数 监测数据报出的位数,对监测结果的准确性和数据资料的统计整理都是十分重要的。监测数据的有效位数应与测试系统的准确度相适应。记录测试数据时,......

    数据分析报告怎么写(下)

    在上一篇文章中,我们为大家介绍了数据分析报告的标题和目录的具体内容,大家在进行数据分析报告撰写的时候需要注意这两个问题,此外还需要注意很多的内容,比如说前言、正文、附录......

    大数据形势下的教育

    大数据形势下的教育 随着云计算和移动互联网的迅速发展,各类数据正以前所未有的速度在不断地增长和累积,大数据时代是当今信息技术发展的必然产物。大数据在社会政治、经济、......

    大数据时代下的生活方式

    论文简介 本论文第一部分介绍了大数据的定义及特征以及如何使用大数据;第二部分分别介绍了大数据在商业预测、体育领域、购物等方面的应用;第三部分介绍了大数据带来的风险和......

    大数据时代下的银行业

    大数据时代下的银行业 一、前言 2012 年3 月,奥巴马政府宣布投资2 亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的......