第一篇:“大数据”环境下P2P信审环节的优化研究
摘 要 在“大数据”概念日益普及的背景下,p2p行业在迅速发展的同时也出现了诸多问题,而信审作为其关键环节受到了越来越多的关注。目前,资料收集渠道少、涉及范围小,缺乏相关信审模型,数据存储安全性低是信审环节存在的主要问题。为此,p2p企业应借鉴欧美国家经验,注重收集数据的多元化,多层次评估风险,同时完善服务器,提升数据的安全性。
关键词 互联网金融 p2p 大数据征信 信审
互联网金融自2007年出现直至2015年发展态势愈演愈烈,作为一种新兴的金融服务方式,p2p行业凭借其“短,平,快”的特点和优势获得了迅猛的发展。另一方面,p2p问题平台跑路、倒闭、兑付危机等负面新闻频出,整个行业都受到了牵连,行业发展的迅猛态势倒逼监管加快步伐。其中,作为p2p行业工作的关键环节,信审工作存在的问题及其优化受到了越来越多的关注。本文以“大数据”为研究背景,对p2p企业信审环节中的主要问题展开研究。
一、信审环节主要存在的问题
(一)资料收集阶段――渠道较少,范围较小
目前我国众多p2p企业在收集资料阶段存在信息渠道窄、信息覆盖面不全等主要问题。首先,大多p2p企业获得信息渠道相对单一,以p2p企业与借款融资企业之间的双向往来为主。其次,p2p企业信审大多参考银行传统征信函盖的资料内容与范围,信息的覆盖范围较窄,使风险评估阶段由于数据信息的局限性导致评估结果有一定的偏差性。
(二)风险评估阶段――建模初期,经验主义
风险评估方面的问题是制约p2p企业发展的重要因素。目前较多p2p企业在审核企业信用时采用以往或行业经验来定性评估受审企业的信用等级。由于不同企业在信用审核中存在行业差异性,没有统一的衡量标准,p2p企业为了了解待审企业的运营状况,先实地尽调,再根据受审企业具体问题具体分析。这就导致审核时间长、耗费的成本及人力资源较多且评估结果缺少科学性依据。
(三)数据存储阶段――疏于管理,安全性低
p2p企业都会对借款方企业的前期资料以及后期评估的信用情况进行建档存档。目前,大多p2p企业的数据存储没有专门的数据库系统,也没有设立服务器或交予第三方云服务平台托管的意识。
二、欧美的征信经验及我国的改变
说到信用审核的问题,必然要谈到近两年频繁出现的“大数据征信”了。一些欧美国家在在此方面的应用都是先于我国的。以利用“大数据”进行风险管理的zestfiance为例,它整合分散数据,借助数据挖掘与自我开发的预测模型(包括防欺诈模型、还款能力模型等十个模型),再将预测模型的结果进行集成处理,挖掘更多传统征信覆盖不到或潜在的信用信息,并借助信用评估模型获得完整的信用评估报告。
而近些年国内有关征信方面也有了不少改变。央行将征信系统向个人及金融机构开放,个人每年可免费查询一次自己的征信报告,而金融机构只要符合相关申请条件经授权批准即可接入征信系统的接口。此外,央行在2015年1月印发的《关于做好个人征信业务准备工作的通知》中,包括芝麻信用、腾讯征信等八家企业被授权挂牌作为民营征信企业。通过对数据的挖掘和分析,各企业从不同维度综合评估,为用户建立个人的信用评分,向个人及机构提供征信服务,丰富了征信内容。这对冲破传统意义上的征信使征信多元化、数据化有着重大意义。
三、对p2p企业信审工作的建议
(一)资料收集阶段――多元化数据搜集
在收集借款方企业的审核资料过程中,可以从两方面做出多元化改善:
1.获取信息渠道多元化。这里的信息渠道是指获得借款方需审核资料的方式。在行业未来发展中,扩展信息收集渠道将成为一种趋势。如获取借款融资企业资料可通过以下几种方式:第一,申请央行征信系统的接口,获取企业法人、融资负责人、企业核心决策层等相关人员的个人征信报告;第二,向目前已开放的八家征信企业选择一家或几家支付一定服务费用,接入数据接口,获取借款融资方相关人员的信用记录及评分;第三,通过全国企业信用信息公示系统、中国裁判文书网、各地法院官网等官方网站,获取企业基本信息及企业的不诚信经营导致被起诉事件等信息。
(二)风险评估阶段――多层次多维度综合评估
多层次的综合评估是指在建立模型的过程中,由基础模型――评估模型――信审模型 构成垂直方向上层级递进的评估模型。首先将收集的数据信息划分为多个维度,划分也可分为两种方法:一是按照信息来源分类,如:央行的征信报告、企业公共信息、民营征信机构信息等;二是按照信息的领域分类,如:验证类基础信息、金融类信息、非金融类信息。不同类别的数据与信审的相关性不同,即每一类信其次针对不同评估方面,以两类或以上的基础模型评估结果为参考,运用相应的算法建立适用的评估模型,如还款能力评估模型、还款意愿评估模型、身份验证评估模型、企业运营评估模型等。最后根据不同类型的企业及其不同的侧重点,在评估模型的基础上加上不同的权重,使用相应的规则,将评估模型整合为最终的信审模型,获得最终的信用评估报告。
(三)数据存储阶段――完善服务器
上文中提到多数p2p企业将信息安全保障集中放在网络平台的运营上,而忽视了对借款方企业信息存储的安全保障。
在长期发展中建议p2p企业在信息存储方面建立完备的数据库服务器对数据统一管理,或将其托管至第三方云服务平台;对于信息中的敏感数据采用一定的加密技术以确保信息存储的安全性。
四、结语
互联网金融p2p行业在我国仍处于初步发展阶段,其发展有无限的可能,也将会朝着网贷行业产业链的趋势发展,形成数据服务企业――征信(信审)服务企业――p2p平台服务企业交叉网状结构,将每一环节的业务细化到每一类企业。对中国征信将来的发展也抱有积极的观望态度。
第二篇:大数据环境下网络舆情管理方法研究
大数据环境下网络舆情管理方法研究
摘 要:随着互联网技术的快速发展及其广泛的应用,网络舆论信息的产生体量、传播速度和影响范围等方面都发生了巨大变化。这些变化要求舆情管理工作者在舆情管理理念、管理方法等方面必须与时俱进。大数据既是一种新技术,也是一种新方法,它侧重于信息挖掘和预测。将大数据运用到网络舆情管理工作之中,必将对舆情管理产生重要作用。在大数据环境下,网络舆情的管理方法也必将发生变革与创新。探讨大数据环境下网络舆情分析方法,以大数据为背景和前提创新网络舆情管理方法,总结大数据下舆情管理理念、视角、方式和方法等方面的变革与创新的思路,具有重要意义。
关键词:网络舆情;大数据;管理方法;变革与创新
DOI:10.15938/j.cnki.iper.2017.01.025
中图分类号: G641文献标识码:A文章编号:1672-9749(2017)01-0124-06
据《第37次中国互联网络发展状况统计报告》(由中国互联网络信息中心(简称:CNNIC)在2016年1月发布)显示,截至2015年12月,中国网民规模达6.88亿,全年新增网民3951万人。互联网普及率为50.3%,中国手机网民规模达6.20亿,手机上网使用率为90.1%[1]。随着移动互联网(Mobile Internet)、社交网络(Social Networking)、电子商务(Electronic Commerce)等的迅速发展,互联网的边界和应用范围有了极大扩展,各种信息和数据极具增多,并正在迅速膨胀变大。
网民们经常通过互联网表达意愿、观点,讨论各种话题,以表达自己的思想观点和诉求。互联网既是一个收纳器,聚集网民思想动态表达、文化和社会生活信息;又是一个扩音器,传播大众的社会舆论。在社交媒体时代,人们通过互联网平台表达社情民意,体现自己的意愿、态度和评论观点。舆情作为社会舆论的一个风向标,开展舆情分析主要是针对民众态度、观点的收集整理,分析出民众相关的意见倾向,客观体现舆情动态。
作为世界上网民数量最多、互联网访问量最大的国家,有效地分析网络舆情,对于政府,媒体、大型企事业单位都有着非常重要的意义。从政府的角度,有效的舆情管理有利于政府了解公众态度和诉求,有助于提升政府的政务管理和构建良好的社会和网络环境;从企业的角度,有效的舆情管理有利于企业掌握用户和大众对产品质量、产品功能与服务的评价及客户特征信息,更好地提供个性化产品与服务,实现利润增长,更有利于企业了解用户和大众对企业社会形象的反馈和认知,提升企业品牌知名度和社会声誉;从媒体的角度,有效的舆情管理能够突破传统信息搜集和发布渠道,更能够通过对公众舆论深入分析,提升新闻效果,实现新闻价值增值。因此,社会各界都非常重视网络舆情分析,并不断创新舆情的分析和管理的方式和方法,都是想最大化舆情的价值。
一、大数据及网络舆情的相关定义及特点
1.大数据的定义及特点
随着人们对大数据的研究和理解的不断深入,大数据已不仅仅是一个技术方面的名词了。而今,大数据相关的理论无论从内涵还是外延上,都在不断丰富和充实。关于大数据的定义,不同的机构和学者从不同的角度给出略有差异的定义:如高德纳咨询公司(2013)提出,大数据是指具有更强的洞察力和流程优化能力的海量、多样化的信息[2]。维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。Gartner对大数据的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量高增长率和多样化的信息资产” [3]。
IDC市场研究公司2012年提出,“大数据”是为了从大容量的、不同类型的数据中获取有价值的信息而设计的新型架构和技术[2],并对大数据的采用三步法进行了界定,如图1所示。首先,从数据源场景方面,可以有三种情况,或者说需要具备三种情况至少满足一种,即大数据的容量大于等于100TB或数据源于超高速的数据流(Data Streaming),或数据产生的年增速大于60%;其次,必须部署在可动态适应的基础设施(dynamically adaptable infrastructure)上。这里的基础设施既可以是传统的scale-up架构,也可以是水平扩展架构(scale-out infrastructure);最后,必须有两个以上的数据源或数据格式,或者高速流数据源(如点击流或机器产生的数据流)。有了以上三个步骤的界定,才可以形成大数据。IDC指出“大数据技?g描述了一种新一代技术和架构,以非常经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值” [2]。
尽管对大数据的定义角度各有不同,但大数据的核心本质和特征的表述和定义相对比较统一,均认为大数据与传统意义数据具有本质区别。较传统数据相比,在数据基础上,大数据更倾向于全体数据而非抽样;在分析方法上,更强调相关分析而非因果分析;在分析效果上,追求的是效率而非绝对精确和在数据规模上强调相对数据而不是绝对数据。
在数据和信息的规模/体量方面、在内容形式和数据结构方面具有复杂性/变化频度多样、在产生速度方面及价值密度等四个方面都极大地超越了传统的数据形态,具有4V特征:
第一,数据规模大(Volume)
第二,数据种类多样(Variety)
第三,数据处理速度快(Velocity)
第四,数据价值密度高(Value)
如图2所示:大数据的4V特征。
具体而言,一是数据规模大(Volume):从容量角度,大数据具有数据容量大,“容量”或“体量”,从 TB→PB→EB级,每级都是按照进率1024(2的十次方)计算,这足以说明大数据规模之庞大。二是数据种类多样(Variety):结构化数据、非结构化数据以及半结构化数据,Web数据、文字、语音音频数据、图片图像数据、视频数据、模拟信号等数据都体现了数据的多样性。三是速数据处理速度快(Velocity):对数据访问、处理、交付等速度的要求快,而且数据产生速度也非常之快;四是价值(Value):大数据的核心价值在于资源优化配置,通过搜集海量数据,进而展开全量数据挖掘,分析数据背后的相关性,开展预测分析,获得数据的应用价值。
这些特性使得大数据与传统数据区别开来,强调了大数据是具有结构松散性、形式复杂性和有利用价值的数据信息资源[3]。
2.网络舆情的定义与特点
“舆情(Public Opinion)”翻译为“民众或公众的意愿、意见或观点”。根据百度百科:舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众?ψ魑?客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
有学者从社会学视域考察舆情的定义,认为舆情是指社会各阶层民众对社会现象或事件所持有的情绪、态度、观点、看法、意见和行为倾向等[4]。网络舆情则是社会总体舆情的一个组成部分,是以网络为载体存在,以网络传播方式汇聚、形成和表达的舆情,是在互联网上的民众情绪、态度和意见汇聚的总和[5]。
网络舆情的信息来源主要有:网络新闻(如:搜狐、新浪、人民网,或以RSS为基础聚合类新闻,如头条等),论坛贴吧(如:BBS,百度贴吧,天涯,西祠胡同等),新闻评论,社会化媒体社交网络(即时通讯工具:如:聊天室、QQ、微信、微博、博客等),搜索引擎(如:百度,google等),网络发起线上活动、网络调查、电子邮件等。
通常我们把网络舆情的基本特征概括为自由性与可控性、互动性与即时性、丰富性与多样性、隐匿性与外显性、情绪化与非理性、个体化与群体极化性[6]。如图3所示:网络舆情的特征
3.大数据是网络舆情管理的有效方式之一
大数据的目的在于发现新的知识与洞察并进行科学决策。大数据与网络舆情具有非常相似的特征。从这点上可见,利用大数据的手段管理网络舆情是网络舆情管理的有效方式之一。首先,大数据能够全方位记录民意,完整展现社会舆情,大数据体量巨大,从TB级到PB乃至ZB级别,能够完全、完整的记录社会民众的社情民意;其次,大数据的特点是挖掘数据背后的相关联性,因此,大数据能精准体现舆情背后的事件、相关人员以及读者等要素内在逻辑和社会关联;最后,大数据具有很强的预测能力,通过分析事件的读者特征(群体肖像刻画)、被关注程度/热度、传播速度、传播范围、发展趋势、影响程度和网民情绪变化等,也可以针对某个观点的深度研究,从而预测舆情走向,帮助决策者进行决策和判断。因此,大数据技术为网络舆情的预测提供了重要的技术、理论支撑和保证,也成为舆情研究关键技术的支撑和核心概念。
二、基于大数据技术网络舆情管理的一般步骤与方法
网络舆情的管理模型主要分为:信息采集、信息预处理、舆情分析、舆情报告四个步骤。如图4所示:大数据管理模块及流程示意。
1.信息采集
信息采集当前常用方式是网络爬虫技术。在网络爬虫的爬行策略中,应用最为基础的是深度优先遍历策略、广度优先遍历策略。对于信息抓取过程,要求信息抓取的覆盖范围要全面。高速发展的信息高速路使得网络信息数据容量不断增大、信息和数据的类型更加丰富和复杂、网页数量不断增多,这对舆情信息抓取的效率和全面性提出了更高的要求。
大数据网络舆情信息搜集改变了传统网络舆情信息的搜索采集方式,采用定向站点信息抓取辅以全面的实时监控、聚合内容(RSS)、社交网站信息搜集和摘要搜集等搜集技术,与传统人工监测采集相结合的方式进行,抓取效率和覆盖范围都有突破性进展。
数据监测要全面和实时,要做到精细采集信息数据。笔者整理了较为常用的监测范围和基本监测指标,如表1所示。
2.信息处理
信息处理主要包括数据清洗(Data Cleaning)、信息提取、文本分类等。信息处理的主要任务是将采集的各种信息转化成格式化文本存入数据库。
网络舆情在大数据环境中流动和变化速度非常快,因此,在信息处理部分,要求信息处理的时效性。
3.舆情挖掘与分析
大数据分析就是对海量数据进行分析、梳理和加工,获得具有价值的产品(Product)和服务(Service)或深刻洞见(Insight)的数据及处理方法。数据分析的主要技术手段是采用数据挖掘(Data Mining),数据挖掘又称数据库中的知识发现,即从数据库的大量数据中揭示出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程[7]。
舆情分析的技术方法主要有文本分类、聚类分析(不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别)、热点发现(利用关键词过滤、语义分析、数值统计识别热点和敏感话题)、话题识别、主题检测与跟踪、观点/文本倾向性识别和分析(对文章的观点进行倾向性分析和统计,识别正负面信息)、自动摘要等计算技术挖掘网络文本内容蕴含的各种观点(Opinion)、喜好(Preference)、态度(Attitude)、情感(Emotion)等,也可以明确网络传播者的意图和倾向,以及影响程度、影响范围和发展趋势。
当前一些实验室、研究机构等依据大数据分析的方法和实际的工作相结合,开发和建立了以下舆情专属的分析模型和方法。如:人民网推出的“舆论共识度”指数将为中国网络舆论场的研究和社会舆论的理性引导提供新的观察视角和决策依据。它把网络用户分为媒体、网民和意见领袖三大群体,通过对不同群体的舆论分析,对每月前十或前100的社会热点问题进行评估,形成“舆论共识度”,进而对用户对舆论话题的共识程度进行评价。
互联网与国家治理研究中心、中山大学大数据传播实验室设计的“网民认知模型”,通过透析网民对不同事件的情绪变化、态度偏向等,评测用户“正负能量”,分别从“网民情绪指数”“网民理性指数”和“网民态度指数”三个维度来评价具体热点事件当中网络舆论场的“网民正能量指数”,对舆情分析和研判也非常有帮助。
还有机构建立的热度评估指数,通过话题在传统媒体报道量、网络媒体报道量、微博量、论坛帖文量、博客文章量,转发数量、用户跟贴数量、评论数量、被关注数量、传播的速度和范围、关注的用户形态特征等相关数据,之后加权各项指标,得到每个热度事件或话题的综合热度指数。
更有一些专项深入分析,如针对传播源头的分析、传播渠道的分析、意见领袖的分析、传播主体挖掘分析或针对隐性数据(网络日志)的分析。
也有专家学者提出,舆情分析需要是一个综合分析模式,以大数据的方式为重点,同时要结合专项话?}市场调研、综合民意调查(定性与定量)、软件与人工、分析师与专家会商等方式相结合的方法来分析。
4.舆情报告
舆情分析的结果需要以报告的方式呈现,并将分析报告反馈或发布,为用户、管理者和决策者提供依据。
舆情报告要求舆情分析数据要真实可靠,分析方法要恰当准确,描述要符合客观事实,结论要简明扼要、通俗易懂。舆情报告中恰当采用示意图、图表、列表等展示形式,可以更形象、清晰、直观,并且更逻辑地展示舆情事件的发生、发展和变化,舆情的发展态势等。针对不同的表达目的可以选用不同的图表或图示方式,如:描述事件发展趋势可用折线图表示、展示用户立场或观点的比例可用饼状图、体现热点人群的分布可以用散点分布图、表示频率分布可以用网状图或柱状图、说明事态发展变化可以用流程图、用户之前或背后的人际关系可以用网状关系图等。丰富的图表工具可以更形象、生动的表述舆情的现状、发展和变化。
三、大数据环境下舆情管理模式变革与管理方法创新
虽然,目前对大数据研究越来越热,国内诸多大的互联网公司、各行业内的企业及科研机构都投入了巨大的人力、物力开展大数据及大数据下舆情研究,但在我国大数据研究依然处于探索阶段,在很多方面还只是停留在理论或对未来的畅想阶段。例如:在技术方面,目前常见的舆情监测工作的主要手段仍以人工检索为主,尽管也使用了市面相对成熟的相关搜索软件进行辅助搜索,但搜索舆情的技术仍采用传统的二维搜索方式,即主题关键词和网络平台二维坐标,由舆情管理的工作人员对采集的信息进行二次加工成舆情产品。而且搜索的舆情信息结果多为一级文本信息,对于深层次的多级舆情信息,如新闻、微博后的评论,网民的社会关系,网民针对某一事件评论反映出的情绪变化等数据无法深度挖掘,仍靠人工采集和分析判断。受制于舆情分析人员的知识水平和价值判断的不同,极有可能导致有价值的舆情信息丢失,无法准确及时预测舆情走势,大大降低了舆情监测工作的效率、准确性。
随着互联网的发展、自媒体的兴起,网络、通信技术在人们信息领域深入运用,发布者在人口统计学方面的特征、发布的载体、发布的形式、传播渠道、信息的数量和形式等有了全新的变化,这对舆情的管理提出了更高的要求,要求变革网络舆情管理方式以适应大数据时代的新形势。因此,舆情管理工作者在舆情管理的理念、模式和方式方法上均需要有相应的变革与创新。
1.舆情工作者的研究视角需要发生转变
舆情工作者要从全局角度,把舆情研究从单一向度的内容研究向多元化、多向度内容及关系研究方向转化。网络数据和信息背后体现的人的行为轨迹和复杂的人与人的社会关系(Social networking),所以关系研究将成为未来的研究重点。大数据的特征之一“关联分析”,通过社会话语表达、社会关系分析、社会心理描绘、社会诉求预测等多个角度[8],进行多向度的分析研究能够帮助构建立体化、全局化和动态化的网络舆情数据系统,通过舆情分析,挖掘网络舆情和社会动态背后的深层次关系,实现网络舆情管理和社会治理的紧密联动、同步推进。
2.舆情的研究方法需要创新
即便是研究的视角发生了改变,要想真正落实到具体工作中,研究方法的创新尤为关键。要在分析方法上更加丰富,结合数据挖掘技术分析(Data Mining)方法与行为分析(Behavior Analysis)方法的研究、结合云计算、移动可追塑性分析、个性化特征识别的网络机器人与社会心理分析实验因果模型等方法,一是要提升数据监测技术,实现对媒体、论坛、博客、微博、微信等各个网络平台数据的全面抓取和记录,特别是要提高对图片、音视频、模拟信号等数据的自动识别能力;二方面提高数据挖掘技术,从海量数据中快速识别有价值数据,并挖掘数据背后隐藏的规律。三要注重数据分析技术,包括关联分析、聚类分析、语义分析等等,自动分析网上言论背后的观点、意见倾向和信息、相互之间的关联性,揭示舆情发展趋势。四是确保数据安全和保密技术,包括网络攻击与攻击检测与防范问题、安全漏洞与安全对策问题、数据备份与恢复问题、灾难恢复问题等等,确保数据安全和保密[9]。
在数据分析方面,数据分析的准确性尤为重要。引入云计算的概念和技术,与大数据相结合,会使舆情分析更加准确。开展数据间、不同维度、不同领域的数据、多样化的数据间的关联分析,是十分重要的。专家认为舆情关联关系是网络舆情数据库中存在的一类重要的、可被发现的知识,引入网络舆情支持度和网络舆情可信度,可以更准确表示网络舆情间的关联度,量化网络舆情关联规则的相关性,从而使挖掘结果更准确。
3.研究结果要易懂、易应用和可视化呈现
大数据的真正价值是运用,舆情的最终价值是指导工作。研究结果的使用者未必是大数据和舆情分析的专家。因此,研究结果要求易懂易识,界面必须友好,结果必须可以直观识别。“用数据说话”。数据最有说服力,由于图表与列表能够清晰、直观、简洁、深刻、形象地表现舆情事件,因此舆情的研究结果要注重运用图表等可视化方式来展现。
4.重点强调舆情的预测,面向未来,做好舆情数据的再利用
大数据的核心是预测,未来舆情研究的重点应由舆情监测转向舆情预警和预测。舆情工作者通过收集分析互联网上关于社会热点或网民关注焦点事件的大量消息报道,发掘背后隐藏关系,进而预测事态发展趋势,为舆情事件处置提供决策参考。
展望未来,大数据时代数据使用的关键是数据再利用,数据再利用的意义在于:挖掘数据的潜在价值,实现数据重组的创新价值。基于大数据的舆情分析,能同时分析更多数据,揭露更多隐藏价值,使预测更准确,决策更合理。未来大数据将使舆情监测功能大大丰富,舆情分析功能更加强大,舆情预测能力进一步增强,这将实现全方位、立体式的综合舆情管理模式,实现舆情管理的价值最大化。
参考文献
[1] 中国互联网络信息中心(CNNIC).第37次中国互联网络发展状况统计报告[EB/OL].[2016-01-22].http://www.xiexiebang.com/hlwfzyj/hlwxzbg/hlwtjbg/201601/PO***51954.pdf.[2] 谢耘耕,刘锐,乔睿,等.大数据与社会舆情研究综述[J].新媒体与社会,2014(4):133-154.[3] 张宁熙.大数据在突发公共事件网络舆情信息工作中的应用[J].现代情报,2015(6):38-42.[4] 王宏伟.舆情信息工作策略与方法[M].北京: 中国人事出版社,2012:6.[5] 戴维民,刘轶.我国网络舆情信息工作现状及对策思考[J].图书情报工作,2014(1):24-29.[6] 刘毅.网络舆情研究概论[M].天津: 天津人民版社,2007:74.[7] 喻国明.大数据分析下的中国社会舆情:总体态势与结构性特征――基于百度热搜词(2009―2012)的舆情模型构建[J].中国人民大学学报,2013(5):2-9.[8] 李小娜.大数据时代社会舆情监测的转变和发展[J].青年记者,2015(11):69-70.[9] 卿立新.创新大数据时代的网络舆情管理[J].红旗文稿,2014(22):28-29.[责任编辑:张学玲]
第三篇:大数据环境下的数据安全研究论文
大数据环境下的数据安全问题是信息化时代必须解决的问题。文章阐述了大数据的概念及特点以及其存在的一些问题,再来分析大数据环境下影响信息安全的因素,最后对如何保证大数据环境下的数据安全提出一些方法。
大数据就是指数据信息量的规模非常巨大,从而导致无法以当前的主流工具在合理时间内进行正常的收集处理。它是一种数据量大且数据形式多样化的数据。随着大数据环境下的数据安全问题越来越突出,如何保证大数据环境下的数据安全对建设大数据环境具有重大的意义。大数据的概念及特点
大数据就是指数据信息量的规模非常巨大,从而导致无法以当前的主流工具在合理时间内进行正常的收集处理。它是一种数据量大且数据形式多样化的数据。通过对它概念的研究可以得出它具有以下几个特点:(1)数据量大。大数据是数据信息来那个超大的资料,每天都会产生无数的数据,而且信息数据级别也越来越高。统计数据的级别PB的级别甚至更高。(2)形式多样。形式多样主要是指它的数据类型呈现出多样化的特点。随着信息技术的发展,越来越多的数据以非结构化的形式出现。比如视频、音频、图片等。据统计,非结构化数据在数据中的比重已经超过了80%。(3)价值密度低。大数据在运行过程中会产生大量有价值的信息,这些信息对于生产生活会产生非常大的帮助。但是大数据由于数据信息量太大,也就存在着价值密度低的特点。在很大一个数据统计中,可能有价值的信息只有很少一部分。大数据环境下存在的问题
大数据环境下的数据存在以下几个关键问题。
2.1 可表示问题
大数据环境下的一些非结构化数据呈几何的形式在增长,数据的规模巨大,形式多样化使得用户对于数据的需求也呈现出多样化的趋势。数据的不断增大导致数据运行的效率却越来越低。对于这些多而杂的非结构化数据,如何表示将是一个非常重要的问题。
2.2 可靠性问题
大数据环境是一个非常庞大的网络环境,在网络开放和共享的时代,计算机数据面临着安全性和可靠性的考验。在大数据环境下,数据的收集和发布方式比以前更加的灵活,但一些不确定的数据将很有可能会造成数据的失真,在网络开放的环境下,失真的数据就会影响巨大的负面影响。因此大数据环境下的数据的可靠性将是一个急需解决的问题。
2.3 可处理问题
由于目前的数据信息每天都以成千上万的形式增长,现有水文计算机处理能力已经很难有效地对其进行处理,在进行数据分析的过程中,需要研究一种新型的数据分析方法,将多种学科的计算方式相结合,对数据信息进行规律性的研究。大数据环境下影响数据安全的因素
3.1 自然灾害
自然灾害这里主要是指台风、龙卷风、飓风、地震、洪水、火灾等。随着信息技术的发展,网络已经成为世界人民生活中不可或缺的一部分。人们在使用计算机网络的过程中,有很多数据存储在服务器之中,并且经常与它们实时交互。在运营过程中,因为各种灾害例如火灾、停电、地震以及数据传送时线路的突然中断,将造成各种数据的丢失。
3.2 网络硬件
在信息化快速发展的今天,硬件虽然更新换代很快,但数据量的增长速度却是爆炸性的增长,进而造成以前的存蓄环境不能满足当前海量数据的需要,因此,应该对存储环境进行优化升级,使其能满足现今对数据存储的需要。在传输数据的过程中如果数据量过于庞大,而硬件设备由于老化导致传输速率的降低,那么网络的延迟可能会导致系统崩溃造成数据丢失,影响数据存储过程的安全。
3.3 操作失误
数据管理人员不管是面对怎样的应用软件,都有可能出现操作不当的情况。任何一个人在开展工作时都有可能会误删除系统的重要文件,或者修改影响系统运行的参数,以及没有按照规定要求或操作不当导致的系统宕机,尤其是进行数据库管理的工作人员,面对的数据量比较大,系统的运作也极为复杂,这都将导致操作不当或失误情况的发生,进而威胁到系统数据的完整性与安全性。
3.4 管理不善
由于存储系统越来越复杂,对管理维护人员的素质要求也越来越高,因管理不善而造成数据丢失的可能性会大大增加[2]。比如计算机网络中终端用户随意增减调换,每个终端硬件配备(CPU、硬盘、内存等)肆意组装拆卸、操作系统随意更换、各类应用软件胡乱安装卸载,各种外设(软驱、光驱、U盘、打印机、Modem等)无节制使用。如何保证大数据环境下的数据安全
4.1 建立大数据信息安全体系
大数据的应用规划以及它的信息安全应要提高到发展战略的高度,对大数据进行系统的分类,明确一些重点的保障对象,强化对数据的监控管理。大数据环境是一个庞大的数据信息系统,要确保数据信息的安全性,需努力建立起一个完整的数据信息安全体系。
4.2 进行数据安全删除
当今信息安全技术当中一个极为关键的问题。所谓的数据安全删除指的就是对数据恢复正常的条件进行破坏,使数据在删除之后无法恢复,无法逆转。相对于部分敏感数据而言,数据安全删除是十分关键的。众所周知,普通文档实行删除操作仅仅是对其标记进行删除;高级格式化同样无法对数据区内的数据信息进行覆盖处理,因此不能将其叫做安全删除。
4.3 对动态数据进行安全监控
相对与静态的信息数据,动态的信息数据更容易产生安全问题。因此需要对动态数据进行安全监控,完善对于动态数据的安全监控机制。在对动态数据进行监控的过程中,必须要对分布式计算系统进行健康监控,以保证其健康运行。在一些大规模的分布式计算中,要对动态数据的细粒度进行安全监控和分析,对大数据分布式进行实时监控。结语
随着信息化时代的到来,如今大数据环境下的数据不断增长。在大数据环境下的数据信息的安全性成为信息化时代的一个重要问题。对数据的安全性采取保障措施对整个大数据环境下的信息化发展具有非常大的意义。
第四篇:大数据视角下的高校图书馆优化服务研究
大数据视角下的高校图书馆优化服务研究
摘要:随着云计算、RFID无线射频识别和在线社交网络等新兴技术的发展,数据呈现爆炸式的增长,这标志着大数据时代的到来。本文针对传统环境下高校图书馆服务中的若干问题,并结合一些图书馆的服务现状,探讨高校读者群体在大数据视角下的个性化需求,以便更好地为读者提供服务。
关键词:大数据;图书馆;优化服务
随着cyberspace的兴起,云计算、物联网、社交网和计算机技术的广泛应用,数据生成越来越快,需处理的数据爆炸式增长,国际数据公司的数据宇宙研究报告称:2011年全球被创建和复制的数据总量为1.8ZB,已经进入大数据时代[1,2,3]。数据统计显示,每隔2年,全球数据总量会增长一倍,并预测到2020年,全球将拥有35ZB的数据量。大数据,也称巨量数据,指的是数据量极其巨大(由TB跃升到PB级,甚至ZB级)、需要全新的数据处理模式才能进行处理的信息资产。大数据具有如下特点:(1)体量巨大(volume)呈爆炸式增长(2)类型繁多(variety)(3)要求处理速度(velocity)快(4)价值密度低(value)传统环境下高校图书馆的服务情况
(一)传统环境下高校图书馆数据资源的组织结构
传统环境下图书馆的资源主要是文献资源,而且主要是纸质版,如光盘和磁带等。近十年里,许多高校图书馆的纸质文献采购量逐渐减少,绝大部分经费用于购买数据库,使得数据库里的资源呈指数级增长。借还书主要采用光电式感应技术(需光电感应扫描仪、纸质条码和索书号),其中几台检索机用于检索图书,几十台电脑构成电子阅览室。阅览室门口和图书馆门口有门禁检测系统和Opac系统或ILASS系统等图书服务系统。这些资源整合的数据和系统产生的数据都是结构化的数据[1]。
(二)传统环境下高校图书馆的服务模式
马克思在资本论里面认为:服务是使物品的使用价值得到发挥。类似的,图书馆服务可以认为是使图书馆资源(包括电子文献资源、场所资源和人力资源等)的使用价值得到发挥。自1990年便有国内学者在《中国图书情报工作实用大全》中将图书馆服务定义为:图书馆为了发挥入藏图书资料和其他资源条件的作用、广泛传播信息并满足社会信息需求而向图书馆使用者提供设施和条件的一切活动。美国图书馆学会将图书馆服务定义为:图书馆为了满足其某种目标群而从事的各种活动和提供的各种计划的一个类属词。
传统环境下,高校图书馆的主要服务为文献借阅服务、光盘借阅服务、文献或光盘上架顺架工作、打印扫描服务、图书查询服务、文献检索服务、新书荐购服务、新书通报服务、论文查重服务、毕业生的离校手续服务、留言建议咨询服务、新生培训和图书修补工作以及图书逾期费用缴纳等。
近十几年里,许多高校的图书馆由闭架式借阅转入开架式借阅,由手写的卡片式转换成光电感应式条码扫描仪刷卡号以及文献条码号的借书还书等。由于条码识别错误、条码数据错误或操作失误(经常需手动输入读者证号和文献条码号,稍不注意就会出现错误),误还误借现象屡屡发生。图书馆工作人员在给读者借还书时需认真核对每一个数据,馆员付出繁重的劳动,读者的满意度却不高。
大数据环境下的高校图书馆服务优化策略
(一)大数据环境下数据资源的变化
对图书、期刊、报纸、声像资料和电子期刊等信息资源进行集成比较容易,因为它们大多数是结构化的数据。用户信息资源相对复杂,包括用户的年龄、性别、爱好、教育背景、知识结构、用户的检索习惯和阅读习惯等。这些信息数据[2,3]大多是半结构化数据或非结构化的数据。通过借助大数据的一些新研究成果,并运用现有的无线通信设备,对多种类型的数据进行整合,高校图书馆可以更好地为读者提供服务。
(二)大数据环境下高校图书馆服务模式的变化
许多高校图书馆有了自助借还机和图书定位系统,借阅与归还可以由读者自主操作,从而一线服务工作人员从刷条码、检查借阅数据和充磁消磁等机械的劳动中解脱出来,轻松愉悦地服务于读者。从根本上以人为本,高校图书馆得以大幅度提升服务质量,并发掘更多读者需求。移动图书馆与微信图书馆的使用,便于读者把图书馆带在身边。
1.RFID无线射频系统的应用
RFID无线射频识别技术[4],是非接触式自动识别的一种。无线射频识别系统通常由智能标签(射频标签)和阅读设备组成。借还书与防盗侦测均利用RFID。借还书时图书中的智能标签被自动注记为已借或已还。读者还可以使用自助借还书机完成借还书手续,管理员只需指导答疑。服务台工作站可以处理如图书延期和数据更改等。RFID无线电波式防盗侦测门十分稳定,同时检测率高,可以很容易地找出藏在衣物或公文包内的未借图书并提示给工作人员。馆员进行图书盘点、顺架和定位时,只需将便携式智能标签读取器在图书架上移动,并且可同时读取多个标签,这极大地提高了工作效率。图书定位后读者查书找书极为方便准确。采用RFID无线射频识别技术后,读者能自助借书还书、自助缴纳图书逾期费和自助打印扫描等,馆员只需指导提示解答疑惑,服务质量大幅度提升。图书能定位,书在馆里的具体位置精确到哪一个书架的哪一层,找书变得方便简单。门禁系统报警有文献数据提示,只需温馨提醒看着完成操作。随书光盘既可借阅也可网上下载,联创自助打印、扫描、缴纳逾期与赔偿费用只要刷一卡通,非常便捷。在线QQ咨询留言,随时解决馆内外读者疑问。移动图书馆随时随地查书检索资料、图书续借和纸质图书的电子版本阅读。微信图书馆可以及时了解图书馆动态、新书通报、借阅查询以及阅读交流与分享。
2.移动图书馆的应用
移动图书馆[5]是指面向移动用户提供的以智能手机、Ipad、PDA等移动终端设备为载体,通过无线接入的方式访问图书馆资源、阅读电子书、查询书目和接收图书馆服务信息的一种服务方式。移动图书馆一般通过用户下载安装移动图书馆客户端的方式来实现。通过移动图书馆服务,用户可以使用各种移动设备,随时随地获取图书馆资源和服务,包括:馆藏查询、借阅信息查询、图书到期催还、图书预约、图书荐购、图书馆书目到馆通知,讲座通知,在移动终端上直接浏览和获取图书、期刊、论文等电子文献的全文,进行视频资料点播,查阅在线资料等,移动设备可以享受到通过PC机能够享受到的所有服务。
3.微信图书馆的应用
微信图书馆,是指通过腾讯微信公众平台,来实现与图书馆自动化系统的对接,以实现基本的图书馆功能。微信在读者中的普及度很高,这为微信图书馆的推广提供了很好的平台,读者特别希望通过微信实时收到与自己切实相关的各种信息,并且希望通过微信与馆员进行实时咨询,快速解决问题。微信图书馆的服务内容更侧重与读者的交互,线咨询与互动,消息推送等。在平台上进行文献传递。
(三)大数据环境下读者服务方式的变化
基于共性需求的图书馆服务模式:在“大数据时代”的背景下,传统的WAP网络网站通信服务、移动式的网络电子书服务、移动短信通信服务等较为原始的电子移动服务已无法满足广大图书馆用户的需求。如今,大多数用户均希望能够获取更加先进、智能、物美价廉的移动电子服务。而正是这些用户的不断追求,才使得更加便捷、快速、智能、优惠的大数据移动服务应运而生。如:移动互联图书馆管理系统、移动定位服务系统、移动多媒体服务系统、移动专家咨询系统、移动用户增值管理系统等移动数据服务均是“大数据时代”背景下扩大用户群以及提升用户使用范围的强有力的措施。
1.个性化服务的环境需求
图书馆自身主要是从机制上改变,就是图书馆馆员要改变服务的意识,不能再以自己为中心为用户提供服务,而是要面向用户的信息需求来提供服务。图书馆通过加强信息资源管理和人员管理来促进和完善管理机制,从而改善图书馆的信息服务体系,具体可以通过培训,激励等措施来实现。另一方面从用户方面着手,图书馆可以通过各种方式让用户积极参与到数字图书馆信息服务中。加强用户和图书馆员的交流,这样图书馆员就可以更加直观的了解用户的信息需求,针对用户的信息需求为用户提供信息资源。通过用户参与图书馆信息服务的方式,可以使用户和图书馆建立良好的互动关系,真正实现图书馆为用户提供个性化的服务。
2.个性化定制推送服务
个性化信息定制推送服务是以用户为中心的信息服务。这种信息服务是建立在对用户的信息的挖掘和分析的基础上,用户的信息包括用户的基本信息如性别、年龄、教育背景、知识结构、兴趣爱好和行为信息(如检索工具的使用和经常搜索的网站等信息),实现用户个性化信息推送服务。这就需要分散在某个领域或者相关的几个领域的知识以主题为标准对知识进行分类、整合和集成。在个性化定制服务中根据特定的用户信息需求,可以为用户提供定制的Web浏览页面、信息频道或信息栏目;也可按照特定用户预先选定的知识门类、学科专业、信息内容等信息需求方向,?用智能软件和人工干预相结合的方法,快速组织与定制检索式,把有针对性,专业性信息资源定时发送给特定的用户。专业教学产业园是高校图书馆的特色文献资源,主要面向高校师生的信息资源个性化需求,将科研信息、教学信息和数字化资源信息整合在一起,把教学实施过程中产生的信息资源和图书馆的数字化信息资源进行集成,展现出高校的数字图书馆参与教学、跟踪教学、服务教学的作用。用户登陆后通过导航获取教学参考资源、中外文电子期刊资源、电子图书资源及网络相关的学科站点资源。用户还可以根据个人的兴趣和需求实现专业期刊的定制、特定期刊的定制、电子图书的定制和中外文数据库中期刊论文的定制[21]。系统会自动将实时更新的动态信息通过Web技术提供给用户浏览,并通过电子邮件进行推送。中文期刊论文定制是系统基于对用户的信息进行挖掘分析出用户的个性化信息需求为用户提供定制表单,通过在线资源管理系统或个人电子邮件推送到用户的手中。同时保证读者信息的安全,保护读者隐私。
结束语
大数据时代,随着RFID无线射频技术、移动图书馆、微信图书馆的使用,高校图书馆的服务质量随着建设发展而提升,读者满意度有很大提高。同时,数据资源海量化、多样化、快速化和价值化的体现,高校图书馆必须依靠大数据处理平台,挖掘数据资源价值,制定科学管理章程,对读者需求做出准确的判断和预测,从而更好地提供高效、经济、安全、适合率高和个性化的智慧型服务。
参考文献
[1]杨海燕大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.[2]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011(34),1741-1751.[3]马晓亭.大数据时代基于服务等级协议的图书馆读者隐私感知与保护研究[J].情报理论与实践2014(4):57-60.[4]张猛.RFID技术在图书馆的应用与发展[J].计算机与网络,2009(3):138-141.[5]黄浩波,何卫华,叶青.微信及其在图书馆信息服务中的应用[J].图书馆学刊,2013(1):62-64.
第五篇:政论研究:优化经济发展环境
优化经济发展软环境的过程,某种意义上讲,就是从执行力弱化状态向执行力强化状态提升的过程。在这一过程中,我州经济发展软环境建设如何在原有基础上,为经济后发赶超实现新的助推,是我州主导发展必须破解的难题。
一、健全领导体制,提高经济发展软环境建设的执行认识
当前要克服三种倾向:一是认识不深,不愿“执行”倾
向。主要表现在软环境意识普及率低,主观执行愿望不足,不推不动。
二是素质不高,不善“执行”倾向。比如因为搞改革而导致不稳定的问题;因为想快发展、大发展而导致招商引资过程中饥不择食、引小失大的问题;因为不懂政策、不懂经济而导致项目推进不利、运作效率不高甚至项目流产的问题等等。
三是作风不实,不真“执行”倾向。“中梗阻”问题突出,“四乱”现象禁而不绝,使“该干的事干不成,能干的事干不好”。这些倾向是软环境建设中执行力弱化的思想表现。改变这种滞后状况,从“不愿、不善、不真”抓软环境转向“狠抓、常抓、齐抓”软环境,首先,要切实构建“政府是责任主体、纪委是协调主体、部门是落实主体”的软环境建设领导体制。始终把软环境建设作为经济发展的生命线和振兴、崛起的关键来认识,作为“第一资源”和“第一竞争力”来抓落实,始终突显执行力在软环境建设中的贯彻落实作用。其次,在州、县两级纪检监察机关设立软环境建设专门机构,或与纠风办合署挂牌办公,负责软环境建设日常工作。在软环境建设执行组织上,从临时型管理转向常态化管理。第三,各部门、单位要认真研究、客观分析,针对本单位的实际情况,对优化和改善经济发展软环境工作做出全面有效部署,与党委、政府,与科室、个人签订纠风软环境建设责任状。
二、硬化效能措施,明确经济发展软环境建设的执行重点
一是把握现有政策,坚持“非禁即准”原则,搞好新一轮“四清理”。认真清理审批主体,清理审批项目,清理涉审批的各类文件,清理行政事业性收费。“四清理”的结果在媒体公布,凡是未在媒体上公布的行政审批主体、行政审批项目、行政事业收费项目按废止处理。
二是推行一站式到一窗式并联审批服务。各部门的审批服务职能凡确定向政务服务中心集中的必须做到应进尽进。引入数字证书、电子印章等安全认证技术,有效解决审批上的“前店后厂”问题。
三是构建以公众需求为导向的预约服务、代办服务、跟踪服务、网上服务等方式,为投资者提供更加便捷的服务渠道。
四是落实“收支两条线”,执行下限收费。实行收费许可证制度,持证收费。在“四清理”的基础上,所有审批收费直接进入国库,彻底割断收费与部门利益的关系。
五是推行“涉企检查预告制”,对依法进行的各项检查,实行预告制,促使企业自查自纠。建立企业免检制度,对市场信誉好、经济效益佳、社会贡献大的企业给予一定期限的免检待遇。严禁同一部门对企业进行多次重复检查。
六是实施“首违不罚制”。大力整治违规罚款行为,坚持“教育为主,处罚为辅”的原则,对企业一般性首次违规行为,责令限期整改。建立重大处罚公开制度。严禁任何部门以赞助、捐赠等名义向企业进行乱摊派。
七是实行重点企业、重大项目“绿色通道”制度。用强化执行力来跟进重大项目建设、推进重大工作、破解重大问题。
八是加大涉软案件查办力度。对群众意见集中、社会反映强烈、事实清楚、情节恶劣、严重影响投资环境的违法违纪问题,特别是对黑恶势力干扰外来投资者正常生产和经营活动的敲诈勒索行为,要果断处理,坚决打击。
九是以防范信用危机为前提,强化社会诚信体序执行力。大力开展诚信宣传教育,建立市场诚信信息共享平台,严厉惩治失信市场主体。
三、构建大监督格局,强化经济发展软环境建设的执行责任
一是建立健全以服务对象为主体的外部评价制度。建立民主评议数据库,扩大直评范围。深入开展纳税人民主评议职能部门行风和机关干部作风民主评议活动;建立健全党代表、人大代表和政协委员视察机制,定期开展视察活动,加大对各级各部门的监督力度;建立健全纪检监察机关的专门监督机制,认真履行监督检查职责。
二是建立软环境投诉举报中心,集中受理软环境投诉举报问题。
三是建立和完善软环境监督网络。在全州重点企业和开发园区设立监测点,建立覆盖全州、信息畅通、监督到位的监督网络,形成投资者参与软环境建设的快捷沟通渠道。
四是建立健全政府信息发布平台。不定期向社会通报软环境建设成效,公开破坏软环境的行为,使各项检查收费纳入社会公众的有效监督范围之内。
五是充分发挥舆论监督作用。赋予新闻媒体对软环境建设的“话语权”。
六是加大责任追究力度。在涉软案件的处理上,要以铁的决心、铁的纪律、铁的措施,做到