第一篇:浅谈大数据在金融行业的应用与挑战
浅谈大数据在金融行业的应用与挑战
作者:盛瀚 北京银行股份有限公司无锡分行,长期从事信息化安全建设和IT服务管理的研究。
摘要:本文从对大数据产业发展进行分析,介绍大数据金融的相关应用及场景案例,并阐述了大数据金融存在的挑战。
关键词:大数据,金融
1.大数据概述
1.1.什么是大数据
大数据(Big Data)是一个宽泛的概念,业界没有统一的定义,大数据概念的兴起可以追溯到2000年前后,最初理解为一类海量数据的集合。2011年,美国麦肯锡在研究报告《大数据的下一个前沿:创新、竞争和生产力》中给出了大数据的定义:大数据是指大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集。根据Gartner的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据在通信、金融、教育等各个领域存在已有时日,近年来随着互联网和信息行业的发展进入了快速推广阶段。
1.2.大数据的特征
大数据不仅有传统数据定义的“三个V”,即数量(Volume)、速度(Velocity)和种类(Variety),还包含了更重要的第四个V,价值(Value)。
浅谈大数据在金融行业的应用与挑战
阿姆斯特丹大学提出了大数据体系架构框架的5V特征,在原有4V基础上增加了真实性(Veracity)特征,包括数据可信性、真伪性、来源和信誉、有效性和可审计性等特性,如图1所示。
图 1大数据体系架构框架5V特征
1.3.大数据的发展趋势
随着大数据产业的不断发展,各行业的应用解决方案不断成熟,大数据产业迎来了井喷式发展。Wikibon 数据显示,2014年全球大数据市场规模达到285亿美元,同比增长53.2%。大数据成为全球IT支出新的增长点,如图2所示。Gartner数据显示,2014年数据中心系统支出达1430亿美元,比2013 年增长2.3%。大数据对全球IT 开支的直接或间接推动将达2320亿美元,预计到2018年这一数据将增长三倍。
浅谈大数据在金融行业的应用与挑战
图 2Wikibon全球大数据市场规模测算
全球大数据市场结构从垄断竞争向完全竞争格局演化。企业数量迅速增多,产品和服务的差异增大,技术门槛逐步降低,市场竞争越发激烈。全球大数据市场中,行业解决方案、计算分析服务、存储服务、数据库服务和大数据应用为市场份额排名最靠前的细分市场,如图3所示。
浅谈大数据在金融行业的应用与挑战
图 3Wikibon全球大数据市场结构测算
2.大数据金融
随着大数据技术的应用,越来越多的金融企业也开始投身到大数据应用实践中。麦肯锡的一份研究显示,金融业在大数据价值潜力指数中排名第一。以银行业为例,中国银联涉及43亿张银行卡,超过9亿的持卡人,超过一千万商户,每天近七千万条交易数据,核心交易数据都超过了TB级。
一直以来,金融企业对数据的重视程度非常高。随着移动互联网发展各种务和服多样化市场整体规模扩大。对于数据分析带来的主要业务价值,大量参加调研的金融企业表示,大数据分析的价值是可以根据商业分析实现更加智能的业务决策,让企业战略制定更加理性化。依靠有前瞻性的决策,实现生产过程中资源更优化的分配,能够根据
浅谈大数据在金融行业的应用与挑战
市场变化迅速做出调整,提高用户体验以及资金周转率,降低库存积压的风险,从而获取更高的利润。
2.1.金融数据的类型
金融数据从数据类型上进行划分,大致可以分为结构化数据、半结构化数据与非结构化数据三大类。
(1)结构化数据。结构化的数据来源自金融企业运营数据仓储(ODS)和数据仓库(EDW)。EDW为企业提供分析决策服务,ODS主要实现企业数据整合、共享和准实时运营监控等功能。而通过Hadoop等组件的应用可以将数月前甚至几年前的历史数据进行迁移保存。在分布式存储结构下,结构化数据的存储计算可以得到巨大的改善,可对海量离线数据进行离线分析,将离线数据优势最大化,为金融企业用户打造立体用户画像提供最全面的数据支撑。
(2)半结构化数据。半结构化数据的整合在数据整合中是最为复杂的。金融企业可对接来源于外部单位所提供的不同类型数据库或Excel等的数据。“打通”多源异构的数据是项目中遇到的最困难的部分,数据整合完毕可快速进行建模分析。
(3)非结构化数据。金融行业对于非结构化的处理的方法还是比较原始的。非结构化数据涵盖的范围比较广泛,有新闻,视频,图片以及社交网络等数据。
浅谈大数据在金融行业的应用与挑战
2.2.大数据金融的技术实现
金融数据一般具有“流数据”的特征,需要在短时间内快速处理。与其他行业相比,金融具有逻辑关系紧密、处理实时性要求高、可展示性需求强等特征,通常需要以下几类关键技术。
(1)数据分析技术。包括数据挖掘、机器学习等人工智能技术,主要应用在用户信用分析、用户聚类分析、用户特征分析、产品关联分析、营销分析等方面。金融系统安全性、稳定性和实时性要求比较高,对大数据计算处理能力也要求非常高。
(2)数据管理技术。包括关系型和非关系型数据管理技术、数据融合和集成技术、数据抽取技术、数据清洗和转换等技术。金融行业对数据的实时处理能力要求非常高,需要灵活地进行数据转换配置和任务配置。
(3)数据处理技术。包括分布式计算、内存计算技术、流处理技术等。通过新型数据处理技术更有效地利用软硬件资源,在降低IT投入、维护成本和物理能耗的同事,提供更为稳定、强大的数据处理能力。
(4)数据展现技术。包括可视化技术、历史流展示技术、空间信息流展示技术等。主要用于金融产品健康度监视、产品发展趋势监视、客户价值监视、反洗钱反欺预警等方面。
2.3.大数据金融的场景应用
任何技术的应用都是基于需求产生的,大数据金融的应用也是由
浅谈大数据在金融行业的应用与挑战
金融行业的业务驱动而衍生出来的。具体的应用分类也没有统一的标准。以金融行业最具代表性的银行为例,根据业务驱动应用场景大致可分为精准营销、风险控制、改善经营、服务创新和产品创新等五个方面,如图4所示。
(1)精准营销: 互联网时代的银行在互联网的冲击下,迫切的需要掌握更多用户信息,继而构建用户360度立体画像,即可对细分的客户进行精准营销、实时营销等个性化智慧营销。
(2)风险控制:应用大数据技术,可以统一管理金融企业内部多源异构数据与外部征信数据,可以更好的完善风控体系。内部可保障数据的完整性与安全性,外部可控制用户风险。
(3)改善经营:通过大数据分析方法改善经营决策,为管理层提供可靠的数据支撑,使经营决策更加高效、敏捷,精确性更高。
(4)服务创新:通过对大数据的应用,改善与客户之间的交互、增加用户粘性,为个人与政府提供增值服务,不断增强金融企业业务核心竞争力。
(5)产品创新:通过高端数据分析和综合化数据分享,有效对接银行、保险、信托、基金等各类金融产品,使金融企业能够从其他领域借鉴并创造出新的金融产品。
浅谈大数据在金融行业的应用与挑战
图 4金融大数据业务驱动
2.3.场景实例
2.3.1.客户全景画像
客户画像应用主要分为个人客户画像和企业客户画像。其中个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等。以银行为例,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论,所以还需要引入外部数据源,包括:运营商数据、主流电商网站数据、上网痕迹数据、SNS软件、生活圈子、网络应用等,从而丰富用户标签,构建一起全面的客户画像,如下图5所示。
浅谈大数据在金融行业的应用与挑战
图 5大数据客户全景画像
2.3.2.客户服务优化
通过大数据,金融企业可监控各种市场推广运作情况,将客户行为转化为咨询流,从中分析客户的个性特征、风险偏好,了解客户的金融往来习惯及使用行为,进一步分析及预测客户潜在的需求,将精准行销扩展至服务的创新与优化。
图 6 个性服务优化过程
浅谈大数据在金融行业的应用与挑战
以银行为例,通过大数据资料库,可对下辖分子机构服务柜台及摆设、理财区装饰、甚至座位的设计,依照资料库中机构所在地的人口特征、年龄及交易量复杂度等数据,以及客户在网站、手机银行、微信银行等软件使用习惯进行分析,为客户提供个性化的服务。如:
针对高领客户比例偏高的机构,即考虑新增矮柜服务窗口并提供大屏幕显示器提醒;
面对顾客对网银、手机银行的使用习惯,将浏览率高的栏目与浏览率低的栏目进行重新排版设计,以提升客户使用率及忠诚度的目的;
根据不同人群在网络、手机APP访问的记录行为,分析其关注资讯的不同(页面浏览时间,次数,频率等),提供不同需求的咨询和服务。
2.3.3.交易欺诈侦测
大数据的分析对于风险控制有着重要意义,金融机构可通过对企业的生产、流通、销售、财务等相关信息的数据挖掘,进行贷款风险分析,量化企业的信用额度,更有效的开展企业贷款。
浅谈大数据在金融行业的应用与挑战
图 7 企业征信体系
同时,在交易欺诈防控中,可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。
3.大数据金融存在的挑战
3.1.数据的几何级增长,整合困难
目前,全球各行业数据量的增长速度惊人,再我国尤其集中在金融、交通、电信、制造业等重点行业和医保、社保、海关等重要领域,信息化的不断深入正在进一步催生更多新的海量数据。据统计,2015年中国的数据总量达到1700EB 以上,同比增长90%,预计到2020 年这一数值将超过8000EB。以银行业为例,每创收100万元,银行业平均产生130GB 的数据,数据强度高踞各行业之首。但在金融企业内部数据处于割裂状态,业务条线、职能部门、渠道部门、风险部门等各个分支机构往往是数据的真正拥有者,缺乏顺畅的共享机制,导
浅谈大数据在金融行业的应用与挑战
致海量数据往往处于分散和“睡眠”状态,虽然金融行业拥有的数据量“富可敌国”,但真正利用时却“捉襟见肘”。
3.2.数据安全的保障
安全与隐私问题是大数据发展过程中的一个关键问题,多项实际案例表明,即使无害的数据被大量收集后,也会暴露个人隐私。实际上,大数据安全含义更为广泛,人们面临的威胁并不仅限于个人隐私泄露,保护对象不仅包括大数据自身,也包含通过大数据分析得到的知识。
与当前的其他信息一样,大数据在存储、处理、传输等过程中面临安全风险,主要包括数据管理风险和数据运营风险。这里一方面需要技术手段的保护,同时需相关法律法规的完善和金融企业自身的自律。
3.3.大数据标准规范的制定
要实现数据的互联互通,必须包含两个条件,其中互联是技术体系标准,互通是数据体系标准。实现互联可以要求系统使用标准化接口,而实现互通则需要围绕产业链建立跨行业的数据标准结构。目前,各行业的发展长期各施其政,行业间存在较高的壁垒,即使金融行业内部,如银行、证券、保险等行业也采用了不同的标准,遵守不同的行业规范。如何加快元数据、数据交换、数据交易、数据质量、安全保密等重点共性标准的制定是大数据建设的关键。
浅谈大数据在金融行业的应用与挑战
3.4.人才梯队的培养
与信息技术其他细分领域人才相比,大数据发展对人才的复合型能力要求更高,需要掌握计算机软件技术,并具备数学、统计学等方面知识以及应用领域的专业知识。目前金融行业在可承担分析和挖掘的复合型人才、高端数据科学家以及管理人才都存在很大缺口。
5.结束语
党的十八届五中全会“十三五”规划提出:“实施国家大数据战略,推进数据资源开放共享”。2015年12月16日在第二届世界互联网大会开幕式上,总书记提出:“十三五”时期,中国将大力实施网络强国战略、国家大数据战略、“互联网+”行动计划。大数据已成驱动经济发展的新引擎,大数据应用范围和应用水平将加速我国经济结构调整、深度改变我们的生产生活方式,大数据金融应用正是改变金融业态,引发金融行业经营模式创新的催化剂和助推器。
参考文献
[1]陈利强 梁如见 张新宇 著.《金融大数据-战略规划与实践指南》.电子工业出版社.2015年
[2]陈云 著.《金融大数据》.上海科学技术出版社.2015年
[3]BCG.《回归“价值”本源:金融机构如何驾驭大数据》.2015年
[4]中国电子信息产业发展研究院工业和信息化部赛迪智库.《大数据发展白皮书》.2015年
第二篇:大数据在教育行业中的应用
1.大数据在实验室管理方面的应用
海量数据已经使我们进入了大数据时代,数据信息的来源、传播速度和传播数量正在影响、改变着人们的思维方式和生活、工作习惯。近年来,基于“大数据”的实验室管理系统的开发以及互联网的实验室管理技术正在兴起。但真正被业内人士承认的教育领域的大数据应用却为数不多,其中被公认的当数东华大学的智能实验室项目。
2009年,东华大学教务处处长吴良提出实验室智能化管理的思路,并将材料学院作为试点单位。实验室智能化管理即用物联网的方式把实验室里所有的仪器设备都管理起来。实验室智能管理过程中记录了学生在实验室内所有的活动情况,包含学生进入实验室的情况,使用的仪器设备情况,使用仪器设备时长等,以及所有仪器的电流、电压都可以监控。如今,东华大学所有学院的实验室都纳入了智能实验室的管理。东华大学通过实验室智能管理系统进行各个方面的数据采集,并对数据进行深度挖掘,形成了各种各样的图表。从图表中可以看出哪些实验室申请的设备根本不必购买,哪些实验室不再需要拨钱。实验室的使用率和第二年的经费完全挂钩,最后实现教育经费使用的集约高效;也可以结合大数据的分析和模拟,建立新型的实验教学课程。
另外,华东大学智能实验室利用云平台(东华云)通过服务器虚拟化和实验教学资源管理系统进行管理,简化了管理流程, 节约了管理成本, 提高了服务器资源申请的灵活性,实现了实验资源管理的信息化和透明化。目前,东华大学智能实验室还实现了24小时开放无人管理、跨学院使用等人工无法实现的管理,数据显示,智能实验室的管理对学生学习自主性的提高有显著影响,学生在实验室的时间甚至超过了在教室的时间。
2.大数据在校园网用户行为分析方面的应用
经过多年的积累,人类的数据量、数据处理技术和能力都得到了质的飞跃,大数据时代给人类社会带来了诸多具有革命性的变化,而校园网的出现则是传统“言传身教”教育的一次革命。中职学生思想尚不成熟,自律力和识别能力不强,对于开放式的网络有些迷茫。校园网学生用户行为分析的研究是通过对校园网络的测量和分析,挖掘和发现网络中呈现出来的各种行为规律,同时识别一些异常网络行为,最后将用户行为分析展示。这样以便学校采取对应的策略及措施引导中职学生健康上网,从而使校园网真正成为学生获取知识的平台,提高学生的整体综合素质。
广东省电子职业技术学校罗萍设计了一个基于大数据的校园网学生用户行为分析系统,该系统从网站浏览信息、网站发帖留言、搜索关键词、网络购物等四个维度来描述基于校园网的学生用户行为。通过对网络内容的分析,可以进一步细化到学生用户在网络中具体网络行为、发表的言论和帖子、对网络资源的兴趣偏好是什么等等,从而有效掌握学生的上网行为动态。
随着计算机技术的迅速发展,大数据时代的网络行为已经成为当前学生校园生活中的一项重要活动内容,正在悄然的改变着学生的学习和生活。因此,深入研究学生网络行为,理性分析学生网络行为特点,动机和需求,以及如何引导学生合理运用网络资源,树立健康的上网理念,构建有益的校园网络环境,已经成为目前学校研究的重要课题。
3.数据挖掘在学习分析及干预中的应用
教育领域已经开发和应用了多款学习分析系统,主要集中在绩效评估、学习过程预测与学习活动干预三个方面。
绩效评估: 如美国 Northern Arizona University 研发的 GPS(Grade Performance Status)系统,可实现全校在校大学生的课堂学习绩效评估。该系统能为教师提供最新的学生出勤情况、学生的反馈意见,为学生提供教师的最新评价以及重大事项的提醒。
学习过程预测: 如澳大利亚 University of Wol-longong 研发的 Snapp(Social Networks Adapting Ped-agogical Practice)系统。该系统可以记载和分析在线学习者的网络活动情况(如学生在线时间、浏览论坛次数、聊天内容等),使教师能深入了解学习者的行为模式,进而调整教学方式,最大化地为学习者提供适应的教学指导。
学习活动干预: 可分为人工干预和自动干预,现在主要集中在人工干预上,借助绩效评估工具和学习活动预测工具,由教师完成学习干预。自动干预是未来学习分析技术发展的方向,大数据将为这一目标的实现提供强大动力。
在教育管理改革方面,学习分析能为高职院校教育管理系统的方方面面提供指导教学管理活动的相关数据。依靠这些数据,高职院校管理部门可以有针对性地完善不足之处,修订教育管理方案,优化教学资源配置,并最终评估修订方案及资源配置情况。
在教学改革方面,学习分析技术能真正意义上营造信息化的教学环境,保证教师提供的学习服务契合学习者个性化学习、协作学习的需要。传统教学模式中,教师无法保证所提供的学习资源能真正满足学生的学习需求,无法适时调整和分配资源,无法提供个性化地学业指导,无法及时了解学习过程中出现的障碍与疑惑。这些问题都限制了高职院校教育改革的深度,而学习分析技术恰恰可以弥补这些缺陷。通过应用学习分析的相关工具和大数据技术,教师可以及时获取学生的学习行为数据,从而支持一种既能体现教师主导作用,又能兼顾学生主体地位的新型教学方式,以最大化地激发学生的潜能,为新世纪培养创新性人才。
在学习方式改革方面,学习分析技术的作用在于: 自动识别学习情境,能够从大量纷杂的数据中自动分析出学习者的特征信息,根据其需要推送适应的目标资源,并提供学习建议以协助学习者修订自己的学习任务;学习者可以实时调整自己的学习计划,预约辅导以解答学习疑惑;在特定情况下,还可以通过锁定学习者所在地理区域、学习特点等因素划分学习小组,以满足个别学习者的协作学习需求。此外,学习分析能为在校学生提供个性化的学习指导建议,以帮助学生规划在校学习路径,明确其学业成就的期望。
4.大数据在课程建设方面的应用
大数据时代学习者在数字化学习过程中留下很多数字碎片,通过分析这些数字碎片,我们将会发现学习者的各种学习行为模式。梁文鑫指出:大数据对课堂教学带来的主要影响是使教师从依赖以往的教学经验教学转向依赖海量数据教学分析进行教学,使学习者对自我发展的认识从依赖教师有限理性判断转向对个体学习过程的数据分析,从而使传统的集体教育转向对学习者的个性化教育。
目前流行的大规模在线开放课程(Massive Open Online Course,MOOCs)教育,MOOCs 教育被寄予厚望的主要原因是学习分析技术和大数据对它的支持,有了学习分析和大数据技术,优质的教学、课程资源和服务等通过数据真实客观的被呈现出来。比如:对每一门课程资源和支持服务系统的建设和维护都建立在学习者使用过程的数据分析基础上,从而使提供的课程内容更符合学习者的需求、教学指导更具有针对性,进而提高了学习者的学习积极性,促进了学习成功的实现。学习者在 MOOCs平台上学习时,教师和程序可以通过大数据对学习者的学习行为进行理性干预,比如:通过预测认知模型为学习者自动提供适合的学习内容和学习活动方案,通过作业情况、留言板以及讨论区的问题讨论情况可以发现存在学习困难的学习者,以确保可以及时对其学习进行有效干预等。
大数据的应用可以实现大规模在线教育的同时可兼顾学习者的个人需求,大数据对海量数据的高速实时处理技术可以为在线教育平台实时洞察学习者的变化、把握学习者的需求、提高学习效果提供支持,还可以对学习过程中产生的不相关信息进行深度分析,以预测和把握学习者的需求变化。
5.大数据在助学贷款方面的应用
国家助学贷款始于2000年,此后,全国各地普通高等院校陆续开办国家助学贷款业务。但由于政策设计的缺陷、学生个人的诚信缺失、银行的积极性等多方面的问题,贷款业务开展出现较大差异东部好于西部,南部优于北部,部属院校高于地方院校。年国家修正贷款政策,加大贷款工作力度和政策扶持力度,国家助学贷款工作才得以继续进行。但国家对家庭经济困难学生没有给出界定,更缺乏界定标准,因此各高校在确定助学贷款资助对象时,只能依靠学生个人陈述、老师自己的判断、同学之间的投票等方法对困难学生加以界定,以致帮困助学工作困难越来越多。同时,由于信息沟通缺乏有效的渠道,管理缺少统一的工作平台,很大程度制约了贷款工作的开展,影响了学校、银行工作的积极性。缺少信息的沟通,造成信息的不对称,也影响了工作的开展,出现管理的滞后。
2005年,郑爱华作为课题负责人,组织完成校内课题“济南大学帮困助学问题及对策研究”,主持申报了山东省科学技术发展计划软科学科学项目“山东省国家助学贷款中的问题成因及对策研究”,同年获得立项,项目编号:B2005016。
助学贷款决策支持系统是济南大学研究的山东省省级课题“山东省国家助学贷款中的问题成因及对策研究”的子课题之一。目的在于通过该系统,建立家庭经济困难状况指标评价体系,包括评价指标的设立、指标分值的量化、最后计算机进行决策计算,输出决策支持的结果,帮助学校确定贷款资助对象,建立贷款信息数据仓库,并将贷款信息通过计算机进行处理,实现快捷、方便、及时、准确的数据动态管理,克服银行、学校、学生、主管部门之间的信息不对称问题,实现科学决策、信息化管理的目标,有利于山东省助学贷款工作的健康发展,有利于减轻学校贷款工作的管理难度,降低贷款成本,为帮困助学工作开辟有效的途径。
河北省教育厅学贷中心河北省学生贷款管理中心于2007年开始实施助学贷款信息化建设,将先进的计算机技术应用到国家助学贷款管理工作中,建立“河北省国家助学贷款管理信息系统”,使学生对国家助学贷款的申请、学校对助学贷款的管理、银行对学生申请的审批以及其间的各种信息的交互等都实现网络化。6.基于大数据证据的教育教学决策
在美国,教育大数据为美国政府、教育管理部门、学校与教师做出合理的教育教学决策提供了可靠的证据。整体上,美国建立了严格的教育问责制度,包括利用州教育问责系统(State Accountability Systems)对各州教育发展情况进行全方位评价,借助于学区级评价系统(District-level Evaluation Systems)评价各学区、各学校的整体教育质量,并要求学校与学区要对后进生进行基于数据的支持性学习干预(Data-driven Interventions)。美国联邦政府以及各州政府基于对教育大数据的分析结果评价各州或州内学区的教育进展水平,并以此作为教育投入的依据以及教育政策制定的根据。
美国学校一般利用基于大数据的教育评价支持本校在规划学校整体发展、优化学生管理、制定教学质量改进计划等方面的教育教学决策。据统计,97%的美国中小学利用来自整个年级或整个学校的教育大数据确定学校需要提升的关键领域;分析学生的个体数据以便于分班或安排相关学习支持服务,包括了解哪些学生需要特殊支持或更多支持。47%的美国中小学通过专门的评价人员分析不同教师讲授同一教学内容或同一教师以不同教学策略讲授同一教学内容时产生的数据,评价教师的教学质量并提出教学方式变革计划。而83%的学校在利用教育大数据尤其是本校产生的大数据了解本校教师教学发展的现状与需求,并据此决策如何支持本校教师的教学发展。
学校教师可以利用教育大数据改进与优化自己的教学决策。整体上,教师可以利用大数据分析需要在何种时机对哪些学生以何种方式安排何种教学内容。教师利用本班学生产生的大数据,或同时借助与外部大数据的对比分析,可以深度评价本班学生的学习表现与学习效果,可以有效分析学生的学习偏好与个性化需求,分析学生群体的学习需求,同时也可以利用数据分析哪些学生更适合在一起进行小组学习,分析怎样分组才更合理。对于那些有学习困难的学生,通过对大数据的利用,可以分析出学生在什么环节、什么类型内容学习方面存在问题,分析哪些因素可能在影响学生的学习,这样便于给出适当的学习支持与干预。
那么,大数据从何而来?美国在教育评价的实施过程中主要依托覆盖全美的立体化教育数据网络,同时注重数据质量保障,有效地解决了教育评价“大数据从何而来”的问题。
国家级、州级(State-level)、学区级(District-level)以及校级(School-level)在内的各级各类教育数据系统(Educational Data System)均服务于教育问责体系。这些数据系统之间相互关联,数据互通,形成立体化数据网络,为美国教育评价用大数据的获取提供了基本的依托。
在国家层面,美国有由教育部与各州教育管理部门及一些企业协同创建与发展的教育数据机构EDFacts,建设了“教育数据快线(ED Data Express)”,还有美国国家教育统计中心(National Center for Education Statistics),主要任务在于与教育部内部各机构、各州教育管理部门、各地教育机构合作提供可靠的、全国范围内的中小学生学习绩效与成果数据,分析各州报告的教育数据以整合成为联邦政府的教育数据与事实报告,为国家层面的教育规划、政策制定以及教育项目管理提供了有力的数据支持。
2005年,美国教育部启动了“州级纵向数据系统项目(The Statewide Longitudinal Data Systems(SLDS)Program)”,旨在帮助全美各州“设计、开发与利用州级纵向数据系统以便有效地、准确地管理、分析、分类处理与利用每一位学生的数据”,至今全美有47个州至少获得过一次本项目资助。
州级与学区级数据系统主要为区域性教育评价提供数据支撑,其中主要包括本州/学区学生的成长数据,教育工作人员在工作方面的安排与准备等相关数据,以及其它关于学与教条件的关键数据,比如教师人数、学生入学率、学生与学生家长及学校教职员工对于学校氛围、条件等方面的评价数据等,认为这些数据直接反映学校与学区在让学生做好毕业准备方面取得的进展情况。各州的教育数据系统基本都具有测量学生的成长(Student Growth Measures)、提供高中学习反馈报告(High School Feedback Reports)、实施学业预警(Warning Systems)的功能。学校常常利用四种类型数据系统来收集、整合教学过程数据或评价数据:一是在校学生的实时信息系统(Student Information System),其中包括学生出勤率、人口学特征、考试成绩、选课日程等数据;二是数据软件坊(Data Warehouses),其中保存了学校当前或历史上的学生、教职员工、财政方面的信息;三是教学或课程管理系统(Instructional or Curriculum Management Systems),支持学校教师接入教学设计工具、课程计划模板、交流与协作工具,支持教师创建基准性评价;四是评价系统(Assessment Systems)支持快速地组织与分析基准性评价数据。7.大数据在招生方面的应用
数据挖掘是一项新兴的技术,是商业智能的重要组成部分。近年来,随着高校数据收集量的不断增加以及教育决策对量化分析结果的愈加依赖,数据挖掘在美国高校管理中的应用呈显著上升趋势。许多研究表明这项技术能帮助大学管理人员更好地分析数据,从而获取潜藏的、有用的信息和知识,最终提高决策效率。
加州大学9所分校在校长办公室的统一协调下通过“综合评审”的原则招收本科生。“综合评审”包括两个步骤:第一步是对申请学生的合格性通过多种方法进行确定;第二步是对合格学生的所有背景、特征及技能进行综合评定,并以此为标准做出录取决定。加州大学虽然保证录取所有合格的学生,但由于有的分校或专业竞争激烈,例如伯克利分校、工程专业等,因此不能保证完全按学生的报考志愿录取。在这种情况下,所有合格、但未被报考分校录取的学生,将被推荐到两所加州大学制定的分校,以确保尽可能录取每位合格的学生。另一方面,这两所分校也通过 录取这些“落榜”的学生来增加其入学人数。由于加州大学的录取审核工作是由各分校负责进行,招生的最后决定到四月初才能见分晓。这时许多学生可能同时接到其他大学的录取通知,并需要在短期内选择自己要上的大学。因此,从吸引合格学生入学的角度来说,这时再向学生推荐这两所大学为时已晚。为了提前做好这一工作,校长办公室招办在一月份申请截止日期之后就对申请学生的录取情况进行预测,并将这些合格但极有可能被拒的学生名单提供给这两所分校,供他们提前向学生宣传学校的情况,鼓励学生来这两所学校就读。校长办公室用来完成这项预测分析研究的工具就是SAS Enterprise Miner数据挖掘技术。
通过这项数据挖掘技术,加州大学可以更有效的招收合格的学生。8.大数据在学习成果评估方面的应用
随着大学教学模式由传统的“行为主义”方式向“构建主义”教学过渡,如何更有效地对学生成绩进行评估也成为广大教师和评估工作人员面临的挑战之 一。除了利用传统的考试方法对学生所学知识进行考核外,越来越多的授课教师侧重对学生的学习行为进行评价,譬如合作意识、创新精神、实践能力,等等。这些评价结果更有利于帮助学生提高学习效率,特别是应用知识的能力。但靠传统的评价方法很难有效地完成类似的评估工作,或者说评估结果的可靠性难以得到保证。近几年来,许多学者尝试利用数据挖掘技术提高评估效度。
哈佛大学的研究人员娇蒂·克拉克(Jody Clark)和克里斯·戴迪(Chris Dede)在这方面的尝试非常值得借鉴和参考。他们通过复杂的教育媒体收集丰富的与学生学习行为有关的数据,然后利用数据挖掘技术对其进行分析和研究。
评估结果的价值体现在:1)完成对学生的形成性评估,为教师及时提供信息反馈;2)完成对学生的总结性评估,以真实的实践表现为基础了解学生最终掌握知识的情况;3)根据学生的个性特征,深层了解学生的学习行为以及学习成效;4)合理评判学生合作学习和解决问题的能力;5)通过对学生的学习行为规律和学习成效之间的“路径”关系进行“挖掘”,洞察学生的学习动态。
9.衢州市柯城区依托大数据为学生“私人定制”成绩单
近年来,随着大数据成为互联网信息技术行业的流行词汇,教育逐渐被认为是大数据可以大有作为的一个重要应用领域,有人大胆地预测大数据将给教育带来革命性的变化。大数据技术允许中小学和大学分析从学生的学习行为、考试分数到职业规划等所有重要的信息。衢州市柯城区以大数据为依托,为学生“私人订制”成绩单。
2015年开始,衢州市柯城区启动教学质量诊断系统项目,采用CC教学测评系统对每个学生进行数据分析,为学生出具“学业诊断分析报告单”。“学业诊断分析报告单”基于对学生一个学期以来成绩的大数据分析,通过“单科成绩对比图”、知识点掌握情况分析表、知识点的个人掌握率和班级平均做对比表,将学生考试各科目考察的每一个知识点的掌握程度作出相应的分析,从数据中分析学生对知识点的掌握程度,对个人能力如识记能力、运用能力做出综合评价,为学生的学业作出一份细致全面的“体检诊断报告”。“学业诊断分析报告单”为学生提供了知识、能力掌握上的优势和不足信息,学生可通过分析原因,提高学习的针对性和有效性,减少重复的试题训练,进而有效减轻学习负担。教师可通过分析了解学生在知识、能力掌握方面存在的优势和缺陷信息,实施补教性教学,从而提高教学质量,促进学校教学、学生学习方式的改革和发展。10.大数据在学生扶贫方面的应用案列
西安交通大学学生处立足大学生资助工作实际,按照教育部“教育扶贫,十三五期间实现‘精准资助’”的要求,结合陕西省教育厅关于教育精准扶贫的工作思路,扎实开展了一系列“绿色通道”迎新工作:利用大数据完成学生贫困程度的精准识别,通过实地家访将绿色通道延伸到新生家中,开展“知心工程”让资助教育沁入学生心中,建立七位一体的资助系统让学生没有任何后顾之忧。西安交通大学提供给每个贫困生的,不仅是金钱的资助,更是被尊重及自信积极的人生态度。
资助大数据实现精确认定。在新生来校报到之前,通过“西安交通大学家庭经济困难学生综合认定系统”挖掘学生家庭经济困难指数,认定家庭经济困难学生情况,并以此为依据,主动引导特困新生在家中即可通过网上申请“绿色通道”并顺利入学,消除特困生家庭的后顾之忧,在此基础上与各书院共同主动开展有针对性的帮扶工作。
资助全覆盖实现精准帮扶。学校为每一位通过“绿色通道”入学的学生发放全套床上用品“爱心大礼包”,体现学校的关爱。新生入学后学校将陆续通过“奖、助、贷、补、勤、免、偿”七位一体的资助体系给予学生持续资助,确保每一位学生不会因为经济困难而影响学业。学工系统还通过“知心工程”工作体系,全面跟踪家庭经济困难学生情况,建立建全贫困生信息库。今年学校还将特别为建档立卡户新生每人发放一学期的生活费。11.希维塔斯学习”(Civitas Learning)利用大数据帮助学生提高成绩
在教育特别是在学校教育中,数据成为教学改进最为显著的指标。通常,这些数据主要是指考试成绩。当然,也可以包括入学率、出勤率、辍学率、升学率等。对于具体的课堂教学来说,数据应该是能说明教学效果的,比如学生识字的准确率、作业的正确率、多方面发展的表现率——积极参与课堂科学的举手次数,回答问题的次数、时长与正确率,师生互动的频率与时长。进一步具体来说,例如每个学生回答一个问题所用的时间是多长,不同学生在同一问题上所用时长的区别有多大,整体回答的正确率是多少,这些具体的数据经过专门的收集、分类、整理、统计、分析就成为大数据。
现在,大数据分析已经被应用到美国的公共教育中,成为教学改革的重要力量。为了顺应并推动这一趋势,美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于理解学生在个性化层面是怎样学习的。其中,“希维塔斯学习”建立了高等教育领域最大的跨学校数据库。
“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。Civitas Learning提供了一套应用程序,学生和老师可以在其中规划自己的课程和安排。“希维塔斯学习”各种基于云的智能手机第三方应用程序(APP)都是用户友好型的,能够根据高校的需要个性化。这意味着高校能聚焦于各自不同的对象,相互不同地用这家公司的分析工具开展大数据工作。
该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据,能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录,这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外,还允许用户发现那些导致无谓消耗的特定课程,并且看出哪些资源和干预是最成功的。
12.电子科大利用大数据寻找校园中最孤独的人
从硅谷到成都,大数据,这个新鲜的话题正在全球同步热传。一场关乎每个人生活、工作和思维的大变革正在悄然发生,大数据时代迎面袭来。
到底什么是大数据?大数据”是“数据化”趋势下的必然产物。数据化的核心理念是:一切都被记录,一切都被数字化。电子科大的周涛解释到,“大数据要求数据能充分发挥其外部性并通过与某些相关数据交叉融合产生远大于简单加和的巨大价值。”比如,国家电网智能电表的数据可以用于估计房屋空置率,淘宝销售数据可以用来判断经济走势,移动通讯基站定位数据可以用于优化城市交通设计,微博上的关注关系和内容信息可以利用于购物推荐和广告推送„„
他们做过一个有意义的课题——寻找校园中最孤独的人。他们从3万名在校生中,采集到了2亿多条行为数据,数据来自学生选课记录、进出图书馆、寝室,以及食堂用餐、超市购物等数据。通过对不同的校园一卡通“一前一后刷卡”的记录进行分析,可以发现一个学生在学校有多少亲密朋友,比如恋人、闺蜜。
最后,通过这个课题找到了800多个校园中最孤独的人,他们平均在校两年半时间,一个知心朋友都没有。这些人中的17%可能产生心理疾病,剩下的则可能用意志力暂时战胜了症状,但需要学校和家长重点予以关爱。
第三篇:大数据的机遇与挑战
BIG DATA 大数据
当我们的一切行为与生活都可以“数据化”的时候,掌握这些数据的公司便像是拥有了一座蕴藏丰富的金矿山。正如维克托·迈尔-舍恩伯格所说,大数据时代是“已经发生的未来”,而在这个已经发生的未来里,没有旁观者。
2013年12月19日,由精品传媒《数字商业时代》主办的“大数据创造的颠覆时代”2013智造中国高峰论坛在北京悠唐皇冠假日酒店隆重举行。
大数据的爆炸毫无悬念,当今世界正在高速数字化,全球的数据量正以每18个月翻一倍的惊人速度增长。大数据时代正以“侵略”式的速度蔓延并占领我们生意、生活每个细小的角落。它带给我们的是一种全新的思维方式,思维方式的改变在下一代成为社会生产中流砥柱的时候就会带来产业的颠覆性变革。在全球拥抱大数据变革之时,智造中国高峰论坛也正掀起一场颠覆的革命,寻找更具生命力的创新智慧。
本次高峰论坛的主题为“大数据创造的颠覆时代”,寻找颠覆的力量,期待这股创新力量撬动整个商业。大数据如何驱动商业价值?大数据时代有哪些科学研究挑战?物联时代的创新之旅是怎样的?在大数据旅程刚刚开始时,来自世界顶级研究院的专家及跨国公司CEO的现场报告,为我们描绘了大数据时代下的新图景。本期《数字商业时代》摘录了演讲的精华部分,与读者共享大数据时代的智慧大餐。
IBM[微博]
大数据和分析驱动商业价值
大数据对商业来说有巨大的价值,它可以被形容成是一个自然的资源,取之不尽。
IBM中国开发中心总经理王阳
今天,什么样的数据在产生?传统的数据大家都知道,比如在一个企业内部,有大量的数据,它们基本上是格式化的,像CRM、ERP等,还有在整个运行当中的处理企业内部的数据。此外,社交网络给我们带来大量人类的一些数据,你可以看到各方面的数字:每天3亿的用户,大量的微博、微信等等。但是不要忘记人类其实产生了很多的机器,这些感应器产生的数字更大,它每天都在产生。
大数据:记录人类历史
大数据对人们有什么作用?大数据正在记录着我们人类发生的历史。也许往前追溯1000年、2000年,甚至3000年,我们并不是很知道人类在干些什么,而是通过考古去挖掘,去发现以前文献里的一些蛛丝马迹。但是试想1000年、2000年之后的人类看我们今天,有如此大量的信息,他便可以重现,到了这种程度,他可以重新模仿和重现今天的世界。通过定位我们每个人使用的手机,一生的轨迹都可以重现。所以在网上所说的话和所做的事情,不知不觉当中就成为数字足迹,都已经被记录下来。大数据对商业来说有巨大的价值,它可以被形容成是一个自然的资源,取之不尽,不像石油挖了之后没有了。
回顾一下大数据的“4个V”:Volume(大量)、Variety(多样)、Velocity(高速)、Veracity(精确)。首先是大量,第二是多样性,比如各种各样的语音、非结构的数据、图像等,第三个是速度,大数据产生的速度非常快。最后一个并不是很多人注意的,是不精确性,并不是说每个数据都相当精确,有很多的含糊性和矛盾的。其实矛盾是一件好事,往往说信息量大是什么意思?不精准,挖掘出来才是有价值的,大家都知道的就不是消息了,就不是新闻了。
大数据要跟应用相结合,就像我们讲云计算一样,云计算的关键并不在于技术,而主要是应用。大数据只有通过分析才真正可以找到它的应用,跟应用相结合,行动是挖掘和采集大数据的根本原因,并不是为了记录而记录。
大数据的商业价值体现在几个方面,比如制造业中新产品的开发过程。2006年我曾与马云[微博]交流,探讨淘宝真正的竞争实力是什么?我认为真正的竞争实力是C2B,就是小米的模式。淘宝手上拿着大量的用户,它的每一个产品都可以让这些消费者进行决策,这些决策当中有很多的数据可以挖掘,然后根据消费者的喜好,创造新的产品。
此外,还有反洗钱、资产的管理优化,对客户的洞察等方面的应用。所有这些都需要有一个非常好的平台,云计算是大数据能够运算的基础。一方面它是大数据的平台,有信息的整合和治理的过程;另一方面是一个分析平台,大数据离开分析平台是无法进行挖掘的。再有就是解决方案,所谓应用为王,就是进行实施、服务。
从球场到商场应用无处不在
这里面有几个比较关键的技术,第一是存储级的内存;第二是流计算,因为它的速度相当快;第三是硬软件的结合;最后是创新的算法来进行大数据的分析。给大家举一个例子,前不久中国的网球公开赛,我们就运用了大数据进行分析。我们进行大量的数据采集,这个软件在法网、澳网等一些大赛当中,已经应用了十几年。它抓取了大量数据,有些数据我们有可能认为是没什么用的,比如一个球打完之后,周边的人的呐喊声或者鼓掌声,这些都是数据。但是在这种数据当中其实体现了很多的信息,是人们对它的一种热情呢?还是说氛围、气场好呢?我们都说不清楚。但是所有的数据放在一起之后,你可以精确地判断出这场球球没打完之前谁可以赢,试想我们对一个球赛可以做到如此,商业就像战场一样,你怎么样胜过你的对手,你的企业哪些是弱点,哪些是强处?都可以来计算。在医学上面我们有很多应用,在一个新生儿刚刚出生的时候,这时生命刚刚开始,如果对这段时间所有的医疗数据监控并且进行处理,你可以看到很多规律,并且可以预测这个新生儿会不会出现问题。
零售业中有很多大数据的应用,比较知名的是一个父亲通过一家百货店寄来的商品促销广告,知道了女儿怀孕的事。女性在怀孕过程中会有一些行为习惯的改变,比如不喜欢买有味道的商品,如果一个人以前都是买某一种润肤膏,突然买了一个没有味道的润肤膏,种种的蛛丝马迹加在一起,从大数据的运算当中就可以推测出这位女性怀孕了。
大数据对电力行业也有相当多的帮助,特别是智能电表,放在一些场所,可以及时地计算电量,可以为电网部署带来很大的帮助。在金融方面,反洗钱、反欺诈等,金融当中有相当多的领域可以用大数据进行帮助。
IBM推出智慧地球,智慧地球的落地是在智慧城市和智慧的行业和企业。智慧城市当中有一点大家都是比较熟悉的就是交通,现在世界上某一个城市,正在应用IBM的技术,当一个交通事故刚刚发生的时候,交警已经到达现场,救护车也到达现场。就好像是它们已经知道在这个地方交通事故会发生,而救护车早到一分钟和晚到一分钟对他的生命,对他的救护都是至关重要的。我们怎么能够做到这一点?其实人类很多的行为和行动是可预知的,在以往的大量的交通数据,包括时间、路况和行车速度,再加上别的一些因素,可以分析出,有90%的概率在这个点可能会发生交通事故。那么,能不能避免这个交通事故的发生?也是可以的。我们只要加上一些参数,比如说用交通车控制它,使得流量慢慢减弱,或者把灯光打得更加亮一些,使当地车流的每一个驾驶员都得到警示等,这些措施可以使得交通事故的发生率降低,使得一个交通事故不容易发生。这就是大数据对我们人类所带来的事情,给我们每个企业和每一个人的生活所带来的便利。
INTEL
物联时代的创新之旅
在大数据时代,芯片可做的事情有很多,英特尔[微博]希望从物联网里面找到正确的商业模式,以及对应的技术,推动成产业。
英特尔中国研究院院长方之熙
在大数据时代,芯片可以做什么?
计算在今天已经成为生活方式的一部分了,我们无意识中会用到很多计算,比如手机,虽然我们并没有感觉到我们是在用计算机,但其实有很多计算机程序在手机里。将来无论是我们的眼镜、手表、衣服、鞋子,都会有更多的电脑存在,他们在后台有云计算和大数据支持。这个时代很快就要到来,比如谷歌[微博]的眼镜和苹果的手表,大家已经很熟悉了。
英特尔的摩尔定律众所周知,即单位芯片面积上的晶体管个数,每两年可以翻一倍。晶体管更多,就可以有更先进的电脑,编程就会越好,就可以做出更好的芯片,可以通过提高芯片的性能把价格降下来。我们比较一下现在的技术,3年里速度快了4000倍,功耗省了5000倍,每一个晶体管的价格便宜了50000倍,这个速度在其他行业很难做到。大家可能没有注意到,手机的速度已经很快了。
除了大家熟悉的摩尔定律,还有一个贝尔定律,意思是每20年,计算形态会出现一次变化。大约40年以前,PC出现使得整个计算形态变了,计算机从机房搬到了家里。十几年以前,智能手机出现了,手机变得更小,随身可携带。很可能新一代的计算形态将要出现,就是可穿戴式的计算机,这会带来整个IT行业非常大的变化。
近来美国提出第三次工业革命的说法,第一次革命是用蒸汽机解决动力问题,第二次革命是IT行业改变各行各业,第三次革命是指,将来每个产品,无论是咖啡杯,还是衣服、鞋,都成为个性化产品,你的个人特点会反映在日常生活里,打印机、材料、微型的传动和控制等,都可以通过电脑发挥很大作用。
对中国来说,中国现在是世界工厂,很多产品都在中国生产。到了产品智能化的时代,怎样做产业升级,怎样把附加价值加在产品上?这些对中国来说是一个挑战。
互联网出现给传统工业的变化带来了可能,英特尔看到这样的趋势,所以它宣布了一种产品,叫夸克系列。英特尔夸克处理器系列比最早的处理器小40%,功耗只有最早的5%。这个架构是开放的,未来可能变成一个产业,应用到各种各样的机器人(50.940, 0.17, 0.33%)、可穿戴式设备上,这个可能是将来的趋势。
这个趋势中有几个特点,第一是小尺寸,比现在的手机更小,功耗也会很小,并且可连接性非常强,这样的小电脑里面可以将CPU、无线及各种通讯硬件都装进去。
为了实现创新,英特尔必须与上下游的产业一起合作才行,比如和微软、雅虎、谷歌结合。如果说创新是IQ,合作是EQ,一个企业成功只有好的IQ不行,一定还要有好的EQ。
基于这样的想法,英特尔研究院在中国也和我们的战略合作伙伴一起成长,我们与国内的一些研究院、大学以及政府建立了很多联合研究院。比如英特尔的移动互联和计算机协同研究院与东南大学和中国科技大学合作,探讨下一代移动架构的变化。另外与政府一起成立中国英特尔物联技术研究院。希望从物联网里面找到正确的商业模式,以及对应的技术,推动成产业。
KINGSOFT
拥抱变革
移动设备的爆发给人们的生活带来了巨大的改变,对传统软件行业带来了巨大的冲击,金山选择了拥抱移动互联网,拥抱大数据。
金山软件[微博]集团CEO 张宏江
过去一年,移动互联网的发展给我们每个人的生活带来了很多变化。举例来说,打车的软件已经是打车人士离不开的软件,而E家洁这样的软件,可以让你在手机上找到小时工和保姆。还有年轻人已经不常去超市了,在网上就可以把每天需要的东西买回来。这些都是移动互联网和电商给我们带来的变化。
在这一年中,我们的生活习惯已经被移动互联网冲击得非常厉害,这种冲击给我们带来的是方便和解放,此外商业模式也发生了深刻的变革。我先举一个美国的例子,IBM公司大家知道,IBM是知名的专门拿政府大项目的,无论在中国还是美国,它的长项就是拿到一些政府大项目,美国政府的很多项目过去都是被IBM垄断的,但是最近一个很大的美国中央情报局的项目,却被亚马逊[微博]拿走了。它所代表的是什么?代表的是传统的IT已经被云计算所取代。
近来很多人谈互联网金融对金融业的冲击。中国的国有银行在过去几十年从来没有照顾到中小企业,它们拿不到贷款,为什么?因为大银行没有做好小企业的信用评分,不知道小企业有没有偿还能力。而通过互联网,很容易对信用历史做很好的评测,从而决定可不可以提供贷款,从而把风险控制在可以接受的范围内,这也是为什么有一系列小的创业公司敢进入移动互联网,更不要说像百度[微博]、腾讯、阿里这样的公司了。
移动设备的爆发带来了巨大的改变。PC在经历了曾经的迅猛增长以后,现在数量出现了下降,但智能手机过去10年突飞猛进,而另外三类设备的增长比智能手机更快,一个是智能电视的量,在2013年达到10亿台,还有增长更快的是什么?是可穿戴设备,预测2014年下半年就会比上半年增长500%,这一切的设备都是带上网功能的设备,可以想象它可以带来多么大的数据量。
我们要面临如此大的冲击,我们能做的一定是拥抱这种冲击,而不是试图抵制它。在移动互联网时代,我们可以在结合处找到一些产业的机会,这就是为什么金山进行了一系列的布局。金山一款移动应用软件清理大师6个月以前才上线,今天全球的活跃用户达到了5000万,其中一半在国外,大部分在美国。可以看到,人们对手机的依赖越来越高,人们对泛安全的需求越来越高。另外一个就是金山非常传统的服务办公软件。在PC时代,因为盗版猖獗,很长时间才培养了一亿用户,而我们在18个月内在安卓上的活跃用户达到了3000万。这是因为我们拥抱了移动互联网,拥抱了大数据,我们可以看到过去两年中金山的业绩增长,尤其反映在金山的股价上,在过去的12个月涨了400%,过去两年涨了600%。大数据是我们的今天,也更是我们的未来。
YAHOO
智能数据创领商业未来
美国有一项统计,仅美国到2018年就会缺14万~19万能够做深度数据挖掘的人才,以及150万以上能够做数据分析,并通过数据分析做商业决策的经理人。
雅虎全球北京研发中心总裁张晨
从互联网诞生那天起,数据就成几何级发展。有研究认为全世界在线数据的92%都是在过去两年产生的,到2015年我们会有250亿台设备连在互联网上,这些设备包括PC、平板电脑、智能手机、智能汽车、智能家电、智能建筑等,产生的数据量到2015年将是今天云计算处理量的12倍。
有人说大数据是座金矿,我非常赞同这个说法,而且这个金矿才刚刚被开采。大数据本身没有价值,大数据的价值在于通过数据的处理和分析帮助用户做出商业决策。大数据带来的挑战也有很多,商业模式还不清楚。尤其是从互联网角度看,移动互联网的大数据商业模式也并不清晰。大数据的技术门槛较高,不光要建立数据处理平台,还要建立数据模型,验证数据结果。每一步都需要很大的投资。人才的缺乏也是大数据面临的挑战。美国有一项统计,仅美国到2018年就会缺14万~19万能够做深度数据挖掘的人才,以及150万以上能够做数据分析,并通过数据分析做商业决策的经理人。
近几年,互联网业界对数据的挖掘越来越深刻。不只是对互联网上的内容有深刻的了解,对用户的了解也越来越深,从地理位置、兴趣爱好、历史记录、社交网络、社交圈子、个人资料等方面的深度挖掘,通过科学建模、工程开发,推出一些智能便捷的服务产品,这是大数据的趋势。
另一个有关大数据的趋势是移动,移动的发展速度超过很多人的想象。从三个方面来看:第一是设备的销售。全球主要市场今天移动设备的销售都已经超过桌面设备的销售。第二是用户使用移动设备的习惯越来越明显。谷歌地图和推特网,在两年前移动用户流量已经超过了桌面用户流量,脸谱网2013年也是如此。我相信整个雅虎的产品在接下来一两年里面也会达到这个阶段。然而,移动互联网的商业模式并不清晰。有人认为这是一个巨大的挑战,因为移动小屏幕的特点不容易承载广告。也有人认为这是个机会,可以实现高度精准的广告。好的消息是现在已经有好几个互联网公司在移动上的收入超过了桌面上的收入。
雅虎在做什么?作为互联网的鼻祖,雅虎的搜索、广告、新闻、体育、财经都是大数据平台驱动的。全球8亿用户,已经有4亿用户在移动设备上了。
2013年2月,雅虎在移动端跟桌面端同时推出了个性化的服务。什么是个性化的服务?个性化服务就是根据对内容的了解,再根据对用户的了解,找出你最感兴趣的事情。雅虎推出个性化主页后,通过一年时间我们几乎将所有雅虎的网页都建在雅虎个性化的平台上面,包括新闻、体育、商业、财经等,雅虎真正变成了一个个性化的公司。
值得一提的是,雅虎全球个性化平台最底层的构建全部是在北京做的。北京的科学家和工程师对雅虎全球8亿用户做了巨大贡献,我们把世界级的难题拿到中国来,拿出了世界级的解决方案。这个个性化的服务推出以后,2013年7月份雅虎再一次在美国超过谷歌,成为全美用户量最大的公司。
大数据对广告有什么帮助?当广告足够相关和精准,它就变成了内容和信息。现在在美国最前沿的广告叫什么?互联网业界叫原生广告,什么是原生广告?第一具有高度个性化,第二具有高度相关性,第三有很漂亮的界面。所以个性化、相关性、漂亮的界面,就是原生广告。原生广告现在哪些公司在做?谁做得比较成功?推特网是第一个在互联网出现的、比较成功的原生广告。脸谱网的广告在移动端和桌面端都是原生广告。雅虎在原生广告上也做了大量投资,我们现在在移动端跟桌面端都对原生广告有很大的研究和布置,原生广告在雅虎会成为主流。
未来我们将真正进入移动时代基于大数据的个性化服务时代,个性化服务有很多特征,第一个性化服务必须是安全可信的,第二也必须是低成本和低门槛的。云计算服务的推出大大降低了创新的门槛,提高了创新的速度,我希望数据分析和个性化服务也可以走这条路。
中国的人口规模和经济规模决定了我们的数据规模,巨大的数据规模为我们大数据发展创造了非常好的数据资源。我希望我们携手共同来开发这座大数据的金矿,让大数据给我们带来智慧明天。
MICROSOFT
大数据与人工智能
大数据加上机器学习,代表了软件产业一个新时代来临:不再是人写软件,而是数据加算法,在数字化之后,以计算机驱动,用光速来推进人类社会。
微软亚洲研究院[微博]常务副院长马维英
大数据不是一个单一的现象,在过去5~10年,借着越来越强大的计算能力,加上知识挖掘等算法上的突飞猛进,我们可以构建更大的模型。
我们都知道,其实很多的人工智能、机器智能,或者驱动一个数字世界的自动化,都需要模型。在过去的很长一段时间内,这些模型因为数据的不足,通常只能做一些小的模型或者浅的模型,但特别在过去的两三年里,在机器学习领域有了突飞猛进的发展,可以构建更大、更深度的模型。
另外是知识挖掘,知识挖掘是怎样在互联网上大规模进行的?在这些结构化、半结构化的数据中构建人类最完整的知识表达,一旦我们掌握了这样的表达,我们就可以对很多的数据做更深度的理解。
软件产业新时代
微软为什么看重大数据?微软是从一家软件企业开始的,在30年前,微软就知道软件会改变全世界,软件几乎可以做所有的事情。但今天,软件的时代已经不一样了。过去是程序员写,接下来的软件是靠数据,靠机器学习,自动写出软件。这意味着什么?当你拥有更大的数据的时候,软件就更强大,软件的性能就更好。大数据加上机器学习,这代表了软件产业一个新时代来临:不再是人写软件,是数据加算法,在数字化之后,以计算机驱动,用光速来推进我们人类社会的方方面面。因为都是靠数据和算法,我们能够产生一个非常大的一个信息量,所以我们看重下一代所有的应用和服务。
今天,为什么各个大公司都在不断地在人才、技术方面大量投入?就是因为我们已经在过去的几年不断地对这些数据进行加工,我们已经越来越接近从数据到信息,到知识到科技。
语音识别过去十几年一直没有突破,但就在这两年实现了很大进展。其中重要原因就是因为有一种新的机器学习,可以从数据里面学表达方式,做很多模式识别。大家知道做影像、语音等最难的是怎么找出特征向量表示数据,过去的二三十年的研究都在研究怎么找特征,大数据来到的时候我们发现,特征也可以直接从数据去学。而且在这个过程中我们发现一个非常有趣的现象,就是越大的数据表达方式越好。因为数据大,信息就增加,所以技术上的突破就是计算能力和数据大了,而且自动学出来的发现比过去人设计的特征向量更好。
大数据的城市应用
今天的技术非常令人兴奋,但今天很多城市里面的数据都是很低阶的,这么大的数据如何表达?今天深度学习、机器学习带来了革命性的机会。过去两年我们也把这样的机器学习开始应用在城市,所以微软有一个城市计算的项目。在北京,我们收集了很多方面跟城市有关的数据,例如北京交通路网的数据、北京商业各方面的历年数据,我们可以发现很多现象,比如北京过去10年酒吧在哪里越来越多,电影院也在一些地方增加了,这些其实代表了这个城市的发展。还有空气的数据、气象的数据等。我们还搜集了北京的30000辆出租车,特别装有定位系统的数据,这样便可以用出租车当做传感器实时检测城市的脉动,甚至交通的状况,可以算出更好的开车路径。
过去两年,微软与北京市政府及中国的高校合作,在城市计算这一领域实现了很多科研成果。大数据可以分析城市问题,改善城市规划。
空气质量是今天的城市居民最关注的一个话题。北京这么大规模的城市,现在只有15个空气检测站点,非常稀疏,每个站点的投入和花费与运营非常高。这些站点在任何时刻给的数据都是非常不一样的,说明一个城市里面空气质量分布是不均匀的。今天我们的问题是能不能用大数据,用机器学习的方法预测那些没有空气站点的地点的空气质量。我们也利用了大数据把历史上所有这些我们可以收集到的,关于侦测带里的历史的数据、气象数据、交通数据、人员流动等数据,建一个非常大的模型,包含空间和时间的预测,能够在有限的15个站点之上,进一步预测所有的位置。这就是大数据在智能城市里的应用,其中既有数据分析,而且是海量和一致性的数据。
实验证明,虽然我们用的很多数据从某个角度来讲是比较弱的信号,但是把大量相关的相对弱的信号收集起来,居然比原来最好的模型还好20%。利用大数据对整个城市的空气做预测的模型是非常有价值的,这预示了这样的应用将不只在城市,而是会进到人类社会方方面面,各个产业都会被大数据带动,用更智能的算法,让过程变得更有效。
AMAZON
开放平台应对商业变革
未来的发展都将与大数据紧密相关,亚马逊将通过深入的分析,知道什么样的客户群是企业需要的,什么样的客户群可能喜欢什么产品,配合有针对性的广告或不同的销售方式。
亚马逊副总裁方淦
近来,中国电商市场有很多的变化,人们有很多疑问,要不要打价格战,怎样竞争,市场该如何发展?
思考这个问题,可以回顾一下历史。美国的70、80、90年代,是美国线下的零售巨头出现的时间,沃尔马等有名的线下零售公司崛起。但沃尔玛也是在90年代末才在美国变成最大的零售巨头,它的股价在1999年才爆发上涨。在1997年到2005年,美国线下零售业出现了一些有趣的现象,它与中国电商有什么相同的地方?也许我们从中可以看出一些问题。
亚马逊的战略布局
在这个阶段,沃尔马做了一些事情,首先,它建了“大数据”,它的大数据是把供应链全部IT化,这样便可以实现全国调货。它实现了在48个小时之内全美国任何一个店都可以供货,这是一个很有价值的供应链系统。
第二件事情是什么?沃尔玛还把他的店建设得与众不同。别人的店比较小,他摆到郊外,把面积做得很大,因为成本低,所以商品价格也可以压到最低,同时增加商品品种。沃尔玛又把价格做了些调整,不打普通的价格战,而是“天天低价”,不需要等到减价消费者才买东西。通过这个技巧,把城区里的人吸引到郊外。
可以看到,从1997年到2005年,沃尔玛实现了快速扩张,股价上涨,但是,为什么在2000年的时候成长速度又平稳了?我猜想这与互联网有关,因为从1997年开始,美国的电商在互联网里就开始了进攻。亚马逊是1997年上市的,此后把电商攻势做了起来。
但是,仅把线下的方式移到线上还不够,因为线下跟线上消费不一样。1999年的互联网付款不是很方便,配送也不像现在这么方便。网上消费从头疼两个事,第一是付款,第二是配送。从电商角度来看,就算有很好的供应链,怎么把线下的客户体验做好?2000年左右,亚马逊做了一个决定,建立自己的库房,并把沃尔马最强的IT人才请到公司当CIO,建立起了供应链,客户体验方面也做了调整,把线下与线上客户体验的概念融合到电商的模型里去。
从亚马逊的股价走势图可以看到,亚马逊1995年成立,1997年上市,刚刚开始的几年都在亏钱。这跟中国的现象相似,唯一不一样的是亚马逊那时没有花很多广告费,而是投入创新的基本理念,把库房建起来,2000年的时候最大的投入是在线下的库房、物流方面。
2003年开始赚钱的时候我们也继续投入,并改变了投资模式,从电商慢慢往不同的方面发展,比如云计算、亚马逊物流,为卖家提供供应链的大数据及网上服务,并且在平板电脑和阅读器方面做很多投资。在数码、数据方面也做了很多,比如在音乐、视频方面都进行了大量的投入。
但是消费者很认可我们的投入方式,即时股价亏损,消费者可以理解原因是亚马逊为客户做创新,为客户的体验做投资。他们都认可这样的投资会有回报。我们的指南针和方向一定是以客户体验为核心,可以看到客户体验这方面的创新服务。
此外,亚马逊有自己的物流系统,而库房里面的库存都是机器人去做的,它不会因为过年而不上班,也不会因为生病而请假,它可以24小时都为客户服务。
中国电商的全球启迪
2011年,亚马逊把第三方平台带到了中国,即把电商平台开放给卖家。现在在中国有15个物流中心,这是全世界除了美国之外最大的物流网、营运网络。
亚马逊也在打造全球开店的项目,把中国卖家带到世界平台,带到美国、欧洲、日本。
中国现在有很多线下的公司希望往线上转型。美国一些公司也经历过了这种尝试,但是很艰难。美国的传统零售公司像沃尔玛将如何改变,也在探索中,他们在尝试线上和线下的运营模式。
中国与美国、欧洲、日本不一样的是地理分散,并且人口收入不平均,这和别的国家很不一样。这对于中国的电商来说,不论是本土电商还是外资电商,都是很大的挑战。
此外,中国的移动市场发展速度很快,很多新的移动方面的购物模型很有可能就在中国发生。中国的社交平台,比如微信已经在很多国家使用了。在微信、移动领域,中国电商的竞争可以带给世界很多启发。
未来的发展都将与大数据紧密相关,因为现在的数据跟15年前的数据不一样,你的购物信息、配送信息等,都在数据库里。这样可以通过深入的分析,知道什么样的客户群是企业需要的,什么样的客户群可能喜欢什么产品,配合有针对性的广告或不同的销售方式。
SOFTSTON
大数据创造新机遇
软通动力创新研究院院长倪敦
关于大数据,未来将会出现什么?首先是数据运营商,未来数据运营商是非常重要的,它会掌握所有相关的产业、销售、用户个人的信息,这些信息的深度挖掘中创造新的商机,它们会构成了一种新的数据的垄断。所以,在大数据的环境下我们如何制定规则,怎样反对数据的垄断?我们如何创造一种开放的大数据的环境,这是大数据的产业未来必须要考虑的一个问题。
此外,我们会出现各种大数据产业的服务公司,它会提供各种专业的技术和工具,在垂直的行业中成为大数据服务的领先者。
第三各种大数据产品和平台公司涌现,它们会成为基于产品提供的大数据公司,比如像IBM。
第四种是基于为大数据提供服务的服务商,软通目前的定位就是基于大数据的服务提供者,通过在中国提供大数据的服务、搜索,帮助用户解决现在无法通过大数据来进行企业转型升级的问题。
大数据改变了我们传统的思维和服务的模式。例如,软通的智慧业务是一个重要方向。软通做智慧城市的分析,通过分析社会人员的模式,看看如何解决城市中的一些问题。我们发现有一类手机用户形成了一个相应的网络,这类网络用户通过不相关的关联分析,发现它与一类疾病的族群人员有一定的关联度。这两种不同纬度的信息是重叠在一起的,在智慧城市的决策中,就可以通过新的渠道解决这类疾病的防治问题,所以这种思维就是数据思维的模式,而不是通过传统的把相关的信息做一些单独的连接和分析的思路。
软通在大数据业务中,帮助城市来进行智慧城市的转型,进行大数据的分析和云计算的平台支撑,通过分析信息提供城市转型和升级的能力。
在大数据的时代必须要考虑第一是合作,第二是要通过颠覆性的方式来打破传统的边界,通过新的服务能力我们可以看到,在未来可能传统的行业边界会消失,而不是说会变得更加坚固。比如零售业已经通过云计算和大数据变成了一种新的模式,互联网金融、新的物流的服务,人与人之间社交的方式接下来可能都会发生改变。这些都是通过这种打破行业边界的服务能力和新的技术来提供的。
GRIDSUM
数据怎么就变「大」了
国双科技CEO 祁国晟
数据挖掘和数据分析的区别是什么?数据挖掘挖掘出来的是人类未知的东西。数据分析的是我们已知的,天气不好的时候交通可能会堵,这是分析出来的,不是数据挖掘的,因为我们知道天气不好和交通不好有关系,这个知识我一开始就有了。数据挖掘是挖掘未知知识。
大数据的挑战是什么?一个是实时的海量数据分析,数据量太大,但又要实时分析,时效性要求特别高。第二是高度可扩展的数据仓库。数据仓库是数据挖掘的基础技术,数据仓库和现在的大数据概念也有一定的冲突,因为数据仓库要求所有数据之间的关联都被保留,不被切断。我们希望数据仓库能够一天比一天分析更多的数据,这是一个挑战。解决这个问题,对于未来的数据挖掘,未来的高速联机分析都有很大帮助。
数据是资产。当你拥有了大量的历史数据,便可以在历史数据上去做数据挖掘,做数据发现。如果有机会让数据资产化,将是很大的价值。
CITRIX
移动办公开创时代机遇
思杰大中华区总裁曹衡康
移动办公是很多人心中的向往,但是怎样实现移动办公?IDC调研发现,很多企业逐渐认为,竞争力来自移动办公,这是一个重要的趋势。
思杰提供的是云的解决方案,让移动办公触手可及。什么叫移动办公?办公最重要的元素,第一是设备,像笔记本、台式机、平板,第二是数据,随时随地使用数据。可以用平板、手机获取所有的公司数据吗?答案是可以。你可以用平板手机或者其他设备获取公司应用吗?当你打开家里的电脑,甚至平板、电视都可以办公,打开云档案,随时通过任何设备接到后台数据中心移动办公,这是移动办公的定义。
企业要动起来,需要提供什么?很简单,IT人员只要给你一个很快速便捷的方式让你使用后台的数据,你就可以工作了。
移动办公之后很大的一个问题就是安全。怎样做到数据不落地,就必须结合云计算。你在做任何操作的时候,基本上都是在中心使用计算资源,虚拟的资源,计算本身不是在手机或平板上面,数据使用都没有传输到手机上,你可以看得到,但是带不走。为了实现安全,我们提供端到端的软件,提供打造云服务的软件。
我们始终相信,人的工作生活是可以和谐的,你可以利用一些时间工作,车上、等车、等机时间也可以工作,这个梦想是我们过去一直崇尚的。
第四篇:证券行业大数据应用
证券大数据应用
一、可能获得的数据源
1.投资者信息(实名认证信息、联系方式、证券账户、理财账户等)2.投资者个人交易数据(股票交易、基金交易、互联网证券交易等)3.投资者个人行为数据
4.股市交易数据/实时行情等
5.上市公司/准备上市公司数据(基本资料、财报等)6.宏观经济数据 7.政策法规
8.行业投资案例库 9.行业分析报告
10.互联网金融相关媒体数据
11.互联网金融垂直社区数据(例如雪球投资组合)12.各行业垂直门户网站数据
13.社会化媒体数据(微博、微信公众号、论坛、新闻资讯门户等)14.各行业电力运行数据
以上数据有些可直接由券商系统(门店数据、终端APP等)即可获取,有些需要从合作机构获取,有些只能通过垂直爬虫爬取聚合。
二、有了大数据能干什么 对投资者(2C):
投资建议:例如券商官方推荐,类雪球投资组合、京东财谜的去中心化推荐 投资社区:雪球、天厚投资社交等 在线证券交易 在线投资理财 财富管理 量化投资分析
对公司(2B): 公司投资理财 公司投资并购 股权众筹
公司舆情监控分析 竞争分析/竞争情报 行业分析报告
对券商本身:
用户获取/盘活:大券商盘活存量用户、中小券商获取增量用户
用户账户的建立与持续运营:通过有粘性的服务(例如雪球投资组合),引导用户绑定互联网证券理财账户、证券账户,打通用户账户体系,持续运营。综合金融服务:股票、投资、理财、众筹、投行、财富管理 投资报告:行业分析报告、投资建议平台基础设施: 大数据风控等 线上线下渠道一体化 客户流失跟踪 潜在客户挖掘
三、运营体系
目标用户群分析(2B、2C,线上目标用户群、线下目标用户群)建立有粘性的互联网产品及服务 线上+线下获取用户/盘活用户
基于大数据,持续完善产品、持续运营用户
《数据挖掘技术在证券行业中的应用》 姚毓才 1.客户关系管理
用客户交易数据统计出每个客户的交易情况,根据客户行为进行聚类。建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行挖掘和关联分析,实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,更好地配置资源,改进服务,牢牢抓住最有价值的客户。通过对客户资源信息进行多角度挖掘,了解客户各项指标(如资产贡献、忠诚度、盈利率、持仓比率等),掌握客户投诉、客户流失等信息,通过对客户数据聚类,将客户进行分群,考察每类客户对证券公司的贡献情况,这样可以根据客户的产生类别的交易行为等其他特点知道该类用户是否对公司具有价值,并且证券公司根据客户行为的特点对贡献度大的客户类采取相应的政策照顾,并且还能吸引某些行为类似的贡献度较低类的客户发展为较高贡献的客户。2.股市基本分析
任何金融资产的“真实”价值等于这项资产的所有者的所有预期收益流量的现值。具体地说,分析家不仅需要预测折现率,而且还必须预测这种证券的每股平均收益和派息率。证券的真实价值一经确定,就可以用来与这种证券的市场价格进行比较,从而鉴别这种证券的定价是否恰当。如果真实价值低于市场当前价格,那么该证券价值是被高估了,应该卖出;如果证券的真实价值高于市场当前价格,那么该证券价值是被低估了,应该买进。具体的分析策略包括宏观经济信息、产业分析、区域分析和公司分析几类。3.股市技术分析
利用时间序列预测股票价格。数据挖掘是对大量的历史数据进行处理和分析,提炼出有价值的信息(表现为规则、模型等模式信息),其中的时间序列模型,可以用于股票价格的预测。4.经营状况分析
通过数据挖掘,可以及时了解营业状况、资金情况、利润情况、客户群分布等重要的信息。并结合大盘走势,提供不同行情条件下的最大收益经营方式。同时,通过对各营业部经营情况的横向比较,以及对本营业部历史数据的纵向比较,对营业部的经营状况做出分析,提出经营建议。5.咨询服务
根据采集行情和交易数据,结合行情分析,预测未来大盘走势,发现交易情况随着大盘变化的规律,并根据这些规律做出趋势分析,对客户针对性进行咨询。6.风险防范
通过对资金数据的分析,可以控制营业风险,同时可以改变公司总部原来的资金控制模式,并通过横向比较及时了解资金情况,起到风险预警的作用。
第五篇:大数据在物流方面应用
大数据时代在物流方面的应用
学院:经济管理学院 专业:市场营销123班 学号:2012016314 姓名:李燕
“大数据时代来了!”两年,从业内到业外,这句口号见诸网媒、报端的频率与日剧增。直至今天,从政府高管到行业巨头,从商界大鳄到微企老板,关于数据创业,他们中有没有直接参与已然不是那么重要了,重要的是现在谁都不敢不重视大数据。更值得期待的是已有先驱驮负大数据颠覆行业规则的构想,开始试水国内物流行业。
“物流业是一个产生大量数据的行业,在货物流转、车辆追踪等过程中都会产生海量的数据,这么多资源如果不用就浪费了。”申通信息技术部总监邱成在接受本报记者采访时说。目前,业内对大数据并没有统一的定义。不同厂商、不同用户,站的角度不同,对大数据的理解也不一样。麦肯锡报告中对大数据的基本定义是:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。毋庸置疑的是,大数据的价值在于从海量的数据中发现新的知识,创造新的价值。越来越多的企业也意识到了大数据的价值,对数据分析与挖掘的需求与日俱增。
“物流业之所以做大数据,主要是因为:第一,快递走入民生的势头越来越猛,对每一个节点的信息化需求也越来越多,这就需要通过大数据把信息化对接起来。第二,从企业自身角度来讲,信息化对企业管理者的重要性也越来越突出。第三,提高对数据的加工能力,通过‘加工’实现数据的‘增值’。”邱成说。
长期以来,备受指责的行业中总少不了物流业,其对仓储运输车空间的利用不科学、安全性差、燃油效率低下、周转时间随路径而浮动等,这些是导致中国物流业占GDP总量约18%远高于欧美发达国家的最主要原因。
整个物流业尤其电商领域已经几近爆发式成长,若应用大数据分析技术,仓储运输的空间将被系统化布置,物流车行程路径也将被“最短化”、“最畅化”定制。两年前,把一吨蔬菜从广州运到北京比从北京运到美国洛杉矶物流成本都高,今天,当大数据时代到来的时候,物流行业规则能否因其改变,只能拭目以待。因为大数据试水物流行业,“游戏”才刚刚开始。
“现在我们在做淘宝、商业客户的一些数据采集,在构成基础数据网络之后,再做第三方的增值应用。”邱成说。在前不久召开的“京交会”上,申通快递展示了其最新的“信息化智能平台”。该平台通过对数据的归纳、分类和整合,可以清楚地查看申通网络任何一个网点的经营现状和业务构成等。
在百世汇通,通过技术人员运用科技手段进行分析、提炼,大数据正在为企业战略规划、运营管理和日常运作提供重要支持和指导。据百世物流科技(中国)有限公司副总裁张砚冰介绍,百世汇通尝试运用大数据来管理、分析、判断加盟网点的运营行为,通过网点在系统内的足迹建立数据分析模型,成功地预测了几次网点的异动,使工作方式由被动式变为主动式、前置式,减少了大量客户投诉,把问题消灭在萌芽阶段。
不仅仅是物流业,电商企业也越来越关注大数据。早在今年年初,京东商城就已启动云计算研发基地,并成立“京东商城——中国人民大学”电子商务实验室,着力电子商务大数据的分析与合作;在“京交会”上,阿里巴巴集团与中国邮政集团、“四通一达”等十家快递公司合作,核心内容仍以打通物流数据为基础,重点将转向“数据整合与分析”。
“淘宝做大数据是以订单为核心,快递企业做大数据是以快递为核心。以申通为例,我们的客户不只是淘宝,还有很多商业客户。而且不少商业客户都有与快递企业在IT方面合作的想法,未来我们也希望能挖掘更多的数据价值,通过大数据给商业客户提供信息化服务。”邱成说。
物流行业树大根深,大数据在此行业内的应用也是非常广泛的。物流中除去淘宝商城、京东商城、苏宁易购等企业产生的包裹、快递等小部件中短距离之间物品流通的小物流;还有与之相对应的重量大、体积大、长距离运输的物品流通,如港口货物运输、大货车集装箱运输等的大物流。
在亟待改进的物流行业,大物流领域利用大数据分析应用技术其实质就是利用地理信息、位置服务、物联网在物流行业里做信息系统化,将现有的粗放、零散、低效、高耗的物流企业数据资源加以整合,建设成可以依据空间地理信息来统一协调监管的现代化物流。逐步利用大数据驱动信息化物流建设,在信息化的现代物流模式下,大物流领域的任何物流车船归属企业的名称、物流车队的整体油耗、车船的位置信息、车船的行程轨迹、车船的运行周期等这类空间地理数据通过系统智能化处理。
大物流领域成功应用大数据,无非是让物流车队效率提高、流程精简。物流车队本身的管理、设备等条件优化改善了,才有望使得中国物流运输成本降低。理想的前景是联合一个大型物流车队,为其免费装载上一台设备,这种设备搜集的车队车辆所有空间地理位置信息都即时反馈到监视后台。怎样获取这些大数据也就是物流车队提高管理效率的关键所在。然而,在刘俊伟来,这种期望的信息智能化的现代物流模式可能需要3-5年时间方可成熟。怎样获取这些大数据是一个问题,这需在资金投入、研发团队打造方面的决心和魄力。
“随着市场的发展,在未来,快递企业会不断加大在大数据方面的投入。”邱成表示。大数据的核心是发现和预测,利用其这个特点,可以提升快递行业的整体服务水平。此外,对于快递业做大数据的未来发展趋势,也有业内人士指出,快递员获取的数据已不只是企业内部信息,还包括大量的外部信息。大数据则让厂商能够有的放矢,甚至可以做到为每一个客户量身定制符合个体需求的产品和服务,从而颠覆整个商业模式。
尽管企业已熟知大数据所带来的价值和优势,但由于数据规模和种类的增加,处理速度的加快,以及易受攻击的特点,随之而产生的成本和复杂性给企业的IT资源和基础设施带来了更大的压力。如何在降低成本的同时提高IT效率,成为快递企业不得不面对的一大难题。
在邱成看来,投资、技术手段等并不是最大的难点。“快递企业做大数据面临的最大难题在于:一是基础数据的采集。因为到现在为止,不少快递企业的操作及信息传输并不是很规范,这给基础数据的采集带来了不小的困难。二是未来大数据的应用方向。比如我们现在有一些淘宝数据,首先要想好怎么用。”邱成说。
此外,也有业内人士建议,在大数据时代,企业要想用数据制胜,就必须尽早建立数据资产管理策略。只有拥有战略性视野和专业技术,才能更好地获得商业洞察力,才能将数据资产转换成战略资产和竞争力。
对于物流行业而言,必须能够更好地利用大数据,这样就可以更好地为客户提供服务,降低成本,提高燃油效率。与刘俊伟观点大同小异,Teradata天睿公司运输物流业总监肖恩也认为,大数据在大物流领域的应用是一个主要的技术潮流。即目前已经积累下的大数据需要以更加智能的方法加以利用,同时还要开发新技术来更便捷的获取多样化大物流数据。