第一篇:PDA在城市交通基础设施数据采集中的应用研究
PDA在城市交通基础设施
数据采集中的应用研究
王国英 陈 长 崔 鹏 孙立军
(同济大学 上海200092)
摘 要 针对城市交通基础设施数据采集中的瓶颈问题,对个人数字助理(personal digital assistant,PDA)在交通基础设施数据采集中的应用进行研究,从数据结构和软件结构两方面进行
分析,介绍基于PDA的数据采集系统软件的开发和应用,该系统已在我国各大城市的城市交通基
础设施的数据采集中得到应用。
关键词 PDA;城市交通基础设施管理系统;数据结构;软件结构;软件开发
中图法分类号:U491.2文献标识码:B
收稿日期:2006-06-1
2个人数字助理(personal digital assistant,PDA)是一种数据采集的理想载体。它功能强大,几乎具有普通台式计算机的全部功能;小巧轻便,可供使用者随身携带,可方便用户进行二次开发。
自20世纪90年代PDA问世以来,美国就对
PDA在道路和桥梁数据采集方面的应用展开了
研究[1],但至今还没有成熟的产品问世。我国对
PDA的认识和了解稍晚一些,由于汉化问题难以
解决,至今还没有成功地将PDA应用于采集城
市交通基础设施数据。针对城市交通基础设施的特点,笔者对PDA在城市交通数据采集中的应
用进行研究,重点对PDA数据采集系统的体系
结构进行设计,并对其软件开发中的几个问题进
行阐述。
1PDA数据采集系统体系结构
1.1 城市交通基础设施管理系统(CTIMS)数据
结构[2]
城市交通基础设施管理系统(CTIMS)是一
个基于地理信息系统(GIS)的管理系统,系统分
为空间数据模块和属性数据模块,其中空间数据
模块主要处理地理信息系统(GIS)中用到的地图
及其相关的地理位置信息,属性数据模块主要处
理静态信息,即交通设施的外观形状尺寸、结构组
成、修建维护资料等。从软件结构方面看,对
CTIMS的数据管理分为图层管理和信息管理,其
中图层管理对空间数据进行操作,而信息管理则
对空间和属性数据同时进行操作,实现空间数据
和属性数据的完美结合。
1.2 PDA数据采集系统数据结构
PDA数据采集系统涉及的信息包括交通基
础设施的静态信息和动态信息,其中,静态信息来
源于CTIMS的属性数据模块,动态信息经现场
采集得到。由于不同的城市交通基础设施类型结
构差异很大,因此,数据结构研究的重点是针对不
同的基础设施类型确定静、动态数据的组成,并合理组织静、动态数据的传输流程。
1.2.1 数据组成城市交通基础设施种类繁多,笔者以数量较
大的3种设施:道路、桥梁和高架的静、动态数据
组成为例进行阐述。
并不是CTIMS中所有的静态信息都需要进
行现场采集,只有少量的、必要的静态数据需要在现场进行校核或确认。为使这些静态信息能充分
满足数据通信和管理的需要,确定道路的静态信
息为路名、起终点、路面类型、长宽和面积等;桥梁的静态信息为桥梁名称、所在路名、跨径、总跨数、材料型式、梁结构型式和梁数等7项;高架道路的静态信息为高架名称、起点墩台号、终点墩台号、材料型式、梁结构型式和梁数等6项。
动态数据主要指城市交通基础设施的损坏状
况数据,也是数据采集的重点。同时,由于数据采
集是为了设施技术状况评价服务的,采集的动态
数据要满足评价模型的需要,在这一指导原则下,道路的动态数据确定为路面的各项损坏状况的定
量描述,如沥青路面横向裂缝的长度、密度等;桥
梁和高架桥的评价采用的是一种基于构件的评价
方法[3-4]:即在进行数据采集时,先将桥梁和高架
桥按由全桥到各部位再到每个构件进行逐层分
解,分别采集每个构件的损坏状况,而在评价分析
51PDA在城市交通基础设施数据采集中的应用研究——王国英 陈 长 崔 鹏 孙立军时,又将桥梁和高架桥按由构件到部位再到全桥
逐层进行综合评价,直至得到全桥的评价结果,因
此确定桥梁和高架桥的动态数据为每个构件的损
坏状况的定量描述,如桥梁桥面铺装中损坏类型
为桥面积水的损坏严重程度。
随着PDA硬件技术的不断发展,为了实现
信息内容和格式的完整性及多样性,除了采用文
字形式的信息外,还可利用摄像头采集图像信息,利用GPS地理定位系统采集设施的地理位置信
息,这样便可全方位、多角度地描述设施现行状
况。
PDA数据采集系统的数据组成如表1所列。
表1 PDA数据采集系统的数据组成设施类型静态信息动态信息
设施名称
相对位置、构件名
称、结构类型、材料
型式等
损坏类型、损坏
密度、损坏图片、地理信息等
1.2.2 数据组织
PDA数据采集系统的数据组织主要处理两
个方面问题:①PDA数据采集系统内部数据的合理组织;②PDA与外部CTIMS之间的数据交换。
1)内部数据组织。PDA数据采集系统内部
数据组织的一个基本原则是先静态后动态,即首
先进行静态数据的补充采集或二次确认。因为
PDA数据采集系统中所包含的静态数据项是从
CTIMS获得的,由于CTIMS中静态数据的不完
备或不准确,就需要在PDA数据采集系统中补
充采集不完备的静态数据或通过二次确认保证已
有静态数据的准确性,为后续动态数据的采集做
好准备。
2)外部数据交换。PDA数据采集系统与
CTIMS之间的数据传输流程如图1所示。
图1PDA与CTIMS数据传输流程
PDA与外部系统的数据交换可通过PDA与
PC之间的数据接口实现,PDA数据接口的功能
主要通过同步软件实现:将PDA与PC物理连接
后,通过分别安装于PDA和PC上同步软件即可
实现PDA与PC的同步通信;由于数据在这两种
硬件载体上的存储格式不一致,利用同步软件中的数据格式转换功能就可在数据传输的同时实现
数据格式的转换。
1.3 PDA数据采集系统软件结构
PDA数据采集系统软件分为静态数据导入、数据采集、静态和动态数据导出等功能模块。另
外,在线帮助模块可在数据采集过程中帮助数据
采集人员甄别各类城市交通基础设施的现行状
况。PDA数据采集系统的软件结构如图2所示。
图2PDA数据采集系统软件结构图软件开发及应用
2.1 软硬件选择
PC机操作系统为Microsoft Windows 2000,开发软件为Microsoft eMbedded Visual Basic和
Pocket PC仿真器[5]。PDA操作系统为Windows
CE系列的Pocket PC 2002或Pocket PC 2003,采用的数据库软件为可与PC上的Microsoft Ac-
cess文件相互转换的Pocket Access。图像数据采
集工具为外置的130万像素摄像头,地理信息数
据采集利用带蓝牙功能的GPS。
2.2 数据库的建立
Pocket Access无法直接在PC上进行编辑,首先采用PC上的Microsoft Access建立数据库,然后再通过同步软件转换给PDA使用。
PDA数据采集系统的数据来源于CTIMS,又将采集的数据导回到CTIMS,故其数据库的结
构与CTIMS的数据库结构应保持一致,以道路
PDA数据采集系统的数据库为例,表
2、表3分别
为静态数据库和动态数据库的结构,需说明的是,“损坏图片”中存放的是图片的路径,为文本类型。
其中,静态数据库与动态数据库之间的连接是通
过“路名-段起点-段止点”3个字段共同实现的。
2.3 软件功能
PDA数据采集系统软件的主要功能模块为
数据导入模块、数据采集模块、数据导出模块和在线帮助模块。实现的主要功能包括以下几方面。
1)PDA和PC的连接与同步。无论是从PC
52交通与计算机2006年第5期 第24卷 总132期表2 路面PDA数据采集系统静态数据库结构
字段名路名段起点段止点路面类型调查长度调查宽度调查面积调查人员天气日期 数据类型文本文本文本文本数字数字数字文本文本文本
表3 路面PDA数据采集系统动态数据库结构
字段名路名段起点段止点损坏类型损坏长度损坏宽度损坏密度损坏图片地理信息 数据类型文本文本文本文本数字数字数字文本文本
向PDA导入数据,还是从PDA向PC导出数据,都需先将PDA和PC物理连接并实现两者的同
步通信。PDA和PC物理连接是通过PDA和PC的USB硬件接口实现的,两者的同步通信则通过
分别安装于PDA和PC的同步应用软件实现。
2)数据导入。将城市交通基础设施的静态数
据从CTIMS导入到PDA数据采集系统,同时完
成数据库格式转换。
3)数据采集。实现PDA数据采集系统的主
要功能,包括静态数据的核实和确认,动态数据的采集。
4)数据导出。实现数据导入的逆过程,即将
采集好的静、动态数据从PDA数据采集系统导
回到CTIMS,并完成数据库格式转换。
5)在线帮助。将所有损坏的定义、损坏等级的划分和典型的损坏图片等内容以电子图书的形
式存储于PDA,方便用户查阅。
2.4 软件应用
开发完成的PDA数据采集系统软件运行良
好,并已在城市交通基础设施检测中得到应用,尤
其是桥梁PDA数据采集系统已经推广应用到北
京、贵阳、成都、长春、宁波、武汉、南通、沈阳、无
锡、合肥等城市的桥梁数据采集中[6]。体现了其便
捷、高效和安全的特点。
将PDA采集的数据导入CTIMS数据库后,利用CTIMS对设施动态数据进行分析和评价,从而实现对城市交通基础设施的科学管理。结 语
本文基于PDA解决了城市交通基础设施管
理中数据采集的瓶颈问题,对PDA在数据采集
中应用进行研究,从数据结构和软件结构两方面
进行了分析,并在此基础上介绍了相应软件的开
发和应用情况。PDA系统的开发使城市交通基础
设施的管理更方便快捷,有利于实现动态管理。
参考文献
[1]PDA-Based Field Data Collection For Pontis[C],International Bridge Conference, Pittsburgh,1995:
342-346
[2] 上海市市政工程管理处,同济大学.上海市城市基
础设施管理系统的研究及应用总报告.上海,2005:
5-8;125-129
[3] 中华人民共和国建设部.CJJ99—2003,J281—2003
城市桥梁养护技术规范.北京:中国建筑工业出版
社,2004:14-18
[4] 孙立军,杨 阳,张小宁,等.上海市城市桥梁管理
系统研究.华东公路,2000(2):34-37
[5] 李永隆.PDA程序设计.北京:清华大学出版社,2002:334-350
[6] 陈 长.交通基础设施管理系统技术结构研究.上
海:同济大学,2004
Application of PDA to City Transportation
Infrastructure Management Data Collection
WANG Guoying CHEN Zhang CUI Peng SUN Lijun
(Tongji University,Shanghai20092)
Abstract:Aiming at the bottleneck problem of data collection in City Transportation Infrastructure Management
System(CTIMS), this paper dealt with the application of Personal Digital Assistant(PDA)to data collection.Then, the
data structure and program structure were analyzed.Moreover, the data collection system based on PDA was devel-
oped.The system has been successfully applied to city transportation infrastructure
data collections.Key words:PDA;City Transportation Infrastructure Management System;data structure;program structure;
software development
53PDA在城市交通基础设施数据采集中的应用研究——王国英 陈 长 崔 鹏 孙立军
第二篇:浅谈数据采集中如何规避风险
数据采集是计算机审计的第一个步骤,成功采集电子数据之后,才能进行数据清理、数据转换、数据分析等工作。由于计算机系统的复杂性,可能在数据采集中发生意想不到的事故,给审计工作带来了一定的风险,因此,审计人员在采集电子数据过程中,应从以下方面注意规避风险。
一、做好审前调查,避免匆忙上阵。在计算机审计方式下,审前调查也尤为重要,应提前对被审计单位的计算机系统、业务操作系统、数据库系统进行详细了解,从技术的角度考虑需要哪些数据,所需要的数据能否获取,以何种方式能够有效获取,防止因了解不深在实际采集过程中出现意外,也避免因考虑不周而多次、零星提出数据需求而延误电子数据的获取,或引起被审计单位的抵触。
二、尽量要求由被审计单位进行数据采集。为规避审计风险和保护自身,审计人员一般不应直接在被审计单位的计算机系统上进行操作。如果条件允许,应在确定审计所需数据的具体内容、获取数据的可行方式后,提出书面的数据需求,交予被审计单位,要求被审计单位系统管理员自行采集电子数据,或要求被审计单位联络软件开发公司,由软件开发公司派出人员,协助被审计单位完成数据采集工作,审计人员只需做好数据真实性、完整性验证和现场监督工作即可。
三、选择好数据采集时间段。为了减轻被审计单位计算机信息系统的承载压力,不应在被审计单位业务繁忙时进行采集。比如用odbc的方法采集地税数据时,会导致各客户端无法顺畅运行,业务基本处于瘫痪状态。因此,一般应根据采集数据量和采集方法,预测采集所需时间,选择在中午或下班后等非工作时间段进行数据采集。
四、做好计算机系统和数据库备份工作。数据采集前,应使用被审计单位财务或业务软件的数据备份功能或其他方法将数据库进行备份,如果被审计单位的操作系统不够稳定,也应根据实际情况进行备份,如利用ghost软件备份windows操作系统。这样,在出现意外故障时,能够及时恢复被审计单位的计算机系统和数据库数据,避免数据丢失。
五、从客户端采集数据。如果是要采集基于服务器结构的oracle、informix、sysbase、db2等大型数据库中的数据或者是基于unix等跨平台的操作系统时,可采用odbc方法采集电子数据,此种采集方法不需要在服务器上进行,而只需在客户端上进行操作,或是在审计人员的笔记本电脑中安装相关数据库软件后,将其接入被审计单位内部局域网,在笔记本电脑上完成采集操作。
六、确保移动存储设备安全。在数据采集前,对将要使用的u盘、移动硬盘等移动存储设备进行杀毒,保证无病毒,以免移动存储设备中存在的病毒感染被审计单位的计算机。
七、尽量使用现场刻录的方式存储数据。在条件允许的情况下,数据采集完成后,使用只读光盘进行数据存储,并要求被审计单位在光盘上在加盖印章,或是由被审计单位的系统管理员使用记号笔在光盘上签字,以标志数据来源和采集日的数据状态,保证采集数据的真实性、完整性和安全性,如被审计单位对数据处理后的数据及数据分析结果产生疑义时,也可利用光盘中的原始数据为依据进行核对工作。
此外,数据采集成功之后,首先应将制作采集数据的副本,在计算机审计过程中,只操作一个固定的副本。同时,应确保获取的被审计单位数据及与数据相关的技术文档不被审计组内外无关、无权人员获知。
第三篇:大数据在高校个性化教育中的应用研究(小编推荐)
本科毕业论文
《大数据在高校个性化教育中的应用研究》
二零一五年四月
兰州大学本科毕业论文
摘 要
在信息时代的今天,社会正在以惊人的速度产生海量数据,这将对传统教育模式产生巨大的影响。在数据量巨大、种类繁多、信息多样化的大数据背景条件下,全球各大高校教学服务和数据利用方式将发生前所未有的变化,高校中汇聚着大量的信息。
大数据技术的到来,使各大高校实施个性化教育成为可能,真正实现从群体教育的方式转向个体教育。利用大数据技术,我们可以去关注每个学生个体的微观表现。在高校教育中,学生们比中小学更加自由,也更需要这种监督与个性化教育。大数据的到来,使跟踪每一个学习者的详细数据不再困难,从而实现了真正意义上的、全面细致的个性化教育。每一个学生都有机会获得为自己量身定做的教学活动和资源;家长也将可以通过崭新的视角掌握全面、真实的信息;教师也将可以从中获取对教学的客观反馈、对课程内容和学生的学习过程进行评价、挖掘每一位学生的学习模式、改进个性化教学的手段;教育管理者则能够更好地组织教育资源、制定教育改革的方向和措施;教育研究者也能借此技术转变思路,开拓新的研究思维和路径。尽管大数据为教育带来了巨大的启发和机遇,但是作为新鲜事物,许多与之相关的研究仍处于探索和尝试阶段,有待于在实践过程中不断完善。
关键词:信息时代; 大数据技术; 个体教育; 个性化教育;
兰州大学本科毕业论文
目 录
摘 要...............................................................1
兰州大学本科毕业论文
兰州大学本科毕业论文
关的研究目前仍处于探索和尝试阶段,有待于在实践过程中不断完善。
[2]
(二)课题研究方法
1.文献分析
查阅文献资料,对已有的大数据相关文献进行阅读、分析。通过查阅已有文献,得知大数据概念,分析出大数据的特点以及大数据与传统数据的区别;通过查阅大数据产生的背景,分析出大数据技术在个性化教育中的应用;通过查阅国内与国外(以美国为代表)大数据在高校个性化教育中的应用现状,做出国内教育大数据反思,与国外的差距;大数据本身还在不断分析研究阶段,到底能为高校个性化教育带来什么,还得继续研究。
2.访谈法
通过与周围朋友,以及其它高校朋友交流,去倾听他们对于大数据技术的理解,以及他们对大数据技术的期望,去分析研究在目前我国应该如果利用这一技术。
大数据在高校个性化教育中的应用研究 的数据。
(3)产生速度快
数据的创建和移动速度都非常快,这就对数据时效性要求特别高。在高速发展的信息时代,通过高速电脑处理器和服务器来快速创建实时数据流已成为流行趋势。(4)价值密度低
数据信息量非常大,自然它的价值密度就不会很高。数据总量越大,价值密度就越低,两者之间呈反比例,有些单条数据在大数据中可能没有价值,无用数据太多,但它的综合价值大。因此,如何用强大的数据挖掘算法更迅速地提取出有用信息,是大数据时代必须解决的难题之一。
(5)存储要求高
规模巨大、类型多样的数据自然对存储带来很大的问题。目前的存储技术很难解决数据的异质异构、爆炸性增长带来的存储问题,已有的静态的存储方案已经完全不能满足数据的动态演化带来的挑战。因而在海量分布式存储和查询方面仍然需要做更进一步的研究。
(6)管理复杂
很显然,大数据的数据量大、种类多样、产生速度快、价值密度低、难存储等特点,将直接为管理带来很大的困难。
3.大数据与传统数据的区别
大数据技术的到来,会让许多我们曾经没有重视的,或者是因为技术与方法无法去收集的信息,现在都有可能作为“数据”进行收集并分析了,使得人们对于“数据”的理解更为深入了。
传统数据的整理方式更能够凸显学生整体的水平。这些数据没有必要、也不可能进行实时地采集,而是在阶段性、周期性的评估中获得。这些数据的收集,主要是通过考试或量表调查等形式进行获得的,完全是在学生知情的情况下,自然会带有很强的刻意性和压迫性。
而大数据有能力去关注每个学生个体的微观表现:他在听什么话的时候点头,开小差的次数,在不同的课堂上提问多少次,在一道题上停留了多久,在什么时候翻书,会向多少同班同学发起主动交流,等等。这些数据完全是在学生不自知的情况下被收集、观察的,只需要借助一些特殊的设备与观测技术,不会影响学生任何的日常生活与学习,这将使得它的采集也非常的自然、真实。
综上所述,我们可以从以下几个方面对传统数据与大数据进行比较区分:
[4]
兰州大学本科毕业论文
(1)范围不同
传统数据反应的是整体、宏观的教育状况,用于教育工作者进行重大的教育改革等;大数据可以分析每个学生个体实时的、微观的课堂状况,用于及时调整教育行为与实现个体化教育。(2)方式方法不同
传统数据的收集、分析、存储、分类等都已存在特定的规则,方法论也相较完整:而大数据的收集、分析等,由于大数据本身是新鲜东西,所以还没有形成清新的方法、路径以及评判标准。(3)对象不同
传统数据来源于阶段性的、整体性的评估,数据收集过程可能会产生很大误差;大数据记录的是过程性的、实时性的行为现象,用的是 大数据在高校个性化教育中的应用研究
有固定的一个老师上一门课,每个人面对的都是一样的老师,一样的教材,一样的学习任务。
通过以上特征,明显能感觉到相比中小学,高校本身就注重个性化教育,但,要实现对每个个体进行不同的教育方式,只能通过大数据技术对每个人进行跟踪、分析、研究,从而制定个性化的方案。
兰州大学本科毕业论文
2.大数据可以实现过程性评估
教学评估应该是过程性的,而非只看结果。如果我们想象,教师拥有每个学生的上课情况。期末时将这些数据汇总起来,就使得撰写评语时有了更加丰富的素材与数据依据,能对学生的发展提出建议。另一方面,这些数据也可以促使教师反思,自己在哪些地方需要改进。
如果是应用信息化的课程载体对学生的行为进行记录,而不是通过教师的观察,就能真正实现大数据与课堂进程的结合。因此,大数据技术可以对每个学生在课堂中的微观行为进行捕捉,帮助老师了解学生对知识的掌握程度以及感兴趣程度,进而对老师的教学活动进行反馈。
3.大数据实现学生课外学习轨迹的积累
假如家长通过手机就能获得学校的通知公告等信息,可以记录孩子每天课余时间,包括孩子看过哪些书,去了哪里游玩,与谁在一起等等。便捷的积累下了非常有价值的数据,从而可以有针对性地帮助家长发现一些现象。同时可以给他提出如何帮孩子减负的针对性的建议。而对于研究者,可以通过数据库统计一个学校、一个区域的整体情况,获得有价值的数据。所以说大数据,还能够让我们更加了解学生课外学习的轨迹。
可以这样说,大数据时代的到来,让跟踪每一个人的数据成为了可能,从而让研究“人性”成为了可能,而对于教育研究者来说,我们将比任何时候都更接近发现全面的学生信息。[7]
(三)大数据在高校个性化教育中的应用
1.学生方面
每个学生个体都有机会获得为自己量身定做的教学活动和资源。以及联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等信息;
2.家长方面
学生家长能通过崭新的视角掌握全面、真实的学生信息。包括上课表现、成绩情况、交流情况、师生互动等等。
3.教师方面
利用所收集的每个学生学习过程中的全面信息,从中获取对教学的客观反馈、对课程内容和学习过程进行评价、挖掘学生的学习模式、改进个性化教学的手段。以及如何利用大数据技术轻松处理教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;
大数据在高校个性化教育中的应用研究
4.学校方面
学习可以利用大数据技术更好的管理学校的资产信息、师资信息、招生就业信息等。
5.教育管理者方面
教育管理者利用大数据技术更便捷地组织教育资源、制定教育改革的方向和措施。
6.教育研究者方面
能够在大数据技术的影响下,转变思路,开拓新的研究思维和路径。
(四)国内外教育大数据的现状与未来发展趋势
1.国内大数据发展现状
2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术重点予以支持。其中“十二五”规划上,把信息处理技术作为关键技术创新工程被提出来,其包括海量数据存储、数据挖掘、图像视频智能分析,都是大数据的重要组成部分。
中国三大通信运营商都在积极推进大数据应用工作,并取得了较好的进展。电商企业阿里巴巴提出要做中国数据分析
兰州大学本科毕业论文
件编辑联盟曾号召政府部门和私人企业共同合作,投入3亿欧元用于推动大数据领域的发展。众所周知,法国在数学和统计学领域有独一无二的优势。
日本正在针对大数据推广的现状、发展动向、面临问题等进行探究,为解决社会公共问题作出贡献。2013-2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为“世界最高水准的广泛运用信息产业技术的社会”。
目前,不仅印度的小公司纷纷涉足大数据市场淘金,一些外包行业巨头也开始进军大数据市场。据统计,印度大数据行业规模在3年内将达到12亿美元,是目前规模的6倍,同时也是全球大数据行业平均增长速度的两倍。
[9]3.国内大数据发展展望
伴随着大数据时代的来临,世界各种对数据的重视达到前所未有的高度。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油”。上面介绍了许多国外的动态,自然需要思考本国可能采取的发展道路。2014年2月27日中央网络安全和信息化领导小组宣告成立,组长习近平提出,没有网络安全就没有国家安全,没有信息化就没有现代化。建设网络强国,要有自己的技术,有过硬的技术;要有丰富全面的信息服务,繁荣发展的网络文化;要有良好的信息基础设施,形成实力雄厚的信息经济;要有高素质的网络安全和信息化人才队伍;要积极开展双边、多边的互联网国际交流合作。从话的另一面也说明,目前我们没有过硬的技术,网络文化还有问题,基础设施还是比较差,人才队伍素质不应求,也没有可靠的盟友,信息经济实力太弱。大数据是信息时代的“石油”、开发大数据资源的能力将影响未来核心竞争力。我国不能依靠别人修好路,只能靠自身加速前行,这种能力就是将数据转化为信息和知识的速度与技术,而这种转化速度和技术,则决定了大数据技术能力的高地。
(五)大数据在高校个性化教育中面临的挑战
同时也伴随着不少问题和挑战。
尽管大数据技术为高校个性化教育带来诸多益处,也推动着教育理念的变革,但1.关于相关人才
要在高校有效利用大数据技术,就需要来自数学、统计学或计算机工程等领域的众多专业人员,如收集高质量数据的专员、管理硬件的系统管理员、程序开发人员、数据分析员等等。这些人员不管是招募还是培训都是很大的困难。
2.隐私问题
大数据时代的个性化服务要对每个个体的行为进行追踪和分析,在收集到的大量信息中,也许会有个人无心公于世的个人隐私信息。此类信息的所有权和使用权的归属并不明确。
大数据在高校个性化教育中的应用研究
3.数据主宰的隐忧
为了追求更好的学习成绩基于学生以往的学业表现为其推荐课程,这在一定程度上可能导致学生只学习过于简单的课程,不利于其挑战性的激发,学生也有可能被迫去放弃梦想而转修一些实用课程。
4.数据真实性值得怀疑
当大数据普遍运用于高校时,虽然学生信息是在不自知的情况下被收集的,但普及之后大家就都会知道自己的行为会被记录,而刻意去做一些事情,这样收集到的信息就不会是本真的东西。
5.研究方法不成熟
大数据研究毕竟是一个比较新的领域,目前还没有形成清晰的方法和路径,同时也缺乏统一的标准,每个教育机构都可能采用不同的运作形式,其运用效果值得怀疑。
兰州大学本科毕业论文
结 论
总而言之,随着大数据的发展,科技产业受到深刻影响,收集和解析数据的能力在近年来突飞猛进,其应用范围深入到生活的方方面面。无疑也将会对传统教育模式产生巨大影响。将大数据技术应用于高校个性化教育中,将会使传统的整体教育发生翻天覆地的变化。传统的高校教育是对人的社会责任能力教育,授教统一的内容;而大数据带来的个性化教育是认同个体生理基础的差异,重视每个个体在教育中的中心地位,注重学生的独立意识、自信心、主动性、创造性、向权威挑战的精神和多种差异能力的培养,学校要努力创造条件,让每个个体充分发展这些能力。学生是其中最大的受益方,每一个学生都有机会获得为自己量身定做的教学活动和资源;家长也可以通过崭新的视角掌握全面、真实的教育信息;教师从中获取对教学的客观反馈、对课程内容和学习过程进行评价、挖掘学生的学习模式、改进个性化教学的手段;教育管理者能够更好地组织教育资源、制定教育改革的方向和措施;教育研究者能够借此转变思路,开拓新的研究思维和路径。尽管大数据为教育带来了巨大的启发和机遇,但是作为新鲜事物,许多与之相关的研究仍处于探索和尝试阶段,有待于在实践过程中不断完善。
大数据在高校个性化教育中的应用研究
参考文献
[1]赵姝淳, 孙曙辉.大数据技术及其在教育领域的应用[J].中小学信息技术教育, 2014,(3):64-66.[2]张燕南, 胡继岳.关于大数据应用于教育的思考[J].中国电力教育, 2013,(11):5-7.[3]张生.混合式学习环境下基于学习活动的形成性评价的理论与实践[D].东北师范大学, 2008.[4]张韫.大数据改变教育(节选)[J].基础教育论坛:文摘版, 2014,(11).[5]吕楠.个性化教育与大学生创新能力提升研究[J].重庆电子工程职业学院学报, 2013, 22(5):107-109.[6]杨妮.美国高中个性化教育策略及其启示[J].教育导刊,2013,(1)[7]张韫.大数据改变教育[J].上海教育,2013,
第四篇:大数据在中国B2C电子商务精准营销中的应用研究
大数据在中国B2C电子商务精准营销中的应用研究
摘 要:进入21世纪,网上购物已经成为一种潮流和时尚,也刺激和带动了中国B2C电子商务的快速发展,京东商城就是一个典型的代表企业。大数据的出现为电子商务的进一步发展带来了新的契机,因此研究大数据时代电子商务企业的精准营销策略具有很高的实际应用价值。
本论文的研究方法为定性研究,通过深度访谈的方法,以京东商城为具体研究对象进行研究。通过对京东商场的具体研究分析,理清B2C电子商务企业收集、整理、存储和分析大数据的流程;分析用户多次的购物记录形成关系网,知悉更多用户的购买习惯和喜好;将客户分为不同的类型,将个性化的信息推荐给客户,以客户为中心,进行实时营销和精准营销。但本文仍存在诸多不足之处,希望在后续研究中能使研究对象进一步细化,并且将案例研究进一步地深入。
关键词:大数据;电子商务;精准营销;京东商城绪论
从20世纪互联网出现至今,互联网已经越来越融入人们的生活,不得不说,网购已经成为了一种潮流和趋势,已经成为了相当一部分人生活中不可或缺的部分,同时,也带动了中国电子商务的发展进程。
网络交易规模的不断扩大和增长,对于电子商务行业来说是一个难得的发展机会,但机遇与挑战永远是并存的。过去传统的粗放式营销方式开始逐渐转变为精准式营销,精准营销就是在精准定位的基础上,依托现代信息技术手段建立个性化的顾客沟通服务体系。这种精准式营销方式主要特征就是以客户为核心,营销的目的就是实现与客户之间的交易,只有制造出令客户满意的产品,充分满足客户的个性化需求,才能够实现交易,与客户保持良好的合作关系,充分实现收益,获得较高的投资回报。
随着网络的发展和技术的进步,从2009年开始大数据这个词语越来越多地被人们所提及。不可否认,“大数据”一词在整个世界范围内也越来越热,“大数据”时代已经来临。2013年也被中国媒体广泛称之为 “大数据元年”。不得不说,大数据的时代已经来临了。京东(JD.com)是中国最大的自营式电商企业,2014年5月,京东在美国纳斯达克证券交易所正式挂牌上市,是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。2014年,京东市场交易额达到2602亿元人民币,净收入达到1150亿元人民币。
最近两年,大数据在电信、医疗和公共交通方面已有应用,但在B2C的电子商务网站方面还未得到广泛的运用,所以本论文的研究问题可以归纳为两个方面:
①如何通过大数据技术获得有利于对B2C电子商务企业的顾客信息挖掘?
②如何将大数据技术分析处理后的数据运用于B2C电子商务企业的精准营销中?
本文的研究目的总体可以分为以下三个方面:
①对于B2C类型的电子商务企业而言,收集的大数据主要包括消费者的购买行为,对其进行整理和分析,可以预测消费者的下次购买行为,可以为企业在精准营销过程中节省大量的人力、财力和物力,减少成本扩大收益。此外,通过精准营销能够很好地维护企业和客户之间的关系,提高客户满意度,真正做到以客户为中心。京东商城就是通过大数据的分析,来维护与网购客户的关系,提高客户在京东商城购买产品的频率和次数,最终提高客户对京东商城的忠诚度。
②对于消费者而言,B2C企业推送的产品信息更具有针对性,更符合自己所需购买产品的期望,减少搜索和寻找相关产品的时间,能及时快速地了解B2C企业的产品信息,帮助消费者做出购买决策,指导其消费行为。消费者收到京东商城发送的产品信息之后,直接就去京东商城的网站上面进行挑选和选购,节省许多时间和精力。
③精准营销研究的侧重点大多在于客户关系管理方面的营销策划研究,基于行业的精准营销也大多集中于银行、图书、消费品等相关领域,但是随着大数据时代的来临,电子商务网站的精准营销研究相对来说就比较匮乏,这就使得本论文的研究更加具有创新性和实用性。
本论文主要以在B2C电子商务企业中非常有代表性的京东商城为研究对象,探索大数据在电子商务精准营销中的应用。
2013年可以称为中国的“大数据元年”,以此计算,中国在大数据领域内的研究还处于最初的起步阶段,且处于宏观研究的层面,对于应用涉及的更加少。而且大数据的显著4V特征:(规模(Volume)、快速(Velocity)、多样(Variety)和价值(Value)由于数据的海量化,规模巨大化和多样化,单个数据的价值密度就显得较低,如何将大数据的海量化、多样性的特点与精准营销的精准性看似矛盾对立的两个方面在营销过程中充分完美地结合起来,最终成功实现营销,这将是本文的研究创新点。文献综述
本章节通过对电子商务、大数据、精准营销等概念进行文献研究,然后通过大数据在电信行业和公共交通行业的应用提供借鉴意义,为大数据能够更好地服务于电子商务行业的后续应用研究奠定基础。
2.1 电子商务
电子商务这一提法最初是由欧洲、美国等西方发达国家提出的,但是经过多年的发展和推广,电子商务已经在全世界的范围内遍地开户,占领了相当大的市场份额,基于这种情况,世界上的众多学者都开始针对电子商务进行了大量而细致的研究工作。
联合国经济合作组织(2007)把电子商务定义为:“电子商务是用开放式的网络作为交易的基础,并且依靠这一基础开展企业与企业之间、消费者与消费者之间、企业与消费者之间的商业上的往来”。
Daniel Amor(2012)在《电子商务:变革与演进》一书中提出的看法是:立足于电子商务带来的机遇和挑战,对电子商务涵盖的技术进行了评论,同时全是电子商务的核心理念,对于电子商务未来的发展前景进行了展望和评估。该书在对于电子商务的发展给予一定肯定的同时,也毫不避讳的提出了电子商务在发展过程中出现的诸多问题。
中国的电子商务企业相对于国外企业来说起步较晚,但是发展速度却不慢,而且劲头十足,但是,由于受到种种条件的制约,现阶段中国电子商务企业的研究大多还只是停留在理论层面。
张婷,朱邦毅(2014)针对中国当前B2C电子商务市场进行研究的同时,总结了B2C电子商务的三种模式:垂直型、平台型和综合型。并在此基础上,深入解析了各种模式的优缺点和利弊后,得出以下结论:传统的大中型企业开拓销售渠道时比较适用于垂直型的模式;大中型企业在获得企业长远经营利益方面比较实用综合型模式;而平台型的模式则是中小企业最初进入网络交易市场的不二选择。
截至目前为止,针对电子商务企业在理论与实践方面的研究还非常少,这一领域还非常地薄弱,这就更加迫切地需要针对电子商务在B2C企业领域的实践进行更加系统的研究。
2.2 大数据
20世纪互联网出现,特别是进入21世纪以来,互联网的发展势头锐不可挡,无处不在的移动设备每时每刻都在产生着大量的数据,信息的交互更是时时刻刻都在处理大量的数据。此时,对于数据处理的实时性和实效性都提出了更高的要求,传统的处理手段已经不能胜任。因此,大数据技术当之无愧地成为了一个最新的技术热点,并引起了世界单位内的广泛关注。
维基百科对于大数据的定义是“大数据是一个常规软件无法在一定时间内对其内容进行获取、整理和分析的数据集合”。大数据与海量数据相比,在数据体量、复杂性和产生速度这三个方面相较于传统数据的形态有了很大的超越,此外,也超越了传统技术处理手段的范围,还能够带来巨大的经济效益。
IBM公司将大数据的特征总结成为三个“V”:规模(Volume)、快速(Velocity)和多样(Variety),但是更多的人则将其概括为四个“V”,即规模(volume)、快速(Velocity)、多样(Variety)和价值(value)。
依据一般的信息处理流程,大数据的处理过程可以划分为以下六个环节,分别是数据收集、数据整理、数据存储及管理、数据分析、数据显化及产业应用:
①数据收集。数据收集是大数据处理过程首要的一环,也是基础。
②数据整理。每年数据的产生量是非常大的,完成大量数据的收集工作之后,如何才能筛选出有用的数据,并使有用的数据顺利传递到下一环节,是大数据处理过程中必要的并且非常重要的环节。
③数据存储及管理。数据存储和数据管理是环环相扣的,采用何种方式进行数据管理直接决定了数据存储的方式,同时数据存储的方式又决定了数据管理的深度和广度。
④数据分析。开始比较早的传统数据处理公司具有明显的竞争优势,但是,以Cloudera为代表的基于开源软件基础构架的数据分析公司由于能够较好地满足客户的数据分析需求,在这几年间取得了快速的发展。
⑤数据解读。数据分析这一环节,起步比较早的传统数据处理公司同样具有一定的竞争优势,通过在传统业务之上融入新的知识,很快就成为该领域中的领头羊。
⑥数据展示。这一环节中在一定程度上也可以称之为数据应用,大数据开始帮助管理实践。
2.3 精准营销
20世纪90年代,美国的莱斯特?伟门第一次提出了精准营销的概念。Zabin和Brebach(2004)提出了精准营销的4R法则,亦即正确的顾客(right customer),正确的信息(right message),正确的渠道(right channel)以及正确的时间(Right time),通过把正确的信息在正确的时间通过正确的渠道顺利传递到正确的客户手中,借此真正实现对目标客户的购买决策形成有力影响,并促成营销目标的顺利达成。
刘征宇(2013)在《精准营销方法研究》中提出精准营销的方法应该分为三大类,分别是基于数据库营销的方法、基于Internet的方法和借助其他渠道的方法三大类。姜何(2014)用精细化营销来形容精准营销,指出所谓的精细化管理是相较于粗放式管理而言的,实施精细化管理,就意味着要开展客户细分,针对不同类型的客户实施不同的营销策略,充分了解客户的个性化需求,为客户提供所需的服务,实现营销目标。曹彩杰(2014)提出,精准营销体系应该以网络和信息技术手段为核心,未来也许会替代传统的营销模式,并逐步发展成为现代企业管理营销发展的新态势。
中国三大电信运营商经过多年的经营,累积了大量的数据。目前大数据在电信行业中的应用主要体现在网络管理和优化、市场与精准营销和企业运营管理。目前面临的问题是,电信行业发展好应用大数据技术面临的最大障碍不是技术能不能实现的问题,而是数据孤岛无法充分共享的问题。所以,对于电信运营商来说,要真正的利用大数据并使其更好地服务于运营商,数据的统一和整合是第一步,也时最为重要的一步。
应用大数据手段可以将海量的数据进行一个集合,通过把离散的数据需求集合成交通管理的体系,来满足以往不能实现的需求。利用大数据技术可以收集来自各方面的信息,这一点同样也可以应用于交通管理方面,可以应用大数据技术提升城市交通管理的水平,有效改善交通状况。在利用大数据技术治理交通方面,美国等西方发达国家最具代表性,在国内而言,深圳可以说是做得比较好的。
在B2C电子商务的精准营销中,首先利用大数据对客户进行“画像”,通过在网上的交易记录和购买情况,可以对客户情况有一个大概的了解,可以算是“素描画”。然后结合之前多次的交易情况,对客户信息进一步的补充和完善,形成关系网或关系链,这样客户的“画像”更加全面和形象,客户的消费行为和消费喜好也有一定的预测和判断。第三步就是制定销售策略,将客户分为不同的类型,通过邮件或短信,将个性化的信息推荐给客户。最后就是评估大数据在精准营销中的效果和作用,通过实施精准营销前后的销售额的变化对比,来进行验证和证实。
研究方法
本论文采用深度访谈法作为研究方法,主要是基于以下两个方面的考虑:
一是大数据的研究总体来说还是处于探索和研究阶段,尽管很多个行业领域都在提及大数据,但并未得到普及,大数据更多的对人们来说只是一个概念而已。
二是企业出于商业保密的原因,很多企业内部的资料无从查找,为了能够获取更多详实的内部资料和数据,需要对京东企业的内部人员进行访谈。同时为了保证企业的正常利益,访谈内容中关于京东企业的内部资料和信息仅用于论文研究使用,不可用于商业用途。
内容分析法(Content Analysis)是指来源于新闻传播领域的一种分析方法,通过定性分析与定量分析相结合的方式,针对传播内容进行系统化的客观分析,并且描述传播内容特征和检验传播研究假设的一种研究方法。
本论文主要通过对访谈的形式,对相关人员进行访问,并对访谈的内容进行分析,将其运用于大数据在B2C电子商务精准营销中的应用研究。
本论文选取京东商城为研究对象,针对京东商城使用大数据在电子商务精准营销中的应用情况进行深入研究。之所以选择京东商城为例,有三方面的原因:
①京东商城是中国目前最大的自营式电子商务企业,已经积累了大量的数据信息。京东商城无论从规模还是盈利能力,在B2C电商市场中都是很具有代表性和影响力的,具有研究的价值和意义。
②京东商城经过多年的发展,在中国自营式B2C电商中的市场占有率高达一半,具有良好的消费者群众基础,便于进行调查问卷的发放和收取工作,方便进行数据的收集,为后期进行数据分析奠定了基础。
③京东商城尽管在行业中处于领先地位,但并非处于龙头老大的地位,希望可以通过借助于大数据的契机来缩小与天猫商城的差距,更加巩固京东商城在B2C电商市场中的地位。
鉴于以上三点,本文特意选择京东商城作为研究对象,重点研究和分析其如何使用大数据在B2C电子商务精准营销中进行应用。研究过程
本章节将针对大数据在B2C电子商务中进行精准营销的具体过程进行研究,这部分内容可以划分为两个阶段和三个过程。第一个阶段是数据的收集和处理阶段,第二个阶段是数据的应用阶段。在数据的应用阶段可以划分为三个过程:第一是运用大数据为客户进行画像,第二是补充完善客户信息,形成关系网或者关系链,第三是制定营销策略,首先将客户分为不同的类型,针对不同类型的客户采取不同的营销策划,确定营销策划后通过邮件或者短信的方式将个性化的信息推荐给客户,真正做到以客户为中心进行实时营销和精准营销。
4.1 大数据收集和处理阶段
结合第二章节中已经提及的数据收集和处理过程,将B2C电子商务中的数据收集和处理过程划分为数据采集、数据清理、数据存储及管理和数据分析四个部分。
对于B2C电子商务公司而言,在决定采集数据之前,必须明确哪些数据有用需要采集,哪些数据没用不需要采集,这些数据必须区分开来,避免进行不必要的数据采集。经过第一阶段的数据收集工作,进入到数据整理的环节。数据整理,顾名思义,就是对收集到的数据进行处理,也可以成为数据预处理。在这个阶段的主要工作就是做好数据处理前的所有准备工作,做好预备工作。
京东商城的用户量每年都在快速递增,大量用户产生了大量的数据信息,所有这些用户数据信息的存储和管理也是至关重要的。现在京东商城主要采用的是并行数据库的方式来存储和管理客户的大数据。并行数据库是高性能和高可用性的数据库系统,高性能体现在进行数据整理过程中,所需用的时间越来越短,处理的数据量也越来越大;高可用性指的就是并行数据库的健壮性,换句话说,也就是并行数据库在进行数据处理过冲的一个节点或多个节点部分失效或完全失效时,整个系统对外持续响应的能力。
然而并行数据库系统的最大缺点就是灵活性不好,弹性差,这种特点对于刚成立的公司企业、对于中小型企业来说运用起来是十分有利的。京东商城通过使用并行数据库的方法,将客户的详细信息进行整理分类,便于后续的存储及管理,同时也为下一步的数据分析奠定了基础。
通过多种多样的渠道收集的各种数据,需要进行后续的整理和分析才能充分体现其价值,通过一定的分析得出的结果才能显示出什么内容是企业发展所需要的,并且使其产生一定的经济效益。对于京东商城而言,不同渠道收集到的数据,数据分析方法也略有不同。京东商城通过多渠道和多种途径来分析数据,分析出用户的特征、地域、教育程度、浏览器、网络接入商、操作系统、终端类型等属性,为大数据的运用做好准备。
4.2 大数据运用阶段
在大数据运用阶段主要包含三个过程,分别为:第一,运用大数据技术为客户进行画像;第二,对客户信息进行完善补充,形成关系网或关系链;第三,制定销售策略,将客户分为不同的类型,通过邮件或短信,将个性化的信息推荐给客户,更多地以客户为中心,进行实时营销和精准营销。
用户画像可以很全面地展示一个用户的全部信息,是B2C电子商务企业运用大数据的基础。通过用户画像,京东商城无论是在精准营销领域、搜索引擎领域,还是在广告投放等其他各种应用领域,都在原有的基础上进一步提升精准度,提高了信息获取的效率。京东商城通过一次购物记录描绘出用户的360画像,但这个画像相对来说是模糊的,不清晰的,需要通过更多的信息来核对,来弥补和完胜。大数据的关系网或关系链正好提供了这些数据和信息。
通过大数据的360度画像和关系网,京东商城对自己的客户有了更详细的了解和认识,为下一步大数据的销售策略提供了极大的帮助和支持。通过大数据的分析,京东商城的营销策略一方面以客户为中心,另一方面借助于互联网的优势进行实时营销和精准营销。
以客户为中心,企业能更好地为客户提供服务,满足客户的合理需求,完成企业自身产品的销售,并逐步在客户中塑造出良好的企业信誉和口碑,为企业自身的长远发展有很好的帮助和影响。京东商城对于用户的网络行为数据和用户所发布的内容数据非常重视,因为京东商城认为使用这些数据可以对客户进行更加深入的了解并判断客户的潜在需求。因此京东商城每次推出新的产品或服务的时候,都可以快速的推向市场。而当产品和服务推出之后,京东商城会利用大数据技术对消费者在网站上留下的点击、购买、评论和推荐等数据进行分析,对该款新产品或服务的受欢迎程度进行打分,还可以预测出消费者是否会为该产品或服务买单,根据预测的结果来决定是应该继续推广这款产品或者服务,或者是停止推向市场。
大数据时代用户的多场景、多渠道、多样化的需求已经给传统营销产业带来了影响和冲击,也为营销实时化带来了新的机遇。面对这种机遇,京东商城应该根据自身条件尽快制定有效的实时营销策略,建立高效的实时营销系统,从而提高企业的服务水平,培育客户的品牌忠诚度。
在大数据时代,随着大数据技术的日趋成熟、数据量的日益增长、数据类型的丰富多样使得更加深入的精准营销成为一种可能和必然的发展趋势,因此京东商城在进行营销活动时需要依托大数据,加大精准营销在营销活动中的比重,这样能够大幅降低营销成本,显著提高营销效率。仅仅掌握大量的数据和信息并不具有太大的价值,只有对数据进行专业处理,挖掘出数据中间所隐藏的巨大价值才能体现大数据的战略价值。而对大数据进行专业化处理和分析的最重要的方面就是进行数据挖掘。
通过本章的研究分析,可以看出京东商城在大数据时代下精准营销的具体过程,归纳总结为两个阶段和三个过程。第一个阶段就是京东商城进行数据收集和处理阶段;第二个阶段是京东商城运用大数据进行分析的阶段。在京东商城运用大数据阶段又分为三个过程:第一,京东商城利用大数据为客户进行360度的客户画像;第二,京东商城对客户信息进行完善补充,形成关系网或关系链。第三,京东商城制定销售策略,将客户分为不同的类型,通过邮件或短信,将个性化的信息推荐给客户,更多地以客户为中心,进行实时营销和精准营销。研究总结
本论文主要研究大数据在中国B2C电子商务精准营销中的应用研究,通过第四章的研究分析,本章节主要是从三个方面做出研究总结,分别是研究结论、研究建议、研究局限与展望。
结合本论文第一章节中提出的两个研究问题(如何通过大数据处理技术,得到B2C电子商务企业所需的信息,以及如何将分析处理后的数据运用在B2C电子商务企业的精准营销中),通过本论文的研究总结,得出结论:京东商城主要采用的是并行数据库的方式来对存储和管理客户的大数据;京东商城受到QQ圈子的启发,将在京东商城网购用户的所有购物记录整合起来,形成京东商城网购用户自己的购物圈子;将客户分为不同的类型,将个性化的信息推荐给客户,以客户为中心,进行实时营销和精准营销。
在大数据时代,越来越多的用户行为都会被记录,这些都是数据,而电商企业所拥有的用户数据也会越来越多,面临技术手段的漏洞,这些数据也同样面临泄露或被滥用的可能,将会对企业的形象、品牌和口碑等带来重大的影响,营销数据的安全和隐私权的保护已经成为一个重要的课题和电商企业必须关注的问题。
随着大数据时代的进一步到来,电商行业的不断发展,新的大数据技术的涌现,营销理念的不断变革,电商企业在大数据时代还会有新的营销理念、营销模式的不断涌现,需要进行更加客观、更加全面的研究。本文的研究还有很多方面有必要做深入研究,可进一步细化研究对象,进一步深入案例研究,这也为笔者下一步进行研究指明了方向。
参考文献:
[1]Author,Central C.,& Ambiga,Dhiraj D.(2013).Big Data,Big Analytics: Emerging Business Intelligence and Analytic Trends for Today's Businesses.[2]Frank,J.(2012).Ohlhorst.Big Data Analytics: Turning Big Data into Big Money(Wiley and SAS Business Series).[3]Bill Franks,B.(2012).Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics.[4]Kotler,P.(2003).Marketing Management(11th ed.).Pearson Education,Inc.[5]Lapis(2012).Understanding Big Data.USA: The McGraw Hill Companies Viktor,MayerM.-Sch?nberger S.(2012).Big Data: A Revolution That Will Transform How We Live,Work,and Think.[6]万后芬.市场营销教程(第2版)[M].北京:高等教育出版社,2008.[7]王方华.市场营销学[M].上海:上海人民出版社,2007.[8]王成文.电子商务环境下市场营销的变化[J].法制与社会,2007,5.[9]王森林,吴志玮.电子商务与企业成本竞争力[J].商场现代化,2007,6.[10]甘晓,李国杰.大数据成为信息科技新关注点[J].中国科学报,2012,3.[11]白云川.迎接大数据时代[J].中国制造业信息化,2011,12.[12]边凌雁.4P营销组合和7P营销组合的比较研究[J].商场现代化,2007,2.[13]苏兰君.现代市场营销能力培养与训练[M].北京:北京邮电大学出版社,2005.[14]李鲤.数据挖掘在电子商务网络营销中的应用研究[J].广西大学报,2011,2.[15]杨涌斌.论精准营销的实现[J].河南社会科学报,2012,4.[16]张玉祥.对市场营销发展的新趋势的研究[J].企业家天地,2007,4.[17]陈刚,李丛杉.关键时刻战略:激活大数据营销,2014.[18]陈娟.我国电子商务发展趋势[J].创新科技,2006(8).[19]青虹宏.电子商务营销[M].北京:中国铁道出版社,2012.[20]高虹.浅谈电子商务对传统市场营销的影响[J].电子商务,2007,50.[21]涂子沛.大数据[M].广西:广西大学出版社,2012.[22]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,8.[23]舒尔茨.SIVA范式:搜索引擎触发的营销革命[M].北京:中信出版社,2014.导师:马书明 副导师:戴友榆
第五篇:数据挖掘在图书馆用户资源管理中的应用研究_周倩
数据挖掘在图书馆用户资源管理中的应用研究
周 倩
(中科院文献情报中心中科院研究生院,北京,100080)中42%的图书馆采用了数据挖掘技术,而剩余的 58%的还没有采用数据挖掘技术的图书馆中有 98%的表示它们将在不久的未来采用数据挖掘技 术。此外,调查还显示,目前图书馆采用数据挖掘技 术的主要模式是基于用户数据与基于用户行为的数 据挖掘,各种数据挖掘软件或工具的发展与成熟为 图书馆利用数据挖掘技术提供了便利的条件[8]。与国外图书馆相比,数据挖掘技术目前在我国 图书馆中并没有大规模地使用,只有为数不多的图 书馆采用了此项技术。但国内图书馆界已普遍认识 到,数据挖掘技术是图书馆现代化发展的关键技术, 将对图书馆信息资源建设和个性化、知识化服务的 发展起到至关重要的作用。基于数据挖掘的图书馆用户资源管理
从以上分析可看出,用户资源管理是图书馆应用 数据挖掘技术的主要领域之一,基于数据挖掘的图书 馆用户资源管理主要体现两层含义:一是图书馆利用 数据挖掘技术提高自身用户资源管理的水平,实现分 析型用户资源管理模式;二是图书馆以数据挖掘的需 求为牵引,组织好用户资源管理的各项工作,从最初 用户数据获取开始就要以后期顺利地实现数据挖掘 为目标,分析、设置好工作标准与内容意义。3.1 用户数据搜集与存储
用户资源管理的第一步工作是搜集用户数据。要实现对用户数据的有效挖掘的基本条件是要将搜 集到的数据以一致的模式存储,建立用户数据仓库。因此,可以说用户数据仓库建设是图书馆用户资源 管理的基础。
(1)搜集用户数据。用户数据按数据类型可大
致分为用户描述类数据、用户需求类数据、用户行为 类数据和用户反馈类数据四个类。目前,随着数字 图书馆的深入发展,图书馆获取用户数据的技术与 渠道不断拓宽,既可以通过传统方式获取,也可以在 数字图书馆服务过程中获取。
(2)构建用户数据仓库。数据挖掘在集成、一
致、经过清理的数据上才能更好地实现,因此必须对 搜集到的图书馆用户数据,进行数据清理、数据变 换、数据集成和数据装入等必要的数据处理过程,建 立一个整合的、结构化的用户数据仓库,并及时更 新。图书馆通过多个渠道获取的用户数据中既有结 构化的、也有非结构化的。结构化数据如用户借阅 资料的数量、Web访问日志等数据,非结构化数据 如用户反馈信息、用户需求信息等。目前数据挖掘 的对象主要是结构化数据,因此,应尽可能采用多种 方法对非结构化的数据进行处理,将其转化为结构 化数据。
3.2 用户多维特征分析和群体分类
(1)用户多维特征分析。针对数据仓库中的图
书馆用户数据,采用简单关联、时序关联、因果关联 等关联分析与序列规则等数据分析与挖掘方法,对 图书馆用户特征进行分析,挖掘用户的隐性信息需 求,获得对管理用户与图书馆交互活动所必需的关 键性特征,并预测用户未来的信息行为。图书馆用 户特征主要由用户的知识结构特征、用户的信息需 求特征和用户的信息行为特征组成。知识结构特征 说明了用户目前对其专业领域或感兴趣的专业领域 的知识掌握情况;用户的信息需求特征表明了用户 信息需求的专业范围、载体、类型、语种以及用户需 求的现有满足程度等;用户的信息行为特征反映了 用户使用信息的习惯和模式,以及访问信息的规律、特点和趋势等。
(2)用户群体聚类分类。对于图书馆用户特征
进行多维分析的主要目标,并不是仅对单个用户在 图书馆内的信息行为进行分析,而是希望对具有相 似特征的用户建立模型,进行图书馆用户的有效分 类与聚类,发现各种虚拟用户社区,为针对不同类型 的用户群提供不同的个性化服务方案[9]。对数据集 合的分类是数据挖掘技术的主要功能之一。图书馆 用户分类是找出一组能够描述用户群体典型特征的 模型(或函数),以便能够分类识别未知图书馆用户 的归属或类别或预测未知图书馆用户实例的归属类 别。分类挖掘所获得的模型可以采用多种挖掘方式 获得,按照难易程度分为分类规则(IF-THEN)、数 学公式(Mathematical formulae)、决策树(Deci-siontrees)和神经网络等方法。图书馆用户聚类分 析是把一组图书馆用户按照相似性和差异性分为几 个类别,其目的是使得属于同一类别的用户间的相 似性尽可能大,不同类别中的数据间的相似性尽可 能小。每一个聚类分析所获得的图书馆用户组可以 看成是一个同类别归属的用户对象集合,然后对这 些同类别数据集通过分类,获得相应的分类预测模 型(规则)。由此,通过反复不断地对所获得的聚类 组进行聚类分析,可获得初始图书馆用户数据集合 的一个层次结构模型。
3.3 面向用户生命周期的数据挖掘
图书馆用户生命周期主要由三个阶段组成:用
户的获取、用户的保持和用户的流失。图书馆用户 资源管理的主要目标是要最大限度地延长用户的生 89 周 倩:数据挖掘在图书馆用户资源管理中的应用研究
Zhou Qian:A Study on the Application of Data Mining in the User Resources Management of Libraries 能真正以用户使用的效益方式体现出来[2]。(2)用户资源管理是图书馆个性化服务的重要基 础。图书馆个性化信息服务的实质就是一种以用户 需求为中心的服务方式。一个图书馆的个性化服务 的通常步骤为:一是收集用户的各种信息;二是分析 用户数据,创建符合用户特性的访问模式;三是结合 用户特性,向用户提供符合其特殊需求的个性化服 务[3]。图书馆用户资源管理的本质与目标是对用户 信息及信息行为经过深入的研究与分析,在满足用户 直接信息需求的基础上,发掘用户的潜在需求,使用 户得到延伸的服务收益,以此给予用户强烈的个性化 服务感受和“无缝式体验”,提高满意度,在实现用户 价值最大化前提下实现用户和图书馆双赢。(3)用户资源管理是图书馆知识管理的主要途
径。图书馆实施知识管理的主要目的就是把最恰当 的知识在最恰当的时候传递给最恰当的用户,这正 是与用户资源管理的最终目标相一致的。图书馆用 户资源管理中含有大量可供共享的信息,包括用户 基本信息、需求信息、服务活动信息、服务效果信息 以及在整个用户生命周期中同图书馆交互活动的信 息。用户的信息就像原材料一样,被进行系统整理、分析后可以在图书馆内部形成共享,从用户信息变 为用户知识。“用户”、“知识”和“管理”处在一个封 闭的循环系统中,图书馆运用这个循环体系中的用 户知识,从与用户的交互活动中实现其社会价值。1.3 图书馆用户资源管理现状分析
用户资源管理在实际运作中可以大致分为两个 层次。一是描述型用户资源管理。它更多关注用户 信息的组织和管理的简单化,包括用户与图书馆交 流渠道的集成,用户信息的归档与简单化的定量统 计。二是分析型用户资源管理。这种管理方式强调 对用户数据进行规范化存储、提取、处理、解释,产生 相关用户知识报告。可以说,分析型的用户资源管 理通过对用户数据的分析,真实反映用户的行为特 征和属性,并据此进行各种推理和分析,为图书馆决 策和服务行为提供客观依据。就目前而言,国内大 多数图书馆用户资源管理仍属于描述型用户资源管 理,还不能大范围地实现对用户属性特征和信息行 为特征的整理和分析,不能广泛地从用户信息中发 现能够反映其信息与服务需求特质的模式或模型并 进行相关用户的规模化分类与聚类。而数据挖掘技 术的发展与在图书馆的应用则为图书馆解决上述问 题,突破描述型用户资源管理的局限性,开展分析型 用户资源管理提供了有力的支持和保障。2 图书馆研究与应用数据挖掘技术概况
数据挖掘(Data Mining)是从大量、不完全、有噪
声、模糊、随机的数据中,抽取出隐含在其中的、人们 事先不知道但又是潜在的、有价值的知识、模型或规 则的过程,是一类深层次的数据分析方法。它根据数 据的微观特征,发现其表征的、带有普遍性的、较高层 次概念的知识,是信息优势成为知识优势的基础工 程。数据挖掘是一门交叉学科,包括机器学习、数理
统计、神经网络、数据库、模式识别、粗糙集、模糊数学 等相关技术。数据挖掘技术包括三个主要部分:算法 和技术、数据和建模能力;按照功能分为两大类:预测 型(Predictive)模式和描述型(Descriptive)模式[4]。自20世纪90年代后期,图书馆开始高度关注 并研究数据挖掘技术,并致力于将其引入到图书馆 的现代化建设中,有不少图书馆学专家提出了面向 图书馆的数据挖掘技术应用理论与方法。例如: May Chau博士提出了几种学术型图书馆与数 据挖掘的相关性理论模型,并且开发了图书馆网上 数据挖掘系统,帮助用户查找信息[5]。Kyle Baner-jee先生研究了数据挖掘技术帮助图书馆的不同方 式。在1998年,他提出,全文本、动态变化的数据库 更适于采用数据挖掘技术[5]。2002年,Nicholson 和Stanton就图书馆中的数据挖掘过程提出了一个 专业术语“Bibliomining”(书目挖掘),指出书目挖掘 是在图书馆中,将数据挖掘技术、书目计量方法、统 计学理论与报告工具有机结合在一起,从基于行为 的信息与数据中获取隐含的模式[5]。1996年,ALA 的《Library Administration and Management》期刊 出版了一期关于图书馆数据挖掘的特刊,当时在文 章中提到的数据主要来自图书馆自动化系统,后来, 随着数字图书馆的发展使得可以用于数据挖掘的数 据大幅度提高。鉴于此种情况,《Library Adminis-tration and Management》于2003年再次出版一期 以数字图书馆数据挖掘技术为主题的特刊,并列举 了一些图书馆利用数据挖掘技术的实际案例[6]。2005年6月,OCLC公布了三个新的研究计划,其 中之一就是数据挖掘研究计划,其主要目标是通过 对WorldCat及其它数据源的挖掘,找到隐含的、有 用的信息,以此帮助图书馆管理者更好地做出馆藏 建设与服务的决策[7]。
就图书馆利用数据挖掘技术的规模和应用潜 力,研究图书馆联盟(ARL)2003年曾做过一次调 查。ARL中的124个会员图书馆参加了此次调查, 其中有52%的图书馆反馈了调研表。调查显示这 88 2006年第6期
图书·情报·知识
[摘要] 用户资源管理是现代图书馆资源管理的核心内容,是图书馆实现个性化服务的重要基础。
数据挖掘作为一种深层次的数据分析方法,可以从大量的数据中挖掘出反映用户属性特征和信息
行为特征的信息和规则,从而为图书馆用户资源管理提供极大的帮助。基于数据挖掘的图书馆用
户资源管理包括用户数据搜集、用户数据仓库构建、用户多维特征分析和群体分类、面向用户生命
周期的数据挖掘等主要内容。
[关键词] 数据挖掘 图书馆 用户资源管理 应用 个性化服务 数据仓库 [中图分类号]G252 [文献标识码]A [文章编号]1003-2797(2006)06-0087-04 [Abstract] The user resources management of libraries based on data mining should include the following methods:collecting user data,constructing user data warehouse,analyzing user char-acteristics and classifying group,data mining for the whole user life cycle and so on.[Key words] Data mining Library User resources management Application Personalized services Data warehouse 1 图书馆用户资源管理
图书馆用户是指利用图书馆信息资源及信息服 务的一切个体或群体。图书馆用户资源是图书馆在 长期的信息服务过程中逐步形成的,是图书馆服务 能力在社会关系体系中的呈现。与图书其它资源相 比,用户资源有它特殊的性质,例如动态的伸缩性和 拓展性,对其它类型资源强烈的依附性。1.1 图书馆用户资源管理的内涵
在图书馆的发展历程中,其资源的内涵不断拓 展,资源管理的内容也不断丰富。早期的图书馆资 源管理主要是指对有形的资产进行管理,包括文献
资源管理、设备资源管理、人力资源管理、经费管理、服务场所管理等。其后图书馆资源概念扩展到无形 资产,包括服务品牌、图书馆文化等。但这种管理的 概念也仅仅局限于图书馆内部。在现代信息社会, 伴随着数字图书馆的发展,图书馆将“用户”这种外 部资源纳入到自身的资源管理体系中,把用户作为 图书馆的一种资源进行有效的管理,并实现与图书 馆其它资源的整合。
从资源管理的理论层面上讲,用户资源管理是 对有使用价值的用户资源,通过有效的管理与控制
[作者简介] 周倩,女,1972年生,中国科学院文献情报中 心及中科院研究生院在读博士生,中国国防科技信息中心副 研究馆员,发表论文20多篇。
程序,来实现图书馆某种服务效益的目标活动。从 实际工作层面上讲,用户资源管理主要是指对用户 和图书馆之间的交互活动进行管理,具体包括用户 信息管理、用户服务活动管理、用户后期支持管理。用户信息管理的主要任务是系统地搜集、组织与存 储用户的相关信息,通过对用户信息的统计和分析, 明确用户信息需求和服务需求,划分用户群;用户服 务活动管理则负责将对用户在图书馆内的信息行为 进行管理,针对用户个性化需求,制定出图书馆相应 的信息资源建设和服务策略,实现与用户服务活动 相关的所有信息的集成;用户后期支持管理主要是 对用户接受服务后的情况进行跟踪了解和分析,发 现问题,提出不断修正和提高的方案[1]。1.2 用户资源管理在图书馆中的重要地位(1)用户资源管理是图书馆管理的核心。图书
馆管理主要包括三个方面:一是信息资源管理,即对 信息的搜集、加工、组织、开发利用等实施全寿命管 理;二是信息环境管理,主要包括信息技术管理、信 息政策管理、组织机构管理、设施与经费管理以及人 力资源管理;三是用户资源管理。其中,用户资源管 理是核心内容,信息资源管理与信息环境管理必须 以用户资源管理的要求和目标开展工作,因为只有 这样才能将“用户”作为一种资源有效地贯穿于图书 馆管理工作的全过程中,图书馆管理的效果与价值 87 命周期,抑制用户的流失。
(1)用户的获取。图书馆要在竞争日益激烈的
服务环境中生存和壮大就需要不断获得新的用户, 维持老的用户,而当用户数量不断增长,用户的细节 因素增多时,要为用户提供更好的服务并赢得更多 的用户只能依靠数据挖掘技术才能完成。利用数据 挖掘中的一些技术(如统计回归、逻辑回归、决策树、神经网络)揭示新用户的行为习惯,生成预测模型和 建立评分模型,预测发现一些在不同情况下有相似 行为的新用户,对潜在用户进行筛选,有效增加服务 推广效应,把潜在的用户名单和这些用户感兴趣的 资源与服务系统地结合起来,为每一个用户提供主 动化、个性化服务,使潜在用户转化为正式用户,以 不断地获取新用户。
(2)用户的保持与流失。用户保持与图书馆服
务能力息息相关。图书馆用户流失的主要原因之一 就是图书馆对用户的关怀和服务不够,因此保持原 有用户的工作对于图书馆来说变得非常重要。数据 挖掘技术可以对用户数据仓库中的大量数据进行分 析和处理,以识别、分析和评价用户流失风险,分析 出用户为什么会流失?哪些因素会导致用户的流 失?用户流失风险主要来自于何处?如何保留住图 书馆的高价值用户?在用户保持中,一般涉及3个 过程:首先,建立模型用来预测和识别潜在的流失用 户;其次,通过数据挖掘识别潜在流失用户中的图书 馆重要用户;第三,利用聚类分析等方法对图书馆重 要用户中的潜在流失者进行分析挖掘,识别其行为 模式等,从而有针对性地采取相应的服务措施,保留 住用户[10]。几个相关问题的思考
首先是数据挖掘精度的问题。当前许多数据挖 掘系统或工具都是数据驱动的数据挖掘,仅仅是在 数据内容上产生规则,因此来源数据的准确性对数 据挖掘精度将会产生很大的影响。此外,数据挖掘 不是万能的,而只是一个工具,它只是帮助图书馆工 作人员更深入、更容易地分析数据,它无法告诉你某 个用户模型对你的图书馆的实际价值。而且数据挖 掘中得到的模型必须要在实践中进行验证。将本体 理论与数据挖掘技术相结合是有效解决数据挖掘精 度问题的一种途径,因为基于用户本体的数据挖掘 将利用领域知识或背景知识,可在高层次上进行数 据挖掘,产生高层次或多层次的规则,甚至是具有语 义意义的规则,同时可利用本体进行数据预处理,提 高待挖掘数据的质量[11]。
其次是用户隐私保护问题。在构建用户数据仓
库的前期,对于用户数据进行预处理阶段要注意将显 示用户隐私的数据处理掉,例如对不愿透露自己IP 地址的用户,如果日志记录访问时间为10:32/10-29-02,可以用102902-1032-A作为其IP地址代码[12]。第三是数据挖掘系统嵌入图书馆其它应用系统 的问题。目前数据挖掘技术正在不断发展和成熟, 许多数据挖掘工具可以和图书馆相关应用系统集 成,成为嵌入式的技术。参考文献 周倩.构建图书馆现代化CRM系统.图书情报工作, 2004(6)2 周倩.复合图书馆信息资源管理研究.图书情报知识, 2003(5)3 冯是聪单松巍等.基于Web挖掘的个性化技术研究.Http://net.cs.pku.edu.cn/~webg/twpaper/fsch web personalize.pdf(2005-11-08)4 朱建平,张润楚等.数据挖掘的发展及其特点.知识丛 林,2002(7)5 Scott Nicholson.Bibliomining for Automated Collection Development in a Digital Library Setting:Using Data Mining to Discover Web-Based Scholarly Research Works.Http://dlist.sir.arizona.edu/625/01/asisdiss.html(2005-10-26)6 Nicholson,Scott and Stanton,Jeffrey.Gaining Strategic Advantage through Bibliomining:Data Mining for Man-agement Decisions in Corporate,Special,Digital,and Traditional Libraries.Http://dlist.sir.arizona.edu/826/(2005-12-28)7 New OCLC Research projects:Curiouser,Data Mining, and WikiD(nee MetaWiki).Http://(2005-10-28)10杨中华.数据挖掘在客户关系管理中的应用研究.湖北 汽车工业学院学报,2004(1)11邢平平等.基于本体论的数据挖掘方法.计算机工程, 2001(5)12 Scott Nicholson.The Bibliomining Process:Data Ware-housing and Data Mining for Library Decision-Making(收稿日期:2006-04-10)