第一篇:大数据与个人
大数据应该服务于个人还是服务于商业?这其实是一个深刻的问题。一个不好的事实是,目前主流的认识偏向于大数据的商业价值,许多人误以为大数据是为了帮助商业组织更好地赚钱,让他们从竞争中脱颖而出。
未来会有公司或因自我迷失或因外部误导,走上商业利益绝对化的大数据利用之路——殊不知在新知识和信息机制大发展的环境下,以大数据引爆商业利益固然未可厚非,但一旦在这一过程中有意或无意地损害了个人的利益,同样会引爆报复性的反击,而且这不仅是个人层面的,更是社会层面的反击。
商业巨头们经常产生一种误解,认为他们所拥有的大数据是自己的财富,是自身赢得竞争、战胜市场的资源。但是,大数据的终极所有者并不是商业组织,而是社会以及个人,市场的内在要求是大数据必须开放和共享。
正如市场是人的活动的产物,大数据同样是用户活动的产物而非市场的产物。应该讲,在历史的长河中,目前的大数据还处于成长初期归属未明、制度缺失的特定时期,商业组织对大数据并不拥有法定的占有、使用、收益和处置权,其至多拥有某种事实上的占有权。
大数据之“大”,既在于其总体体量之大,也在于其对个人而言的意义之“大”。对个人而言,大数据不仅意味着传统意义上的隐私,更意味着一个人是否交出对自己生命的控制权,是否让自己成为数据枷锁下的奴隶。这是必须树立的一个非常重要的认识。
大数据是个人生命的一部分,是社会肌体全新的核心构成。如果社会和个人放弃对大数据的权利要求,那不啻于将个人类的一部分天然权利割让给不同的商业组织,或者说人们默认自己在部分意义上成为某些商业组织的奴隶——人将不再是自由的社会人,因为他们的一部分成为商业组织牟利的机器。
大数据可催生核武器一般的社会权力,其无论为政府还是商业组织所掌控都可能破坏近几百年相对趋于稳定的社会制度基础,而且随着大数据的迅猛增长和相关技术、机制的高速发展,这种风险正如暴雨和洪水下猛涨的河流水位一般,随时会猛烈地冲击社会权力稳定的传统堤坝。
这向我们提出一个必须令所有人重视和警醒的问题:在大数据时代,如何界定大数据的权益归属,如何控制大数据的使用风险?在大数据时代,如何保持我们全社会的数据民主?
如果大数据在商业利用的消极方向滑得太远,其所带来的将不仅是个人隐私方面的问题,大数据的风险既是个人风险,更是社会风险。当大数据的损害发生时,付出代价的不仅是个人,还将包括整个社会的文化价值观以及权力和财富的结构。
大数据的权益归属之争,事关个人和社会的自由与未来。其实,当大数据之潮流尚方兴未艾之际,关于大数据力量、控制和风险的矛盾、分歧就已暗流涌动。当商业组织欢呼雀跃,市场人士一片赞声的时候,每个人都需要反思的是,大数据在给予我们的生命以馈赠的同时,是否还有可能从我们的生命中剥夺什么?
第二篇:数据中心工作模块内容与个人总结20110904
数据中心工作模块内容与个人总结
4月14日步入公司的大门已经四个半月有余,现对在此过程中,工作中需要注意的几个方面做以下总结和说明(全文均以浙江省区为例):
一、建档
1、每月月初将上月档案下发给省区行政助理核对。
1)检查上个月的档案是否正确,确保操作上的失误导致档案在无意识的情况下被变更的可能;
2)检查本月档案是否需要变更,如删除、新增以及单位属性变更等;
3)将修改过的最新档案再次下发给省区行政助理核对,确保已修改无误;
4)档案变更工作需在流向计划和报量计划新建之前完成,原则上要求每月5日之前完成档案的修改工作;
5)浙江省区医疗档案现暂时由省区自行管理,数据中心监督。省区在修改档案时,需提供修改证明,即报告证明,由数据中心数据专员统一备案保管。
2、建档(以核心药店的建档为例)时需要注意的几点:
1)建档时,切记单位属性不要搞错,是核心药店还是核心医疗,需格外小心谨慎;
2)导入档案时,选中关键字“快速查找”该条记录是否已在现有的档案中。若有,则只需选中该条记录“确定档案”更改其对应的属性即可;若没有,则“新增档案”,完成单位属性及所在区域的设置即可;
3)使用关键字搜索时,若发现有多条记录并确认这些记录属于同一终端,则需要进行“档案归并”操作。归并操作一般将ID号大归并到ID号小的终端上。
档案归并有以下两种方式:
a)在搜索结果栏中,选中这些记录,点击下方的“档案归并”,选择要归并哪家终端即可,最后再修改终端属性;
b)在菜单栏中,选择“终端”->“档案调整”->“终端归并”,使用关键字“过滤”出需要归并的记录,在左侧选中要归并掉的记录,在右侧空白框内输入要归并到的终端ID,点击“查询ID”,确认无误后点“归并”即可完成;
注:归并操作必须在确认这些记录确为同一终端的情况下操作,一旦操作不可更改!
4)选中记录,在更改单位属性前,务必查看右侧下方显示的终端信息,特别需要注意的是该条记录的单位属性。如该条记录本身的单位属性已为“核心药店”,则记录下该条记录的终端ID及其他必要信息,以备反馈给终端办和省区。同时,跳过该条记录不做任何修改。
5)档案导入过程中,时因系统或计算机本身的问题会出现错误,为防止重复工作,切记做好“过程保存”;
6)档案导入完成后,查看“过程保存”记录,确保所有记录都已导入系统。对未导入记录重新导入;有异议的记录,及时反馈给终端办和省区;
二、流向
保证流向的正确、完整是非常重要的,因为之后的报量、进销存以及各项费用都有由流向来核实并计算得到的。因此,请认真仔细对待流向录入工作。
浙江省区数据中心数据专员需要导入流向的为品牌商业的品牌药和KA连锁的全部产
品,品牌商业的处方药及处方商业的全部产品都由金丽衢、温台、宁绍舟和杭嘉湖四个办事处的行政助理负责整理并导入。其中,品牌商业的品牌药包括前列康、刻停、非那雄胺(艾仕列非那雄胺统一录入为非那雄胺,1386)和蒙脱石散四个大类的产品。
为保证操作上的一致性及连贯性,当这些流向数据有误时,数据中心数据专员要及时与省区行政助理沟通协调,由对应的办事处行政助理予以修改。数据中心数据专员对修改的结果进行检查核实是否无误。
其他省区所有品规的流向都由数据中心对应的数据专员负责导入完成。
流向录入工作需要注意的几点问题:
1、流向整理;
1)统一的格式:DW(单位名称)、DTAE(日期)、SL(数量)、GOODSID(产品编号)、BZ(批号)以及PRICE(单价)六个字段(不分前后顺序,大小写)并将整理好的数据放在Excel工作簿的sheet1表中;
2)SL列必须是数值型格式,文本型格式系统会报错;
3)BZ列格式必须统一,若既有文本型的又有数值型的,系统默认只导入其中一种数量多的格式;
4)DATE列格式要求为2011-9-4,非本格式系统会报错;
5)整个数据表格式要求统一,如其中有一行数据明显的与其他行格式不统一,系统很有可能就不能导入该条记录。
6)KA连锁流向由商业总部体现的处理方法:将商业流向中体现为KA各门店的流向剪切到一张新的工作簿中,此工作簿中的流向数据作为KA连锁的流向明细导入到系统中。同时,在商业总部流向中补充一条以KA连锁总部名称购进的总数量明细。
7)KA连锁流向一般只能为KA连锁下属分店,少数情况下流向社会店。如出现流向医疗机构、一二级商的,一般属不正常现象,需与省区、代表核实原因再做处理。
8)切忌GOODSID整理错误的现象发生,大多数流向导入错误的情况都是整理出了问题。
2、流向导入前,检查:
1)格式是否有错,六个字段是否齐全,是否在sheet1表中;
2)参照原始流向,是否有漏掉哪个品规没有整理的,是否是数据中心数据专员需要导入的产品,切不要将省区办事处行政助理要导的产品导入系统,导致流向重复录入;
3)参照原始流向,产品ID是否有整理错误的;
4)参照原始流向,SL列是否有将购进或库存错当销售的;
5)KA流向是否由商业流向体现的,需要做上述处理的;
6)KA流向是否有流向医疗机构、一二级商的非正常流向的;
7)日期字段中,是否有其他月份流向的。若有,需核查是否是补录流向,若非补录流向,需及时与省区沟通说明;
8)检查系统中,办事处行政助理是否有将非其录入的流向导到系统中的。若有,告知行政助理并删除这部分流向;
3、流向导入时,检查:
手工导入时,是否出现了同一单位有多条记录的。若有,则参照建档的归并方法归并掉其他药店或其他医疗等记录。
4、流向导入后,检查:
1)“销售日期”是否为本月,非本月的记录是否已核实是补录的流向;
2)“备注”即“批号”,是否有录入。若没有,查看原始流向是否提供。若原始流向本身就没有,与省区、代表核实原因。
3)“所在地区”是否为外省。若是外省,参考“流向名”,确认是否确为外省流向。若非外省流向,则说明出现串户。
“修改字典”的操作方法:
首先,进行字典修改,以防下次录入时再次出现串户情况。“档案”->“单位管理”->“批量修改”,输入串户ID(A流向串户到B,则输入B的ID,修改B 的字典),“修改字典”,剪切无用的字典项,保存。
“串户调整”的两种情况:
a)本月流向,双击记录行,以“部门查”搜索流向单位。若没有该条记录,则“加单
位”。注意,此操作会丢失原记录的“批号”,需要手工在“备注”中输入该记录的批号。
b)非本月流向,“终端”->“档案调整”->“串户调整”,按实际销售或购进调整。
4)导入率的登记,以备后查!
5)流向的录入工作需在每个月15日前完成。15日之后,确需修改流向的,需与领导说明情况,领导同意后方能修改。
三、报量
浙江省区报量分为核心药店报量和基层医药报量。
基层医疗报量现暂时由省区自行管理、核算,数据中心负责数据采集系统的计划项目的建立并监督省区报量各个进度的完成情况。
核心药店报量从计划的建立到最后报量的核实都由数据中心负责完成。
报量核实过程中需要注意以下几点(以核心药店报量为例):
1)报量计划需在月初建好,8日前完成上报工作并在15日前结束报量核实、流向修改各项工作内容;
2)报量核实过程中,以“单位ID+产品简称+购进渠道”与流向进行匹配,三者缺一不可;
3)由于以“单位ID+产品简称+购进渠道”匹配,需确保代表上报的“产品简称”与流向中的一致,“购进渠道”名称与档案名称一致。否则,匹配率较低,影响核实进度;
4)一般而言,报量只核实当月的数据。若出现其他月份的数据,需与省区、代表核实原因;
5)当“代表上报量-流向体现量”大于0或无法匹配时,先与系统流向核实确认,再与代表提供的原始流向核对,确认差异原因;
6)当“代表上报量-流向体现量”小于或等于0时,不计入核实范畴;
7)若出现了同一终端出现了多个别名且系统流向流向非核心药店的终端时,首先需进行“档案归并”掉性质为“其他药店”的别名终端,同时,修改对应的流向记录;
8)整个过程核实完成后,上报财务部并提供相应的流向证明。上报财务部的数据,原则上“就低不就高”,即不论是代表上报的量多了还是系统流向体现的多,都取量少的为基准上报财务部核实相关费用。
四、进销存
进销存是检查流向是否正确的一个重要途径。因此,进销存的核对工作需在每个月15日前完成并对出现错误的流向进行必要的调整和修改。
正确理解进销存中两个公式:
(一)延续期末理论库存(主渠道库存)=期初理论库存+本期购进量-本期销售量;
(二)期末理论库存=期初实际库存(上期期末库存)+本期购进量-本期销售量;
完整的进销存表共包括X月进销存平衡表、主渠道库存和二级与KA购进三张表。
1)根据第一个公式可知,当修改了“购进量”或“销售量”时,那么,相应的“延续期末理论库存”也发生了改变,即主渠道库存发生了改变。于是,在修改了“购进量”或“销售量”时,相应的要在“主渠道库存”表中作调整。若修改了“购进量”,相应的要在“二级与KA购进”表中作调整。
2)根据第二个公式可知,如果需要修改“期初实际库存”,那么,对应的上月进销存中的“期末实际库存”也需要进行修改。若上月进销存已经平衡,需要修改“期初实际库存”导致需要修改上月进销存中“期末实际库存”的,一律不予以修改。
3)若修改了进销存各表的数据,需批注原始数据再进行相应的数据修改,确保数据修改有据可查;
4)“购进量”或“销售量”在系统流向和原始流向都无法核实的情况下,需代表提供相应的凭证。若“购进量”有误,代表需提供购进凭证或带销售上游盖章的流向证明;若“销售量”有误,代表需提供商业盖章的流向证明;
5)“期初实际库存”或“期末实际库存”的修改,由省区行政助理汇总需修改的数据表统一上报渠道办或终端办审批。数据中心根据审批意见做相应的数据修改和备案。
五、库存
现行的库存制度为每个月上报三期,分别在每个月的10日、20日和30日或31日。期末库存=期初库存(上期期末库存)+本期购进-本期销售;
目前使用的库存上报系统中,有公司发货、一级购进、二级购进、全部购进、期初库存、期末库存以及商业流速、省区流速等字段列名。
1)“公司发货”为我办导入的由公司提供的公司直发给一级商商业或KA连锁的直发数据。对应代表上报的在库存表中体现的“一级购进”;
2)“二级购进”为二级商商业或KA连锁从一级商或二级商商业的购进量;
3)“全部购进”即“一级购进”与“二级购进”的总和;
4)无论是10日、20日还是30日的库存上报,“期初库存”都为上一个月的“期末库存”;
5)“商业流速”与“省区流速”的不同之处在于:“商业流速”体现的购进是“全部购进”,而“省区流速”只体现“一级购进”;
6)一般而言,“商业流速”出现负数的情况,我们就认为库存上报是有问题的,需要代表反馈原因进行说明;而“省区流速”为负数,数据上就未必是有问题的啦。
以上文字都为个人在实际工作中的一点点理解,之中或多或少的会出现一些理解上的偏差。如有不妥之处,望领导予以指正!
廖书锋
2011-9-4
第三篇:大数据与智慧城市[范文]
苏论道:大数据与智慧城市
2015-06-26尚尔刚
6月17日,由苏州大学计算机科学与技术学院、中国计算机学会苏州分会联合主办的“大数据与智慧城市”主题报告会在苏大本部报告厅隆重举行。报告会由苏大科学技术与产业部常务副部长、计算机科学与技术学院博导朱巧明博士主持,苏州市各区县的经信委、发改委部分领导列席,计算机学会成员和苏大师生约200人出席。
中兴通讯大数据产品资深工程师尚尔刚在报告会上发表了同题演讲,介绍了大数据和智慧城市的相关技术,以及中兴通讯大数据平台在智慧城市建设中的实践经验。下文是演讲的精编版。
各位来宾、领导、老师、同学们下午好,我非常荣幸有机会在这里能与大家一起分享一下大数据与智慧城市的一些知识观点。
今天我要与大家分享的内容主要分为三部分,第一部分是对大数据的解读;第二部分主要对智慧城市做个简介,第三部分主要分享一下大数据在智慧城市建设中的一些具体应用。
最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
业界将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、音频、图片、地理位置信息等等;第三,价值密度低,商业价值高,关于价值下面我们会进一步详细讨论;第四,处理速度快,谷歌的搜索,每月40亿小时的视频,4.25亿Gmail用户,150PB Web索引,却能实现0.25秒搜索出结果,足以看出大数据的处理速度是惊人的快。在大数据时代,三分技术,七分数据,得数据者得天下。无论国内国外目前看都是这样的,国内的有bat三家公司,国外的有谷歌,facebook,亚马逊,苹果等等公司都是因为掌握了大量数据,才成就了今天的巨无霸公司。
第一,情景辅助,操作基础
数据本身被记录下来,并非全部是为了长远的利益所用。很多记录其实发挥的作用是一种操作的基础,脱离了记录,后续的操作将难以进行。举个例子说明一下,假如我在炒股,突然有个消息,某某地方刮台风了,并且导致了当地损失惨重,那现在我不能快速判断对那些股票是利好那些是利空了,现在大数据可以帮忙。在美国有一家创业公司,研发了一款大数据软件,名字叫沃伦软件,该软件就是基于大量的金融数据,政治事件,交易数据,加以复杂的模型运算,能够快速的给出结果。
第二,情景复原,责任追究
数据记录也是对以前操作过程的一个虚拟备份,记录了各自多方不同的操作过程及次序,乃至不同环节的具体操作内容。这样一种作用可以看作是记录本身最被认可的初始价值。历史上的各种备忘录,金融记录(例如会计),甚至包括历史都是出于这样一种动机来加以记录的。记录让操作的当时情景有了复原的可能性,哪怕只是一种并非完整的复原。这种复原除了纪念意义等的考虑外,还有一个重要的价值就是事后的责任追究,是一种奖惩的基础。这样一种作用看似很微小,但却是人类社 会运作的基础。尤其是在连接时代的今天,不同主体之间的交互不断加剧,情景复原会让每个主体对自己的操作更为负责,让各种有效的连接成为一种可能。随着互 联网与线下实际经济行为的日益融合,一次鼠标点击有可能代表着很大的利益转移,结合网络协议的操作记录成为了大家网上操作时承担对应责任的依据。淘宝网鼓励买家与卖家在旺旺上聊天的时候将聊天记录保存下来。在具体的投诉环节,相互之间的聊天记录可以作为一种证据去为自己辩护。而包括中间买方下单,支付款项,卖家发货,快递公司名称以及单号,甚至包括该单在快递过程中的状态,时间,甚至有些快递公司将具体快递员的姓名和电话也记录在内,最后签收的方式 等都被详细的记录下来。所有这些记录发挥了一种情景复原以及事后追究责任的作用,从而确保了交易的正常进行。
第三,情景指引,方向微调
一个系统在运行的过程中,有些时候也会出现一些跟平常不一样的差异所在。当这种差异所代表的数据通过极值等各种方式体现出来的时候,系统本身的原有平衡可能会被打破,内部各方面的环节或资源就有可能跟不上。这个时候适当的外力参与很有必要,以免出现系统崩溃的情况。中国的计划生育政策已经执行了很多年,而且也取得了一定的效果。但最近几年随着中国人口老龄化的加快,未来一些年社会对劳动力的需求会逐渐加强,劳动力短缺有可能成为中国的关键问题。在这样一种情况下,基于各种人口数据的不断变化,适当地进行人口政策的调整已经变成一种必须。但具体怎样调整,则需要根据数据来说话
第四,情景研究,系统优化
对未来的预测功能是目前业界对大数据最看重的价值之一。基于之前记录下来的各种数据的深入研究,发现其中的规律特征,从而进行系统优化,甚至升级。如果前面的纠偏只是一些相对较小的指引的话,那么基于预测的情景研究和系统优化,则是相对较大的变动。这种基于预测的价值实现对系统(包括个人、企业机构,也包括各种电子性工具)的长远运行来说价值重大,其决定了一个系统是否具有长期的成长性和演变能力。
一个主体(系统)不但要考虑即时的运行,以及下一步的正确操作,更需要考虑长远的运行可能。尤其是在竞争激烈的今天,各种企业机构之间的竞争非常残酷。如何基于以往的运行数据,对未来的运行模式进行预测,从而提前进行准备或者加以利用、调整,对很多企业机构其实是一种生死存亡的问题。这样一种情况同样适用于国家级别。正因为这一点,目前无论是在企业级别还是国家级别都开始研究、部署大数据。
中国的粮食统计是一个老大难的问题。中国的统计,虽然有组织、有流程、有法律,但中央的统计人员依靠省统计人员,省靠市,市靠县,县靠镇,镇靠村,最后真正干活或上报的是基层兼职的调查人员,由于众所周知的KPI考核导向的原因,层层加码,几乎没有人相信这个调查数据,而其中国家统计局的人是最不信的。在前两年北京的一个会议上,原国家统计局总经济师姚景源讲述了他们是如何做的。他们采用遥感卫星,通过图像识别,把中国所有的耕地标识、计算出来,然后把中国的耕地网格化,对每个网格的耕地抽样进行跟踪、调查和统计,然后按照统计学的原理,计算(或者说估算)出中国整体的整体粮食数据。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。
1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。
第四篇:大数据与个性化教学
大数据与个性化教学
作者:何年
来源:教育 2015年22期
现代社会标准化、批量化的大工业生产提升了生产力,与之对应的大课堂教育模式、单一标准评价模式,则因为忽略个体的差异受到批评。进入信息时代后,互联网技术的发展促进了教育的民主化,让人们随时随地都能获取知识。在信息时代,大数据技术使得小批量、个性化的生产和教育行为成为可能。与传统教育模式中一位教师面对多名学生相比,信息时代日益强烈地呼吁个性化教学。
大数据教学就是因材施教
国家信息产业部项目管理中心教授刘俊平认为:大数据技术将彻底改变教育。信息技术的长足发展,使教育发生了翻天覆地的变化。最近几年,云计算与大数据的概念出现,标志着大数据时代来临,教育信息化进入了服务化阶段。这个阶段,开始强调以人为本,科技的目光转向了学校核心内容——教学。刘俊平指出:“在信息时代,人们的活动被各种电子产品记录下来,形成庞大的数据库。商业领域已经开始高度重视这些数据,大数据引发了个性化服务的热潮。在教育领域,同样也可以利用学生学习活动的一些数据,精准把握学生的学习情况,从而提升课堂教学效果。”
浙江省嘉兴市南湖区大桥镇中学校长沈利华认为,大数据教学将实现教育的个性化。教师通常面对所有人布置作业。但在大数据时代,技术能够帮助教师了解每个学生的需求,绵延了两千多年的“因材施教”的理想,有望成为现实。他表示:“我们应利用大数据将‘信息过载’的难题转变成为个性化的教育。”嘉兴市余新镇中心小学校长王慧松也认为:“大数据时代的来临,使得过去无法收集与分析的数据,都被新的技术手段轻松破解。大数据时代的到来,让跟踪每一个人的数据成为可能。对于教育者来说,我们将比任何时候都能更接近真正的学生。大数据的支持,标志着个体化教育的时代到来。在缺少大数据分析之前,可能一直以为,在某个时间段同样成绩的学生的学业水平基本是一致的,也可能认为学生的某一次学业成绩的异常是因为粗心造成,一直凭经验下结论。大数据教学,使我们有能力去关注每个学生的微观表现,这些数据能清晰反映学生学业成绩背后的原因,能帮助教师确定有针对性的策略,实现个体化教育。”
大数据课堂教学
《苏州市教育信息化五年行动计划》提出,到2017年,全市中小学校将出现200个未来教室,用于大数据教学模式。按照目前的建设速度,届时,未来教室的数量将超额完成。未来教室有什么优势?它对于教与学有何影响?就这些问题,苏州市电教馆馆长顾瑞华作了简略的介绍。
作为与现代信息技术高度融合的新型教室,未来教室优势明显。顾瑞华将这种优势归结为以下特点:“首先是双轨展示。未来教室教学内容的呈现形式丰富,不仅有图像、师生现场演练等各种视觉形式的呈现,有教材、荧屏和师生在白板上书写出来的语言(文字)形式的呈现,还有各种音频形式,这些都能以双画面的形式同时呈现,图文并茂,彼此意义关联,互为说明、印证和延伸。双轨展示的理论依据是双重编码理论。该理论认为,如同时以视觉(图像)形式和语言(文字)形式呈现信息,对人脑的刺激更强,能让人快速识别,记得更快、更深刻,这样的教学能有效提高学生的学习质量。教师在讲授平行四边形的性质时,因为有了两块屏幕,就可同时清晰地展示‘平行四边形的平行线段相等’‘平行四边形的邻角互补’的图形和文字。”
但是,未来教室的上述功能还不是大数据教学。顾瑞华表示,未来教室是大数据教学的硬件基础。在此基础上,把教与学充分数据化,把一对多变成多对多、一对一,这才是大数据教学。比如,在一次考试中,学生个人和整体在每道题上花费了多少时间,花费时间长的有多少,短的有多少,平均需要时间又是多少,哪些在这之前已经出现过的问题,学生答对或答错了,哪些问题的线索是有效的,能打开学生的思路,回答这个问题用了多少时间,使用了哪些资源,哪些步骤被学生直接跳过了。未来教室可以即时监测、收集这些信息,形成数据资源。教师通过分析这些数据资源,可以明确掌握每个学生和群体学生的学习情况,形成新的多层次的甚至是个性化的教学策略,为学生课内课外自主学习和探究学习,提供智能的“一对一”个性化学习方案和泛在学习环境。同理,未来教室还可通过实时化和动态化的数据处理和分析,了解教师信息化教学的习惯、知识呈现方式、组织差异化教学等方面的变化,对教师的教,进行智能化诊断,帮助教师扬长避短。
大数据教学的另一方面,是对各级各类教育管理部门提供决策支持,如建立事务处理、业务监管、动态监测、评估评价、决策分析等管理系统,让教育管理部门收集、整合、分析各类数据,为教育决策提供科学依据。
未来教室与数据池
大数据课堂教学必须依托一定的信息化技术环境。苏州市正尝试用未来教室模式,把大数据教学规范化推广。苏州目前建设的未来教室分为两种模式:一种是完全模式,一种是不完全模式。在外观上,完全模式是教室中的电子屏不止两块,教室讲台前有两大块,一左一右,并排安装。教室两侧同时各有两块甚至更多的屏幕,但尺寸比讲台前的两块要小。此外,学生手中还有平板电脑、应答器等终端。不完全模式基本上只有教室前的两大块屏幕,其他的屏幕往往是可以移动的,放在课桌上,或与学生手中的终端合二为一。
在未来教室中,教师可以用资源白板混合教学。在一块屏幕上打出平行四边形的题目,另一块电子屏上,师生可手写做题。这时,师生手写的屏幕就相当于现在已经普及的电子白板。不同资源间的意义关联教学。如一边是英文题目,一边是相关的图片、漫画等,使题目更直观,也更有趣味性。课堂互动更加充分,学生个体或学习小组可通过即时应答器、各类终端等回答提问,参与讨论,呈现自己的思考等。课堂直连海量的数字化学习资源,各种网络资源都可跨越时空,国内、中外课堂可随时联通,进行交流,开展讨论。学科工具空前丰富,很多实验可直接通过电脑及网络进行。
教师在这样的教室中高效讲课,光会上网可不行,必须要接受深度培训。未来教室对教师和教育管理者提出了高要求。它要求教师掌握现代信息技术,在信息技术环境下,运行、分析、管理教育资源。据苏州市电教馆统计,2013年以来,苏州已培训了未来教室的325名种子教师、150名种子校长,此外还有各类有关未来教室的培训1300多人次,到目前,全市接受包含“未来教室专题”的网络在线培训人数,已超过了18000人。
在上海市闵行区,大数据教学也已开始实践。闵行中学化学教师戢军勇用了近6年时间,积累形成了“化学图书馆”。这个访问量已超过20万次的“微图书馆”是一个庞大的资源库,包括基础化学的课程视频、化学计算题分析、食品化学的添加剂问题等,既有资源整合,又有原创教学;既有纯学科知识,又有社会现象的拓展。戢军勇说,希望将学生的“电子书包”装得更丰富些,将知识的触角伸得远一些。这个数字图书馆是闵行区开发的一个强大的数字化学习系统的一部分。该系统目前有65所学校参与试点,成为目前全国最大的数字化学习实验区域。这个数字化平台延展课堂教学时空。英语课上,写作在线软件深受学生欢迎,系统自动评分纠错,学生反复修改,系统即时给老师提供统计数据,教学效率大幅提高;数学课上,学生用数码笔在平板电脑上做随堂练习题,老师可以全程观察每个学生的做题进度和问题所在,及时辅导;地理课堂尝试用地图软件,师生身临其境地探究“黄河沿岸城市的分布特点”。
教学管理准确到位
信息化时代的教育转型发展,还影响到教学管理。在闵行区教育局信息中心主任张中涛看来,学生们在校园一天天学习和生活,就是他们成长的数据:“以前评价一个学生的表现,更多地看期末考试分数和老师的学期评语,并不十分客观和科学。”闵行区收集孩子们的成长数据,把建立数据池作为突破点。两年前,闵行区开始探索依托网络平台系统,为每个学生建立电子成长档案。为了搜集数据,学校为每个学生发了一张电子学生证,抓取和记录孩子日常行为数据,并能在系统内自动生成各种数据统计图表。学生去图书馆借了哪些书,参加了哪些社团活动,运动会上拿了什么名次,只需刷一下电子学生证,这些记录都能记录保存。闵行区教育局局长王浩说,对每个学生来说,这份电子成长档案就是一张全面的综合素质动态发展图。老师和家长能更直观地看到孩子的点滴进步和潜在问题,从而有的放矢引导。有了身体素质、学业成绩、社会实践、公益活动、阅读信息等数据,评价体制导向从单一分数转向多元评价。
数字化学习与传统课堂并不冲突,而是让学习变得更加多姿多彩。闵行区教育学院副院长王永和认为:数字化学习帮学生建立了学习资源库,有微课程、习题库、音视频等。无论是在学校还是家里,学习无处不在,变得更自主和个性化。有了即时形成的数据,教师更能因材施教。教育管理者的决策不再凭印象,而是用客观数据发现教育管理的缺位。闵行区有400多所中小学和幼儿园,每年还平均新增10所学校。通过数据的专业解析和深层挖掘,可以找到教育管理中的潜在问题;或者对已经发现的一些教育问题,通过数据佐证找出症结。
目前,闵行区已经开发试用教育资金管理软件。每一笔资金使用后,都会形成数据分析:在科技教育方面花了多少钱,成效如何,和学生科技普及教育的整体水平到底是怎样的关系。教育资金使用的方方面面都实时产生,监督资金是不是管好了,钱有没有花在该花的地方。对闵行区每所学校来说,教育管理更加精细化:将“大数据”分解成一个个小数据,从学生全面发展、教师专业发展、学校特色发展等方面,也能发现教育管理中的问题,让管理更加科学与人性化。
第五篇:数据挖掘与电子商务
数据挖掘与电子商务
姓名:龚洪虎
学号:X2009230111
[摘 要] 企业的竞争优势并不取决于信息的拥有量,而是取决于信息的处理利用能力。如何化信息优势为竞争优势,是企业制胜于市场的一个法宝。本文论述了一种信息处理利用的有效工具——数据挖掘方法及其在电子商务中的应用。
[关键词] 数据挖掘 方法 电子商务 应用
随着网络技术和数据库技术的成熟,传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。
一、电子商务和数据挖掘简介。
电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务正以其成本低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。
数据挖掘(DataMining)是伴随着数据仓库技术的发展而逐步完善起来的。数据挖掘主要是为了帮助商业用户处理大量存在的数据,发现其后隐含的规律性,同时将其模型化,来完成辅助决策的作用。它要求从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取人们事先不知道的但又是潜在有用的信息和知识。数据挖掘的过程有时也叫知识发现的过程。
而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、计算机语言、信息学、统计学等多个领域。
二、何谓数据挖掘及方法
确切地说,数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。比较典型的数据挖掘方法有关联分析、序列模式分析、分类分析、聚类分析等。它们可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。
1.关联分析。关联分析,即利用关联规则进行数据挖掘。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如”90%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。
2.序列模式分析。序列模式分析和关联分析相似,但侧重点在于分析数据间的前后序列关系。它能发现数据库中形如”在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持度S。
3.分类分析。设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个②
记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。
4.聚类分析。聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。
应用数据挖掘技术,较为理想的起点就是从一个数据仓库开始,数据挖掘可以直接跟踪数据并辅助用户快速做出商业决策,用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的决策当中。
三、选择数据挖掘技术的两个重要依据。
数据挖掘使用的技术很多,其中主要包括统计方法、机器学习方法、和神经网络方法和数据库方法。统计方法可细分为回归分析、判别分析、聚类分析、探索性分析等。机器学习方法可细分为归纳学习方法(决策树、规则归纳)、基于范例学习、遗传算法等。神经网络方法可细分为钱箱神经网络(BP算法)、自组织神经网络等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。由于每一种数据挖掘技术都有其自身的特点和实现的步骤,对数据的形式有具体的要求,并且与具体的应用问题密切相关,因此成功的应用数据挖掘技术以达到目标过程本身就是一件很复杂的事情,本文主要从挖掘任务和可获得的数据两个角度来讨论对数据挖掘技术的选择。
三、数据挖掘在电子商务中的应用
数据挖掘能发现电子商务客户的的共性和个性的知识、必然和偶然的知识、独立和关联的知识、现实和预测的知识等,所有这些知识经过分析,能对客户的消费行为如心理、能力、动机、需求、潜能等做出统计和正确地分析,为管理者提供决策依据。具体应用如下:
1.分类与预测方法在电子商务中的应用。在电子商务活动中,分类是一项非常重要的任务,也是应用最多的技术。分类的目的是构造一个分类函数或分类模型,通常称作分类器。分类器的构造方法通常由统计方法、机器学习方法、神经网络方法等。这些方法能把数据库中的数据映射到给定类别中某一个,以便用于预测,也就是利用历史数据记录,自动推导出给定数据的推广描述,从而对未来数据进行预测。
2.聚类方法在电子商务中的应用。聚类是把一组个体按照相似性原则归成若干类别。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。市场细分的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体之间的距离尽可能大,通过对聚类的客户特征的提取,电子商务网站可以为客户提供个性化的服务。
3.数据抽取方法在电子商务中的应用。数据抽取的目的是对数据进行浓缩,给出它的紧凑描述,如求和值、平均值、方差值、等统计值、或者用直方图、饼状图等图形方式表示,更主要的是他从数据泛化的角度来讨论数据总结。数据泛化是一种把最原始、最基本的信息数据从低层次抽象到高层次上的过程。可采用多维数据分析方法和面向属性的归纳方法。在电子商务活动中,采用维数据分析方法进行数据抽取,他针对的是电子商务活动中的客户数据仓库。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大,可把汇集操作结果预先计算并存储起来,以便用于决策支持系统使用。
4.关联规则在电子商务中的应用。管理部门可以收集存储大量的售货数据和客户资料,对这些历史数据进行分析并发现关联规则。如分析网上顾客的购买行为,帮助管理者规划市场,确定商品的种类、价格、质量等。通常关联规则有两种:有意义的关联规则和泛化关联规则,有意义的关联规则,即满足最小支持度和最小可信度的规则。最小支持度,它表示一组对象在统计意义上的需满足的最低程度,如电子商务活动中的客户数量、客户消费能力、消费方式等。后者即用户规定的关联规则的最低可靠度。第二是泛化规则,这种规则更实用,因为研究对象存在一种层次关系,如面包、蛋糕属西点类,而西点又属于食品类,有了层次关系后,可以帮助发现更多的有意义的规则。
5、优化企业资源
节约成本是企业盈利的关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史的财务数据、库存数据和交易数据, 可以发现企业资源消耗的关键点和主要活动的投入产出比例, 从而为企业资源优化配置提供决策依据, 例如降低库存、提高库存周转率、提高资金使用率等。通过对Web数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化的响应能力和创新能力,使企业最大限度地利用人力资源、物质资源和信息资源,合理协调企业内外部资源的关系,产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。
例如:美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。
6、管理客户数据
随着“以客户为中心”的经营理念的不断深入人心, 分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为的分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在的有价值的客户,开展个性化服务,提高客户的满意度和忠诚度。通过Web资源的挖掘,了解客户的购买习惯和兴趣,从而改善网站结构设计,推出满足不同客户的个性化网页。利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何, 有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品, 以及什么样的人会购买什么型号的该种商品等等。在采用了数据挖掘后, 针对目标客户发送的广告的有效性和回应率将得到大幅度的提高, 推销的成本将大大降低。同时,在客户数据挖掘的基础上,企业可以发现重点客户和评价市场性能,制定个性化营销策略,拓宽销售渠道和范围,为企业制定生产策略和发展规划提供科学的依据。通过呼叫中心优化与客户沟通的渠道,提高对客户的响应效率和服务质量,促
①进客户关系管理的自动化和智能化。
三、结束语
电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术,充分发挥企业的独特优势,促进管理创新和技术创新,使企业在在电子商务的潮流中立于不败之地。随着数据挖掘算法的不断发展和成熟,数据挖掘一定会有更加广阔的应用前景。
参考文献:
(1)《浅谈数据挖掘在电子商务中的运用》 钟连福;
(2)《电子商务中商业数据的挖掘方法》 中国电子商务研究中心;
(3)《在电子商务中如何正确有使用数据挖掘技术》 侠名;
(4)《曾贞:数据挖掘在电子商务中的应用》 甘肃农业,2004(7);
(5)《冯艳王坚强:数据挖掘在电子商务上的应用》 2002(3);
(6)《吕延杰徐华飞:中国电子商务发展研究报告》北京邮电大学出版社 ;
(7)《数据挖掘与电子商务》 邓鲲鹏,周延杰,严瑜筱。①