第一篇:题三据调查
收银员理论试题三
一、单项选择题
1.据调查,顾客对零售企业有关项目的最关心为:商品容易拿到占15%;占25%;商品丰富占15%;占14%;占13%;占8%;商品价格便宜占5%。(A)。
A.开放式容易进入B.购物环境清洁明亮C.服务人员的态度D.商品标价清楚
2.我们所说的消费者权益保护法是指1993年10月31日颁布、(B)起施行的《中华人民共和国消费者权益保护法》。
A. 1993年1月1日b. 1994年1月1日 c. 1995年1月1日d.. 1996年1月1日
3.《消费者权益保护法》的颁布实施,是我国第一次以立法的形式全面确认(C)的权利。
A.经营者b.生产者c.消费者d.其他
4.我国消费者权益保护法的基本原则是(A)。
A.国家对消费者特别保护的原则b.国家对生产者特别保护的原则 c.国家对经营者特别保护的原则d. 其他
5.消费者不仅包括为自己生活需要购买物品或接受服务的人,也包括为了(C)等需要而购买商品,以及替家人、朋友购买物品,代理他人购买生活用品的人。
A.生产需要b.经营需要c.收藏、保存、送人d.其他
6.经营者提供商品或者服务,按照国家规定或者与消费者的约定,承担(A)责任,也就是通常所说的“三包”。
A. 包修、包换、包退b.包用、包换、包退c.包装、包换、包退d.其他
7.社会成员的消费分为(C)两种。
A. 生活性消费b.生产性消费c.生活性消费和生产性消费d..其他
8.非法出具金融票证罪,是指(A)违反规定为他人出具信用证或者其他保函、票据、存单、资信证明,造成较大损失的行为。
A. 银行或者其他金融机构及其工作人员b.理货员c.保安员d.其他
9.(A)是指银行或者其他金融机构及其工作人员,违反规定为他人出具信用证或者其他保函、票据、存单、资信证明,造成较大损失的行为。
A. 非法出具金融票证罪b.洗钱罪c.伪造货币罪d.生产、销售伪劣商品罪
10.下列物品属于商品的有(D)。A.自产自用的蔬菜B.报废的劳动产品C.江河中的沙石D.商场销售的童装
11、商品盘点的第一程序是:(A)A、商品整理、抄写盘点表 B、盘点的初点和复点
C、进行抽查复核,抽查率不低于5%
12、商品布局第一磁石应配置的商品为:(C)A、消费量小的商品 B、价格高的商品 C、消费频度高的商品
13、顾客非理性消费的商品,是在什么环境下决定的(B)A、是商品陈列决定的 B、是由卖场的促销商品决定的 C、是货架丰满的商品决定的14、收银情况复核和查对的第一程序是:(A)A、清点现金和结算单据B、账实核对 C、上缴钱款
15、收银排班工作的基本原则(C)A、减少人员的原则 B、降低人工成本的原则 C、保证正常经营的原则
16、商品销售结构分析的依据是:(B)A、日常生活的必需品销售 B、销售汇总表C、毛利高的商品销售
17、商品的更新率一般应控制在。(C)A、15%左右 B、20%左右 C、10%以下
18、收银员按购物小票上的原付款方式退款(A)A、现金消费退现金 B、礼品券消费退商品 C、银行卡消费退现金
19、纸上的打印区域有白条应采取的方法是:(B)A、打印头灯没有完全关紧 B、打印头坏,换打印头 C、标签传感器没调整好
20、商品分类的主要原则是:(A)A、生鲜类食品与熟食食品分开 B、服装与外衣商品分开 C、海鲜类应与鱼类商品分开
21.收银员又称为(a)是指商业零售企业从事面向顾客收取货币资金、支票等各种工作的人员。
A.收款员B.出纳C.会计D.财务主管
22.下列(c)不是收银员的职业特点。
A.专业性B.责任性C.定型性D.服务性
23.(a)是收银员的服务对象。A.消费者B.经理C.会计D.批发商
24.健康的身心素质包括健康的体魄和(c)。
A.健全的人格B.清醒的头脑C.健全的心理D.忍耐力
25.作为一名收银员,不但要掌握一般的(a),还要有良好的品德和优雅气质。A.财务知识B.礼仪知识C.售后技能D.营销知识
26.按企业在商品流通中所处地位和作用分批发企业和(D)。A.国有独资企业B.集体所有制企业C.股份有限责任公司D.零售企业
27.内部以百货店或大型综合超市作为核心店,各种专业店、专卖店、餐饮、娱乐设施共同构成的零售业态是(D)。
A.便利店B.折扣店C.百货店D.购物中心
28.商品平均价格低于市场平均水平,自有品牌占有一定的比例的零售业态是(B)。A.便利店B.折扣店C.百货店D.购物中心
29.不属于无店铺零售业态有(D)。
A.网上商店B.自动售货亭C.电话购物D.便利店
30.下列不属于零售企业特点的有(B)。
A.服务对象是最终消费者B.大宗的、整批的交易
C.直接为消费者服务D.交易次数多,每笔交易数额小
31、做合格的收银员应主要体现在(A)
A、树立爱岗敬业的职业观 B、树立顾客至上的服务意识 C、树立自我保护意识 D、说好第一句话
32、收银员应具备(B)。
A、树立服务至上的意识 B、爱岗敬业的品格和对工作尽心尽责的态度 C、树立顾客第一的意识
33、收银工作技术性很强,要熟练掌握(D)。
A、服务的知识 B、计算机知识 C、顾客心里学知识 D、各项专业技能和相关专业知识
34、营业后工作流程有(B)
A、为顾客做装袋服务 B、清点营业款和相关票据 C、做到唱收唱付,双手将找零款交到顾客手中
35、收银员基本的职业操守是(A)
A、遵纪守法、严谨敬业 B、接待顾客,服务顾客 C、尊敬老人、残疾人
36、商品按包装货物种类分类可以分为:(C)
A、商业包装 B、工业包装 C、食品、医药、轻工产品、针棉织品、家用电器
37、在普通支票左上角划两条平行线的为划线支票(A)A、能用于转账 B、能支取现金C、代为支付现金给收款人
38、支票金额的起点为是。(B)A、50 B、100 C、50039、一般情况下,对已售出的商品退换货是有时间限制的,不同的商品退换货的时间不同,一般商品的退换货期限为。(A)A、7天 B、15天 C、30天
40、中华人民共和国劳动合同法》已由中华人民共和国第十届全国人民代表大会常务委员会第二十八次会议于2007年6月29日通过,自起日施行。(C)A、2008年3月1日 B、2008年5月1日 C、2008年1月1日
二、多项选择
41、收银员的职业道德与行为规范包含:(ABD)
A、树立爱岗敬业的职业观 B、树立顾客至上的服务意识C、树立自我保护意识 D、说好第一句话
42、收银员工作中的守则是(AD)
A、身上不可带有现金B、随时打开抽屉清点现金 C、不忙时可看报纸、杂志D、不应为亲朋好友结算收款
43、商业主要打折的方式是:(AB)A、节日打折B、假日打折C、时段折扣D、困绑销售
44、收银员的岗位按照国家职业标准,收银员共设:(ABC)
A、初级(国家职业资格五级)B、中级(国家职业资格四级)C、高级(国家职业资格三级)D、技师(国家职业资格二级)
45、按商品经营模式划分零售企业类别,可分为:(AC)A、独立店和连锁商店 B、家居店和电器店商店
C、消费合作社、国有零售商店等。
46、人民币券别分别是:(ACD)A、1元、2元、5元、10元
B、20元、50元、100元、200元 C、1角、2角、5角 D、1分、2分、5分
47、签发支票应使用的笔是。(AB)A、墨汁 B、碳素墨水 C、钢笔 D、圆珠笔
48、收银员在接待顾客的全过程中,服务用语工作中要做到:(AD)A、不讲粗话、脏话 B、闲时与顾客聊天 C、忙时可以催促顾客 D、不讲讥讽挖苦的话
49、收银员在接待顾客时,要使用尊称:(BC)A、“喂”、“那个人” B、“先生”、“女士” C、“您”、“小姐”“小朋友”
50、计价收款即计算货款和收款找零时的基本要求是: A、计价要准确(AB)B、计价要快速
C、在收取货款遇到人多时可以时不唱收唱付
51、收银员在生活和工作中难免会遇到一些不顺心的事情而导致自己心境不佳,情绪低落。(AC)
A、调整好自己的情绪 B、顺其自然 C、要自我控制
52、劳动者的义务(BC)A、在时间容许的条件提高职业技能
B、劳动者应劳动者应当完成劳动任务 C、遵守劳动纪律和职业道德,执行劳动安全卫生规程
53、劳动合同的期限分为:(AC)A、有固定期限 B、长期和短期合同 C、无固定期限和以完成一定的工作任务为期限
54、收银机主体维护要:(AB)
A、要经常清除机器转动部位和字轮、字锺的纸屑、纸毛、异物。清除油污、擦拭机器 B、定期检查、紧固松动的螺钉,保证机器处在最佳的工作状态
C、收银机的维护应当周期性地定时进行,在正常使用情况下,维护的时间应在2-3个月内。使用频繁的应每3个月维护一次
55、收银机报警常见原因:(ABC)A、打印机内尘土、纸悄多,挡住传感器,B、应打开机盖用吸尘器或吹风机清理内部; C、有物品压在收银机键盘上 D、电源插头是否碰掉
56、商品编码规则(ABD)A、惟一性 B、稳定性 C、科学性 D、无含义、全数字型
57、食品类商品标识应有:(ACD)
A、中文标明包括食品名称、商标品牌、生产者或经销者的名称、地址、B、饼干食品可以不标保质期限
C、配料、净含量、主要成分名称、生产日期、保质(存)期、产品标准号、批号 D、食品添加剂说明、储藏方法、质量等级等内容
58、一般情况下,对已售出的商品退换货是有时间限制的(AC)A、7天内可办理退换货 B、15天内可办理退换货
C、鞋类商品的退换货期限为30天 D、10天内可办理退换货
59、商品价格差异处理方法(AC)
A、商品货架标注价格与系统显示价格不一致时,应以低价进行交易 B、商品摆放位置放错到高价格位置时,应以商品高价进行交易 C、商品价格条码的价格与系统显示价格不一致时,应以低价进行交易
60、账实不符的处理方法:(AC)A、如果是帐务的差错,则纠正帐务
B、能够查明原因的商品,应填写“财产损益报告单”上报 C、如果是有关人员失职造成的差错,则责令其赔偿
三、判断题
61.商业企业按所有制形式分类,可分为公有制商业企业和非公有制商业企业。(√)
62.批发企业是以大宗的、整批的交易批量,供应零售企业或其他批发企业用作交易,或者供应生产企业用作进一步加工并销售的商业企业。它处于商品流通的终点环节。(×)
63.百货店位于城市繁华区的交通要道或郊区重要地段,目标顾客以追求时尚和品味的流动顾客为主。(√)
64.零售企业是以商品直接供应居民用作生活消费或供应集团单位用作非生产和生活消费的商业企业。(√)
65.据调查表明,在零售企业里播放慢节奏的音乐会使顾客在店内流连的时间缩短,而导致购买的商品减少。
66.一个合格的收银员,只要能快速、准确地为客人提供好结算服务就行了。(×)
67.收银员在上岗前需要佩戴工号,检查妆容,做到着装整齐,仪表端庄。(√)
68.收银员在找零时只需将零钱和小票放在收银台上即可。(×)
69.收银员在接待顾客时需要面带微笑。(√)
70.在大拍卖时,零售企业就可以播放一些节奏较快、旋律较强劲的乐曲,使顾客产生抢购的冲动。(√)
71.国家综合运用立法、行政、司法等手段实现对消费者权益的保护。(√)
72.消费者消费行为的客体仅仅是商品。(×)
73.经营者不得对消费者进行侮辱、诽谤,不得搜查消费者的身体及其携带的物品,不得侵犯消费者的人身自由。(√)
74.经营者保证商品质量的义务不是一项法定义务,而仅仅是一项约定义务。(×)
75.商品编码按其所用的符号类型分为数字代码、字母代码、字母数字混合代码和条形码四种。(√)
76.只有当标准码尺寸超过总印刷面积的15% 时,才允许申报使用缩短码。(×)
77.若同一笔交易有若干张发票,只有其中一张发生错误时,应将所有发票同时收回一并办理作废,再重新开具发票。(√)
78.收银员在收到假币时可以没收上缴公司。(×)
79.条码阅读器是POS机的核心,控制着POS机的运行。(×)
80.敞开式销售方式的货架下层不易看清陈列商品,可以采用倾斜式陈列。(√)
81、收银员应具有自然清点状态下初步识别假币的能力,对有疑问的钱币上交银行处理。(×)
82、收银员移动收银机及外部设备时,可以不切断电源直接进行,以避免造成短路。(×)
83、收银机显示器的维护使用时,先检查显示器的电源开关是否在打开状态,显示器与主机的连线是否完好,如遇到无任何显示时,要检查显示器的亮暗度旋扭。(√)
84、不要将金属物品或水杯等放在机器上,一旦使金属物或液体进入机器,会引起短路而损坏机器。(√)
86、不同型号的收银机,出现的常见故障基本一样,解决问题的方法也基本一样。(×)
87、EAN条码由前缀码、厂商识别码、商品项目代码和校验码组成。前缀码是国际EAN组织标志各会员组织的代码,我国为691、692和693。(×)
88、UPC条码是美国统一代码委员会制定的一种商品条码,主要用于美国和澳大利亚地区。(×)
89、按照条码扫描器的使用方式不同可分为手持式条码扫描器、小滚筒式条码扫描器、平台式条码扫描器。(√)
90、单项取消键,是交易时取消已经录入的一件商品,按此键后输入要取消单品的商品编码或条形码,将取消该单品。(√)
91、收银员的工作职能主要是对顾客所购买的商品查点与收款,从而使商店的营业收入以货币形式得以体现(√)
92、收银员是指在商业零售企业从事面向顾客收取现金(含现钞、支票、各种金融支付卡等)工作的人员(√)
93、发票只限于用票单位和个人填开使用,不得转借、转让、代开发票;未经国家税务机关批准不得拆本使用发票(√)
94、价格促销就是利用商品降价以吸引消费者增加购买量。折扣优惠是让消费者在购物中直接得到价格优惠,其实质也是降价,包括一次性折扣、累计折扣、折价券折扣、季节折扣与限时折扣等。这是超市最常用的促销方式。(√)
95、使用电子收银机开具发票的企业,须经主管税务机关批准,并使用税务机关统一监制的机外发票,开具后的存根联应按照顺序号装订成册(√)
96、收银员的工作职能主要是对顾客所购买的商品查点与收款,从而使商店的营业收入以货币形式得以体现。(√)
97、检验支票有效性的要点包括要看是否在规定的有效期十天之内,日期务必大写(√)
98、支票需要填写的部分要齐全、正规,需要时候签字也能涂改(×)
99、针对收银工作造成的商品损耗,比如在点钞、收银、兑换、找零过程中造成的损耗,由当事人负担损失,并填写登记表单进行记录(√)
100、收银工作是商店日常经营销售中的重要环节(√)
第二篇:关于对证据调查的申请
关于对证据调查的申请
利辛县人民法院民三庭:
2014年5月20日贵庭依法审理了陆振诉我本人及利辛县智诚置业有限公司一案。在庭审过程中,陆振本人没有到庭,其代理律师向法庭举证了一份陆振发给我的短信,短信内容的真实性我暂且不作追究。首先,陆振本人早先就有我的银行账号,他若真想还钱,无需多此一举;其次,他的亲戚海峰在所举证的短信中口口声声说已经准备好了所还款项,但就迟迟不将款项汇入陆振所早已经知道的我的银行账号,这种自欺欺人的伎俩,我早已看透。借债还钱天经地义,在我屡次追讨无果的情况下,我只有无奈地等待,好在是公司的实体在那里,土地他无法搬走,股权他更无法窃取,在这法制社会里我对法律抱着足够的信心,坐看他花招耍尽,现在他又来起诉我不给他账号,这种贼喊捉贼方式真让人作呕。
现在,我申请贵庭对陆振所说的准备好的还款资金进行调查,以查明他的账号里是否真正存有他所说的壹仟柒佰肆拾柒万伍仟元还款资金,以拆穿谎言,让事实大白于天下。
特此申请!恳请明察!
申请人:
二〇一四年六月二十日
第三篇:大数据调查论文翻译
一个大数据的调查
陈敏、毛诗文、刘云浩
摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。
关键字 大数据 云计算 物联网 数据中心 Hadoop 智能电网 大数据分析
1、背景
1.1大数据时代的曙光
在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。
目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据 达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下:
图
一、持续增长的数据
信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。
云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上 存储和管理如此庞大的异构数据集的问题。
考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地通过在不同层面分析,建模,可视化和预测,进而“开采”数据集,从而揭示其内在的性能以及完善决策。
1.2、大数据的定义和特点
大数据是一个抽象的概念。除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。”目前,虽然大的数据的重要性已经成为共识,人们仍然对它的定义有不同意见。一般情况下,大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。因为不同的关注点,科技企业,研究学者,数据分析,技术从业人员对大数据有不同的定义。以下定义可以帮助我们有一个在更好地理解大数据在社会,经济里的技术内涵。
2010年,Apache Hadoop将大数据定义为“大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。”在这一定义的基础上,在2011年5月,麦肯锡公司,一个全球咨询机构宣布大数据作为下一个前沿创新,竞争和生产力。大数据系也可指可能用经典数据库软件无法获得、存储、管理的数据集,这个定义包括两个含义:一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准 在不同的应用数据彼此不同。在目前,大数据一般为几个TB到几PB [10]。从麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。
事实上,早在2001年,META的分析师(现Gartner公司)道格·莱尼通过3VS模型将大数据定义为挑战和机遇。即,增加的数据数量,速度和品种,在研究报告中[12],尽管这种最初不是用模型来定义大数据,未来十年里,Gartner等多家企业,其中包括IBM [13]和微软的[14]研究部门仍然采用的是“3VS”模型来描述大数据。在“3VS”的模式中,数据卷是指,与人民群众的产生和收集数据,数据规模越来越大;速度意味着大数据的时效性,具体而言,数据采集和分析等必须迅速和及时进行的从而为最大限度地利用大数据的商业价值;各种指示各种类型的数据,其中包括半结构化和非结构化数据,例如音频,视频,网页,和文字,以及传统的结构化数据。
然而,其他人有不同的意见,包括IDC,一个在大数据和研究领域最有影响力的领导人之一。2011年,IDC的报告定义大数据为“大数据技术描述了新一代的技术和架构,旨在在经济上提取捕捉,发现,和/或分析非常大量的各种数据的“[1]根据这个定义,大数据的特点可以概括为4 Vs时,即体积(大体积),品种(各种形式),速度(快速生成),和价值(巨大的价值,但很低密度)。如图2,这类4Vs定义被广泛认可它强调大数据,即意义和必要性,探索隐藏的巨大价值。这个定义说明在大数据中最关键的问题,是如何在一个巨大的规模,各类型和快速生成的数据集中发现价值。至于周帕瑞克,Facebook的副总监工程师说,“如果你不利用所收集的数据,你只能拥有的数据不是大数据,“。[11] 此外,NIST的定义大数据“大数据应 其中,平均数据的数据量,采集速度,或数据表示限制使用传统的能力关系的方法来进行有效的分析或数据这可能有重要的水平缩放技术“,其重点是技术得到有效处理大数据方面。它表明,有效的方法或技术需要开发并用于分析和处理大数据,已经有来自大量讨论。工业界和学术界对大数据[16,17]的定义。除了制定一个适当的定义,大数据如何研究还应该着眼于如何提取它的价值,使用数据,以及如何将“一堆数据”变成“大 数据。”
图
2、大数据的4Vs模型
1.3大数据的价值
麦肯锡公司观察到大数据创造价值观对美国医疗保健的深入研究后,欧盟公共部门管理,美国零售业、全球制造,和全球个人位置数据。通过对代表全球经济的五大核心产业的研究,麦肯锡的报告指出,大数据可以充分发挥经济职能,我证明了企业和公共部门的生产力和竞争力,为消费者创造了巨大的利益。在[ 10 ],麦肯锡总结大数据可以创造的价值:如果大数据C将创造性和有效利用来提高效率和质量,美国的医疗行业通过获得的数据可能会超过300美元亿美元的潜在价值,从而减少花费引言美国医疗8%以上;零售商充分利用大数据可以提高超过60%的利润;也可以利用大数据来提高政府的效率,歌剧在欧洲,这样的发达经济体可以节省超过100欧元亿美元(不包括减少欺诈、错误和税收差异影响)。
麦肯锡的报告被视为前瞻性和预测性,而下面的事实可以验证大数据值。2009流感大流行期间,谷歌获得及时的信息,通过分析化大数据,甚至提供比由疾病预防中心提供更多有价值的信息。几乎所有国家所需的医院通知机构,如疾病预防中心流感病例的新类型。然而,患者通常没有立即看医生的时候,感染。同时也花了一些时间从医院到疾病预防的信息中心和疾病预防中心分析总结等信息。因此,当公众意识到新流感的大流行,这种疾病可能已经一到两周的时间,一个滞后的性质。谷歌发现,在流感的传播,作品经常寻求在其搜索引擎将不同于那些普通的钛MES和参赛作品的使用频率相关的流感传播的时间和地点。谷歌发现45的搜索条目组密切相关的疫情流感和将它们在具体的数学模型来预测流感的传播,甚至预测流感传播的地方。相关研究成果已发表的他在自然[ 18 ]。2008,微软收购了Farecast,美国科技公司Farecast的机票预测系统,预测趋势和上升/下降的机票价格范围。该系统已被纳入微软的必应搜索引擎。到2012时,该系统已节省近50美元每名乘客的门票,与预测精度高达75%。
目前,数据已成为重要的生产因素,可能是与物质资产和人力资本。多媒体、社交媒体、物联网是发展,企业将收集没有更多的信息,领先
指数增长的数据量。大数据将有一个巨大的和不断增加的潜力,为企业和消费者创造价值。
1.4大数据的发展
在上世纪70年代末,出现“数据库机器”的概念,是一种专门用于存储和分析数据的技术。随着数据量的增加,存储和处理能力单一主机系统的一个不充分。在上世纪80年代,人们提出了“无共享,“并行数据库系统,以满足日益增长的数据量需求[ 19 ]。分享没有系统的架构是基于集群的使用,每个机器都有自己的处理器,存储和磁盘。Teradata系统是第一个成功的商业并行数据库系统。苏最近的数据库变得非常流行。1986年6月2日,一个具有里程碑意义的事件发生时,Teradata交付第一并行数据库系统的存储容量1TB凯马特帮助大通用电气规模在北美国的零售公司,以扩大其数据仓库[ 20 ]。在20世纪90年代末,并行数据库的优势在数据库领域得到了广泛的认可。
然而,许多大数据的挑战出现了。随着互联网服务的发展,索引和查询内容的迅速增长。因此,搜索引擎公司不得不面对的挑战处理这些大数据。谷歌创造了GFS [ 21 ]和[ 22 ]编程模型MapReduce处理所带来的数据管理和分析在互联网规模的挑战。此外,内容由用户生成,传感器,和其他无处不在的数据源也要压倒性的数据流,这需要一个根本性的变化,在计算架构和大型数据库加工机理。在一月2007,吉姆灰色,数据库软件的先驱,这种转变称为“第四范式”[ 23 ]。他还认为,应对这种范式的唯一途径是开发新一代的计算工具来管理,可视化和分析质量我的数据。2011年六月,另一个具有里程碑意义的事件发生;EMC / IDC发表题为从混沌[ 1 ]提取价值的研究报告,其中介绍的概念和对F大数据潜力第一次。本研究报告引发了业界和学术界对大数据的极大兴趣。
在过去的几年中,几乎所有的大公司,包括EMC、Oracle、IBM、微软、谷歌、AMA ZON,和Facebook等已经开始了他们的大数据项目。以IBM为例,自2005,IBM已经投资16美元亿30收购大数据相关。在学术界,大数据也在聚光灯下。在2008,自然发表了一个大数据的特殊问题。2011、科学性在大数据的“数据处理”的关键技术,推出了一个特殊的问题。2012、欧洲信息学与数学研究协会(会)新闻出版大型特刊数据。在2012年初,一份题为“大数据”的大冲击在瑞士达沃斯论坛上发表,宣布大数据已经成为一种新的经济资产,就像货币一样或黄金。一个国际研究机构Gartner,发出炒作周期从2012到2013,其中大数据计算、社会分析、存储数据分析等48个新兴技术值得最关注。
许多国家的政府,如美国也非常重视大数据。月2012日,奥巴马政府宣布了2亿美元的投资,推出“大数据研究和去发展计划,“这是一次重大科技发展计划1993“信息高速公路”的倡议后。七月2012,“轰轰烈烈的日本通信技术”项目发出由日本内政部和交通部表示,大数据的发展应该是一个国家战略和应用技术应该是重点。在七月2012,联合国有限的国家发行的大数据的发展报告,总结了各国政府如何利用大数据更好地服务和保护他们的人。1.5大数据的挑战
急剧增长的海量数据在大数据时代,对数据的采集、存储的巨大挑战,管理和分析。传统的数据管理和分析系统的基础上关系数据库管理系统(RDBMS)。然而,这样的关系数据库管理系统只适用于结构化数据,半结构化或非结构化的数据比其他。此外,越来越多地利用关系数据库管理系统越来越贵的硬件。这是明显地,传统的关系数据库管理系统无法处理大数据量大、异质性大。研究界提出了一些解决方案,从不同的视角。例如,云计算是用来满足对胸骨的要求对于大数据,例如,成本效率,弹性结构,平滑升级/降级。对于大规模无序数据集、分布式文件系统的永久存储和管理解决方案的[ 24 ] [ 25 ]和NoSQL数据库都是不错的选择。这样的程序明框架,在处理集群的任务,特别是对网页排名取得了很大的成功。各种大数据应用可以基于这些创新技术或平台开发。此外,它是不平凡的部署大数据分析系统。
一些文献[ 26,28 ]讨论大数据应用程序开发中的障碍。面临的主要挑战如下: –数据表示:许多数据集具有异质性的类型、结构、语义、组织、粒度一定的水平,和可访问性。数据表示的目的是使数据更有意义计算机分析与用户解释。然而,不适当的数据表示将减少原始数据的价值甚至可能阻碍有效的数据分析。高效数据表示应反映数据结构、类和类型,以及集成技术,以便在不同的数据集上进行高效的操作。
–冗余以及数据压缩:总的来说,有一个高水平的冗余数据。减少冗余和数据压缩是有效的降低企业的间接成本对这些数据的潜在价值不受影响的前提下IRE系统。例如,大多数数据所产生的传感器网络是高度冗余的,可过滤和压缩在奥德震级的。
–数据生命周期管理:与相对缓慢的进步存储系统相比,无处不在的传感和计算在数据速率和规模产生了前所未有的。我们面临有很多紧迫的挑战,其中之一是目前的存储系统不能支持这样的海量数据。一般而言,隐藏在大数据的值依赖于数据的新鲜度。因此,E、数据重要性原理来分析价值相关应决定哪些数据将存储的数据将被丢弃。
——分析机理:大数据分析系统在有限时间内处理大量的数据。然而,传统的关系数据库管理系统,严格的设计与缺乏可扩展性和可扩展性,不能满足性能要求。非关系数据库在非结构化数据处理中显示出其独特的优势。开始成为主流的大数据分析。即便如此,仍有非关系型数据库的性能问题和一些特定的应用。我们会找到一个妥协的关系型数据库和非关系型数据库之间的解。例如,一些企业利用混合数据库体系结构,集成了数据库类型(例如,Facebook的优势和淘宝。在内存数据库和基于近似分析的样本数据的基础上,需要进行更多的研究。数据机密性:目前大多数大数据服务供应商或业主不能有效地维护和分析这些庞大的数据集,因为他们的能力有限。他们必须依靠专业onals或工具来分析这些数据,从而增加了潜在的安全风险。例如,事务性数据集一般包括一组完整的操作数据来驱动关键业务流程专家。这些数据包含了最低的粒度和一些敏感信息,如信用卡号码。因此,大数据的分析,可以提供给三分之一方处理采取适当的预防措施来保护这些敏感数据,以确保其安全。能源管理:主要框架计算系统的能源消耗,从经济和环境角度都受到了很大的关注。随着数据量和分析需求的增长而且,处理,存储,和大数据的传输会消耗更多的电能。因此,系统级的功耗控制和管理机制应该是电子建立大数据的可扩展性和可访问性,保证了。–的可扩充性和可扩展性:大数据分析系统必须支持当前和未来的数据集。解析算法必须能够处理日益扩大和更为复杂的Datasets。
–合作:大数据分析是一个跨学科的研究,这需要不同领域的专家合作,收获大数据的潜力。一个全面的大数据网络结构结构必须建立有助于各种领域的科学家和工程师访问不同类型的数据,充分利用他们的专业知识,以配合完成分析的目的专家。
2、相关技术
为了深入理解大数据,这一秒,将介绍一些基本的技术,是密切相关的大数据,包括云计算,物联网,数据中心,和Hadoop。
2.1、云计算与大数据的关系
云计算与大数据有着密切的关系。云计算的关键组成部分如图3所示。大数据是计算密集型操作的对象和应力的存储电容“云系统。云计算的主要目的是在集中管理利用巨大的计算和存储资源,从而提供大数据应用的细粒度的计算t-ing能力。云计算的发展为大数据的存储和处理提供了解决方案。另一方面,大数据的出现也加速了云的发展计算。基于云计算的分布式存储技术能够有效的人年龄大的数据;通过云计算的并行计算能力的美德可以提高ACQ效率大数据的采集和分析。
尽管有很多重叠的技术在云计算和大数据,他们在如下两方面的不同。首先,概念在一定程度上是不同的。云计算入门ansforms IT体系结构而影响商业决策的大数据。然而,大数据依赖于云计算作为基础设施的顺利运作。其次,大数据和云计算有不同的目标客户。云计算是一种技术和产品向首席信息官(CIO)作为一种先进的IT解决方案。大数据是一个产品针对首席执行官(CEO)重点业务。由于决策者可以直接感受到来自市场竞争的压力,他们必须打败商的反对在竞争更加激烈的方式。随着大数据和云计算的发展,这两种技术都是肯定和越来越纠缠对方。云计算,其职能类似于为t计算机和操作系统的软管,提供系统级资源;大数据在云计算支持的上层提供的功能类似于数据库和高效的数据处理能力。电磁兼容的总裁基辛格表示,美联社大数据的应用必须基于云计算。大数据的演变是由快速增长的应用需求和云计算从虚拟化技术发展。因此,云计算不仅提供了计算对大数据的处理,也是一种服务模式。在一定程度上,云计算的进步也促进了大数据的发展,两者相辅相成。
图3 云计算的关键组成部分
2.2物联网与大数据的关系
在物联网的范例中,大量的网络传感器被嵌入到不同的设备和机器中,在现实世界中。这样的传感器部署在不同的领域可能会收集各种类型的ATA,如环境数据、地理数据、天文数据、物流数据。移动设备、交通设施、公用设施、家用电器都是数据采集在物联网方面的设备,如图4所示。
通过物联网大数据具有不同的特点,与一般的大数据相比,由于数据收集的不同类型,其中最典型的特征包括他均质、品种、非结构化特征,噪声和冗余度高。虽然目前物联网数据不占主导地位的大数据,由2030,数量传感器将达到一兆,然后物联网数据将是大数据的最重要的一部分,根据前投。来自英特尔的一份报告指出,大数据在物联网有三大壮举符合大数据模式的特性:
(一)丰富的终端产生大量的数据;
(二)物联网所产生的数据通常是半结构化或非结构化的;
(三)物联网的数据是有用的,只有当它被分析。目前,物联网的数据处理能力已经收集到的数据背后,是加速大数据技术的发展推动了我介绍迫在眉睫加班。物联网的许多运营商实现大数据由于物联网的成功是依赖于大数据和云计算的有效整合的重要性。物联网的广泛部署将也带来许多城市进入大数据时代。
有一个令人信服的需要采取大数据的物联网应用,而大数据的发展已经落后于。它已被广泛认可,这两种技术是相互依赖的凹痕应共同开发:一方面,物联网的广泛部署驱动在数量和范畴数据的高增长,从而提供了机会,为应用大数据的发展;另一方面,大数据技术在物联网中的应用也加快了物联网的研究进展和业务模式。
图4物联网数据采集设备的说明
2.3数据中心
在大数据模式,数据中心不仅是一个数据集中存储平台,同时也承担更多的责任,如获取数据、管理数据、组织数据,一利用数据值和函数。数据中心主要关注“数据”而非“中心”。它有大量数据、组织和人的年龄数据根据其核心目的和发展新台币的路径,这比拥有一个好的网站和资源更有价值。大数据的出现带来了良好的发展机遇和巨大挑战的数据中心。大数据是一个新兴数据中心的爆炸式增长,促进了基础设施和相关软件的爆炸性增长。物理数据中心网络是支持大数据的核心,但目前,是最迫切需要的关键基础设施[ 29 ]。大数据需要数据中心提供强大的后台支持。大数据技术具有非绅士的要求对存储容量和处理能力,以及网络传输容量。企业必须把数据中心的发展纳入考虑,以提高在有限的价格/性能比下快速、有效地处理大数据的能力。这个数据中心应为基础设施提供大量的节点,建立一个高速的内部网络,有效的散热,有效的备份数据。只有当一个高能源效率耳鼻喉、稳定、安全、可扩展,和冗余的数据中心建设,大数据应用的正常运行,可以保证。大数据应用的增长加速了数据中心的革命和创新。许多大数据应用具有独特的体系结构和直接促进发展数据中心的存储、网络和计算技术的应用。随着结构化和非结构化数据量的持续增长,以及各种来源的分析数据,数据处理和计算能力的数据中心,将大大提高。此外,随着数据中心规模的不断扩大,如何对数据中心进行研究也成为一个重要的课题降低数据中心发展的运营成本。–大数据赋予更多的功能到数据中心。在大数据模式,数据中心不仅要关注硬件设施也加强软能力,即能力大数据的获取、处理、组织、分析和应用。数据中心可以帮助业务人员分析现有的数据,发现企业经营的问题,和发展从大数据的运算解决方案。
2.4 Hadoop和大数据之间的关系
目前,Hadoop是广泛应用于大数据应用的行业,例如,垃圾邮件过滤、网络搜索、点击流分析、社会推荐。此外,相当学术研究了基于Hadoop的。一些代表性的病例是在下面。在2012六月宣布,雅虎运行Hadoop 42000服务器在四个数据中心,以支持其产品和服务,如例如,搜索和垃圾邮件过滤,等。目前,最大的Hadoop集群有4000个节点,而节点的数量将增加至10000与Hadoop 2版本。在同一个月,英足总cebook宣布他们的Hadoop集群可以处理100 PB的数据,增长了0.5,铅每天2012十一月。一些知名的机构使用Hadoop进行分布式计算的李以[ 30 ]。此外,许多公司提供的Hadoop商业执行和/或支持,包括Cloudera,IBM,MAPR,EMC,Oracle。
现代工业机械系统中,传感器被广泛应用于环境监测、故障预测等收集信息,bahga和别人在[ 31 ]提出了一个框架网络的数据组织和云计算基础设施,称为云景。云观采用混合结构,局部节点,基于Hadoop的远程集群分析机器生成的数据。本地节点用于实时失败的预测;基于Hadoop集群用于复杂的离线分析,例如,案例驱动的数据分析。
基因组数据的指数增长和测序成本的急剧下降,将生物科学和生物医药的数据转换为数据驱动的科学。gunarathne等人。在[ 32 ]利用云计算基础设施
三、亚马逊AWS、微软azune,和数据处理框架基于MapReduce,Hadoop和微软的DryadLINQ跑两平行生物医药应用:(我)基因组片段组装;(ii)在化学结构分析的降维。在随后的应用中,使用166-d数据包括26000000个数据点。作者比较了所有的性能效率,成本和可用性方面的框架。根据这项研究,作者得出结论,松散耦合将越来越多地应用于电子云的研究,和磷并行编程技术(MapReduce)的框架,可以为用户提供更方便的服务界面和减少不必要的成本。
3大数据的生成与获取
我们已经介绍了几种关键技术与大数据、云计算、物联网,即数据中心,和Hadoop。下一步,我们将重点放在价值链的大数据,这一般可以分为四个阶段:数据生成、数据采集、数据存储和数据分析。如果我们把数据作为原材料,数据生成和数据采集是一个开发在处理过程中,数据存储是一个存储过程,数据分析是利用原材料来创造新的价值的生产过程。
3.1数据生成
数据生成是大数据的第一步。以互联网数据为例,在搜索条目、互联网论坛帖子、聊天记录、微博留言等方面的数据量巨大产生。这些数据与人们的日常生活密切相关,具有高价值、低密度的特征。这样的数据可能是毫无价值的个人,但通过开发并积累了大量数据,有用的信息,如习惯和爱好的用户可以被识别,它甚至可以预测用户的行为和情绪。
此外,通过纵向和/或分布式数据源产生的数据集更大规模、高度多样化的,复杂的。这些数据源包括传感器、视频、点击流,和/或将其他可用的数据源。目前,大数据的主要来源是经营和交易信息在企业、物流和传感器在物联网信息,人机交互信息在互联网世界中离子和位置信息,并在科学研究中产生的数据,远超等通过它的架构和基础设施现有EN容量信息企业,而实时的要求也大大强调了现有的计算能力。3.1.1企业数据
2013,IBM发布分析:大数据在现实世界的应用程序,这表明企业内部数据是大数据的主要来源。企业内部数据主要包括网上交易数据和在线数据分析,其中大部分是历史上的静态数据,通过结构化的方式关系型数据库管理。此外,生产数据,库存达Ta、销售数据、财务数据,等等,也构成了企业内部的数据,其目的是获取企业信息化和数据驱动的活动,以记录所有活动在企业内部数据的形式。
在过去的几十年里,它和数字数据做出贡献的很多改善的盈利业务部门。据估计,世界上所有公司的业务数据量Y每1.2年翻一番[ 10 ],其中,营业额通过互联网,企业对企业,企业对消费者每天将达到450美元亿[ 33 ]。连续提高业务数据量要求更有效的实时分析,以便充分收获它的潜力。例如,亚马逊处理数以百万计的终端操作和超过500000查询从第三方卖家每天[ 12 ]。沃尔玛过程之一万客户交易每小时交易数据导入到一个容量超过2.5PB数据库[ 3 ]。Akamai分析75元每天的事件,其目标广告[ 13 ]。3.1.2物联网数据
作为讨论,物联网是大数据的重要来源。在智能城市构建了基于物联网、大数据可能来自工业、农业、交通、运输、医疗、公共部门和家庭等根据物联网的数据采集和传输过程,将其网络结构分为传感层、网络层和应用层三层。这个传感层负责数据采集,主要由传感器网络。网络层负责信息的传输和处理,在近距离传输可能R伊利在传感器网络和远程传输必须依赖网络。最后,应用层支持物联网的具体应用。
根据物联网的特点,物联网产生的数据有以下几个特点:
–大规模数据:在物联网、数据采集设备的群众是分布式部署的,可获得简单的数值数据,如位置;或复杂的多媒体数据,如监控视频EO。为了满足分析和处理的需求,不仅是目前所获得的数据,而且在一定时间内的历史数据存储。因此,产生的数据通过物联网的特点是大尺度。
-异质性:由于各种数据采集装置,所获得的数据也不同,这样的数据特征的异质性。在物联网中,每一个数据采集设备都放置在一个特定的地理位置,每一块数据都有时间戳。时间和空间相关性是一个即时通讯数据来自物联网的重要性质。在数据分析和处理过程中,时间和空间也是统计分析的重要维度。
–有效数据只占一小部分的大数据:发生在数据的采集和物联网传输大量的噪音。通过收购获得的数据集设备,只有少量的异常数据是有价值的。例如,交通视频的采集过程中,一些视频帧捕获违反交通运输管理法规和交通事故的价值比那些只捕捉到正常的流量。3.1.3生物医疗数据
作为一系列高通量生物测量技术在开始的第二十一个世纪的创新发展,在生物医药领域的前沿研究也进入大时代数据。通过构建智能、高效、和生物医药应用准确的分析模型和理论体系,基本治理机制复杂的生物学现象背后的马被揭露。不仅生物医药未来的发展是可以确定的,也是主要的角色可以在一系列重要的战略产业发展方面相关的假设国民经济,人民生活,国家安全,具有重要的应用,如医疗保健,新药研发,粮食生产(例如,转基因作物)。人类基因组计划的完成(人类基因组计划)和测序技术的不断发展也导致在大数据领域的广泛应用。由基因产生的数据的质量测序经过专门分析根据不同的应用需求,结合临床基因诊断和早期诊断提供有价值的信息和形象化治疗疾病。一个测序人类基因可能产生100个600GB数据。在深圳的中国国家种质库,有1.3百万人样本样本包括115万狮子150000种动物,植物和微生物样本。到2013年底,1000万个可追溯的生物样品将被存储,并由2015年底,这一数字将达到3000万。它是预先确定性,随着生物医药技术的发展,基因测序将变得更加快捷和方便,从而使生物医药大数据不断增长毫无疑问。
此外,临床医疗保健和医疗研发所产生的数据也迅速上升。例如,匹兹堡医学中心大学(UPMC)存储2TB的数据。Explorys,美国人我公司提供的平台配置的临床数据,操作和维护数据和财务数据。目前,大约有13百万人的信息已经被配置,44 arti-cLES数据在约60TB规模,这将在2013达到70TB。实践融合,另一个美国的公司,管理约200000名患者的电子病历。
除了这些中小企业,其他知名IT公司,如谷歌,微软,IBM已经投入广泛的方法和计算分析研究兴高采烈的高通量生物大数据,对股票市场的巨大而
作为“新一代互联网。”IBM预测,在2013战略发布会上,以医学影像和电子病历的急剧增加,医疗专业人员可以利用大数据提取合同有用的临床信息从大量的数据中获取病史和预测治疗效果,从而改善病人护理,降低成本。预计,2015,平均每一个医院的年龄数据量将增加到665tb 167tb。3.1.4数据生成其他领域
随着科学应用的不断增加,数据集的规模也逐渐扩大,一些学科的发展,很大程度上依赖于对数据的分析。在这里,我们研究分析在这样的应用。虽然在不同的科学领域,应用程序有类似的和不断增加的数据分析的需求。第一个例子涉及到计算生物学。玄叶NK细胞是一种核苷酸序列数据库由美国国家生物技术创新中心保持。数据库中的数据可能每10个月翻一番。2009八月,GenBank已超过250千兆从150000个不同的生物[ 34 ]的基础上。二个例子与天文学有关。Sloan数字巡天(SDSS),最大的天文巡天项目,已经从1 25tb数据记录998至2008。作为望远镜的分辨率大大提高,2004,数据批量生成每晚将超过19。最后一个应用程序涉及到高能量物理。在开始2008、大型强子对撞机(LHC)的ATLAS实验的欧洲核子研究组织产生的原始数据在2/s和10TB数据处理每年商店。
此外,无处不在的传感和计算之间的自然、商业、互联网、政府、社会环境都产生了前所未有的异构数据的复杂性。这些数据集有自己独特的数据特点,在规模、时间维度和数据类。例如,移动数据的位置,记录运动,近似度,通信、M多媒体、应用程序的使用,和音频环境[ 108 ]。根据应用环境和要求,这样的数据集分成不同的类别,从而选择合适的和可行的大数据的电子解决方案。
3.2大数据采集
作为大数据系统的第二阶段,大数据采集包括数据采集、数据传输和数据预处理。大数据的采集过程中,一旦我们收集的原始数据,我们的厅利用一种高效的传输机制,将其发送到一个适当的存储管理系统,以支持不同的分析应用程序。将收集到的数据可能包含很多冗余剂或无用的数据,不必要地增加存储空间,并影响后续的数据分析。例如,高度冗余的环境监测传感器收集的数据集是很常见的监测。数据压缩技术可以应用于减少冗余度。因此,数据预处理操作是必不可少的,以确保有效的数据存储和开发。
3.2.1数据采集
数据采集是利用特殊的数据采集技术来从一个特定的数据生成的环境中获取原始数据。四种常用的数据采集方法如下。–日志文件:作为一种广泛使用的数据收集方法,日志文件是由数据源系统自动生成记录文件,以便记录活动,随后交付文件格式耳鼻喉分析。日志文件通常用于几乎所有的数字设备。例如,Web服务器的日志文件记录的点击数、点击率,网站用户的访问,和[其它财产记录35 ]。在网站采集活动的用户,Web服务器主要包括以下三个日志文件格式:公用日志文件格式(NCSA),扩展日志格式(W3C),和IIS日志格式(MIC工作)。在ASCII文本格式的所有三种类型的日志文件。除了文本文件以外,其他的数据库有时也可用于存储日志信息以提高大规模的查询效率商店[ 36,37 ]。也有基于数据收集的一些其他日志文件,包括在网络监控和交通运行状态的金融应用和测定指标股Ffic管理。
感测:传感器在日常生活中是很常见的,用于测量物理量,将物理量转换为可读的数字信号,以供后续处理(和存储)。感觉数据可能被分类为声波,声音,振动,汽车,化学,电流,天气,压力,温度等信息被传送到一个数据采集点通过有线或无线网络。对于应用程序,可以很容易地部署和管理,例如,视频监控系统[ 38 ],有线传感器网络是一个方便的解决方案,以获取相关信息。有时一个特定的现象的精确位置是未知的,有时监测环境没有精力或通信基础设施。然后无线通信必须使用在有限的能量和通信能力的情况下,使传感器节点之间的数据传输。近年来,无线传感器网络已收到相当大的国际间,并已应用于许多应用,这样的;如此的;这么大的;非常的;这样的事物[人];
作为环境研究[ 39,40 ],水质监测[ 41 ],土木工程[ 42,43 ],[ 44 ]习惯和野生动物监测。无线传感器网络通常由大量的地理分布分布式传感器节点,每一个都是一个由电池供电的微型装置。这种传感器被部署在指定的位置所需的应用程序收集遥感数据。一旦传感器被eployed,基站会对网络配置/管理或数据采集传感器节点发送控制信息。基于这样的控制信息,感官数据被组装在地不同的传感器节点和送回基站进行进一步的处理。有兴趣的读者参考[ 45 ]更详细的讨论。获取网络数据–方法:目前,网络数据采集是使用web爬虫组合完成,分词系统,任务系统,和指标体系等Web爬行是一个用于搜索引擎下载和存储网页的程序[ 46 ]。一般而言,网络爬虫从初始网页的统一资源定位器(网址)开始访问其他链接的网页,在它的存储和序列的所有检索的网址。网络爬虫通过一个网址队列获取一个网址,然后通过一个网址下载网页,并确定一个网址我将在已下载的网页上的网址,并提取新的网址被放在队列中。这个过程是重复的,直到网络爬虫被停止。通过网络爬虫获取数据的广泛应用基于网页的应用,如搜索引擎或网页缓存。传统的网页提取技术具有多个有效的解决方案,并已完成了大量的研究,在他的田地。随着越来越多的先进的网页应用程序正在出现,一些提取策略,提出了在[ 47 ],以应付丰富的互联网应用。
当前的网络数据采集技术主要包括传统的基于Libpcap捕包技术,零拷贝数据包捕获技术,以及一些专门的网络监控G软件如wireshark SmartSniff,和winnetcap。–Libpcap捕包技术:基于Libpcap(数据包捕获库)是一种广泛使用的网络数据包捕获函数库。这是一个一般的工具,不依赖于任何特定的系统透射电子显微镜主要用于数据链路层中的数据捕获。它具有简单、易用、携带方便,但有一个相对低效率。因此,高速网络环境下彪,大量丢包时可能出现的libpcap的使用。
–零拷贝数据包捕获技术:所谓的零拷贝(ZC)意味着没有副本之间的任何内部的记忆发生在数据包接收和发送在一个节点。在发送数据包直接从用户缓冲区开始,通过网络接口,到达一个外部网络。在接收时,网络接口直接向美国发送数据包SER缓冲。零拷贝的基本思想是减少数据拷贝次数,减少系统调用,并减少CPU的负载,而ddatagrams从网络设备传递到用户程序空间。零拷贝技术首先利用直接存储器存取(DMA)技术的网络数据包直接发送到一个地址空间预分配的系统内核,以避免CPU的参与。同时,它映射的数据报内部存储器在系统内核的检测程序,或建立一个缓冲区在用户空间和内核空间映射到。然后检测程序直接访问内部存储器,从而减少系统内核对用户空间的内存拷贝,减少系统调用的数量。——移动设备:目前,移动设备的使用越来越广泛。由于移动设备的功能日益强大,他们的功能更复杂,多手段的数据采集,以及由于数据种类多。移动设备可以通过定位系统获取地理位置信息;通过麦克风采集音频信息;获取图片、视频、streetscap是的,二维条形码,和其他多媒体信息通过摄像头;获取用户手势和其他肢体语言信息通过触摸屏和重力传感器。多年来,我们无线运营商通过获取和分析这些信息提高了移动网络的服务水平。例如,iPhone本身就是一个“手机间谍”。它可能会收集无线数据和地理地形位置信息,然后把这些信息带回苹果加工,其中用户是不知道。除了苹果,智能手机操作系统如Android GOOGLE和Windows手机的微软也以类似的方式,信息的收集。除了上述三种数据采集方法的主要数据来源外,还有许多其他的数据采集方法或系统。例如,在科学实验中,许多特殊的工具可用于收集实验数据,如磁仪和射电望远镜。我们可以从不同的角度对数据采集方法进行分类。从数据源的角度是的,收集数据的方法可以分为两类:收集方法记录通过数据源收集方法记录通过其他辅助工具。3.2.2数据传输
原始数据收集完成后,将数据传送到一个数据存储基础设施进行处理和分析。正如2.3节所讨论的,大数据主要存储在一个数据的分中急诊室数据布局应进行调整,提高了计算效率和便于硬件维护。也就是说,内部数据传输可能发生在数据中心。因此,数据传输传输分为两个阶段:DCN DCN传输传输间内。–DCN DCN间传输:间传输是从数据源到数据中心,它一般是与现有的物理网络基础设施实现。由于快速增长的交通需求,在世界上大多数地区的物理网络基础设施的高容量、高速率和低成本的构成,光纤传输系统。过去20爷ARS,先进的管理设备和技术,如基于IP的波分复用(WDM)网络架构,进行智能控制与管理的选择化学纤维网络[ 48,49 ]。WDM技术是将多个光载波信号耦合到不同的波长和光链路的光纤。在这样的技术,不同波长的激光进行不同的信号。目前,骨干网已经部署的WDM光传输系统单信道速率40Gb/s的公关目前,100Gb/s商业接口可与100Gb/s系统(或TB/S系统)将在不久的将来,[ 50 ]可。然而,传统的光传输技术是有限的Y的电子瓶颈[ 51 ]带宽。最近,正交频分复用(OFDM),最初设计的无线系统,被视为一个主要候选技术未来的高速光传输技术。OFDM是一种多载波并行传输技术。它将一个高速数据流分割成一个高速数据流,将其转化为低速子数据流,以不被传播到多个正交的子载波[ 52 ]。随着WDM固定信道间隔相比,OFDM允许子信道的频谱互相重叠,[ 53 ]。因此,它是一个灵活的稳定高效的光网络技术。
–内DCN传输:传输帧内DCN在数据中心的数据通信流量。内DCN传输取决于沟通在数据中心机构(即物理上的连接板、芯片、数据服务器、数据中心、网络体系结构和通信协议的内部记忆)。数据中心多接口包括磨碎的服务器机柜内部连接网络的互连。目前,大多数数据中心的内部连接网络的胖树,双层或三层基于多商品网络流的结构研究[ 51,54 ]。在两层拓扑结构,可由1Gbps的顶级机架交换机连接(TOR),那么这样的顶级机架交换机连接从10Gbps汇聚交换机的拓扑结构。三层拓扑结构是一种结构增加一层对两层拓扑结构上这些层通过10Gbps或100Gbps的核心交换机构成的连接拓扑结构汇聚交换机。还有其他拓扑结构,其目的是提高数据的并行[ 58 ] 55–中心网络。由于电子数据包交换的不足,很难提高通信带宽,同时保持能耗低。多年来,由于巨大的成功,通过光学技术实现,在数据中心之间的网络互连引起了很大的关注。光学互连是一种高通量、低延时,和低能耗解决方案。目前,光学技术仅用于数据中心的点对点连接。这样的光链路提供使用低成本的多开关连接TI的单模光纤(MMF)10Gbps的数据速率。光互连(在光域内切换)在数据中心网络是一个可行的解决方案,它可以提供Tbps级别的传输带能耗低的宽度。最近,许多光互连计划提出的数据中心网络[ 59 ]。有的计划增加光路,以提升现有的净工作,和其他的和完全取代目前的开关59–[ 64 ]。作为一种强化技术,周等。在[ 65 ]采用60GHz频率频段的无线链路增强有线链路。网络虚拟tualiza还应考虑提高数据中心网络的效率和利用率。3.2.3数据预处理
由于数据来源广泛,收集到的数据对于噪音、冗余不同,和一致性,等等,这无疑是商店的平均ingless数据浪费。另外一些分析方法对数据质量有严重的要求。因此,为了使有效的数据分析,我们将预处理数据在许多情况下,将数据从不同的源数据中整合,不仅可以降低存储费用,而且可以提高分析精度。一些关系数据预处理技术讨论如下。
–集成:数据集成是现代商业信息学的基石,涉及来自不同来源的数据相结合,为用户提供了数据的统一视图,[ 66 ]。这是传统数据库的一个成熟的研究领域。在历史上,2种方法得到了广泛的认可:数据仓库和数据联合会。数据仓库包含一个过程称为ETL(E提取、转换和加载)。提取涉及的源系统,选择,收集,分析和处理所需的数据。转型是一系列规则,TR的执行换成标准格式数据的提取。加载装置将提取和转换的数据导入到目标存储结构中。加载是三个最复杂的过程,其中包括转换、复制、清除、标准化、筛选、数据组织等操作。可以构建一个虚拟的数据库,以查询和聚合来自不同数据的数据资源,但这样的数据库不包含数据。相反,它包括信息或实际的数据和相关的元数据的位置。这两“存储阅读”方法不满足日数据流或搜索程序和应用程序的高性能要求。与查询相比,在这类方法中的数据更具动态性,在数据传输过程中必须处理。GEn-erally,数据集成方法都伴随着流处理引擎和搜索引擎[ 30,67 ]。
–清洗:数据清洗是一个过程,以确定文协副牧师,不完整,或不合理的数据,然后修改或删除这些数据来提高数据质量。一般情况下,数据清洗包括五个共同mplementary程序[ 68 ]:定义和确定错误类型,搜索和识别错误,修正错误,医生umenting错误实例和错误类型和模式、数据录入程序减少未来的错误。在清洗过程中,数据的格式、完整性、合理性和限制,应检查。数据清洗是保持数据一致性的关键,这是一广泛应用于许多领域,如银行、保险、零售业、电信和交通控制。
在电子商务中,大多数数据是电子收集,这可能会造成严重的数据质量问题。经典的数据质量问题主要来自软件缺陷、定制错误或系统错误—配置。作者在[ 69 ]讨论了数据清理在电子商务中的爬虫和定期重新复制客户和帐户信息在[ 70 ],对射频识别数据的问题进行了检查。RFID技术被广泛用于许多应用,例如,库存管理和目标跟踪。然而,原有的RFID功能的低质量,WH我的资料包括了许多不正常的数据,受环境噪声影响的物理设计和环境噪声的影响。在[ 71 ],概率模型,以应付在移动环境中的数据丢失。khoussainova等人。在[ 72 ]提出了一个系统来自动纠正错误的输入数据,通过定义全局完整性约束。
赫伯特[ 73 ]提出了一个框架,称为bio-ajax规范生物数据,以便进行进一步的计算和提高搜索质量。与bio-ajax,一些错误和重复可以ELIM-inated,和常见的数据挖掘技术可以更有效地执行。-冗余消除:数据冗余是指数据重复或盈余,这通常发生在许多数据集。数据冗余可以增加不必要的数据传输费用和原因E缺陷的存储系统,例如,存储空间的浪费,导致数据不一致、数据可靠性降低,数据损坏。因此,各种冗余的还原方法已被磷提出,如冗余检测,数据过滤,数据压缩。这样的方法可以适用于不同的数据集或应用环境。然而,冗余减少也可能带来抗体出了一定的负面影响。例如,数据压缩和解压缩造成额外的计算负担。因此,减少冗余的和成本效益应仔细B均衡。来自不同领域的数据将越来越多地出现在图像或视频格式。众所周知,图像和视频中含有一定的冗余,包括时间冗余Y,空间冗余、统计冗余,冗余和感知。视频压缩是广泛用于降低视频数据中的冗余,在许多视频编码标准的规定(MPEG-2 MPeg-4,H.263,H.264/AVC)。在[ 74 ],作者考察了与视频传感器网络的视频监控系统中视频压缩问题。作者提出了一种新的基于MPEG-4的方法通过调查背景和前景在一个场景中的背景冗余。被伊娃证明的低复杂度和该方法的低压缩比评价结果。广义数据传输或存储,重复数据删除是一种特殊的数据压缩技术,其目的是消除重复数据拷贝[ 75 ]。重复数据删除,个人数据块或数据段会被分配相同标识符(例如,使用一个哈希算法)将标识符添加到标识列表中。如重复数据删除继续分析,如果一个新的数据块的标识符是在IDE上市相同识别表,新的数据块将被视为多余的,将由相应的存储数据块替换。重复的数据删除可以大大降低存储要求,这是一个AR的重要的一个大的数据存储系统。除了上述的数据预处理方法,具体的数据对象必须经过一些其他手术如特征提取。这样的操作中起着重要的作用,多媒体搜索和DNA分析[ 76,78 ]–。通常的高维特征向量(或高维特征点)是用来描述数据对象和系统存储未来检索维特征向量。数据传输通常用于处理分布式的异构数据源,特别是业务数据[ 79 ]。作为事实上,在考虑各种数据集,这是不平凡的,或者是不可能的,建立一个统一的数据前处理步骤和技术,是酌收所有类型的数据集的在具体的特征、问题、性能要求等方面对数据集进行分析,从而选择一个合适的数据预处理策略。
4大数据存储
数据的爆炸性增长对存储和管理有更严格的要求。在这一节中,我们把重点放在存储大数据。大数据存储是指大的存储与管理GE规模数据而实现的可靠性和数据可用性。我们将回顾重要的问题,包括大规模的存储系统,分布式存储系统,和大数据存储机制。一方面,存储基础设施需要提供可靠的存储空间的信息存储服务;另一方面,它必须提供一个强大的访问接口进行查询并分析了大量的数据。传统上,作为服务器的辅助设备,数据存储设备是用来存储、管理、查找、分析数据和结构化的关系数据库管理系统。随着数据的急剧增长,数据存储设备是变得越来越重要,许多互联网公司追求的存储容量大是有竞争力的。因此,对数据存储的研究有着迫切的需要。
4.1海量数据存储系统
各种存储系统的出现,以满足海量数据的需求。现有的海量存储技术可分为直接连接存储(DAS)、网络存储,网络存储可以进一步分为网络附加存储(NAS)和存储区域网络(SAN)。在DAS、各种硬盘直接连接服务器和数据管理是以服务器为中心的,如存储设备的外围设备,都需要一定的I / O R资源,是由一个单独的应用软件管理。因为这个原因,这只适用于小规模的互连服务器。然而,由于其较低的可扩展性,这将显示出你ndesirable效率时,存储容量的增加,即,升级和扩展性受到很大限制。因此,这主要是用于个人电脑和小型服务器。网络存储是利用网络为用户提供数据访问和共享的联合接口。网络存储设备包括专用数据交换设备、磁盘阵列、带库、和其他存储介质,以及特殊的存储软件。它的特点是具有很强的可扩展性。NAS实际上是一个网络辅助存储设备。它是直接连接到网络通过集线器或交换机通过TCP / IP协议。在NAS,数据传送文件的形式。与DAS、I/O负担在NAS服务器从服务器访问存储设备,通过网络广泛的减少。
而NAS是面向网络的,三是专为数据存储具有可扩展性和带宽密集型网络,例如,一个与光纤连接的高速网络。在美国,数据存储年龄管理是相对独立的存储区域网内,在基于多路径的任何内部节点间数据交换来实现数据共享,最大程度数据管理。
从一个数据存储系统,组织DAS,NAS和SAN,都可以分为三个部分:
(一)磁盘阵列:它是一个存储系统的基础和数据的基本保证存储;
(二)连接和网络子系统,它提供一个或多个磁盘阵列和服务器之间的连接;
(三)存储管理软件,它处理数据共享,灾难恢复,多服务器的其他存储管理任务。
4.2分布式存储系统
第一个挑战所带来的大数据是如何开发一个大型的分布式存储系统的高效数据处理与分析。使用分布式系统存储海量数据时,应考虑以下因素: –一致性:分布式存储系统需要多台服务器协同存储数据。由于有更多的服务器,服务器故障的概率将更大。通常数据是分在服务器故障的情况下,将存储在不同的服务器上的多个片段以确保可用性。然而,服务器故障和并行存储可能会导致不同的副本不一致相同数据。一致性是指保证相同数据的多个副本相同。
——可用性:在多套服务器上运行的分布式存储系统。随着服务器的使用,服务器故障是不可避免的。如果整个系统都不认真,那将是可取的影响在阅读和写作方面满足客户的要求。此属性称为可用性。
分区容忍:分布式存储系统中的多个服务器通过网络连接。网络可能链路/节点故障或临时拥堵。分布式系统应该有有一定的耐受水平通过网络失败造成的问题。这将是可取的,分布式存储仍然工作时,网络被划分。
Eric Brewer提出第[ 80,81 ]理论在2000,这表明一个分布式系统不能同时示满足一致性,可用性和分区的要求,在宽容;大多数的三个要求可以同时满足。塞思Gilbert和南希林奇来自麻省理工学院的证明理论的正确性2002帽。由于一致性,可用性和分区宽容是不可能实现的同时,我们可以通过忽略分区耐受性有一个CA系统,忽视可用性CP系统,和AP系统,忽略了一致性,根据不同的设计目标。在以下三个系统中进行了讨论。
没有分区的公差,即,他们不能处理网络故障。因此,CA系统一般被认为是一个单一的服务器存储系统,如传统的商城规模关系数据库。这样的系统功能单一的数据副本,这样的一致性是很容易保证。可用性是保证关系数据库的优秀设计。不过由于不能处理网络故障,不能扩展到多个服务器。因此,大多数大型存储系统都是系统和应用系统。
与CA系统相比,CP系统确保部分公差。因此,可以扩展到分布式系统的系统。CP系统一般维持相同的数据的多个副本为了保证容错水平。CP系统也保证了数据的一致性,即同一数据的多个副本的保证是完全相同的。然而,不能保证声音的可用性高成本的原因,一致性保证。因此,CP系统的场景,但在中度负荷数据精度的严格要求是有用的(例如,交易数据)。Bigtable和HBase是两种流行的CP系统。
美联社系统也确保分区容忍。然而,美联社系统不同于在美联社系统中的系统,也保证了可用性。然而,美联社系统只确保最终的一致性,而不是汉强一致性前2个系统。因此,美联社系统只适用于频繁请求的情况下,但不是非常高的要求的准确性。例如,在网上的社会互联网络的组网服务(SNS)的系统中,有许多并行访问的数据,但一定量的数据的误差是可以接受的。此外,因为美联社系统确保最终的一致性,准确数据可以在一定量的延迟后得到。因此,不严格的实时要求的情况下,美联社系统也可以使用。发电机和卡桑德拉的两种群美联社系统。
4.3大数据存储机制
大数据的大量研究促进了大数据存储机制的发展。现有的大数据存储机制可以分为三个层次:(我)上的文件系统,(二)数据库,和
(三)编程模型。文件系统是上层应用程序的基础。谷歌的GFS是一个可扩展的分布式文件系统支持大规模、分布式的数据密集型应用程序[ 25 ]。GFS我们廉价的商品服务器,以实现容错能力,并为客户提供高性能服务。GFS支持大型文件应用比读写更频繁。然而R,GFS也有一定的局限性,如单点失效和小文件性能差。这样的局限性已经被巨人[ 82 ]克服,GFS的继任者。
此外,其他公司和研究人员也有他们的解决方案,以满足不同的需求,对存储的大数据。例如,HDFS和kosmosfs是衍生物对GF的开放源代码美国微软开发的宇宙[ 83 ]来支持它的搜索和广告业务。Facebook利用草堆[ 84 ]存储大量小型照片。淘宝还开发了TFS和Fas个TDFs。总之,分布式文件系统已经相对成熟后,业务经营发展年。因此,我们将集中在这段休息的其他两个层次古斯堪的那维亚语(OldNorse); 4.3.1数据库技术
数据库技术已经发展了30多年了。开发用于处理数据在不同尺度和支持各种应用各种数据库系统。传统的关系l数据库不能满足大数据带来的类别和尺度的挑战。NoSQL数据库(即,非传统的关系型数据库)是大数据存储变得越来越受欢迎。NoSQL数据库特征方式灵活,简单和容易复制、简单的API,最终一致性的支持,并支持大数据量。NoSQL数据库成为B的核心技术免疫球蛋白。我们将探讨以下这段三个主要NoSQL数据库:键值数据库,面向列的数据库和面向文档的数据库,每个基于一定的数据模型。–键值数据库:键值数据库控制措施的一个简单的数据模型和数据存储对应的键值。每一个关键是独特的,客户可以输入查询的值到钥匙。这样的数据库功能的简单结构和现代核心价值的数据库具有高扩展性和查询响应时间小于关系数据库。在过去的几年中,许多关键的价值数据库已经出现的动机由亚马逊的发电机系统[ 85 ]。我们将介绍发电机和其他几个有代表性的主要价值数据库。
–发电机:发电机是一个高度可用和可扩展的分布式key-value数据存储系统。它是用来存储和管理的一些核心服务的状态,可与所实现的关键年代,在亚马逊电子商务平台。关系型数据库的公共模式可能会产生无效的数据和限制数据的规模和可用性,而发电机可以用一个简单的密钥来解决这些问题对象的接口,这是通过简单的构成按读写操作。通过数据分区、数据复制、对象编辑机制,实现弹性和效用。Dy纳摩比肩天信计划依赖于一致性哈希[86],其中有一个节点传递荷兰国际集团不仅直接影响到相邻的节点,不影响其他节点,划分负载含多处主要优势电子主要存储设备。将数据复制到服务器的一组数据中,在该服务器中,该数据是一个可配置的参数以实现高可用性和耐久性。发电机系统还提供了最终的一致性,以便在所有副本上进行异步更新。
–伏地魔,伏地魔也是一个关键值存储系统,这是最初开发的,仍用LinkedIn。在伏地魔的关键字和值复合对象由表胚胎和影像。伏地魔的接口包括三个简单的操作:阅读,写作,和删除,所有这一切都是由关键词确认。伏地魔提供异步更新并行有限控制多个版本,但不保证数据的一致性。然而,伏地魔支持乐观锁一致多记录更新。当更新和一个其他歌剧全文,更新操作将退出。对伏地魔的数据复制机制,发电机相同。伏地魔不仅存储在RAM中的数据,允许数据被插入一个存储通用电气发动机。特别是,伏地魔支持两个存储引擎包括伯克利DB和随机存取文件。
关键价值数据库出现了几年前。亚马逊Dynamo DB的深刻影响,其他关键值存储系统包括Redis,东京canbinet和东京的暴君,Memcached和Memcache DB,Riak的一二大蚊,所有这些都提供扩展的关键词为节点分配。伏地魔,Riak,东京柜,和memecached可以利用附加存储设备在内存或磁盘存储数据。其他存储系统存储在内存中的数据,并提供磁盘备份,或依靠复制和恢复,以避免备份。——面向列的数据库:面向列的数据库存储和处理数据,根据行。两列和行分割在多个节点实现可扩展性。T他面向列的数据库主要是由谷歌的BigTable。在这一部分中,我们首先讨论了Bigtable然后介绍几种衍生工具。
–Bigtable:Bigtable是一个分布式的、结构化的数据存储系统,它的设计过程的大型(PB级)成千上万的商业服务器[ 87 ]中的数据。基本数据结构F Bigtable是一个多维度的排序映射稀疏,分布,和持久性存储。指数映射行键,列键,时间戳,和映射的每个值是一个unana-l分析的字节数组。在Bigtable中每一行的关键是一个64KB的字符串。通过lexicograph政治秩序,行存储不断分割成片(即单位分布)负载平衡。因此,读取短行的数据可以非常有效,因为它不仅涉及通信与机器的一小部分。列是根据键前缀分组,从而形成列族。这些列的家庭•谎言是访问控制的基本单位。时间戳是64位的整数来区分不同版本的单元格的值。客户可以灵活地确定存储的单元格版本的数量。THESE版本在时间戳降序排序,所以最新的版本都会读。
Bigtable API的创作特征和片剂和列族的缺失以及集群中,表的元数据的修改,和列族。客户端应用程序可以插入或删除Bigtable的E值,从列的查询值,或浏览子数据表中。Bigtable还支持一些其他的特点,如在一行中的事务处理。用户可以利用泽这样的特性来进行更复杂的数据处理。
每一个程序执行的Bigtable包括三个主要组成部分:主服务器,平板电脑,服务器,客户端库。就只允许一组主服务器被分配负责佛R不同片片检测服务器,添加或删除服务器进行负载均衡的平板电脑。此外,它还可以MOD IFY Bigtable架构,例如,创建表和列的发科、垃圾收集以及删除或禁用文件保存在GFS和Bigtable使用它们的具体实例。每一片一片设置服务器管理和负责的原因一个装着的平板电脑。当平板电脑太大,他们将被分割的服务器。应用客户端库是用来沟通Bigtable的实例。
Bigtable是基于谷歌的许多基本组件,包括GFS [ 25 ],集群管理系统,用于垫SSTable文件,和胖乎乎的[ 88 ]。GFS是用来存储数据和日志文件。群马管理系统负责任务调度、资源共享、机器故障处理,和机器状态监测。SSTable文件格式用于内部存储Bigtable数据,它提供了映射之间的持久性,测序,和不变的键和值的任何字节字符串。Bigtable利用小胖在服务器以下任务:1)确保至多有一个活跃的主副本在任何时间;2)存储Bigtable数据引导位置;3)查片服务器;4)在台服务器的情况下进行错误恢复失败的原因;5)存储Bigtable架构信息信息;6)存储访问控制表。
–卡桑德拉:Cassandra是一个分布式的存储系统来管理构造了数据分布的多个商业服务器[ 89 ]之间的巨大。该系统是由Facebook成为发达一个开源工具,在2008。它所采用的思路和亚马逊Dynamo和谷歌的BigTable的概念,发电机分布式系统技术与数据集成模型Bigtable特别厄尔尼诺。表在Cassandra是在分布式四维结构图的形式,其中的四个维度包括行、列、列族,和超柱。一排被区分一个任意长度的字符串键。无论是读写的列的量,行的操作是自动的。列可能构成一个簇,这是所谓的列家庭,和类似于Bigtable的数据模型。Cassandra提供两种列家庭:家庭和超柱柱。超级栏包括与相同名称相关的任意数量的列。一列家族包括列和超级栏,可在运行时连续地插入到列族中。分区和复制机制卡桑德拉非常相似,对发电机,以实现一致性。
–衍生工具就从Bigtable代码不能通过开放源码许可证获得的,一些开源项目竞争实现Bigtable概念开发类似的系统女士,如HBase和Hypertable。HBase是BigTable的克隆版的程序,用java是Apache的Hadoop MapReduce框架[ 90 ]的一部分。HBase GFS和HDFS替换。它将最新的内容写入内存,并定期更新在磁盘上的文件。行操作是原子操作,配有行级锁和事务处理,这是大尺度的可选择。分区和分布的透明操作,有客户端散列或固定密钥空间。
Hypertable是开发类似于Bigtable获得一套高性能、可扩展性、分布式存储和处理结构化和非结构化的数据[ 91 ]系统。Hypertable是On分布式文件系统HDFS和分布式锁管理器,例如。数据表示、处理、分配机制类似于Bigtable。Hypertable有自己的查询语言,CAlled Hypertable的查询语言(HQL),并允许用户创建、修改和查询基础表。
由于列存储数据库主要模仿BigTable,他们的设计都是相似的,除了并发机制等几个特点。例如,卡桑德拉强调弱一致性的多版本并发控制而HBase和Hypertable重点强一致性通过锁和日志记录。
–文档数据库:关键值存储相比,文件存储可以支持更复杂的数据形式。由于文件不遵循严格的模式,没有必要进行模式迁移。在此外,键-值对仍然可以保存。我们将检查文件储存系统,即,MongoDB,SimpleDB的三重要的代表,与CouchDB。–MongoDB:MongoDB是开源的、面向文档的数据库[ 92 ]。MongoDB文档存储为二进制JSON对象(BSON)[ 93 ],这是类似的对象。每个文件都有一个标识字段作为公共关系关键的关键。在MongoDB查询与综合税类似于JSON表示。一个数据库驱动程序发送查询为BSON对象MongoDB。该系统可以查询所有文件,包括嵌入式对象阵列和阵列。为了使快速查询,索引可以在查询字段创建文件。在MongoDB的复制操作可以执行,支持所有H的主要节点的日志文件高水平的数据库进行操作。在复制过程中,奴隶贩子查询所有写操作自上次同步的掌握和执行操作日志文件的地方数据库。MongoDB支持横向扩展自动共享分发了数千个节点之间数据的自动负载平衡和故障转移。
–SimpleDB:SimpleDB是一个分布式数据库和亚马逊Web服务[ 94 ]。数据被组织成各种SimpleDB的领域中,数据可以存储、获取和查询。域包括不同的正确联系和名称/值对套的项目。数据复制到不同的机器上以不同的数据中心,保证数据的安全性和提高性能。这个系统不支持自动分区,因此不能扩展数据量的变化。SimpleDB允许用户查询与SQL。值得注意的是,云计算可以保证最终一致性但不支持穆蒂版本的并发控制(MVCC)。因此,无法从客户端检测到冲突。功能,即地图和减少,这两者都是由用户编程。图函数处理输入键-值对,并生成中间键-值对。然后,MapReduce将结合所有的T他中间值相同的密钥相关的传输给reduce函数,从而进一步压缩到一个较小的值设置。MapReduce的优点是,它避免了并发症复杂的开发过程的并行应用程序,例如,数据调度、容错性和节点间通信。用户只需要程序的两个功能开发并行应用-和灰。最初的MapReduce框架不支持多个数据集的一个任务,这已经被最近的一些增强功能[ 96 ]减轻,97。在过去的几十年中,程序员都熟悉SQL的高级陈述性语言,通常用在关系数据库中,对任务的描述和 –CouchDB:Apache CouchDB是一个文件的数据集分析。然而,简洁的MapReduce 面向对象数据库在Erlang编写的[ 95 ]。数据在CouchDB组织成文件即场的钥匙/名称和值命名,这为JSON对象的存储和访问。每一个文件没有提供一个唯一的标识符。CouchDB允许访问数据库文件通过RESTful HTTP API。如果一个文件需要修改,客户端必须下载整个文件里去修改它,然后将它发送回数据库。在一个文档重写一次之后,该标识符将被更新。CouchDB采用最优复制获得scalabil性没有共享机制机制。由于各种couchdbs会随着其他交易同时执行,任何一种复制拓扑可建。对CouchDB的一致性依赖于复制机制。CouchDB支持MVCC散列记录历史。
大数据通常存储在数百甚至你的商业服务器的沙子。因此,传统的并行模型,如消息传递接口(MPI)和开放式多处理(OpenMP),可能不足以支持大规模并行程序。最近,一些提出的并行编程模型有效提高NoSQL性能、降低绩效差距R关系数据库。因此,这些模型已成为分析海量数据的基石。
–MapReduce:MapReduce [ 22 ]是一个简单但功能强大的编程模型,用于大规模计算中使用了大量的商业PC集群实现自动并行处理和分布不。MapReduce计算模型中,只有两个框架只提供了两个不透明的功能,并不能涵盖所有的常用操作。因此,程序员必须花时间在编程的基本功能,这是典型的一是保持和重复使用。为了提高编程效率,一些高级语言系统被提出,例如,Sawzall [ 98 ]谷歌,猪拉丁语[ 99 ] [ 100 ]雅虎,蜂巢O脸谱,和范围[ 87 ]微软。
–树精:树精[ 101 ]是一个通用的粗粒度数据处理的并行应用程序的分布式执行引擎。森林经营结构是一个有向无环图,W它的顶点表示程序边表示数据通道。树妖执行作业对集群的顶点和发送数据通过数据通道,包括文件、TCP连接,一个FIFO和共享内存。在操作过程中,逻辑操作图中的资源自动映射到物理资源。森林经营结构是由一个中央项目经理协调工作,可执行顺序在集群或工作站通过网络。一个职位经理由两个部分组成:1)应用程序程序代码,用于建立一个工作的通信图,和2)程序库代码被用来安排可用资源。各种数据直接传输之间的vertexe因此,工作经理只负责决策,不妨碍任何数据传输。在树妖,应用程序开发人员可以灵活地选择任何的有向无环图来描述应用程序的通信方式和表达数据传输机制。此外,树妖铝低点顶点使用任意数量的输入和输出数据,而MapReduce仅支持一个输入和输出设置。
DryadLINQ [ 102 ]是树妖的高级语言,是用来整合上述类似SQL的语言执行环境。–所有对:所有对[ 103 ]是一个专门设计的生物识别技术,系统的生物信息学,以及数据挖掘的应用。它侧重于通过一个给定的函数在2个数据集的元素对比较。一我对可以表示为三元组(A组,B组,和f),其中f是用来比较的所有元素集合A和B组比较结果输出矩阵M,这也被称为笛卡尔积或交叉连接设置和设置B。所有对正在实施的四个阶段:系统建模、输入数据的分布、批作业管理,和结果收集。在第一阶段,系统性能的近似模型将不ILT的评估多少CPU资源是必要的,如何进行工作分配。在第二阶段,生成树进行数据传输,这使得每一个分区的工作量检索InP但数据有效。在III期后的数据流传送到适当的节点,对所有引擎会建立一个批处理承认锡安工作分区,而排序在批处理系统,并制定一个节点运行宁命令获取数据。在最后一个阶段,在完成批量处理系统后,提取引擎将收集结果在一个适当的结构中,它通常是一个单一的文件列表,其中所有的结果都是为了。
–Pregel:预凝胶[ 104 ]的谷歌系统有利于大型图的处理,例如,网络图和社会网络服务分析。一个计算任务由D表示有向图的顶点和边控制措施。每个顶点是一个可变的和用户定义的值有关,与每一个有向边一个源点相关的欺诈的措施的使用r-defined价值和目标节点的标识符。当图是建立的,程序进行迭代计算,这是所谓的超级步骤之间的全球同步点等算法完成和输出完成。在每一个超级步,顶点计算是平行的,每个顶点执行相同的用户自定义函数来表达一个给定的算法逻辑。每个顶点可能对其输出的边缘地位,收到消息,从以前的superstep发送,发送消息到其他顶点,甚至修改过程的拓扑结构再图。边缘没有提供相应的计算。每一个顶点的函数可以被暂停。当所有的城市都在非活动状态的版本没有任何消息传递,完成整个程序的执行。
Pregel程序的输出是一套包含所有顶点的值输出。一般来说,输入和输出的Pregel程序是同构的有向图。受此启发的编程模型,其他的研究也主要集中在更为复杂的计算任务,如编程模式,迭代计算[ 105,106 ],容错存储器计算[ 107 ],增量计算[ 108 ],和流量控制决策与数据[ 109] 5大数据分析
大数据分析的主要分析方法包括传统数据和大数据,大数据分析的架构,和软件用于大数据挖掘与分析。数据分析在大数据的价值链中,是最后的和最重要的阶段,目的是提取有用的价值,提供建议或决定。不同层次的潜在价值可以通过在不同领域的数据集的分析产生[ 10 ]。然而,数据分析是一个广泛的领域,它经常变化,是非常复杂的。在这一节中,我们介绍了相遇的方法,为大数据分析的架构和工具。
5.1传统数据分析
传统的数据分析方法是使用适当的统计方法来分析大量的数据,集中,提取,并细化有用的数据隐藏在一批混乱的数据集,并确定在标的物的内在规律,从而为数据价值的最大化。数据分析对一个国家制定发展规划,了解客户对商业的需求具有巨大的指导作用,和预测市场趋势的企业。大数据分析可以被认为是一种特殊的数据分析技术。因此,许多传统的数据分析方法仍然可以利用化大数据分析。几种有代表性的传统数据分析方法进行以下检查,其中有许多是从统计学和计算机科学。
——聚类分析:是一种分组对象的统计方法,具体而言,是根据某些特征对对象进行分类。聚类分析是用来区分对象与特定的F吃特征分为几类(簇)根据这些特点,这样的对象在同一类别将有同质性高而不同类别将有高的eneity。聚类分析是一种无监督学习方法,无需训练数据。
–因素分析:基本上是针对只有几个因素,即许多元素之间的关系描述,分组密切相关的几个变量为因子,和几个因素AR然后过去——相关分析:是一种分析方法,以阻止采矿法的关系,如相关性,相对依赖性,和相互制约,观察到的现象,并相应地nducting预测与控制。这样的关系可以分为两类:(i)功能,反映现象之间严格的依存关系,即一个明确的关联CE的关系;(ii)相关,存在不确定的或不精确的依赖关系,和一个变量的值可能对应其他几个变量的数值,如N数值价值呈规律性波动围绕其平均值。
-回归分析:是一个数学工具,揭示了一个变量和几个其他变量之间的相关性。基于一组实验或观测数据,回归模型分析外商投资企业的依赖关系被随机变量之间。回归分析可以使复杂的变量之间的相关性是简单规则待定。——一种测试:也称为桶测试。这是一个技术用于确定如何通过比较试验组提高目标变量。大数据将需要大量的测试被执行教育和分析。
–统计分析:统计分析是统计理论的基础上,应用数学的一个分支。在统计理论中,随机性和不确定性是以概率论为基础的。统计分析可以提供一个描述和大数据的推理。描述性统计分析可以总结和描述数据集,而推断性统计分析可以得出从数据的随机变化的结论。统计分析在经济和医疗保健领域中有广泛的应用[ 110 ]。
——数据挖掘算法:数据挖掘是一种提取隐藏的、未知的、但具有潜在有用信息和知识的过程,是从海量、不完整、有噪声、模糊、随机的数据中提取的。2006、日E IEEE国际数据挖掘系列会议(ICDM)确定了十个最有影响力的数据挖掘算法,通过严格的选拔程序[ 111 ],包括C4.5,K-means聚类算法,SVM,Apriori算法,他们,朴素贝叶斯,和购物车等。这十种算法包括分类、聚类、回归、统计学习、关联分析和关联挖掘,所有这些都是最重要的。数据挖掘研究中的问题。
5.2大数据分析方法
在大数据时代的曙光中,人们对如何快速从海量数据中提取关键信息,为企业和个人带来价值。目前,主要处理我大数据的方法如下。花过滤器:盛开过滤器由一系列的散列函数。开滤波器的原理是利用位数组来存储数据本身的哈希值,这在本质上是使用哈希函数来进行有损压缩存储的位图索引。它具有空间效率高,查询速度快等优点,但也有一些缺点misrecognItion和删除。
–散列:它是一种方法,是把数据转换成较短的固定长度的数值或指标值。散列法具有快速阅读、书写和查询速度快等优点,但也有很难找到一个声音哈希函数。——索引:索引始终是一种有效的方法,以减少磁盘读写的费用,提高插入、删除、修改和查询速度,在传统的关系数据库中它的数据结构,管理,和其他技术处理半结构化和非结构化数据。然而,指数有一个缺点,它具有存储索引文件,这额外的成本当数据更新时,应保持动态维护。
–专用:也叫Trie树,哈希树的一个变种。它主要应用于快速检索和词频统计。该研究的主要思想是利用字符串的公共前缀在最大程度上减少字符串的比较,提高查询效率。–并行计算:相比传统的串行计算,并行计算是指同时使用多个计算资源完成计算任务。它的基本思想是分解一个问题并将它们分配给独立完成的几个单独的进程,从而实现协同处理。目前,一些经典的并行计算模型,包括MPI(消息传递接口)、MapReduce和树妖(见表1的比较)。
虽然并行计算系统或工具,如MapReduce或树精,用于大数据分析,它们是低水平的工具,是很难学习和使用。因此,一些高层次的标准并行编程工具或语言是基于这些系统的开发。这样的高级语言包括Sawzall,猪,和蜂巢用于MapReduce,以及使用范围和DryadLINQ博士YAD。
5.3大数据分析架构
由于大数据的不同分析架构4Vs,应视不同的应用要求。
Table 1 Comparison of MPI, MapReduce and Dryad
MPI
MapReduce
Dryad
Computing and data storage arranged at the same node(Computing should be close to data)Not clear Deployment
Resource management/ scheduling Low level programming High level programming Data storage
Computing node and data storage arranged separately(Data should be moved computing node)–
Computing and data storage arranged at the same node(Computing should be close to data)Workqueue(google)HOD(Yahoo)MapReduce API Pig, Hive, Jaql, · · · GFS(google)HDFS(Hadoop), KFS Amazon S3, · · · Automation
MPI API
–
The local file system, NFS, · · ·
Dryad API Scope, DryadLINQ
NTFS, Cosmos DFS
Task partitioning
User manually partition the tasks
Messaging, Remote memory access Checkpoint
Automation
Communication
Files(Local FS, DFS)
Files, TCP Pipes, Shared-memory FIFOs Task re-execute
Fault-tolerant
Task re-execute
5.3.1实时与离线分析
根据实时性要求,大数据分析可分为实时分析和离线分析。
——实时分析:主要用于电子商务和金融。由于数据的不断变化,快速的数据分析是必要的,分析的结果将返回在很短的延迟。主要实时分析现有的体系结构包括(i)并行处理集群使用传统的关系型数据库,及(ii)基于内存的计算平台。例如,Greenplum从EMC和SAP HANA的都是实时分析架构。
–离线分析:通常用于应用程序在响应时间,要求高,如机器学习、统计分析和推荐算法。离线分析通过数据采集工具,将日志导入到一个特殊的平台中进行分析。大数据背景下,很多互联网企业利用离线分析体系结构的基础上Hadoop为了减少数据格式转换成本,提高数据采集的效率。例子包括Facebook的开源工具,划线,LinkedIn的开源工具,卡夫卡,TA欧宝的开源工具timetunnel,和Chukwa Hadoop,这些工具可以满足数据采集和每秒数百兆位传输的要求。5.3.2分析不同层次
大数据分析还可以分为记忆水平分析,商业智能(BI)水平分析,和大规模的水平分析,这是在下面的检查。
-内存层次分析:对于总数据量小于集群的最大内存量的情况。如今,服务器集群苏尔存储器通过数百GB甚至TB水平是普遍的。因此,一个内部数据库技术可以使用,热数据应驻留在内存中,以提高分析效率。记忆水平分析是非常合适的用于实时分析。MongoDB是一个具有代表性的内存层次分析结构。随着SSD(固态硬盘),发展能力和记忆水平的数据分析性能得到了进一步的改进和广泛应用。
–BI分析:是当数据规模苏尔通过记忆水平但可以导入BI分析环境。目前,主流的BI产品提供数据分析计划支持结核病的水平。
-大规模分析:数据规模已完全超过了双产品和传统关系数据库的能力。目前,最大量的分析利用HDFS的Hadoop存储数据,使用MapReduce的数据分析。最庞大的分析属于离线分析范畴。5.3.3不同复杂度分析
数据分析算法的时间和空间复杂度,根据不同的数据和应用需求的不同而不同。例如,对于应用是适合的为了并行处理,可以设计一个分布式算法和一个并行处理模型,可用于数据分析。大数据挖掘与分析的5.4大工具
大数据的挖掘和分析许多工具可用,包括专业和业余软件,昂贵的商业软件和开源软件。在这一节中,我们简要回顾一下最广泛使用的五个软件,根据一项调查,“什么分析,数据挖掘,大数据软件,你用在过去12个月为一个真正的项目?“798个专业的基2012 uggets [ 112 ]。
(30.7%):一个开源的编程语言和软件环境,是专为数据挖掘/分析和可视化设计的。虽然计算密集型任务执行,代码编程的智慧H C、C++和Fortran可以在R环境称为。此外,熟练的用户可以直接调用C语言中的对象,其实,是一种语言的实现,这是一种解释语言种由AT&T贝尔实验室和用于数据挖掘,统计分析,并绘制曲线。与之相比,更为流行,因为它是开源的。R在kdnuggets 2012调查排名前1。此外,在“设计语言,你在过去的一年中“2012数据挖掘/分析调查,R也被放在首位,击败SQL和Java。由于研究的普及,数据基地的生产厂家,如Teradata和Oracle,已经发布的产品配套R.–Excel(29.8%):Excel,一个微软Office的核心组件,提供了强大的数据处理和统计分析能力。当Excel安装,一些先进的插件,如分析是工具库和求解器的加入,为数据分析的强大功能集成开始,但这样的插件可以使他们使用只有用户。最擅长的也是唯一的商业软件王前五。
–rapid-i RapidMiner(26.7%):RapidMiner是一个用于数据挖掘开源软件,机器学习,和预测分析。在kdnuggets 2011调查,这是更频繁用比(排名前1)。数据挖掘和机器学习程序提供RapidMiner包括提取,转换和加载(ETL),数据预处理和可视化,建模,评估,一三维部署。通过图形用户界面(图形用户界面)对数据挖掘流程进行描述。快速矿工被写在爪哇。它把学习者和weka的评价方法,并与R函数RapidMiner与过程包括各种运营商实现连接。整个流程可以被视为一个工厂的生产线,与原始数据的输入和模式结果输出。运营商可以被认为是一些特定的功能,具有不同的输入和输出特性。
(21.8%):–knmine KNIME(康斯坦茨信息挖掘)是一个用户友好的、智能的、开放源码的丰富的数据集成、数据处理、数据分析和数据挖掘平台[ 113 ]。它允许用户在可视化的方式创建数据流或数据通道,选择性地执行部分或全部分析程序,并提供分析结果,模型,和互动的观点。KNIME是世界资源研究所记在Java和基于Eclipse的插件,提供了更多的功能。通过插件的文件,用户可以插入图片文件处理模块,和时间序列,并将它们集成到各种的开源项目,例如,R和Weka。KNIME控件数据集成、清洗、转换、滤波、统计、挖掘,最后数据可视化。整个开发过程是条件指示一个可视化的环境下。KNIME设计为模块化和可扩展的框架。有它的处理单元和数据容器之间没有依赖性,使其适应分布式环境下的自主发展。此外,它很容易扩展KNIME。开发人员可以轻松地扩展各种节点和看法KNIME。
–WEKA / Pentaho(14.8%):WEKA,从怀卡托环境知识分析的简称,是一个免费开源的机器学习和数据挖掘软件用Java写的。Weka提供这样的乐趣具有数据处理、特征选择、分类、回归、聚类、关联规则等,和可视化,Pentaho是一个最流行的开源BI软件。它包括一个网络服务器平台和几个工具,以支持报告,分析,图表,数据集成,数据挖掘等,所有方面的双向。Weka的数据处理算法进行集成的我n Pentaho可直接调用。
6大数据应用
在前一节中,我们研究了大数据分析,这是大数据价值链的最后和最重要的阶段。大数据分析可以通过判断提供有用的价值,建议纳秒,支持或决定。然而,数据分析涉及范围广泛的应用,它经常改变,是非常复杂的。在这一节中,我们首先回顾了数据来源的演变。然后,我们研究六最重要的数据分析领域,包括结构化数据分析,文本分析,网站分析,多媒体分析,网络分析,和移动分析。最后,我们介绍几种l关键应用领域的大数据。
6.1应用程序演化
最近,大数据分析已经被提出作为一种先进的分析技术,通常包括在特定的分析方法下的大型和复杂的程序。事实上,大在过去的几十年中,钽驱动的应用已经出现了。例如,早在20世纪90年代,BI已成为一个普遍的技术为企业应用,基于大规模网络搜索引擎数据挖掘处理出现在第二十一世纪初。一些潜在的和有影响力的应用程序从不同的领域,其数据和分析的特点进行了讨论如下。
商业应用–演变:最早的业务数据是结构化的数据,这是由公司从传统的系统,然后存储在RDBMS收集。分析技术在这样的系统中使用的是在上世纪90年代盛行,是直观和简单的,例如,在报告的形式,仪表板,查询条件,基于商业智能搜索、在线交易处理,交互式可视化,得分卡,预测模型,数据挖掘[ 114 ]。自第二十一世纪开始,网络和万维网((儿子厄里斯IM:5Mayıs2013)
152.李承晚Y,李J(下2009年)在模拟移动社区的典范:设计用户界面,支持小组互动。
相互作用16(6):46-51 153.汉Ĵ,李JG,冈萨雷斯H,李X(2008)挖掘海量RFID,轨迹,和交通数据集。在:第14届ACM论文集
第四篇:发展观三题
科学发展观,是对中外发展经验与教训的总结和升华。其实,思考生活中的一些现象,也有助于我们加深对科学发展观的认识。
一、烧开水的学问。烧一壶开水,是将水一次放到一个大壶中烧得快,还是用几个小壶分成若干次烧得快?抑或用大壶边烧边加冷水快呢?有物理常识的人都知道,第一种方法省时间,后两种方法耗时不说,还浪费燃料。在谋划经济社会发展时,经常会遇到类似“烧开水”的问题。比如,随着生产生活需求的增长,人们感到水库小了、马路窄了、电网差了,这时,是“小壶烧水”,先建后扩,边扩边建,还是“大壶烧水”,着眼未来,谋划全局,就颇费思量。从短期利益出发,“小壶烧水”的见效似乎要快些,但“大壶烧水”显然更能解决长久的问题,也更能降低建设成本。当然,任何时候都不可能做到“一步到位”。所谓“到位”总是相对而言的。也就是说,“大壶烧水”也不能过于超前,超过经济社会发展的实际需要。“烧开水”的学问启发我们,谋划发展要有长远眼光、全局意识,不能见事短、见识浅。长远和眼前、全局和局部,要结合起来、统一起来。
二、打陀螺的常识。不管是城里还是乡下的孩子,都爱玩一种“打陀螺”的游戏,就是用鞭绳抽打陀螺,使其迅速旋转而不倒下。打陀螺讲求技巧,用力小了陀螺旋转不起来,用力大了陀螺又容易“栽跟头”,用力匀称,陀螺才能平衡而快速地旋转。在发展的问题上,一些地方和部门总爱犯“急”打陀螺的毛病。他们不是从本地实际出发,而是不顾实际与可能,一味求快。经验表明,经济和社会发展是一个过程,急躁不得。越急越乱,欲速不达,有时还会倒退。“打陀螺”的常识启迪我们,稳扎稳打,稳中求进,往往效率更高、效果更好。
三、握沙子的方法。一把沙子,手握得越紧,沙子流失得越快。要想使沙子“尽在掌握”,则可掺些许水,而且用力要均匀些,轻柔些。谋求发展不仅要有热情、有勇气,也要讲究策略,讲求方法。有的地方为了“水草丰美”,不是扎扎实实地干上几年,而去实施所谓“生态搬家”的“大手笔”,孰料“生态”不仅未呈良性,反有恶化之虞。“握沙子”的方法告诫我们,拔苗助长、削足适履是不行的。科学发展观,是一门发展的科学。唯有求真务实,把握规律,方能得其要旨。这里的关键是要坚持一切从实际出发,因地制宜,因时制宜,善于统筹,精于协调,顾及全面。一管可窥豹,观叶能知秋,读懂弄清了这些生活中的“发展观”,对于树立和落实科学发展观,也不无益处。
第五篇:素质教育三题
素质教育三题
尉天骄
素质教育是目前高等教育界的热门话题。然而,正如哲学家所说的“熟知非真知”,天天谈论的也许恰恰是了解得很不够的问题,思维的趋易性妨碍了对问题的深入研究,从而也就会妨碍素质教育的深入开展。以下将结合几个具体问题,谈谈对素质教育的认识,希望能有助于理论上的探讨。
一、素质教育与“做人”的教育
目前高教界讲到素质教育,往往与传统的教育理念进行对照。通常的说法是,传统教育注重知识的传授,最多再加上能力的培养,但这些还只是教人“求知”、“做事”,却忽略了“做人”方面的教育;素质教育就是针对传统教育的这一缺陷而来的。因此,一位教育专家把素质教育简缩为“使学生学会‘做人’的教育。”这是一句通俗而又深刻的理论概括。我们常常说,大学生是学校培养出来的人才。在其本职工作范围内,“才”(专业技能、才干)的显现机会当然非常多,但在校园里和社会上,最先、最多表现出来的还是“人”(良好的社会公民和集体成员)的品质。“要成才,先成人”是一个规律。“做人”,固然有先天遗传的因素,而后天的培育更为重要。比起“求知”和“做事”,“做人”的教育,任务更重,内容更丰富。
但是,在实际工作中,对于“做人”往往会从某一个角度进行理解。一是把“做人”限定为政治的信念、信仰,即通常所说的“红”。应当肯定,这是非常重要的、带根本性的问题,但不是惟一的。有些大学生宿舍卫生状况不佳,很显然就不是个政治信念问题,而是文明习惯的问题。常见的第二种观点是把“做人”局限于基本道德,如是否诚实、本分、正派等。应当说,这也是非常重要的。然而我们经常见到一些大学生,基本品德不错,可惜一些日常的行为、举止与其身份不符。还有第三观点,把“做人”理解为一种“古典模式”,所谓谦谦君子,谨小慎微。这种“做人”的方式虽然也有一定的正面价值,但过于收敛、缺乏进取精神却是与时代精神不一致的。由此看来,在当前,“做人”的含义不仅有新的指向,而且还应当包含更多的内容。最直观的是,“做人”与知识有关。大学生不是普通意义上的人,而是受过高等教育的知识人,知识水平的高低直接影响其“做人”的品位。这里所说的知识,主要还不是指专业知识(因为那是在“才”的范围之内),也不是指目前非常被人重视的计算机知识和外语知识(这当然也很重要),而是指专业以外的“通识”。目前的高等教育属于专业教育。这是无可非议的。不管我们多么羡慕欧洲文艺复兴时期那些“多才多艺和学术渊博方面的巨人”(恩格斯语),但毕竟时代不同,那已经成为一个“永不复返的阶段”(马克思语)了。科学的发展、社会的分工决定了现代人已不可能成为百科全书式的人物,但正因为如此,又特别显出普通知识的重要,否则,即使在知识人之间也将不可能进行文化对话。而现实情况是,过于狭隘的专业教育使人养成了非常功利的知识观,专业以外,百不经意,尤其轻视“没用”的人文知识,其结果是造成了“通识”的贫乏。例如媒体刊登过的,几个宿舍的大学生都不会写“钥匙”,有的大学生不知道科索沃与南联盟是什么关系,不知道清华大学校训中的“厚德载物”为何义,甚至在烟台发生海轮遇难事件时,搞不清楚烟台和大连的地理位置。无论是那一个专业的学生,这种“通识”上的贫乏,对其个人交往和工作都将会有不良影响。
进一步看,“做人”还与能力有关。这里主要指的是与人交往、沟通的能力。有的学生在生人、众人面前不敢说话,不会说话,有的甚至连回答老师的提问都胆怯、羞涩。相当多的大学生遇到问题、困难,不知道以什么途径和方式与他人沟通、交流,不知道怎样寻求解决的办法。学者们特别指出,一些青年过分沉湎于网上虚拟世界,有时恰恰是在现实的社会环境中缺乏交往能力。华裔美国科学家、微软中国研究院原院长李开复对我国的青年大学生说过一段话:“表达和沟通的能力是非常重要的。不论你做出了怎样优秀的工作,不会表达,无法让更多的人去分享,那就几乎等于白做。所以,在学习阶段,你不可以只生活在一个人的世界中,而应当尽量学会与各类人交往和沟通,主动表达自己对各种事物的看法和意见,甚至在公众集会时发表演讲,锻炼自己的表达能力。”他还进一步指出,表达能力不只是“口才”,还包括非语言表达方式,如人的仪表、举止、语气、声调和表情等。“„„从这些方面,人们可以更直观、更形象地判断你为人、做事的能力,看出你的自信和热情。”[2]李开复主要还是着眼于大学毕业后的工作。如果从一个人终身的长远发展来看,更是如此。信息时代,靠大学里学的东西远远不够,大量的知识和经验要在实践中继续学习。但是,离开了学校,学要靠自己。一个不能主动与人打交道的人,或者是一个不能很好地融入群体之中的人,又怎么能做到有效的学习呢?因此可以说,大学生的言谈、举止作为“做人”的基本内容,不仅影响到他毕业后的工作,也会影响到他今后的发展。
再进一步看,“做人”与内在品格有更深层的联系。作为用人单位,无论是企业、学校,还是政府机关,都希望其成员要热爱本单位(本校、本厂、本部门),能敬业、乐群、遵时、守信。教育工作的实践告诉我们这样一条规律:一个学生,在学校里热爱母校,走上社会往往能热爱所在的单位;在学校能跟同学友好相处,以后跟同事才会有融洽的关系。反过来,一个学生,对自己的母校、老师毫无情感,工作以后对单位、领导、同事也很难满腔热忱。学校的学习成绩固然不能等同于今后的工作成绩,但从在校的学习精神却大致可以看到今后的工作态度,在学习上不肯投入的,今后在工作上也很难敬业、负责。道理其实并不复杂,如果说能力是获取知识的保证,那么素质就是能力的基础。人的素质好像连通器里的水,体现在哪个方面都是相同的高度。可见在学校初步养成良好的习惯和品格乃是为“做人”打好底色。
这些方面的素质教育,是谁的责任?从理想的角度看,这些素质在基础教育阶段就该着力培养。而现实情况是,从小学到中学还无法摆脱应试教育的模式,全面素质教育还只是一种理想,这就把问题像“滚雪球”一样滚下来了。因此,大学实际上处于无可推脱的地位。从大学的教育途径来看,关于大学生政治信念的培养,有政治理论课;关于品德修养,也有专门的课程。而日常文明素质,在大学里虽没有相应的课程却并不意味着对此放弃责任。一个人的日常文明素质,是属于“嵌入式”的,即它分布在受教育的整个过程之中,不是通过一段系统的课程学习就可以成功的,事实上也不一定需要开设专门的课程。只要正视这个问题,强调在学校教育的各个环节都渗透“做人”的教育,大学生基本文明素质的提高是可以收到良好效果的。
二、素质教育与精英教育
按照国际通行的标准,高等教育在学人数占适龄人数的比例在15%以内为精英教育阶段,15%~50%为大众教育阶段。目前,关于我国高等教育毛入学率的计算结果不尽相同,根据一些统计数字来看,有些教育发达的省份,已经接近或达到大众教育阶段。但就全国情况看,现阶段的高等教育(尤其是全日制大学教育)仍然属于精英教育。从全社会对高考的重视即可看出老师和家长渴望学生成为“精英”的心态。在这种社会大氛围下,高校也都希望自己的毕业生成为社会的“精英”人物。在开展素质教育时,有的大学就提出,要反思自己学校为什么出的普通工程技术人员多而“将帅”却不多。这种心态其实不限于某一个学校。关于这个问题的追问可以有两个向度:一是总结学校在教育方面的薄弱之处,特别是学生在知识、能力、素质等方面存在哪些局限,以至阻碍了他们的发展,影响了他们担任高层次的领导职务。二是把培养高层领导者视为最能体现办学水平的标志和学校的骄傲。前一个取向是深刻、有远见的,而后一个取向就未免有违素质教育的初衷。众所周知,中国古代科举制度下的教育,主要就是“为做官”的教育。“西学”输入后的学校教育,主要是“为做事”的教育,但狭隘的科技教育仍有着较强的功利色彩(所谓“文不如理,理不如工,工不如商”),在现实的发展中又受到传统文化中“官本位”的影响,因而上大学为了好工作、高报酬、高地位的思想并不鲜见。前段时间,媒体上报道过武汉一位中学生的作文《二十年后回母校》,作者想象到,“我”毕业于名牌大学,当了大官,坐着小汽车回母校,当年的校长、老师、同学一个个对“我”毕恭毕敬。还有湖南一位中学教师在论文中公开说,就是要告诉学生,读书就是为了上大学,当官,赚钱,娶漂亮的老婆„„媒体上曾为此展开热烈讨论,有不少人赞成这些说法,认为他们勇敢地说出了大家心中的真实思想。尽管这些话题来自中学,但明显可以看出大学教育在社会群众心目中的性质。本文不可能在此剖析其中的复杂原因,但明显的事实是,这种观念造成了当前大学校园中人文精神的淡漠。人文素质教育正是针对这一弊端而提出的,怎么能绕了一圈又回到原点上去呢?
大学希望自己的毕业生在社会上能成为各项事业的带头人,这种理想、志气、责任感当然非常可贵。但是,“精英”不等于高职高位。不论在社会上还是在单位里,“官”总是需要的,然而,“官”的职数也总是有限。“不想当将军的士兵不是好士兵”,从理想上看,对青年不失为豪迈的激励。但是从结果看,能当上将帅的士兵却是百不挑一,绝大多数的人还是当士兵。而且,现代社会的情况更为复杂。青年走上社会,除了通常以文凭、证书等“硬件”所标明的“知识资本”之外,还有许多无形的“文化资本”、“信息资本”、“社会资本”也在起作用。竞争是多种因素的合力最后形成总的结果。即使在学校成绩优异,表现突出,也并非将来一定能拥有指挥权。社会的规律就是如此,我们不能视而不见。有的大学生走上社会后常有“理想幻灭”的失落感,固然有社会环境的原因,但恐怕也与自视甚高的“精英”心态有关。
其实,从本质上看,“精英”的关键在于责任意识而不在于官职地位,在于奉献社会而不在于傲然于民众之上。古人所说“位卑未敢忘忧国”,“天下兴亡,匹夫有责”,就是普通地位而有精英意识。这是中华文化的优良传统。而目前有人把“精英意识”理解为要高人一等,把个人置于他人、民众、社会之上、之外。稍有不顺,即埋怨条件和环境,却没有想到检查自己。这是曲解了精英的真正含义。今天的大学教育,仍然要坚持积极的人生职责教育,对青年学生宣传“走在社会前端”的精神,自觉担当起时代的重任。这是从继承民族优秀文化传统来看的。从现代社会要求来看,更需要以开放的心态看待“精英”。高效率的社会需要高度的协同、配合,任何一个环节的失误都会影响全局。“士兵”素质高,在整体范围内也是精英。从实际工作中看,“强将”固不易求,“精兵”也并非随处可得。如果一个单位,一个部门,成员个个都是好的被领导者,勤奋,敬业,团结合作,能力又强,这个单位(部门)的工作就特别能出成绩。如果一所高校,培养的毕业生绝大多数成为高素质的专业人才,在任何一个岗位上都是出类拔萃的,同样的工作往往比别人干得好,这就是学校教育事业的成功。并不一定在于该校出了多少官员。
当然,在一个机制正常的环境中,高素质的“士兵”更容易有当“将帅”的机会。但这是社会选择的结果,不是个人刻意追求的问题。众所周知,英国的牛津、剑桥,出了很多大政治家,但作为学校的培养目标却是“君子人”。美国的哈佛大学,先后出了六位总统,一位基辛格博士,还有数以百计的参众议员和大法官,以及当代美国500家大财团的2/3的决策者,另有大量的外国政要出自哈佛,因此被公认为全球性精英摇篮。但其校训是:“与柏拉图为友,与亚里斯多德为友,更重要的是与真理为友”。[3]注重的是提升品格,追求真理。这种教育思想有值得学习和借鉴之处。因此,作为素质教育,对学生应当强调的是,提高素质首先是为了做一个良好的甚至是杰出的工作者,而并非仅仅是为了追求日后的高升。
三、素质教育与文科知识教育
在人才的各种素质之中,文化素质是基础,因此,原国家教委提出,加强文化素质教育是全面推进高校素质教育的重要切入点。文化素质教育分为科学素质教育和人文素质教育。在理工科院校,文化素质教育主要是人文素质教育。为了论述的方便,我们以下把文化素质教育中的人文社会科学知识统称为文科知识。前面说过,像素质中的禀赋、性格等因素,先天的成分较大,而像气质、修养、能力等主要是后天培育的成果,是知识的内化和升华而形成素质。知识固然不等于素质,但没有一定的人文社会科学知识做基础,文化素质的提高也将流于空泛。因此,在开展素质教育(特别是人文素质教育)时,很多学校开设了一些文科选修课,讲授一些文科知识,唤起了大学生的兴趣,对提高大学生的人文素质起到了促进作用。但作为施教者,不能满足于此。因为,在1995年原国家教委提出开展文化素质教育之前,高校一般都没有在全校范围内开设这类选修课,因此人文素质选修课的开设背景可以说是“一张白纸”。“从零开始”的任何一笔都是容易见效果的,只不过这是“有胜于无”的效果。学生的兴趣是出于渴求知识的心情。在这种背景下,即使是传统的、粗放式的教学,也能在一定程度上提高学生的人文素质。但随着素质教育的深入开展,学生的人文素质在不断提高,这就促使人文素质教育必须进一步探索更为有效的教学途径和方法。[4]其中的关键问题就是“因材施教”。此处所说的“因材施教”不是说教学要考虑到每个学生的个别情况(作为大面积的选修课,很难做到这一点),而是指面向理工科大学生的人文素质教育,应当与综合性大学和师范院校的文科教育有区别。
综合性大学和师范院校的文科教育,注重知识、理论的广泛性和系统性,目的在于培养人文社会科学的专业人员和文科教师。而理工科大学的学生接受人文素质教育,尽管也多是从学习文科知识开始,但主要目的不在于获得系统的学问,也不是学点人文社会科学知识以作为茶余饭后的谈资或海侃神聊的话题,而是在一定知识积累的基础上熏陶精神,树立正确的人生观念。简单地说,“知”是为了“行”。这就是教学的基本目标。为达此目标,笔者认为,理工科大学人文素质选修课的教学应当注意以下几个方面:
1.教学内容应注重宏观性和精髓性
文科知识浩如烟海,理工科大学生没时间也没必要掌握那些精深、细致的内容,他们需要了解的是基本的“轮廓”和传神的“眼睛”,并从中领悟该学科的精神内涵和价值观念。对他们来说,“见林”比“见木”更重要。因此,把学科知识划分过细而形成的课程,实践证明并不太适合理工科大学生,而“概览(观)”、“概论”之类课程,如果真正是简明扼要而不是枯燥干瘪,是高屋建瓴而不是流于空泛,那将是非常有用的。至于一些静态知识,如学科
历史、不同流派和见解、代表人物的生平事迹等,则宜简略或删去,不求知识的面面俱到、环环紧扣,特别不必细说枝叶。
2.教学过程中要努力唤起兴趣,培养能力
任何一门课程,从教师的角度看都有很丰富的内容可讲。但假如不能唤起学生的兴趣,教得越多可能越不讨好,甚至可能使学生长期厌恶这门课程乃至这个学科。而且,即使是学生感兴趣的内容,在有限的教学时间内也只能做到引导入门,提供钥匙,有助于学生今后的自学。以文学为例,中外文学史上的著名作家、作品不可能在教学中一一讲解。但对于那些确实喜爱文学的学生,最好给他们提供一个线索,使其养成文学的眼光,能辨别精粗雅俗,在课程结束以后乃至在离开学校以后,能够自己去阅读和欣赏喜爱的文学作品,终生从优秀文学作品中汲取人生的营养。
3.在通识教育中保持学术性内核
“兴趣”与“趣味性”有联系,但不是等同的。建立在趣味性上的兴趣,多是不稳定的,而被学科知识精髓激发起来的兴趣才是真正能持久的兴趣。因此,学术性不仅是专业教学的基础,同样也应当成为通识教育的内核。对文科选修课教学质量的衡量,要注重其学术上的“含金量”,不能仅看表面的效果。满堂笑声可能是会心的爆发,也可能是浮面的逗乐。从根本上说,学生要获得的不仅仅是课堂上的开心,更需要的是精神的充实,心灵的陶冶。这里就有一个矛盾:既要保持学术性,又不能照搬综合性大学文科教学的做法。这实际上也是对教师提出了新的要求:通识教育要与学术研究相结合,教师先要有提炼精华,以简驭繁的功力;同时,又要研究教学方法和技巧,追求深入浅出,在学术性与通俗性(生动性)之间保持必要的平衡。这也是需要付出辛勤劳动、努力探索的。
《河海大学学报(哲学社会科学版)》
打印本文