第一篇:先进性技术专题讲座报告_大数据云计算及分布式(定稿)
——先进性技术专题报告
大数据、云计算及分布式浅析
目录 大数据...................................................................................................................................3 1.1 1.2 2 数据挖掘(Data Mining)..............................................................................................4 机器学习(Machine Learning)....................................................................................5
云计算...............................................................................................................................6 2.1 虚拟技术........................................................................................................................7 分布式...............................................................................................................................8 3.1 分布式数据库............................................................................................................8
摘要:大数据(big data science)和云计算(cloud computing)是当今信息时代下,最具发展前景的热门领域,无疑是信息工业革命中的又一次令人兴奋的技术浪潮,该领域的迅猛发展将会在相关的项目领域带来概念以及技术上的颠覆性改变,同时也会对人类的生活方式和对信息的认知模式带来巨大的冲击。分布式(distributed system)的发展为大数据与云计算在技术上奠定了实现的基础,大数据的处理分析需要庞大的计算能力,云计算为此提供强有力的支持,而云计算的本质就是分布式系统,将无数在空间上分离的计算机资源汇聚到一起,形成一个巨大的资源池,用户根据自己的需要从中获取所需的云平台资源,这一过程运用到了虚拟化技术(virtualization),将无数物理上隔离的并且计算能力有限的计算机虚拟化成了一个计算能力相当可观的资源池,对于用户而言这些物理计算机是透明的,他们只需要关心自己实际获取到的资源。事实上这也正是阿里巴巴在去IOE化过程中应用的技术,采用开源软件在水平方向上进行拆分和分布式部署,具有很强的实际参考意义。大数据
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。
大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线感测网络。自1980年代起,现代科技
可存储数据的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5×1018字节)的数据。
大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数
十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”
随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对big data感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。
1.1 数据挖掘(Data Mining)数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(英文:Knowledge-Discovery in Databases,缩写:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘有以下这些不同的定义:
“从数据中提取出隐含的过去未知的有价值的潜在信息” “一门从大量数据或者数据库中提取有用信息的科学。” 尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上,在现今的文献中,这两个术语经常不加区分的使用。
数据挖掘的方法包括监督式学习、非监督式学习、关系分组(Affinity Grouping,作关系性的分析)与购物篮分析(Market Basket Analysis)或者称为关联规则分析、聚类(Clustering)与描述(Description)。监督式学习包括:分类、估计、预测。
数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。
因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据统计分析和人工智能搜索技术。
1.2 机器学习(Machine Learning)机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
机器学习有下面几种定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.机器学习可以分成下面几种类别:
监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。半监督学习介于监督学习与无监督学习之间。增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
具体的机器学习算法有:
构造条件概率:回归分析和统计分类 人工神经网络 决策树
高斯过程回归 线性判别分析 最近邻居法 感知器
径向基函数核 支持向量机
通过再生模型构造概率密度函数: 最大期望算法
graphical model:包括贝叶斯网和Markov随机场 Generative Topographic Mapping近似推断技术: 马尔可夫链 蒙特卡罗方法 变分法
最优化:大多数以上方法,直接或者间接使用最优化算法。云计算
云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。
云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。
在“软件即服务(SaaS)”的服务模式当中,用户能够访问服务软件及数据。服务提供者则维护基础设施及平台以维持服务正常运作。SaaS常被称为“随选软件”,并且通常是基于使用时数来收费,有时也会有采用订阅制的服务。
推广者认为,SaaS使得企业能够借由外包硬件、软件维护及支持服务给服务提供者来降低IT营运费用。另外,由于应用程序是集中供应的,更新可以实时的发布,无需用户手动更新或是安装新的软件。SaaS的缺陷在于用户的数据是存放在服务提供者的服务器之上,使得服务提供者有能力对这些数据进行未经授权的访问。
用户通过浏览器、桌面应用程序或是移动应用程序来访问云的服务。推广者认为云计算使得企业能够更迅速的部署应用程序,并降低管理的复杂度及维护成本,及允许IT资源的迅速重新分配以因应企业需求的快速改变。
云计算依赖资源的共享以达成规模经济,类似基础设施(如电力网)。服务提供者集成大量的资源供多个用户使用,用户可以轻易的请求(租借)更多资源,并随时调整使用量,将不需要的资源释放回整个架构,因此用户不需要因为短暂尖峰的需求就购买大量的资源,仅需提升租借量,需求降低时便退租。服务提供者得以将目前无人租用的资源重新租给其他用户,甚至依照整体的需求量调整租金。
基本特征:
互联网上汇聚的计算资源、存储资源、数据资源和应用资源正随着互联网规模的扩大而不断增加,互联网正在从传统意义的通信平台转化为泛在、智能的计算平台。与计算机系统这样的传统计算平台比较,互联网上还没有形成类似计算机操作系统的服务环境,以支持互联网资源的有效管理和综合利用。在传统计算机中已成熟的操作系统技术,已不再能适用于互联网环境,其根本原因在于:互联网资源的自主控制、自治对等、异构多尺度等基本特性,与传统计算机系统的资源特性存在本质上的不同。为了适应互联网资源的基本特性,形成承接互联网资源和互联网应用的一体化服务环境,面向互联网计算的虚拟计算环境(Internet-based Virtual Computing Environment,iVCE)的研究工作,使用户能够方便、有效地共享和利用开放网络上的资源。
互联网上的云计算服务特征和自然界的云、水循环具有一定的相似性,因此,云是一个相当贴切的比喻。根据美国国家标准和技术研究院的定义,云计算服务应该具备以下几条特征:
随需应变自助服务。
随时随地用任何网络设备访问。多人共享资源池。快速重新部署灵活度。可被监控与量测的服务。一般认为还有如下特征:
基于虚拟化技术快速部署资源或获得服务。减少用户终端的处理负担。
降低了用户对于IT专业知识的依赖。
2.1 虚拟技术
在计算机科学中,虚拟技术是一种通过组合或分区现有的计算机资源(CPU、内存、磁盘空间等),使得这些资源表现为一个或多个操作环境,从而提供优于原有资源配置的访问方式的技术。
由于目前信息技术领域的很多企业都曾在宣传中将该企业的某种技术称为虚拟技术,这些技术涵盖的范围可以从Java虚拟机技术到系统管理软件,这就使得准确的界定虚拟技术变得困难。因此各种相关学术论文在谈到虚拟技术时常常提到的便是如前面所提到的那个不严格的定义。
应用领域:
服务器集成
沙盒(Sandboxing)多运行环境 多操作系统 测试和性能监视 应用集成
虚拟硬件 软件移植 系统可管理性 测试/质量保证 分布式
在计算机科学中,分布式计算(英语:Distributed computing),又译为分散式運算。这个研究领域,主要研究分布式系统(Distributed system)如何进行计算。分布式系统是一组电脑(computer),通过网络相互链接传递消息与通讯后并协调它们的行为而形成的系统。[1]组件之间彼此进行交互以实现一个共同的目标。把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,再上传运算结果后,将结果统一合并得出数据结论的科学。分布式系统的例子来自有所不同的面向服务的架构,大型多人在线游戏,对等网络应用。
目前常见的分布式计算项目通常使用世界各地上千万志愿者计算机的闲置计算能力,通过互联网进行数据传输。如分析计算蛋白质的内部结构和相关药物的Folding@home项目,该项目结构庞大,需要惊人的计算量,由一台电脑计算是不可能完成的。虽然现在有了计算能力超强的超级计算机,但这些设备造价高昂,而一些科研机构的经费却又十分有限,借助分布式计算可以花费较小的成本来达到目标。
3.1 分布式数据库
分布式数据库是用计算机网络将物理上分散的多个数据库单元连接起来组成的一个逻辑上统一的数据库。每个被连接起来的数据库单元称为站点或节点。分布式数据库有一个统一的数据库管理系统来进行管理,称为分布式数据库管理系统。
分布式数据库的基本特点包括:物理分布性、逻辑整体性和站点自治性。从这三个基本特点还可以导出的其它特点有:数据分布透明性、按既定协议达成共识的机制、适当的数据冗余度和事务管理的分布性。
分布式数据库按照各站点中数据库管理系统的数据模型的异同分为异构型分布式数据库和同构型分布式数据库,按照控制系统的类型分为全局控制集中性、全局控制分散型和全局控制可变型。
第二篇:大数据云计算学习总结
“云计算与大数据环境下银行变革”学习心得
一、大数据基本概念
1、大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据不但包含类似交易信息、账户信息等标准结构化数据,也包括用户评论类似大众点评等非结构化数据。
2、大数据的目的不是要告诉我们“为什么”,而是告诉我们结果“是什么”。比如每淘宝网数据盛典中的分析结果,“最疼爱老婆的男人地区是浙江宁波”,“山西人最孝顺,安徽人最爱宠物” 等等,从数据分析结果中没办法看到“为什么”,而只能看到“结果就是这样”。
3、数据渐渐由服务、产品等产生的副产品变为银行业最重要的金融资产。2012年3月,美国发布“大数据研究与发展计划”,将大数据比喻为美国的新石油。
与其他行业相比,大数据对银行更具潜在价值,麦肯锡的研究显示,金融业在大数据价值潜力指数中排名第一。这主要是因为:一方面,大数据决策模式对银行更具针对性。以百度、阿里巴巴、腾讯为首的互联网巨头,正在毫不讲理的进行跨界经营,大力发展互联网金融,业务领域涉及结算、支付、贷款等各个银行传统业务,尤其余额宝、财务通等各种互联网宝宝的出现,更是直接导致了银行存款的搬家。面对如此情况,银行的经营模式、服务模式、营销模式必须要转型、需要大力开展金融创新和管理升级,而大数据技术、践行大数据思维就是一种很好的工具。
另一方面,银行具备实施大数据的基本条件:(一)数据众多。银行不仅拥有所有客户的账户和资金收付交易等结构化数据,还拥有客服音频、网点视频、网上银行记录、电子商城记录等非结构化数据;(二)拥有处理传统数据的经验;(三)较高的薪酬能够吸引到实施大数据的人才;(四)充分的预算可以利用多项大数据新技术。
二、大数据的特性
1、大数据包含的数据分类:
(一)基本数据:包含姓名、电话、住址、单位、学历、家庭信息、财产信息等;
(二)账户数据:包含存款时点数、日均数、资产结构、产品持有率等;
(三)交易数据:交易时间、交易地点、渠道等;
(四)交互数据:客户爱好习惯、习惯接受方式、投资偏好等;
(五)评论数据:反映问题、投诉建议等。
目前国内银行应用范围主要在前两项,例如建行客户在建行柜面办理业务,刷卡后直接显示该客户在建行已持有产品情况,还可向其推荐的产品种类,甚至推销的口头用语直接显示在屏幕上。交易数据国内一部分银行已经在使用。交互数据目前主要是国外银行有应用,例如花旗银行,该类型数据非常有利于银行客户的平稳过渡和交接。国内维护客户主要靠专人的客户经理,一旦客户经理调整岗位或者离职,该客户即面临无人接管、难以接管的局面,对客户经理个人的依赖性比较强,如果能够注意搜集交互数据,将有助于改善这种局面。评论数据限于数据量较少,目前实际应用较少。
2、大数据的4V特征:
(一)Volume(大量)指海量数据
(二)Variety(多样)指大数据的异构和多样性,很多不同形式、无模式或者模式不明显、不连贯的语法和定义。
(三)Velocity(高速)指如何通过强大的机器算法更迅速地完成数据的价值“提纯”。
(四)Value(价值密度低)指数据中存在大量看起来不相关的数据,但通过大量分析运算才能够得到价值。
3、大数据的应用特征:
(一)允许数据存在不精确;
(二)数据在收集的时候可能未找到用途,但是在发现中找到创新性的用途;
(三)离钱最近的信息最有商业价值;
4、大数据时代营销的特点是“个性化”。现代目标客户拥有以下四个特点:
(一)手机等移动设备占据了所有的碎片时间,刷微信、看新闻、聊天、朋友圈等等,用户对信息的渴望、饥饿感与日俱增。
(二)客户对于自己不关心、不喜欢的内容的容忍能力与日剧减。
(三)客户对于兴趣数据的渴求程度与日俱增。(四)客户对于信息的甄别能力与日剧减。如果能够不用自己刻意寻找感兴趣的信息,而能够通过某种方式主动提供,才是当前客户最想要的。
三、大数据的应用创新
(一)创建个性化的金融咨询展示平台。目前国内各电商平台甚至新浪网等通过搜集客户的浏览数据,能够分析判断出感兴趣的兴趣点,有针对性的推送内容。但目前国内银行的门户网站内容很少能够做到个性化展示,例如通过搜集过往浏览记录,发现客户对理财产品的收益率比较感兴趣,在发行新的理财产品的时候可以把相应信息主动弹出,或者置顶。
(二)做到个性化理财产品营销。如果一个客户在我们的网站上浏览了黄金信息,可以推送给他其他诸如重金属或者基金产品等信息,做到交叉销售。
(三)做到个性化触发式营销。如果一个客户在网站上在按揭贷款类产品说明页面停留超过10秒钟,那么很有可能这个客户存在贷款需求,可以对其针对性的营销。
(四)做到客户潜在终身价值的识别和挖掘。比方说,一个客户虽然在我行只有一个卡,余额也不多,只有100元,但是只要有他的身份证信息,就能够判断这个人是男是女,年龄是30多岁,应该处于事业的上升期,住址是本市的一个高档住宅小区,那么可以判断其家庭收入应该不错,通过这样的分析,就能够得出结论,这个客户就是一个潜在的有价值的客户,通过定向的营销和专业的服务,这个客户可能给我行创造远超100元存款的价值。
四、大数据时代银行发展趋势
大数据时代,尤其互联网金融发展如火如荼的今天,银行必须从初始的仅提供标准产品和服务的数字银行,发展为先进的智慧银行。但需要注意的是,智慧银行指的并不是靠大量高大上的高科技设备罗列堆砌在一起的物理网点,而是通过强大后台,依托大数据,能够想客户之所想,急客户之所急,提供个性化的服务,主动提供给客户最想要的服务或产品的智慧银行。
要想实现智慧银行的目标,银行需要做到六个方面:上网、下沉、内转、外跨、两精、服务。
上网就是指金融互联网,在当今的年代,有一句话叫银行不触网,注定会消亡。
下沉就是服务客户群体的下沉。按照传统的28原则,银行服务的重点客户一般是能够给他带来重大利润贡献的那20%优质客户,为了从竞争对手手中争取这一部分客户,甚至可以不惜代价,忽视了剩下的那80%的客户的需求,更无视银行眼中传统的次级客户(无抵押质押的信用贷款客户),忽视了这部分客户积少成多,聚沙成塔后的巨大能量。而当前互联网金融中被称为“屌丝理财”的各种宝宝们,仅仅付出市场利率水平的利息,就把大量的存款聚集起来;目前多达2000多家的p2p小额贷款公司,能够提供信用贷款,仅仅是需要你的销售进货流水或者你的收入工资单。内转包含三个方面:经营模式从以产品为中心,向以客户为中心转型;营销模式从粗放营销向精准化营销转型;服务模式从标准化服务向个性化服务转型。
外跨包含两个意思:一个是内部跨部门,目前以职能划分的部门结构不适合新业务的发展;二是跨界,银行要勇于创新,互联网企业的特性是激进,一般做法就是做了再说,金融行业的特性是稳健,服从监管,如何在两者之间找到一个平衡点是当前的一个难点。例如前段时间被人行叫停的虚拟信用卡,是支付宝与中信银行合作推出的新兴支付方式,但该产品未经主管部门充分认可,结果惨被叫停。
两精指的是精细化管理和精准化营销,提倡不再把客户看到一片森林,而需要进一步关注到森林中的某一棵树。
服务指的是服务模式进化的三个阶段,第一阶段不把客户当人看,有可能是业务太多,服务跟不上,态度生硬;第二阶段把客户当上帝看,面对投诉战战兢兢,委曲求全,使银行面对客户时处于弱势地位,也不利于业务发展;第三种模式就是把客户当做伙伴或者是朋友,实现双赢和共同发展。
五、大数据分析建设过程中面临的难题
一是数据搜集困难,我们需要的数据散步在各个系统、各个渠道、各个已知的甚至未知的角落,可能还包括涉及客户隐私的数据。数据搜集和后续的加工处理是一个规模巨大的系统性工程,而非仅仅是一个信息系统。幸好我们是银行,相对互联网企业,我们拥有它们没有的一种天然的公信力。二是大数据利用率偏低。国外对于大数据有过统计:在每天收集的1 quintillion(百万3次方)字节的数据中,有99%的数据完全未被利用。文章中提到“见解就是金钱:我们愿意承担花销唯一理由就是数据中的见解可以释放价值。遗憾的是,我们失去了已收集数据中大部分的价值。虽然收集数据的成本可能会很高,但是无效分析带来的成本显然更高。当下并不存在什么工具可以直接从数据中提取见解,我们依赖着非常聪明的人去提出假设,然后使用我们的工具去证实(或者是否定)这些臆测。因为依赖的是臆测,这个途径存在着天生的缺陷。”所以即使数据搜集上来,这些数据怎么应用,怎么才能最大化的实现其价值,是大数据建设过程中无可避免的难题。
第三篇:温岭关于大数据云计算的社会实践
社会实践个人总结
2015年7月21日至7月24日,为响应智慧浙江文化科技三下乡活动,同时也学习巩固机械专业的相关知识,对大学中如何学习机械专业有所认知或侧重,对毕业后的职业发展有所了解,丰富实际工作和社会经验,我跟随工创社会实践小分队到温岭参加一系列的活动。
首先我们在台州温岭市太平街道进行了知识普及以及相关的问卷调查,普及的知识主要是有关“互联网+”时代的一些概念以及特征,问卷则意在调查当地居民的上网习惯和对“互联网+”时代的个人看法。在队员两两组队分发宣传单以及问卷时,不少年轻人以及在校学生当下就向队员们表示对传单中的一些概念很有兴趣,并且很主动的完成了问卷,让我们很有工作的动力。当然,局限于网络发展以及不同年龄段人对新兴事物的认知水平,我们的科普在老年人那里反响不大。
在接下来的几天中,我们在各负责人的带领介绍下对多家企业(包括中马,美日,大众精机等)进行了参观,了解到不少学校里暂时没有接触的东西。比如某一个产品从无到有的整个详细的生产流程,它包括信息采集、机器方案设计评审、设计图纸、样机制作与样机装配、样机与专机文件的存档以及“售后服务”等,当然每一个大流程还有更为详细的小流程以及解释,这边不再说明。在企业参观中,我认识到了实践操作的重要性,负责人以及在岗好几年了,但他坦言对于实际加工时候的一些要求或者说材料、加工刀具等的把握并不如参与加工的工人。因此,下车间操作是大学学习过程中需要重视的部分,也是将来走向职业生涯时不能或缺的经验。我们需要将理论知识与实际操作能力配合,一方面在实际操作中印证理论知识,另一方面也可以在理论学习时注意实际操作时值得注意或者说可以改善的地方。越早培养与获得理论与实践相结合的能力,对机械专业的我们来讲就越有利。
同时我认识到个人品性与企业文化的重要性,7月22日我们参观了一个极具特色的企业----美日机床。让我惊讶的是,企业创办者虞总竟亲自为我们领队介绍。事后我了解到,这与美日的企业文化是息息相关的,在企业中醒目处常常能找到鸡汤式的格言,在荣誉墙上有处在不同岗位员工的照片与介绍。在最后的问答环节中,虞总自称为老师(的确教了我们很多东西),提醒我们个人品格的重要性,提到有文化有能力的老板在招收员工时更加看重品格。不同的企业有不同的企业文化,对企业文化的侧重度也不同,但每一个成功的企业在企业文化上必然有特别的地方。要适应这些小同大异或者大同小异的文化,有一个前提就是我们本身需要是文化人,不仅要有科学知识方面的文化,还需要有为人处世方面的文化。
第四篇:未来10年大数据云计算的联动新变革
未来10年大数据云计算的联动新变革
据说比尔·盖茨当年遇到一个乞丐讨钱,比尔·盖茨递过一张10美元的钞票,这个乞丐非常感谢,给了比尔·盖茨一张卡片,上面印着这个乞丐的网络邮箱,这让比尔??盖茨很吃惊,于是一回公司,就着手制订新的互联网战略,这种战略一直延续至今。不过,今天的互联网,又有了新变化。
面对新的变化,金蝶国际董事局主席徐少春说,当下,新兴技术风起云涌,云技术浪潮席卷全球,以社交网络、移动互联网、云计算、大数据等为代表的新兴互联网技术,正在颠覆以往的模式。
刚刚在顺义新城落户的北京金蝶软件园里,新建了国内首个融合云时代新技术与实践的云管理体验中心。这个体验中心首次将社交网络、移动互联网、云计算和大数据等新兴技术融合在一起。在这个体验中心,你或许能提前领略到未来生活的便捷,感受生活在“云端”的不同。
金蝶中国副总裁郝登胜告诉记者,现在我们到了一个颠覆传统的时代,这是因为新技术带来的新想法,带给人们新的感受、新的消费习惯。
有“互联网女皇”之称的前摩根士丹利全球科技研究组联席领导人玛丽·米克最近离开了曾令无数人羡慕的职位,开始了在云技术时代的独立创业,也正是看到了这个新时代的新机会。
过去几十年,计算机与互联网,给整个世界带来了巨大的改变。计算机的出现,让我们把信息总量不断地叠加和累积,互联网则促使信息交换速率成几何倍的增长。未来十年,大数据、云计算、社交网络等相互联动,将会带来新的改变。
对于未来这种云端生活,玛丽·米克说过,人们的生活将变得更好,因为他们将能以非常低的成本获取所有信息,娱乐服务变得更加便宜,人们能更容易地获得帮助,更容易地趋吉避凶。
第五篇:云计算产品及技术方案分析报告
云计算产品与技术分析
云计算产品及技术分析报告
2012年XX月XX日
云计算产品与技术分析
目录 引言...........................................................................................................................5 2 云计算产品分类.......................................................................................................5 3 国外的主流产品.......................................................................................................5
3.1 Amazon云计算方案...................................................................................5
3.1.1 介绍......................................................................................................5 3.1.2 Amazon Web Services(AWS).....................................................5 3.1.3 弹性计算云EC2.................................................................................6 3.1.4 简单存储服务S3................................................................................6 3.1.5 数据库服务SimpleDB.......................................................................7 3.2 Google云计算方案....................................................................................8
3.2.1 介绍.....................................................................................................8 3.2.2 Google App Engine.........................................................................8 3.2.3 计算服务MapReduce.......................................................................8 3.2.4 存储服务GFS(Google File System)............................................9 3.2.5 数据库服务Data Store.....................................................................9 3.3 Mirosoft云计算方案................................................................................10 3.3.1 介绍.................................................................................................10 3.3.2 Windows Azure.............................................................................10 3.3.3 计算服务........................................................................................10 3.3.4 存储服务Blob/Table存储...........................................................11
云计算产品与技术分析
3.3.5 数据库SQL服务(SDS).............................................................12 3.4 IBM蓝云...................................................................................................12 3.4.1 概述.................................................................................................12 3.4.2 云计算架构....................................................................................12 3.4.3 云计算相关产品............................................................................13 3.5 Platform云计算方案................................................................................13 3.5.1 介绍.................................................................................................13 3.5.2 Platform ISF(Infrastructure Sharing Facility)计算服务..........13 3.6 VMware(EMC)云计算方案.....................................................................15 3.6.1 介绍.................................................................................................15 3.6.2 VMware vSphere...........................................................................15 3.6.3 云存储服务EMC Atoms...............................................................17 4 国内云存储产品.....................................................................................................17 4.1 美地森...........................................................................................................17 4.2 友友系统....................................................................................................18 4.2.1 DataCell介绍.................................................................................18 4.2.2 DataCell FS.....................................................................................18 4.2.3 DataCell DB...................................................................................20 4.2.4 其他相关产品................................................................................21 5 几种开源云平台.....................................................................................................21 5.1 Hadoop(Apache基金会)....................................................................21 5.2 Ecualyptus项目(加利福尼亚大学).....................................................22 3
云计算产品与技术分析
5.3 AbiCloud(Abiquo公司)......................................................................22 5,.4 MongoDB(10gen)....................................................................................22 5.5 Enomalism弹性计算平台........................................................................22 5.6 Nimbus(网格中间件Globus).............................................................22 6 国内外主要云计算标准化组织和论坛.................................................................23 6.1 分布式管理任务组(DMTF)...................................................................23 6.2 开放网格论坛(OGF).............................................................................23 6.3 结构化信息标准促进组织(OASIS).......................................................23 6.4 全国信息技术标准化技术委员会SOA标准化工作室............................23 6.5 其他..............................................................................................................23 7 相关对比分析.........................................................................................................23 4
云计算产品与技术分析 引言
当前,云计算技术成为IT领域的研究热点。目前的云计算产品和技术方案层出不穷,国内外研究机构、IT软硬件厂家、标准化组织、开源软件组织都在十分积极的推出云计算产品和技术解决方案。本报告在学习和了解相关云计算技术资料、产品白皮书以及软件手册的基础上,希望对现有产品和技术解决方案给予归纳、整理和分析,实现对各类产品的清晰认识,以便于选择和使用。云计算产品分类
云计算产品大体分软件和硬件产品两大类。其中硬件产品是主要依赖于大型服务器设备的提供商实现的面向云特征的具有分布式并行计算能力的设备,代表有IBM、SUM、曙光机等。软件产品是云计算产品的主流,包括虚拟机管理平台、数据存储平台、分布式计算平台等,主要有的平台有Google应用软件引擎(Google App Engine)、微软的Azure平台、亚马逊网络服务(Amazon AWS)、IBM蓝云、Platform Computing的ISF以及VMware的云产品。同时,国内的友友系统和美地森公司在云存储方面也走在了云技术发展的前沿。国外的主流产品
从Google提出云计算技术,到现在,国际上几乎所有一线的IT企业都积极参与进入这块新兴领域,并依据自己传统的技术领域和市场策略提出自己的云计算架构。他们通过深挖技术基础,把大量以前的产品和技术的云计算特征挖掘出来,如软件的虚拟化、分布式存储系统,在此基础上建立自己的云计算产品线。
3.1 Amazon云计算方案 3.1.1 介绍
专业IT企业提供的云计算多多少少会限制在自己提供的系统之上,亚马逊公司不是IT系统制定者而是应用者,所以Amazon平台是开放的。技术特征:弹性虚拟平台 核心技术:虚拟化技术Xen 企业服务:EC2 S3 SimpleDB SQS 开源情况:开源
3.1.2 Amazon Web Services(AWS)
云计算产品与技术分析
平台类型:PaaS IaaS SaaS 虚拟化技术:Xen 支持语言:多种语言
运行环境:位于云端的Amazon平台
应用程序间的隔离:不同的应用运行在不同的虚拟机实现隔离 开发限制:较少(支持所有操作系统、开源代码或商业软件)可扩展性:手动或通过编程自动增加所需要虚拟机数量
计费方式:按实际使用量付费(EC2计算服务0.1~0.8美元/小时,S3存储服务每GB大约0.15美元/月)
收费机制较复杂
有免费体验(EC2 今年11月1日可以申请一年免费体验)
服务类型:任意选择服务组合,服务耦合度低 实现功能:较多
3.1.3 弹性计算云EC2 服务类型:IaaS 虚拟机的使用:用户根据需要设置虚拟机的硬件配置 模型:1个AMI+若干实例(每个用户最多20个实例)容错机制:弹性IP地址(与用户账号绑定)
当正在使用的实例出现故障,用户只需将弹性IP地址重新映射到一个新的实例
易用性:稍差(Amazon提供模块供用户组建自己的程序)
运行环境:用户自行提供运行程序所需的AMI(Amazon机器映像)构建自己的服务器平台
灵活性:很好
允许用户对运行的实例数量和类型自行配置
允许用户选择实例运行的地理位置 安全性:很好
基于密钥对机制的SSH方式访问
可配置的防火墙机制
允许用户对其应用程序进行监控 适用的应用程序:任意
3.1.4 简单存储服务S3
云计算产品与技术分析
概述:架构在Dynamo之上,提供一个字节到数GB字节的支持,大概有520亿对象。
结构:桶——对象 两级模式
扩展性:增加桶中的对象数量进行扩充
手动或编程自动扩容
容错性:冗余存储
数据监听回传
Merkle哈希树 存储限制:对象(<5GB)桶(<100个/用户)
不限制桶中对象的个数
数据交互:用户从获得授权的对象中取得数据 数据缓存:对Master中元数据进行缓存 数据一致性:最终一致性模型
后一次操作直接覆盖前一次操作 安全性:身份认证(基于HMAC-SHA1的数字签名)
访问控制列表 负载均衡 数据恢复
3.1.5 数据库服务SimpleDB 概述:非传统的关系模型
系统结构:域—条目—属性—值 四级模式 查询语言:支持有限的SQL 数据类型:结构化数据 可扩展性:超级可扩展性
查询功能:查询结果只包含条目名称不包括相应的属性值
相应时间不能超过5秒,否则报错
安全策略:每一个容器数据在微软数据中心有多个备份
数据更新时间:有延迟
新数据复制到其他服务器上存在延迟 其他功能:很少
没有事务(Transaction)的概念
不支持Join操作
实际存储的数据类型过于单一(所有的数据都以字符串形式存储)备注:用户相对大的数据存储在S3中
SDB中只保存指向某个特定文件位置的指针
云计算产品与技术分析
3.2 Google云计算方案 3.2.1 介绍
建立在其搜索引擎技术的基础上,是一个没有“端”的系统:用户通过一个简单的搜索框完成对海量计算的搜索 技术特性:存储及运算水平扩充能力
核心技术:平行分散技术MapReduce,BigTable,GFS 企业服务:Google App Engine 开源情况:不开源
3.2.2Google App Engine平台类型:PaaS(用户在其上开发软件,在Google基础设施上运行,无需服务器维护)
应用服务器:Python应用服务器群
低端服务器 虚拟化技术:没有应用 支持语言:只支持Python、Java 运行环境:Google提供在云端的应用程序环境
功能完整的本地开发环境,开发人员可以在本地模拟Google App Engine环境
应用程序间的隔离:通过沙盒实现(同时也给程序员带来很多限制)开发限制:较多
开发语言支持少
沙盒的使用带来的限制
可扩展性:自动扩充所需资源并进行复杂均衡
计费方式:每一个Google账户有一定额度的免费流量和空间支持
存在收费项目
服务类型:所有服务捆绑在一起,耦合度高
用户通过特定API来使用相应服务
实现功能:较少
3.2.3 计算服务MapReduce 服务类型:PaaS 虚拟机的使用:没有应用
模型:1个Master+若干Worker(分别执行map和reduce)
云计算产品与技术分析
容错机制:Master周期设置检查点,任务失败,从最近的检查点恢复并重新执行
Master失效,整个MapReduce重新运行
Worker失效,其任务调度到其他Worker重新执行 通用性:很好
运行环境:Google自身提供,用户无法自行调配 灵活性:稍差(现只是搜索企业的选择)适用的应用程序:可以并行处理的程序
3.2.4 存储服务GFS(Google File System)
概述:面向不可信服务器节点的分布式文件系统,文件分块存储 结构:1个Master(储存元数据)+众多ChunkServer(储存文件块)服务器:大量分散的普通廉价服务器
扩展性:动态插入节点(ChunkServer)(普通电脑),自动扩容 容错性:ChunkServer冗余备份(3份)
Master瘫痪,有Shadow作为替补 访问效率:高效
通过GFS上层的BigTable实现 存储限制:无特别限制
数据交互:一般情况下,Application 和ChunkServer在同一台服务器上
Application与ChunkServer进行数据交互
可以被多个用户同时访问 数据缓存:对Master中元数据进行缓存 数据一致性 负载均衡 数据恢复
备注:不完全适应海量小文件存储
3.2.5 数据库服务Data Store 概述:分布式存储数据库,随着应用程序访问量的增加而增加 系统结构:Model—实体组—实体 三级模式 查询语言:GQL 数据类型:结构化和半结构化数据 可扩展性:无限扩展
查询功能:查询结果以Model类的实例形式来返回实体
云计算产品与技术分析
返回的结果不能超过1000条 事务功能:通过乐观锁定实现事务的并发控制
一个事务操作一个实体组,同一组内的实体存储在一起(应用程序可以在实体创建时将实体分配到组)
数据库在一个事务中执行多种操作,有一个操作失败则回滚整个事务 数据更新时间:有延迟,但不是常态
3.3 Mirosoft云计算方案 3.3.1 介绍
“云+端”云计算构想
最新的Windows Server被设计成可让应用在数据中心和云之间迁移,但是只有在两者是非常相似的Windows Server环境下才可以实现。技术特性:整合其所用软件及数据服务 核心技术:大型应用软件开发技术 企业服务:Azure平台 开源情况:不开源
3.3.2 Windows Azure平台类型:PaaS 虚拟化技术:Hyper-V 支持语言:C#,.NET平台,PHP,Python等多种语言 运行环境:支持在云中和本地系统中的应用程序 服务类型:可以任意选择服务组合,耦合度低 应用程序间的隔离:不同的应用在不同的虚拟机上 开发限制:较少
计费方式:按实际使用量付费
存储与计算分开计费
定价机制过于僵硬,成本过高
可扩展性:需要手动或者编程自动增加所需要的虚拟机数量
用户也可以选择增加虚拟机的功率 实现功能:较多
3.3.3 计算服务
云计算产品与技术分析
服务类型:PaaS 虚拟机的使用:根据用户上传的配置文件XML,系统自动分配、配置虚拟机
虚拟机分为Web和Worker角色
模型:若干Web(提供Wen服务,与用户交互)+若干Worker(类似于Windows服务)
运行环境:程序运行在系统自动为用户生成的装有Windows Server 2008的虚拟机上
负载均衡:当有用户请求时,根据需决定是否运行新的Web角色
根据负载大小自动扩展或减少Worker上实例运行的数量 灵活性:较好 易用性:较好
适用的应用程序:任意可在Windows Server2008上运行的程序
尤其支持运行有大量并行用户的大型应用程序
3.3.4 存储服务Blob/Table存储
概述:用来存储大型数据对象
结构:容器—Blob两级模式(Blob中的数据再分成Block)
Table—Partition(分区)—Row(实体)扩展性:增加容器中的Blob数量进行扩充
手动或编程自动扩容 容错性:冗余备份
只传输出错的Block 访问效率:Blob访问控制策略
Table分成多个分区,存储在多个服务器,提高访问效率
存储限制:Blob的大小有限制(<50GB)
对容器和Blob的数量没有限制 数据交互:用户从获得授权的Blob中取得数据
数据缓存:Table相同分区的实体存储在一起进行高效缓存
数据一致性:Timestamp(时间戳)
单表一致性(事务性的快照隔离)
跨表一致性
负载均衡: 数据恢复
备注:Blob适宜存储无结构数据
Table适宜存储结构性很强的数据
另有:Queue存储应用程序各个部分之间的交互信息(例如Web和Worker
云计算产品与技术分析 的通信)
3.3.5 数据库SQL服务(SDS)
概述:非传统的关系模型
系统结构:Authority—容器—实体 三级模式(ACE模型)查询语言:SQL 数据类型:结构化、半结构化和非结构化数据 可扩展性:全球可扩展性 查询功能:查询对象为容器
查询结果返回若干数量的实体
返回的结果不能超过500页
安全策略:每一个容器数据在微软数据中心有多个备份
数据更新时间:没有延迟 其他功能:很多
3.4 IBM蓝云 3.4.1 概述
高端服务器战略(X86刀片服务器)
为用户在自己已有的IT环境中建立自己的私有云,并提供与公有云的无缝连接;同时,IBM也提供可供用户及合作伙伴直接使用的云服务和软件 技术特性:整合其所有软件及硬件服务 核心技术:网格技术、分布式存储、动态负载 企业服务:虚拟资源池提供,企业云计算整合方案 开源情况:不开源
3.4.2 云计算架构
云计算产品与技术分析
3.4.3 云计算相关产品
① IBM WebSphere CloudBurst
云环境管理工具,以物理器件形式发布,即插即用,WebSphere CloudBurst使用户能够在“私有云”中轻松的创建、安全的部署和管理应用环境,同时让用户将自己在SOA方面的投资无缝的扩展到云服务环境。② WebSphere Virtual Enterprise
软件解决方案,对中间件和应用栈进行虚拟化,为应用创建一个共享的应用云或是共享的资源池而不必考虑特定的应用容器,并实行负载均衡和资源调度。③ XIV
IBM的新一代云存储产品,基于网格技术,具有海量存储设备+大容量文件系统+高吞吐量互联网数据访问接口+管理系统的设计特征。
内置虚拟化技术,快照功能,瞬间克隆数据卷。帮助用户部署可靠、多用途、可用的信息基础结构,同时可提升存储管理、配置,以及改进的资产利用率。
3.5 Platform云计算方案 3.5.1 介绍
在HPC方面有很强的技术力量,建立在网格计算管理软件的基础上
3.5.2 Platform ISF(Infrastructure Sharing Facility)计算服务
云计算产品与技术分析
平台类型:IaaS 端到端的私有云管理软件
主要特点:可配置程度高
资源整合:将分布式和异构IT资源整合
从众多异构服务器、存储设备以及互联中创建一台共享计算机
支持主要行业的标准硬件 支持的操作系统:Linux Windows 虚拟技术:VMware ESX,Xen,Citrix XenServer,Microsoft Hyper-V和Red Hat
KVM 服务类型:很多即开即用的第三方工具(目录服务、安全、监控和报警)交付服务:自主入口——用户在几分钟(<=15min)之内请求和获得物理服务器
和虚拟机
应用程序编程接口(API),自动调配资源
为多级商业应用程序配置模板,实现其生命周期管理的自动化
允许启动多级应用程序的各个部分,添加或者去除一个资源,监控和
恢复故障
云计算产品与技术分析
负载调度:支持负载调度软件(比如AutoSys和Platform LSF)
付费方式:Platform ISF收集全部资源使用数据,提供报告和生成帐单信息
云管理员可以选择将使用数据反馈到特定场所的生成报告和索回工具之中
资源分配:单位的资源共享优先权
资源均衡和应用程序均衡
主要方式: 预约 主要针对关键业务请求 2 按需分配 ① 时间顺序相应用户请求
② 用户的请求,按每次使用付费的模式分配资源
安全性:分角色用户身份认证
审查跟踪(Audit Trail)
支持LDAP(轻量目录访问协议)和活动目录 存储支持:Operating system image /Extra disks/Shared NFS /Post-Provision/NetApp/Amazon S3/EMC/EqualLogic
3.6 VMware(EMC)云计算方案 3.6.1 介绍
EMC——自动化网络存储解决方案 VMware——虚拟化技术
技术特性:信息存储系统及虚拟化技术
核心技术:VMware的虚拟化技术,一流存储技术 企业服务:Atoms云存储系统,私有云解决方案 开源情况:不开源
3.6.2 VMware vSphere 业界第一个云计算操作系统
可以帮助企业构建实现数据中心资源的管理,同时实现内部云和外部云之间的无缝连接
云计算产品与技术分析
电源管理:利用DPM
集群需要的资源减少时,将工作负载整合到较少的服务器上
保证服务级别的同时最大限度的减少电力消耗 资源调度:分布式资源调度程序DRS
动态负载均衡——跨资源池动态调整计算资源
连续智能优化——基于预定义的规则智能分配资源
访问速率:>30万次IPOS每秒
延迟:<20微秒
数据备份:支持虚拟机集中式脱离主机备份
支持虚拟机的增量、差异和完整映像备份和恢复
为Windows和linux虚拟机提供文件级备份支持 可用性:拥有经济有效的适用于所有应用的高可用解决方案
当服务器故障时,自动重新启动虚拟机
容错性:使用DRS和VMotion(在线迁移虚拟机)消除计划内宕机
在不同的主机上同步运行相同的虚拟机
出现硬件故障,所有虚拟机均可实现零宕机时间、零数据损失故障切换 数据恢复:通过vCenter实现集中式管理
虚拟机的无代理、基于磁盘的备份和恢复
支持虚拟机、文件级别的恢复
安全性:API通过检查与管理程序一起使用的虚拟组件来保护虚拟机
动态防火墙策略
动态安全容量
云计算产品与技术分析
安全策略自动适应网络重新配置或升级 可扩展性:根据需要和优先级调整容量
热添加CPU和内存
热添加和删除存储设备和网络设备
热扩展虚拟磁盘
以零宕机时间横向扩展虚拟机
3.6.3 云存储服务EMC Atoms 特色:采用基于策略的管理系统来创建不同层次的云存储
——重要数据,多份复制,分布存储 ——不常用数据,复制份数和存储地点较少
——不再使用的数据,压缩,复制备份在更少的地方 为非付费用户和付费用户创建不同的服务级别
多样的管理服务:复制,版本控制,压缩,重复数据删除,磁盘休眠等 可用性:应用程序接口包括Rest和Soap,能够整合所有的应用程序
多租户:支持多客户共享功能,同一基础架构执行多种应用程序,并被安全隔离 现有版本:120TB 240TB 360TB
基于X86服务器并支持千兆或10GbE以太网连接 国内云存储产品 4.1 美地森
概述:分布式存储,网络容错,集群存储 结构:元数据服务器MDS+块数据服务器CDS
文件分块存储(每一块大小固定在50MB)
服务器:低成本、符合工业标准的通用硬件设备(Linux系统)扩展性:动态插入节点,无需复杂配置
自动在线扩容(几秒)
容量与节点成线性增长关系 容错性:CDS冗余备份(3份)
存在3~5台MDS,保存相同元数据,同一时间只有一台工作,一旦瘫痪,备用的立即替补
通用性:通过NAS集群网关的方式为Windows、Linux、Unix、Mac等操作系统提供NFS协议访问接口
兼容所有操作系统平台
云计算产品与技术分析
易用性:单一名字命名空间
所有应用服务器看到所有的文件 访问效率:每秒数十万个文件查询
同时多条数据通道读写数据 存储限制:PB级存储空间
数据交互:用户与CDS进行数据交互 数据缓存:对MDS中元数据进行缓存 负载均衡:自动进行负载均衡
数据恢复:本地数据存储两份,自动恢复
2TB数据恢复时间<15min 备注:不完全适应海量小文件存储
实时性?
局域网内,100台服务器左右,异地备份?WSS?
4.2 友友系统 4.2.1 DataCell介绍
DataCell能够有效地解决业务系统在运营过程中收集和产生的大量实时数据以及企业在长期的业务发展过程中积累下来的海量数据的存储和处理系列问题,尤其面对PB数量级的数据容量和上亿个存储文件的处理需求时,在降低整体成本提高系统整体可用性上可以发挥突出作用。虚拟技术:采用
扩容性:在新加入的硬件上安装DataCell,即可加入虚拟存储机
可移植性:DataCell软件具有高度的可移植性,没有实际系统软硬件的限制 数据传输:结合数流平台(Bitsflow),高效
4.2.2 DataCell FS 非结构化存储系统——针对非结构化数据
云计算产品与技术分析
架构:1个控制节点(存储元数据等)+ 若干的存储节点(细分为各存储块)可扩展性:热部署(TB—PB—更高级别的平滑扩展),性能线性增长 灵活性:基于业务策略自动切分数据进行存储(存储块的大小是不固定的)
用户可以通过定义策略来实现让适当的数据在适当的时间自动保存在适当的位置
虚拟技术:将用户所使用的各类存储硬件无缝虚拟化 多租户:同一存储结构服务于多个应用程序,数据分区隔离 容错性:冗余备份
热备控制节点
数据恢复:自动检测故障节点 自动恢复 访问效率:支持并发访问
用户可为云服务构建自定义查询 负载均衡:所有系统节点间透明地移动数据
自动动态调整数据备份数 安全性:访问控制权限
应用程序访问机制:支持NFS、HTTP、WebDAV、FTP及FUSE等多种接口
应用程序可以不做修改即可迁移数据平台
云计算产品与技术分析
4.2.3 DataCell DB 结构化数据存储系统——针对结构化和半结构化数据
解决了目前通用关系型数据库在面对multi-TB或PB量级结构化数据的存储和处理需求时出现的性能和容量瓶颈问题
不完全支持关系数据库,但支持常用的关系操作(select、insert、delete、update)
架构:完全无中心节点的分布式系统
逻辑环
容错性:相邻节点互为热备份
简单快捷的数据导出工具
自定义冗余策略 可扩展性:热部署
存储机制:支持用户自定义的各种数据格式
同时支持内存和磁盘数据库
访问效率:在内存存储模式下,多进程并发随机读写支持超过20万次/秒
尤其适用于海量小文件存储与访问的应用场景 支持语言:C++、Java 20
云计算产品与技术分析
其他功能:
支持包括哈希表、树、数组在内的多种内部结构 支持包含内存、硬盘、网络存储等多种不同存储机制
基于策略的的数据存取方式,支持包括冗余数和存储位置等在内的自定义策略
支持数据表操作类似的查询机制和简单的条件查询 支持用户定义的记录类型和数据字典 支持事务处理 支持复杂的索引规则 异步存储拷贝,支持snapshot 提供binary log,支持服务器热备和冗余 完全支持多进程、多线程的高并发访问 支持分布式事务 远程图形化管理界面
4.2.4 其他相关产品
① 数流平台(Bitsflow)
高容错、高性能的数据传输中间层工具 ② DataCell Echo 有效实现跨区域、异构分布式数据库的实时数据同步。
它可以同时处理同一系统内的多个异构数据库系统之间的数据交换和同步。通过对各个数据库系统内数据的动态划分和管理,Echo还可在一个或多个数据库中支持多个Master和Slave并存 几种开源云平台
5.1 Hadoop(Apache基金会)
完全模仿Google体系架构做的一个开源项目,主要包括Map/Reduce和HDFS文件系统。Java语言开发,主从式的HDFS文件系统位于下层,主从式的Map/Reduce处理位于上层,基本思想是“计算向存储迁移”——计算时各节点读取存储在自己节点的数据进行处理。Map处理过程中一般没有数据的传输,只是在Reduce过程中需要向主节点传送计算结果,有效的解决了并行计算中网络数据传输的瓶颈问题。
HDFS以64MB为单位对文件分块,对于小文件及频繁存取的数据没有太大的优势。
云计算产品与技术分析
5.2 Ecualyptus项目(加利福尼亚大学)
创建了一个使企业能够使用它们内部IT资源(包括服务器、存储系统、网络设备)的开源界面,来建立能够和Amazon EC2兼容的云。
选择Xen和KVM作为虚拟化的管理程序。基本架构:
5.3 AbiCloud(Abiquo公司)
用于公司的开源的云平台,使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的IT基础设施(包括虚拟服务器、网络、应用、存储设备等)
5,.4 MongoDB(10gen)高性能、开源、无模式的文档型数据库,在许多场景下可用于替代传统的关系型数据库或键/存储方式
5.5 Enomalism弹性计算平台
提供了一个功能类似于EC2的云计算框架。Enomalism基于Linux,同时支持Xen和KVM。与其他的纯IaaS解决方案不同的是,Enomalism提供了一个基于Turbo Gears Web应用框架和Python的软件栈
5.6 Nimbus(网格中间件Globus)
Nimbus面向科学计算需求,通过一组开源工具来实现IaaS的云计算解决方案
云计算产品与技术分析 国内外主要云计算标准化组织和论坛 6.1 分布式管理任务组(DMTF)
工作目标:2009年,成立DMTF开放式云标准孵化器(DMFT Open Cloud Standards Incubator),制定开放式云计算管理标准。
另有:开放式虚拟化格式(OVF),云可互操作性白皮书DMTF等 成员:AMD CISCO EMC HP IBM Microsoft Sun Redhat VMware等
6.2 开放网格论坛(OGF)
工作目标:开发管理云计算基础设施的API,创建能与云基础设施(IaaS)进行交互的实际可用的解决方案等。
成员:Microsoft Sun Oracle IBM Intel HP AT&T等
6.3 结构化信息标准促进组织(OASIS)
工作目标:致力于基于现存标准Web Services、SOA等建设云模型及轮廓相关标准。最近成立云技术委员会IDCloud TC,定位于云计算中的识别管理安全。
6.4 全国信息技术标准化技术委员会SOA标准化工作室
工作目标:《云计算标准研究报告》,开展云计算、相关SOA、中间件、虚拟化等技术标准的制定
成员:IBM、大唐软件、东方通、浪潮、北邮、复旦,世纪互联等
6.5 其他
中国云计算技术与产业联盟
云计算互操作论坛(CCIF)
网络存储工业协会(SNIA)等 相关对比分析
Google App Engine没有使用虚拟化技术,其云计算理念是与主流公司的战略是相反的,其现阶段提供的平台虽然可以为用户提供现成的在线的应用套件,但还受到很多的限制,其中支持的编程语言(只支持Java和Python)太少就是其很大的劣势。而且,由于没有本地端,应用程序只能通过提供的网址抓取和电子邮件服务访问互联网中的计算机,这也给用户带来一定的不便。
同Google一样,Amazon的产品在国内没有销售。但值得一提的是Amazon作为电子商务公司,它的云平台的安全性做的很出色,对于平台的配置上也给了
云计算产品与技术分析
用户更多的选择权。另外,Amazon自己作为应用者,其平台具有高度的开放性,支持所有的操作系统、开源代码或者商业软件。但是,Amazon有一些特殊的存储要求,需要考虑应用所需的带宽大小和计算时间。
微软的云平台最大的特色是它的“云+端”思想,Azure服务平台既可以在云端下被调用,也可以被本地系统调用,也就是说用户可以在VS.NET2008以上的版本+Cloudservice+AzureSdk下实现云计算开发。但总体上来说,微软云平台的软件过于“Microsoft化”,对于其他公司产品的兼容性较差,例如不支持Java(好像)。
从应用上看,EC2主要是吸引资源密集型软件,如企业应用等,而Azure的应用主要是服务于LAN或工作组模式的用户群体。
VMware的云计算的核心是虚拟化,虚拟架构技术做的很好,但是开放性弱,不支持特定开发。
Platform在HPC领域有着很强的技术力量,正将自身定位从网格计算过渡到云计算,它在国内的应用有北京超算中心,但是超算中心主要以数学计算为主,数据量比较小,计算的种类也相对集中,参考性不大。
IBM的ComputingonDemand主要针对高性能计算,诸如汽车和航天工业模拟计算、生命科学领域的染色体组建模等等。并且,它的定位是高端服务器,相比与其他公司的方案,性价比难说。
从云存储方面看,国内的两个公司均做的很出色。但友友系统有一个明显的优势:它的DataCell DB尤其适用于海量小文件存储与访问的应用场景。这是其他的文件分块存储系统所不具备的。