第一篇:云计算期末考试总结【强烈推荐】
第一章
什么是“新摩尔定律”:
每18个月全球新增信息量是计算机有史以来全部信息量的总和。
云计算具有哪些特点:
(1)、超大规模(2)、虚拟化(3)、高可靠性(4)、通用性(5)、高可伸缩性、(6)、按需服务(7)、极其廉价
云计算按照服务类型大致分为三类:
将基础设施作为服务(Iaas)、将平台作为服务(Paas)、将软件作为服务(SaaS)什么是Iaas? 将硬件设备等基础资源封装成服务供用户使用,如AWS的弹性计算云EC2和简单存储服务S3。
什么是Paas?
对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如Google App Engine。
什么是SaaS?
它的针对性更强,它将某些特定应用软件功能封装成服务,如Salesforce公司提供的在线客户关系管理CRM服务。
云计算技术体系结构分为四层:
物理资源层、资源池层、管理中间件层和SOA构建层
(管理中间件层和资源池层是云计算技术的最关键部分)
物理资源层包括计算机、存储器、网络设施、数据库和软件。资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池。构建资源池更多的是物理资源的集成和管理工作。
管理中间件层负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用服务。
大数据具有4V+1C的特征:
(1)、数据量大(2)、多样(3)、快速(4)、价值密度低(5)、复杂度
全球企业的IT开销分为三部分:硬件开销、能耗和管理成本。云计算的优势:
云计算有更低的硬件和网络成本、更低管理成本和电力成本以及更高的资源利用率。
云计算与大数据之间的关系:
大数据是需求,云计算是手段。没有大数据,就不需要云计算。没有云计算就无法处理大数据。
什么是云计算:
长定义:云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。短定义:云计算是通过网络按需提供可动态伸缩的廉价计算服务。
云计算的管理中间件层:负责资源管理、任务管理、用户管理、和安全管理等工作。资源管理:负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽它,并对资源的使用情况进行监视统计;
任务管理:负责执行用户或应用提交的任务,包括完成用户任务映像部署和管理、任务调度、任务管理、生命周期管理。简述亚马逊的云计算:
AWS率先在全球提供了弹性计算云EC2和简单服务存储服务S3,为企业提供计算和存储服务。
亚马逊是最大的服务商,谷歌是最大的云计算技术的使用者。
第二章
Google云计算技术包括:
Google文件系统 GFS、分布式计算编程模型MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable。
当前主流分布式文件系统有哪些?各有什么优缺点?
答:RedHat的GFS(Global File System)、IBM的GPFS、Sun的Lustre等。优缺点:①GFS采用廉价的商品机器构建分布式文件系统,同时将GFS的设计与Google应用的特点紧密结合,简化实现,GFS将容错的任务交给文件系统完成,利用软件的方法解决系统可靠性问题,使存储成本下降;GFS将服务器故障视为正常现象,并采用多种方法、从多个角度,使用不同的容错措施,确保数据存储的安全、保证提供不间断的数据存储服务。
②IBM GPFS并行文件系统软件在设计上不存在任何性能瓶颈,因此GPFS并行文件系统可以充分发挥硬件系统的性能。换句话说,GPFS并行文件系统的性能完全取决于硬件配置的好坏,而文件系统软件本身对性能的影响微乎其微。IBM GPFS并行文件系统与其它并行文件系统之间最大的区别在于GPFS不需要专用的元数据(Meta Data)管理服务器,所有元数据分散在磁盘阵列中,并可以由任何I/O节点管理。这样的设计避免了并行文件系统中最可能产生性能瓶颈的因素——Meta Data Server。
③Lustre文件系统为例,它只对元数据管理器MDS提供容错解决方案,而对于具体的数据存储节点OST来说,则依赖其自身来解决容错的问题。例如,Lustre推荐OST节点采用RAID技术或SAN存储区域网来容错,但由于Lustre自身能提供数据存储的容错,一旦OST发生故障就无法恢复,因此对OST的稳定性就提出了相当高的要求,从而大大增加了存储的成本,而且成本会随着规模的扩大线性增长
GFS容错机制包含:
1、Master容错: Master上保存了GFS文件系统的三种元数据。(1)、命名空间,也就是整个文件系统的目录结构。(2)、Chunk与文件名的映射表
(3)、Chunk副本的位置信息,每一个Chunk默认有三个副本。
前两种GFS通过操作日志来提供容错功能。第三种直接保存各个Chunk Server上,当master发生故障时,迅速恢复以上元数据。为了防止master彻底死机,GFS提供了master远程的实时备份。
2、Chunk Server容错: GFS采用副本的方式实现其容错。如果相关副本丢失或不可恢复,master自动将副本复制到其他Chunk Server.GFS把每一个文件划分成多个Chunk, MapReduce与传统的分布式程序设计相比的优点
答:与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的接口。Chubby的设计目标主要有?Paxos算法在Chubby中起什么作用?(1)、高可用性(2)、高扩展性(3)、支持粗粒度的建议性锁服务(4)、服务信息的直接存储(5)、支持通报机制(6)、支持缓存机制。Chubby内部一致性问题的实现用到Paxos算法
什么是分布式结构化数据表Bigtable?
Bigtable是Google开发的基于GFS和Chubby的分布式存储系统,它的设计应达到以下几个目标:(1)、广泛的适用性(2)、很强的可扩展性(3)、高可用性(4)、简单性 Bigtable是:一个分布式多维映射表,表中的数据通过一个行关键字、一个列关键字以及一个时间戳进行索引。
在Bigtable中Chubby主要有以下几个作用:
(1)选取并保证同一时间内只有一个主服务器(Master Server)(2)获取子表的位置信息
(3)保存Bigtable的模式信息及访问控制列表
Bigtable主要由三个部分组成:客户端程序库、一个主服务器和多个子表服务器
Paxos算法中节点被分成了三种类型:
proposers、acceptors、和learners,其中proposers提出决议,acceptors批准决议、learners获取并使用已经通过的决议。一个节点可以兼有多重类型,满足三个条件保持数据的一致性,(1)、决议只有在被Proposers提出后才能批准(2)、每次只能批准一个决议(3)、只有决议确定被批准后learners才能获取这个决议。
Bigtable性能优化:
1、局部性群组
2、压缩
3、布隆过滤器 GFS将整个系统的节点分为哪几类角色: Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。
Master是GFS的管理节点,在逻辑上只有一个,他保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的“大脑”。
Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server 的个数可以有多个,他的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个Chunk(数据块),每个Chunk都有一个对应的索引号(Index)。GFS具有哪些特点:
1、采用中心服务器模式:GFS采用中心服务器模式管理整个文件系统,增加新的Chunk Server是一件非常容易的事情。
2、不缓存数据:缓存机制是提升文件系统的性能的一个重要手段,通用文件系统为了提高性能,一般需要实现复杂的缓存机制。GFS文件系统根据应用的特点,没有实现缓存,因为GFS的数据在Chunk Server上是以文件的形式存储。
3、在用户态下实现
4、只提供专用接口
什么是MapReduce? Map(映射)Reduce(化简)是Google提出的一个软件架构,是一种处理海量数据的并行编程模式,用于大规模数据集的并行计算。
第三章
AWS提供的服务包括:
弹性计算云EC2、简单存储服务S3、简单数据库服务Simple DB、简单队列服务SQS、弹性MapReduce服务、内容推送服务、电子商务服务、FPS。改进的一致性哈希算法优点:
可以减小数据分布不均衡的可能性。
采用数据分区后,在添加或删除设备节点时,会引起娇小的数据传输。可以在很小的数据传输代价下,保证整个系统数据分布的均衡性。
在Dynamo中添加一个新的节点时,原先各节点保存的数据是否需要改变?如果改变,应该如何变化?
需要改变;原存储在前驱节点上的那部分数据会迁移到新的节点上。而其他节点保存的数据不变。同样,在删除节点时,被删除节点的数据会迁移到其前驱节点上,而对其他节点没有影响。
私有IP、公有IP和弹性IP的区别在哪里?
EC2的IP地址包括三大类:私有IP、公有IP和弹性IP。
EC2的实例一旦被创建,就会动态地分配两个IP地址,即私有IP和公有IP。私有IP地址与实例相对应,由动态主机配置协议(DHCP)分配产生。公有IP地址和私有IP地址之间通过网络地址转换(NAT)技术实现相互之间的转换。公共IP和特定的实例相对应,在某个实例终结或被弹性IP地址替代之前,公共IP地址会一直存在,实例通过这个公有IP地址和外界通信。实例每次启动时,公有IP都会发生变化。弹性IP则是与用户账号绑定,使用时可以代替公有IP通过NAT的方式实现与私有IP转换,从而连接到EC2实例。
地理区域和可用区域有哪些区别?
AWS中采用了两种区域(Zone),地理区域(Region Zone)和可用区域(Availability Zone)。地理区域是按实际的地理位置划分的。可用区域是根据是否有独立的供电系统和冷却系统划分,通常将每个数据中心看作一个可用区域。EC2系统中包含多个地理区域,而每个地理区域又包含多个可用区域。Amazom云平台中,SQS的目的及组成部分,其中“消息”的格式是什么?
简单队列服务(SQS)是Amazon为了解决其云计算平台之间不同组件的通信而设计开发的。SQS由三个基本部分组成:系统组件、队列、消息。系统组件是SQS的服务对象,而SQS则是组件之间沟通的桥梁。组件有双重角色,既是消息的发送者,也可以是消息的接受者。
“消息”格式:消息由以下四部分组成:
消息ID:由系统返回给用户,用来标识队列中的不同消息。
接收句柄:当 从队列中接收消息时就会从消息那里得到一个接收句柄,这个句柄可以用来对消息进行删除等操作。
消息体:消息的正文部分,需要注意的是消息存放的是文本数据并且不能是URL编码方式。消息体摘要:消息体字符串的MD5校验和。
非关系型数据库和传统关系数据库的区别
1.数据模型
关系数据库对数据有严格的约束,包括数据之间的关系和数据的完整性。非关系数据库的key-value存储形式中,key和value可以使用任意的数据类型。2.数据处理:
关系数据库满足CAP原则的C和A,在P方面很弱,所以在可扩展性方面弱,所以导致其在可扩展性方面面临很多问题。非关系型数据库满足CAP原则的A和P,而在C方面较弱,所以使得其无法满足ACID要求。3.接口层
关系型数据库都是以SQL语言对数据进行访问的,提供了强大的查询功能,并便于在各种关系数据库间移植。非关系型数据库对数据库的操作大多通过API来实现,支持简单的查询功能,且由于不同数据库之间API的不同而造成移植性较差。
综上所述,关系数据库具有高一致性,在ACID方面很强,移植性很高;但在可扩展性方面能力较弱,只能通过提高服务的配置来提高处理能力。非关系型数据库具有很高的可扩展性,可以通过增加服务器数量来不断提高存储规模,具有很好的并发处理能力;但由于缺乏数据的一致性保证,所以处理事务性问题能力较弱,并且难以处理跨表,跨服务器的查询。
第四章
微软云计算平台包括几部分?每部分的作用是什么?
当前版本的Windows Azure平台包括4 个组成部分:
(1)Windows Azure。位于云计算平台最底层,是微软云计算技术的核心。它作为微软云计算操作系统,提供了一个在微软数据中心服务器上运行应用程序 和存储数据的Windows 环境。
(2)SQL Azure。它是云中的关系数据库,为云中基于SQL Azure 的关系型 数据提供服务。
(3)Windows Azure AppFabric。为在云中或本地系统中的应用提供基于云 的基础架构服务。部署和管理云基础架构的工作均由AppFabric 完成,开发者只 需关心应用逻辑。
(4)Windows Azure Marketplace。为购买云计算环境下的数据和应用提供 在线服务。
Windows Azure 存储服务提供了几种类型的存储方式?阐述每种存储方式主要的存储对象。答:Windows Azure 存储服务目前主要提供了4 种主要的数据存储结构:
(1)Blob 类型。Blob 数据类型存储二进制数据,可以存储大型的无结构数据,容量巨大,能够满足海量数据存储需求
(2)Table 类型。Table 数据类型能够提供更加结构化的数据存储,但是它不同于关系型数据库管理系统中的二维关系表,查询语言也不是大家熟悉的关系查询语言SQL。(3)Queue 类型。Queue 类型的作用和微软消息队列(MSMQ)相近,用来支持在Windows Azure 应用程序组件之间进行通信。
(4)File 类型。File 类型使用标准SMB2.1 协议支持Windows Azure 虚拟机和云服务,可通过装载的共享在应用程序组件之间共享文件数据,本地应用程序可通过文件存储API 来访问共享中的文件数据。
SQL Azure 数据同步技术主要有几种?分别如何实现?
答:(1)SQL Azure 数据库与SQL Server 数据库之间的数据同步。用户选择这类同步的原因有很多,除了网络故障等因素外,数据调度也需要数据副本在某一区域范围内进行,同时需要防止某些操作失误所带来的数据丢失。这时用户可以通过SQL Azure 数据库和SQL Server 数据库的信息同步在本地数据库保存副本。
(2)SQL Azure 数据库之间的同步。某些ISVs(独立的软件开发商)或全球化的企业需要创建一个应用,为了满足高性能的需求,应用的创建者也许会选择在三个不同的Windows Azure 数据中心运行这个应用。如果这个应用将数据存放在SQL Azure 数据中,需要使用SQL Azure 数据同步服务保持三个数据中心之间的信息同步。SQL Azure 数据同步服务使用“轮辐式”模型,所有的变化将会首先被复制到SQL Azure 数据库“hub”上,然后再传送到其他“spoke”以上。这些“spoke”成员可以是一个SQL Azure 数据库,也可以是本地SQL Server 数据库。上述的同步过程可以同步整个数据库,也可以只同步有更新的数据库表格。SQL Azure 和SQL Server 的相同点和不同点
相同点:SQL Azure是云中的关系数据库,和本地的SQL Server数据库有很多相识的地方。比如SQL Azure 提供了一个表格数据流(TDS)接口供基于Transact-SQL的数据库进行访问,这和SQL Server 中的实例访问数据库情况是相似的。
不同点:在SQL Azure中,由于物理管理工作是由微软进行的,所以在管理、服务提供、Transact-SQL支持和编程方式等方面,与SQL Server有所不同。
Windows Azure最新版本包含5个部分:1.计算服务,2.存储服务,3.Fabric控制器,4.内容分发网络CDN,5.Windows Azure Connect.存储名空间被划分为三部分:账户名,分区名和对象名
SQL Azure关键技术:1.SQL Azure数据库,2.SQL Azure报表服务,3.SQL Azure数据同步
AppFabric关键技术:1.服务总线,2.访问控制,3.高速缓存。Windows Azure是微软云计算战略的核心:云计算操作系统
WAS的一个重要特征是能够存储和访问达到甚至超过EB级的海量数据,其产品系统由存储域和位置服务构成
存储域的层次结构包括哪三层:
1、文件流层,2、分区层,3、前段 文件流层包括流管理器和区块节点两大部分。
分区层包括一个分区管理器、多个分区服务器和一个锁服务三个主要的体系结构模块。分区管理器:负责保存对象表到分区段的划分和每个分区段到相应分区服务器的分配情况。分区服务器:负责处理由分区管理器分配给它的一组分区段的请求。锁服务:Paxos锁服务用于分区服务器的主服务器选举。WAS 将分区B 拆成新的分区段C 和D 如何实现? 步骤1:分区管理器通知分区服务器将段B 拆分为C 和D。步骤2:分区服务器处理B 的检查点,再暂停相应的服务请求。
步骤3:分区服务器使用一种“MultiModify”的特殊流操作处理B 的每个流,并分别生成与B 中区块顺序相同的C 和D 流子集,再追加C 和D 的新分区键值范围到他们的元数据流。
步骤4:分区服务器开始将服务请求发送至新的分区C 和D。
步骤5:分区服务器通知分区管理器拆分操作完成,并且分区管理器更新分区映射表和相应的元数据信息,分区管理器将其中一个拆分的分区迁移到一个不同的分区服务器。
第七章
虚拟机迁移的步骤
步骤1:预迁移。步骤2:预定资源。步骤3:预复制。步骤4:停机复制。步骤5:提交。步骤6:启动。
存储虚拟化的三种实现方式?
(1)基于主机的存储虚拟化:基于主机的存储虚拟化,也称基于服务器的存储虚拟化或者基于系统卷管理器的存储虚拟化,其一般是通过逻辑卷管理来实现的。
(2)基于存储设备的存储虚拟化:基于存储设备的存储虚拟化,也称基于存储控制器的存储虚拟化。它主要是在存储设备的磁盘、适配器或者控制器上实现虚拟化功能。
(3)基于网络的存储虚拟化:基于网络的存储虚拟化方法是在网络设备上实现存储虚拟化功能,它包括基于互联设备和基于路由器两种方式。
服务器虚拟化的底层实现:1.CPU虚拟化,2.内存虚拟化,3.I/O设备虚拟化 主流X86虚拟技术:1.VMware威睿(VMware vSphere 5)2.Microsoft微软(Windows2008 R2 Hyper-V)3.Citrix思杰(XenServer 6)4.Oracle甲骨文(Oracle VM 3.0)5.RedHat红帽(Red Hat Enterprise Virtualization 3)
X86虚拟化基本功能:1.快照,2.创建和部署虚拟机,3.创建模板,4.克隆虚拟机,5.部署模板,6.配置虚拟机硬件、选项和资源
数据中心网络虚拟化划分为:核心层(主要指数据中心核心网络设备的虚拟化),接入层(可以实现数据中心接入层的分级设计),虚拟机网络虚拟化(虚拟机网络交互包括物理网卡虚拟化和虚拟网络交换机)
云计算中运用虚拟化技术主要体现在对数据中心的虚拟化上。
数据中心的虚拟化是通过服务器虚拟化,存储虚拟化和网络虚拟化实现的。服务器虚拟化分为:寄居虚拟化和裸机虚拟化
第二篇:云计算总结
云计算总结
(2009-10-22 00:02:46)转载▼
标签: 分类: 教育技术学基础云计算 理论
云计算是在网格计算之后06年开始流行起来的一个名词,以下是我针对云计算的基本内容做一个总结:
一、云计算的概念:
到目前为止,云计算还没有一个统一的定义。IBM,Google,Microsoft,SUN,Amazon等研究组织和相关厂家,依据各自的利益和各自不同个的研究视角都给出了对云计算的定义和理解。
IBM公司于2007年宣布了蓝云计划,在IBM的技术白皮书中“Cloud Computing”中云计算的定义如下:“云计算一词用来同时描述一个系统平台或者一种类型的应用程序。一个云计算的平台按需进行动态的部署(provision)、配置(configuration)、重新配置(reconfigure)以及取消服务(deprovision)等。在云计算平台中的服务器可以是物理的服务器或者虚拟的服务器。高级的计算云通常包含一些其他的计算资源,例如存储区域网络(SANs),网络设备,防火墙以及其他安全设备等。云计算在描述应用方面,它描述了一种可以通过互联网Internet进行访问的高扩展的应用程序。
“云使用”是大规模的数据中心以及功能强劲的服务器来运行网络应用程序与网络服务。任何一个用户可以通过合适的互联网接入设备以及一个标准的浏览器就能够访问一个云计算应用程序。”
上面的定义给出了云计算的两个方面的含义:一方面描述了基础设施,用来构造应用程序,其地位相当于PC机上的操作系统;另一方面描述了建立在这种基础设施之上的云计算应用。
还有以下分别从模型、模式等方面对云计算的定义
云计算是一种新兴的计算模型:用户可以利用该模型在任何地方通过连接的设备访问应用程序,应用程序位于可大规模伸缩的数据中心,计算资源可在其中动态部署并进行共享;或是脱离了本地计算且计算任务分配到远端大型的统一的计算平台上的模型
云是由一系列相互联系并且虚拟化的计算机组成的并行和分布式系统模式。基于这样云的计算称为云计算。简单地说,云计算就是指基于互联网络的超级计算模式。即把存储于个人电脑、服务器和其他设备上的大量存储器容量和处理器资源集中在一起,统一管理并且协同工作。
云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid
Computing)的发展,或者说是这些计算机科学概念的商业实现。
根据上面的引用内容,我认为云计算的功能类似于Telenet,只是Telenet中的远程计算机变成了云计算服务器,用户只需通过PC机、笔记本或智能手机联通网络,在云计算平台上实现自己的要求即可。而且用户端口只需要有基本的输入输出界面,网络连接设备即可,不需用安装各种各样的软件;用户的数据存储在云计算数据中心,不用再担心如果硬盘出问题数据丢失的问题。即随时随地只要能上网就能应用各种各样的服务,如同钱庄、银行、发电厂等。用一个图片来解释如下:
二、云计算的特征
要想成为云计算,必须具备以下五个方面的特征:1)水平可扩展性,即将多片云连接并整合为一片云来工作的能力。
2)垂直可扩展性,即通过增强云中单个或多个节点的性能来提升整个云性能的能力。3)以互联网为中心。云平台运营商一互联网为中心,将存储和运算能力分布在网络所连接的各个节点之中,从而弱化终端的计算能力,使互联网的架构由“服务器+客户端”向“云服务平台+客户端”演进。4)虚拟化,将底层的硬件,包括服务器、存储于网络设备全面虚拟化,建立起一个共享的可以按需分配的基础资源池。5)用户透明,包括操作透明和技术透明。操作透明,即对处在云计算环境下的用户来说,在云中进行计算操作或数据存储操作与其在本机上进行相应的操作是没有区别的;技术透明,指用户不用关心云中的节点是如何协同工作的以及怎样扩展的。
三、云计算的应用类型
Saas(软件即服务)——通过浏览器把程序传给成千上万的用户。
Paas(平台即服务)——把开发环境作为一种服务来提供。Iaas(基础设施即服务)
1、SaaS软件即服务
这类云计算是通过WEB浏览器来向成千上万个用户提供某种单一的软件应用。在用户看来,这样他们不需要事先购买服务器设备或是软件授权;而对于厂商来说,与常规的软件
服务模式相比,仅提供一项应用的成本也要低得多。一个典型的针对企业级应用的例子就是Salesforce.com的CRM。另外,SaaS在人力资源软件应用中也比较普遍,甚至它已经开始向ERP领域拓展,如Workday。而且,谁又能料到,GoogleApps和Zoho Office这种同样基于SaaS的“桌面”应用会突然火爆起来呢?
2、公用/效用计算
公用/效用计算虽已不是新颖的概念了,但如今它正被付予新的含义。Amazon的AWS、Sun的存储云、IBM的“蓝云”以及其他厂商所共同倡导的的云计算,正在为整个业界提供所需要的存储资源和虚拟化服务器等应用。早期的企业主要将公用/效用计算作为一种补充手段,不会应用在关键性任务需求上。但是时至今日公用/效用计算逐渐在数据中心开始占据一席之地。一些厂商开始帮助企业用户创建虚拟的数据中心,诸如3Tera的AppLogic,Cohesive Flexible Technologies的Elastic Server on Demand(可按需实现弹性扩展的服务器)。Liquid Computing公司的LiquidQ也有类似的服务,能帮助企业将内存、I/0、存储和计算容量通过网络集成为一个虚拟的资源池来使用。
云计算如今已成为又一风靡的概念。与很多同行一样,Gartner资深分析师Ben Pring认为:“云计算就像法国大餐一
样正被人们津津乐道。”然而,问题在于(类似Web 2.0一样),似乎每个人对云计算的定义都有不同之处。
3、云计算领域的WEB服务
与SaaS有些类似,WEB服务厂商也是通过提供API让开发人员来开发互联网应用,而不是自己来提供功能全面的应用软件。这种云计算的服务范围非常广泛,从分散的商业服务(诸如Strike Iron和Xignite),到GoogleMaps、ADP薪资处理、美国邮政服务、Bloomberg和常规信用卡处理服务等的全套API服务。
4、平台即服务
平台即服务(Platform as a service)是软件即服务(SaaS)的变种,这种形式的云计算将开发环境作为服务来提供给用户。也就是说,用户可以在供应商的基础架构上创建自己的应用软件来运行,然后通过网络直接从供应商的服务器上传递给其他用户(例如Legos)。然而,这类服务会受到厂商的设计规定与容量限制,用户也因此没有足够的自由。这类云计算服务包括Salesforce.com的Force.com、Coghead和全新的GoogleApp Engine。
5、管理服务供应商(MSP)
管理服务(managed service)是云计算最古老的形式之一,它面向的IT管理人员而不是最终用户,例如用于电子邮件的病
毒扫描服务,还有应用软件监控服务等。由SecureWorks、IBM和Verizon公司提供的管理安全服务就可归为此类,还包括目前被Google收购的Postini以云为基础的反垃圾邮件服务。MSP的其他产品还包含桌面管理服务,诸如CenterBeam和Everdream提供的产品。
6、服务商业平台
这种云计算服务融合了SaaS和MSP,它实际上为用户提供了一种交互性服务平台。这在日常的商业贸易领域是非常普遍的,比如,某种消费管理系统可以让用户从一个网络平台上订购旅行或秘书类服务,而且服务的配送实现方式和价格也都是由用户事先设定好的。其非常典型的例子是Rearden Commerce和Ariba。
7、云计算集成
云计算服务的整合还只是刚刚开始。SaaS供应商OpSource最近就推出了OpSource Services Bus,它使用了一家叫Boomi的小公司的云计算集成技术。另一家SaaS 供应商Workday最近也收购了该领域的另一家公司CapeClear。CapeClear提供的是针对B2B集成的ESB(enterprise service bus,企业服务总线)。另外,2005开始兴起的Grand Central,则想成为一种通用的“云计算总线”(bus in the cloud),通过把多家SaaS供应商联合在一起来为客户提供完整的服务。
四、技术挑战
1、高可靠的系统技术——大规模的集成计算机系统;容错技术,即单节点的错误不应影响系统运行,能够检查错点,具有重启技术。
2、可扩展的并行计算技术——云计算的核心技术
3、海量的数据挖掘存储和管理技术——并行计算,加速数据处理,需要新的思路、方法、算法;将集群数据库扩展到成千上万个节点还是被类似于google文件系统的新技术替代?
4、数据安全技术——数据银行;安全性,保密性,访问权限的风险性;隐私和可靠性。
关于云计算还有很多内容,在以后的学习中我将慢慢补充。
第三篇:云计算第二章总结
Google云计算技术包括:
Google文件系统 GFS、分布式计算编程模型MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable。
简述谷歌文件系统GFS:
GFS是一个大型的分布式文件系统,它为Goole云计算提供海量存储,并且与Chubby、MapReduce及Bigtable等技术结合十分紧密,处于所有 核心技术的底层。
GFS将整个系统的节点分为哪几类角色:
Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。
Master是GFS的管理节点,在逻辑上只有一个,他保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的“大脑”。
Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server 的个数可以有多个,他的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个Chunk(数据块),每个Chunk都有一个对应的索引号(Index)。
GFS具有哪些特点:
1、采用中心服务器模式:GFS采用中心服务器模式管理整个文件系统,增加新的Chunk Server是一件非常容易的事情。
2、不缓存数据:缓存机制是提升文件系统的性能的一个重要手段,通用文件系统为了提高性能,一般需要实现复杂的缓存机制。GFS文件系统根据应用的特点,没有实现缓存,因为GFS的数据在Chunk Server上是以文件的形式存储。
3、在用户态下实现
4、只提供专用接口
GFS容错机制包含:
1、Master容错: Master上保存了GFS文件系统的三种元数据。(1)、命名空间,也就是整个文件系统的目录结构。(2)、Chunk与文件名的映射表
(3)、Chunk副本的位置信息,每一个Chunk默认有三个副本。
前两种GFS通过操作日志来提供容错功能。第三种直接保存各个Chunk Server上,当master发生故障时,迅速恢复以上元数据。为了防止master彻底死机,GFS提供了master远程的实时备份。
2、Chunk Server容错: GFS采用副本的方式实现其容错。如果相关副本丢失或不可恢复,master自动将副本复制到其他Chunk Server.GFS把每一个文件划分成多个Chunk, GFS系统管理技术:
1、大规模集群安装技术
2、故障检测技术
3、节点动态加入技术
4、节能技术
分布式数据处理MapReduce:
什么是MapReduce? Map(映射)Reduce(化简)是Google提出的一个软件架构,是一种处理海量数据的并行编程模式,用于大规模数据集的并行计算。
MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个接口。MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点共同完成,通过这种方式实现任务的可靠执行与容错机制。
MapReduce的容错机制:通过重新执行失效的地方来实现容错。
1、Master失效:master会周期性地设置检查点,并导出Master的数据。一旦某个任务失效,系统就从最近的一个检查点恢复并重新执行。如果master失效终止整个MapReduce重新开始。
2、Worker失效:
Master会周期性的给worker发送Ping命令,如果没有worker的应答,则master认为worker失效,终止对这个worker的任务调度,把失效的worker的任务调度到其他worker上重新执行。
如何利用MapReduce进行数据排序:
1、对原始数据进行分割
2、对每个数据分块都启动一个Map进行处理。
3、对于Map之后得到的中间结果,启动26各Reduce。
什么是分布式锁服务Chubby:
Chubby是
1、Google设计的提供粗粒度锁服务的一个文件系统,2、它基于松耦合分布式系统,3、解决了分布的一致性问题。通过使用Chubby的锁服务,用户可以确保数据操作过程中的一致性。
4、Chubby锁是一种建议性的锁而不是强制性的锁,这种选择使系统具有更大的灵活性。
Paxos算法中节点被分成了三种类型:proposers、acceptors、和learners,其中proposers提出决议,acceptors批准决议、learners获取并使用已经通过的决议。一个节点可以兼有多重类型,满足三个条件保持数据的一致性,(1)、决议只有在被Proposers提出后才能批准(2)、每次只能批准一个决议(3)、只有决议确定被批准后learners才能获取这个决议。
Chubby的设计目标主要有:
(1)、高可用性(2)、高扩展性(3)、支持粗粒度的建议性锁服务(4)、服务信息的直接存储(5)、支持通报机制(6)、支持缓存机制 Chubby文件系统:
Chubby系统本质上就是一个分布式的、存储大量小文件的文件系统,它所有的操作都是在文件的基础上完成的,系统规定每个节点的元数据都应包含以下四种单调递增的64位编号,(1)、实例号(2)、内容生成号(3)、锁生成号(4)、ACL生成号
Chubby采用的是ACL形式的安全保障措施,只要不被覆写,子节点都是直接继承父节点的ACL名。什么是分布式结构化数据表Bigtable: Bigtable是Google开发的基于GFS和Chubby的分布式存储系统,它的设计应达到以下几个目标:(1)、广泛的适用性(2)、很强的可扩展性(3)、高可用性(4)、简单性
Bigtable是一个分布式多维映射表,表中的数据通过一个行关键字、一个列关键字以及一个时间戳进行索引。
在Bigtable中Chubby主要有以下几个作用:
(1)、选取并保证同一时间内只有一个主服务器(Master Server)(2)获取子表的位置信息
(3)保存Bigtable的模式信息及访问控制列表
Bigtable主要由三个部分组成:客户端程序库、一个主服务器和多个子表服务器
每个子表都是由多个SSTable以及日志文件构成。
在Bigtable系统的内部采用的是一种类似B+树的三层查询体系。
所有的子表地址都被记录在元数据表中,元数据表也是由一个个的元数据子表组成的。为了减少访问开销,提高客户访问效率,Bigtable使用了缓存和预取技术。在Bigtable中有三种形式的数据压缩,分别是次压缩、合并压缩、主压缩。Bigtable性能优化:
1、局部性群组
2、压缩
3、布隆过滤器
分布式存储系统Megastore的设计目标明确,那就是设计一种介于传统的关系型数据库和NoSQL之间的存储技术,尽可能达到高可用性和高可扩展性的统一
第四篇:“云计算”培训总结
“云计算”培训总结
计算机自诞生开始,先后经历了四个阶段:
1、第一代计算机(1946~1958)
电子管为基本电子器件;使用机器语言和汇编语言;主要应用于国防和科学计算;运算速度每秒几千次至几万次。
2、第二代计算机(1958~1964)
晶体管为主要器件;软件上出现了操作系统和算法语言;运算速度每秒几万次至几十万次。
3、第三代计算机(1964~1971)
普遍采用集成电路;体积缩小;运算速度每秒几十万次至几百万次。
4、第四代计算机(1971~)
以大规模集成电路为主要器件;运算速度每秒几百万次至上亿次。
计算机的运算速度在不断增加,而成本却在不断的降低。现在已经进入由第四代衍生出的一个时代,云计算时代。
云计算操作系统,又称云计算中心操作系统、云OS,是云计算后台数据中心的整体管理运营系统,它是指构架于服务器、存储、网络等基础硬件资源和单机操作系统、中间件、数据库等基础软件管理的海量的基础硬件、软资源之上的云平台综合管理系统。
云计算(cloud computing,分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。
云是一种基于互联网的计算新方式,通过互联网上异构、自治的服务为个人和企业用户提供按需即取的计算。由于资源是在互联网上,而在电脑流程图中,互联网常以一个云状图案来表示,因此可以形象地类比为云,“云”同时也是对底层基础设施的一种抽象概念。云计算的资源是动态易扩展而且虚拟化的,通过互联网提供。终端用户不需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制,只关注自己真正需要什么样的资源以及如何通过网络来得到相应的服务。
云共分为公有云、私有云、混合云三种情况。
在实现面向云计算的数据中心演进过程中,随着数据中心的高度虚拟化,在节约成本及运营效率取得显著成果的同时,存储、网络、电源管理和安全等方面的挑战仍有待解决。所以云技术可以很好的解决上面的问题。
最简单的云计算技术在网络服务中已经随处可见,例如搜寻引擎、网络信箱等,使用者只要输入简单指令即能得到大量信息。未来如手机、GPS等行动装置都可以透过云计算技术,发展出更多的应用服务。
云计算的特点总结如下:
1、超大规模。
“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
2、虚拟化。
云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。
3、高可靠性。
“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
4、通用性。
云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
5、高可扩展性。
“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
6、按需服务。
“云”是一个庞大的资源池,你按需购买;云可以象自来水,电,煤气那样计费。
7、极其廉价。
由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。
8、潜在的危险性。
云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别象银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。这就象常人不能监听别人的电话,但是在电讯公司内部,他们可以随时监听任何电话。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的前提。
云计算的几大形式:
InfoWorld网站同数十家公司、分析家和IT用户讨论出了云计算的几大形式:
1.SAAS(软件即服务)
这种类型的云计算通过浏览器把程序传给成千上万的用户。在用户眼中看来,这样会省去在服务器和软件授权上的开支;从供应商角度来看,这样只需要维持一个程序就够了,这样能够减少成本。Salesforce.com是迄今为止这类服务最为出名的公司。SAAS在人力资源管理程序和ERP中比较常用。Google Apps和Zoho Office也是类似的服务
2.实用计算(Utility Computing)
这个主意很早就有了,但是直到最近才在Amazon.com、Sun、IBM和其它提供存储服务和虚拟服务器的公司中新生。这种云计算是为IT行业创造虚拟的数据中心使得其能够把内存、I/O设备、存储和计算能力集中起来成为一个虚拟的资源池来为整个网络提供服务。
3.网络服务
同SAAS关系密切,网络服务提供者们能够提供API让开发者能够开发更多基于互联网的应用,而不是提供单机程序。
4.平台即服务
另一种SAAS,这种形式的云计算把开发环境作为一种服务来提供。你可以使用中间商的设备来开发自己的程序并通过互联网和其服务器传到用户手中。
5.MSP(管理服务提供商)
最古老的云计算运用之一。这种应用更多的是面向IT行业而不是终端用户,常用于邮件病毒扫描、程序监控等等。
6.商业服务平台
SAAS和MSP的混合应用,该类云计算为用户和提供商之间的互动提供了一个平台。比
如用户个人开支管理系统,能够根据用户的设置来管理其开支并协调其订购的各种服务。
7.互联网整合将互联网上提供类似服务的公司整合起来,以便用户能够更方便的比较和选择自己的服务供应商。
云计算主要应用:
1、亚马逊网站Amazon.com
是以在线书店和电子零售业起家的,如今已在业界享有盛誉,不过它最新的业务却与云计算有关。两年多以前,亚马逊作为首批进军云计算新兴市场的厂商之一,为尝试进入该领域的企业开创了良好的开端。
2、谷歌公司Google
围绕因特网搜索创建了一种超动力商业模式。如今,他们又以应用托管、企业搜索以及其他更多形式向企业开放了他们的“云”。
3、Salesforce
是软件即服务厂商的先驱,它一开始提供的是可通过网络访问的销售力量自动化应用软件。在该公司的带动下,其他软件即服务厂商已如雨后春笋般蓬勃而起。Salesforce的下一目标是:平台即服务。
4、微软公司
在云计算的起步阶段,微软曾经历过不少周折。经过几年的磨合调整之后,这个软件巨头的云计算战略终于走上了正轨。
培训总结:
云计算现由于在法律方面存在问题,待相关部门出台法律之后,对云相关数据进行法律保护,云系统会得到全面的推广,下一步云计算是信息化发展的方向,云计算在节省成本合理优化企业资源都有很大的优势。到时企业可以建立自己的私有云来提供服务,更加方便、快捷、节约成本。
2011年11月
第五篇:高校云计算研究情况总结
目前,正在积极投身于云计算相关基础理论与技术研究工作的高校和科研院所包括以清华大学、北京大学、武汉大学、中国科学技术大学、华中科技大学、上海交通大学、合肥工业大学、北京航空航天大学、解放军理工大学、中科院、北京邮电大学、北京交通大学、东北大学、山东大学等为代表的诸多科研单位。另外,在工业界从事云计算相关研究的单位包括华为、百度、新浪、腾讯、金蝶软件、中国电信、中国移动等诸多企业。
国内高校与科研院所针对云计算的不同领域开展了深入的研究。例如,清华大学的云存储平台着力于构建存储云,武汉大学侧重于面向云计算的互操作国际标准,中科院计算所利用云计算开展数据挖掘与云安全工作,华中科技大学关注虚拟化技术与云安全,上海交通大学注重于数据的安全和隐私关键性技术研究,合肥工业大学侧重将人工智能和信息管理研究成果迁移到云计算环境中,北京航天航空大学致力于云计算的数据安全控制理论与方法的研究,解放军理工大学侧重于云存储研发与应用,东北大学侧重于利用云计算技术解决大规模图数据处理问题,山东大学侧重于研究SaaS软件交付平台的问题。
清华大学在云存储研究方面,以分布式文件系统为基础的云存储平台,为校园网用户设计开发了用于数据存储与共享的云存储服务,利用底层云存储平台所提供的基础存储服务,提供用户管理与目录管理的功能,增加了文件检索功能,并对数据传输进行了优化,为用户提供简单实用的云存储访问接口。针对于越来越多的移动计算需求,基于云存储平台设计开发了多种手机云存储应用,包括基于云存储服务的电话号码簿应用、可在手机上进行文件存储与共享的文件管理应用、基于云存储服务的视频点播应用以及基于云存储服务的相片管理应用。在海量数据挖掘研究方面,结合云计算架构和海量数据对象,开展基于云计算的海量数据挖掘研究,设计并实现面向海量数据挖掘的分布存储和并行编程模型框架,提出基于群体智能的海量数据挖掘算法,以维基百科为载体,对维基百科及其形成的复杂社会网络进行深入的分析和挖掘,提供基于维基百科的深层次知识服务。
武汉大学在面向云计算的互操作标准方面开展了一定的工作。在云计算环境中,信息资源和服务是通过即用即付的方式提供给用户的,需要对不同的信息资源和服务进行统一的管理。同时,用户需求正逐渐呈现出多样性和个性化的特征,使得满足大众用户需求的服务定制也需要跨领域/组织的资源和服务通过共享、交互、互操作等方式共同完成。随着云计算的发展,许多企业或组织已经构建了云计算平台,并提供了大量的内部数据和服务,但这些云计算平台之间难以进行有效的信息共享和交换,造成了“孤立云”的产生,如何利用开放的互操作性标准实现云-端以及云-云之间的互操作显得十分重要。针对这一现状,国际标准化组织ISO/IEC正在研制“互操作性元模型框架”的国际标准-ISO/IEC 19763: Information
Technology-Metamodel Framework for Interoperability(简称MFI)。其主要目标是为已注册的异构信息资源和服务提供统一的注册和管理机制,促进它们之间的互操作。MFI标准从模型注册、本体注册、模型映射的角度对注册信息资源的基本管理信息提供了参考,促进信息系统之间的互操作。武汉大学代表中国参加了该标准的研制工作,并主持了其中5项标准的研制任务。
中国科学院计算技术研究所在Hadoop基础上开发实现了并行数据挖掘工具平台。该平台已经用于中国移动TB级电信数据的挖掘,其数据处理规模远远超出商用软件,在商用软件能承受的相同数据规模下,采用相同方法和相同参数设置、获得了一致的挖掘结果,实现了高性能、低成本的海量数据挖掘。中国科学院计算技术研究所在基于虚拟机架构的可信计算环境与可信软件设计方面也取得了一些成果,包括:基于虚拟机的可信计算平台研究与设计(TRainbow);面向管理域虚拟机完整性的实时检测技术(VMGuard);可信可控用户虚拟计算环境构建方法研究(TRIOB);面向虚拟存储数据完整性的透明检测技术(Tapwire);虚拟化全局内存优化技术(TMemCanal);分布化IO资源的全局可见与共享技术;Xen虚拟计算环境下的可信接入控制技术。中国科学院软件技术研究所围绕云计算的安全问题也进行了一系列的研究,包括针对云存储中敏感数据的机密性保护问题,在基于属性的加密基础上提出了一种密文访问控制方法HCRE;在基于密文策略的属性加密应用场景下,实现了云存储中高效、精细、灵活的密文访问控制方案等。
华中科技大学也在云计算方面进行了很多实践,包括:设计出了一个面向科学计算与企业信息化的云计算平台GRANE;实现了一个面向云环境的虚拟化桌面CloudDesk,它能动态适应用户的需求变化,为用户提供高效、安全、易用的云资源访问的桌面环境;从任务并行调度,数据组织与压缩,备份服务可信及容错模型三方面着手,研究出了一个云备份系统B-Cloud;基于云模式的大规模主动安全防御系统CloudFence,它是采用安全检测与防御相分离的原则,充分利用云端强大的处理能力和存储能力。
上海交通大学针对云计算中存在的数据安全问题,利用密码理论与技术、网络与信息安全技术、编码理论等方向所取得的成果,解决数据安全存在的一基础问题,提高云计算的安全性,并开展了下一代互联网安全与隐私关键性技术研究。另外,上海交通大学与微软合作,共同搭建国内高校第一个基于最新虚拟化技术和System Center的私有云,为教学与科研项目提供可伸缩的计算资源。
北京航空航天大学利用分布式环境下的访问控制方法和可信计算信任模型方面的研究基础,致力于面向云计算的自含式数据安全控制理论与方法的研究,来提高云安全性。
解放军理工大学在云计算存储应用方面,研发MassCloud云存储平台在节能与集成度上取得了阶段性的突破,并在实际应用中获得巨大成效。目前,360公司在解放军理工大学成立了云计算联合实验室。
东北大学基于BSP处理模型和系统实现了社会网络中的大规模图数据查询与分析,研究了大规模图数据的划分与定位问题、大规模图数据的磁盘存储问题、大规模图的分布并行查询处理和查询优化问题以及云环境下的执行保障问题,设计并实现了BeeGraph系统,支持大规模图数据的处理。
山东大学对面向多租户的SaaS平台开展了研究,包括支持多租户数据隔离的存储与索引机制,基于Chunk Folding的自适应多租户缓存管理机制,支持租户业务流程定制行为建模及验证的框架,以及面向SaaS应用的数据组合隐私保护机制,为面向多租户的SaaS平台提供技术支撑。
中国科学技术大学在云计算环境下远程数据完整性和认证技术方面,结合数论中的同态RSA验证标识,设计了保护用户隐私的数据完整性验证协议,能够支持数据动态更新和公开的多副本验证,而无需第三方审计。针对已有远程身份认证方案存在的缺陷和安全漏洞,提出了新的身份认证方案。认证方案结合使用智能卡、口令和电子票据,既能够为用户和服务器提供双向身份认证,也通过电子票据的发放解决了限制用户访问次数的问题。