第一篇:火龙果软件-UMLATM设计文档
火龙果整理 uml.org.cn
UML实验报告
2.用例建模
掌握客户需求分析的方法和步骤 了解以用例驱动的软件开发方法 掌握用例图的画法
掌握用Rose或PowerDesigner进行用例建模的具体方法和步骤
1.ATM系统用例图:
存款现金管理取款客户修改密码银行管理员维护ATM设备转账余额查询
2.这个ATM系统主要显示了对客户提供存取款,转账,余额查询和密码修改的功能,以及银行管理员对客户修改密码,现金和ATM设备维护的操作。3.描述用例 “取款”用例 用例编号:0671 用例名:转账 执行者:.人执行者:客户
.系统执行者:取款子系统 目的:执行取款任务 类型:端点 主要的 基本的 级别:一级 过程描述: 1.插卡
2.输入密码
3.输入取款金额确定
4.取款打印凭条
5.退出系统 “查询”用例 用例编号:0670
火龙果整理 uml.org.cn
用例名:查询账户 执行者:.人执行者:客户
.系统执行者:查询子系统 目的:执行查询任务 类型:端点 主要的 基本的 级别:一级 过程描述: 1.插卡
2.输入密码
3.查询账号
4.人名币查询
5.查询打印凭条
6.退出系统
“修改密码”用例 用例编号:0669 用例名:修改密码 执行者:
.人执行者:客户、银行工作人员.系统执行者:修改密码子系统 目的:执行修改密码任务 类型:端点 主要的 基本的 级别:一级 过程描述:1.插卡
2.输入密码
3.修改密码
4.输入新密码
5.再次输入新密码
6.修改成功退出系统
“转账”用例 用例编号:0668 用例名:转账 执行者:.人执行者:客户
.系统执行者:转账子系统 目的:执行转账任务 类型:端点 主要的 基本的 级别:一级 过程描述:1.插卡。
2.输入密码。
3.进入转账界面。
4.输入转入卡号或账号(只能同行转账)。
5.再次输入卡号或账号。
火龙果整理 uml.org.cn
6.输入转入金额确定。
7.退出系统 “现金管理”用例 用例编号:0667 用例名:现金管理 执行者:
.人执行者:银行管理员.系统执行者:现金管理子系统 目的:执行现金管理任务 类型:端点 主要的 基本的 级别:一级
过程描述: 1.进入银行系统
2.进行添加现金操作
3.退出系统 “维护ATM设备”用例 用例编号:0667 用例名:维护ATM设备 执行者:
.人执行者:银行管理员
.系统执行者:维护ATM设备子系统 目的:执行现金管理任务 类型:端点 主要的 基本的 级别:一级
过程描述: 1.进入银行系统
2.对ATM设备进行检查
3.对ATM设备进行相应维护
4.退出系统
3.活动图建模
了解活动图建模的概念
掌握描述一个操作执行过程中所完成工作(动作)的方法 掌握描述对象内部工作的具体步骤
ATM取款子系统活动图:
火龙果整理 uml.org.cn 客户需求分析规格说明书/系统分析规格说明书
了解用包模型来描述系统体系结构(用例模型)的方法 掌握用Rose或PowerDesigner进行包图建模的具体方法和步骤
火龙果整理 uml.org.cn
掌握书写客户需求规格说明书的基本格式
5.类建模
对象类建模
理解面向对象系统分析和对象类建模的概念 了解和掌握面向对象系统分析的方法和步骤 了解和掌握寻找待开发系统中类的方法和技巧 掌握使用Rose或PowerDesigner建立类模型的方法
类的继承建模
理解类之间的继承关系
了解和掌握分析类之间继承关系的方法
掌握使用Rose或PowerDesigner建立类之间继承关系模型的过程
对象类关联关系建模
理解面向对象类之间关联关系的概念 了解和掌握分析类之间的关联关系的方法
了解和掌握待开发系统中类之间关联关系的分析方法
掌握使用Rose或PowerDesigner如何对关联关系进行建模的过程
许多单个的帐户组成了帐户库。帐户具有帐户类型、帐户号、余额三个属性,均为private,其类型分别为char,int,double。六个操作分别为setType、getType、getAccountNumbe、setAccountNumbe、caculateBalance、getBalance,除caculateBalance为protected其余均为public。
setType设置帐户类型,返回类型为void,参数类型为char,输入帐户类型。
getType获取帐户类型,返回类型为char,无参数。
setAccountNumbe设置帐户号,返回类型为void,参数类型为int,输入帐户号。
getAccountNumbe获取帐户号,返回类型为int,无参数。
caculateBalance计算余额,返回类型为void,参数为double,第一个参数为输入存取款数额,第二个参数为存款余额,既为输入也为输出。
getBalance获取帐户余额,返回类型为double,无参数。
许多银行储户组成了储户库。ATM系统包含了许多ATM机。银行储户及ATM机两个类包含哪些属性,哪些操作,它们的可见性及操作的返回类型、参数个数、参数类型从类图上都一目了然。更多的属性及操作都可以一一加上,使这个类图更详细更完整,从而使参与项目的每个成员都能无歧义的明了整个设计的类的结构。同样对于一个真正的银行系统,这个类图过于简单。比如帐户类型我们可以先定义一个abstract class,它包含一个帐户最基本的属性及操作。而有些操作先定义为abstract,如余额的计算。然后再继承这个abstract class,我们可以有saving account 和checking account等等。不同的帐户有不同的余额计算方法,我们可以加上具体的算法。对于不同的帐户可能还有一些它特有的操作,我们也可以加上,比如saving account在存款达到多少时可以享受机票打折的优惠。
对象类关联关系图:
火龙果整理 uml.org.cn
银行0..10..10..*0..10..1账号库0..*银行储户库ATM系统0..10..10..10..*账户---++++++账户类型: char账户号·: int余额: DoublesetType()getType()setAccountNumbe()getAccountNumbe()caculateBalance()getBalance()0..*1..*银行储户: char: char: void: int: Double: Double---+++用户姓名: int用户ID: int用户密码: int存钱(): int取钱(): int其他操作(): intATM机0..*0..*-+++ATM机ID: int收款(): int吐款(): int其他服务(): int1..*0..1 顺序图建模
理解顺序图的基本概念
了解和掌握软件工程中用例逻辑时序的分析方法 了解和掌握待开发系统中顺序图的设计和实现 掌握使用Rose或PowerDesigner创建顺序图的方法
下图描述了顾客在ATM机上取款时信息的流动情况。以时间为顺序。因为仅是示例,所以整个过程是没有出现任何故障时的流程,并且只画到了取款结束。通过这个图,我们可以看出消息是如何在系统中不同对象之间进行交互。
通过流程图我们可以很清楚地看到系统是如何工作的,系统各部分之间的信息及控制是如何发送的,整个流程是否合理。流程图对我们的设计起到了很好的帮助作用。注意在本图没有一个生命线终端有一个“X”,这是因为这个流程中还未遇到有对象生命结束。当有对象生命结束时需在对应的生命线终端画“X”,表明这个对象在这时被销毁。
首先银行储户将ATM卡插入读卡机,读卡机将信息传给客户管理,客户管理提出查询密码,显示部分将输入密码请求显示出来…..ATM取款顺序图 :
火龙果整理 uml.org.cn
顺序客户读卡器显示设备输入设备ATM数据库点钞机银行数据库插入ATM卡接受ATM卡显示输入密码请求查询密码输入密码密码传递请求确认密码合法性询问服务类别显示输入服务类别请求输入取款请求取款请求确认密码合法性询问取款数额显示输入数额请求输入取款数额传递取款数额显示确认数额请求询问取款数额确认确认输入传递确认信息数额合法性确认请求确认数额合法性出钞请求出钞取钞询问是否打印凭条显示询问是否打印凭条确定请求退出取出ATM卡 火龙果整理 uml.org.cn 合作图建模
了解合作图的概念及其在系统设计中的作用 掌握两种交互图(顺序图和合作图)的差别 熟悉和掌握合作图案例的分析方法
掌握使用Rose或PowerDesigner依据用例绘制合作图
合作图和顺序图是可以无信息损失的相互转换,只是它们的侧重点是不一样的。顺序图着重于对象间消息传递的时间顺序,合作图着重于表达对象之间的静态连接关系。下图将顺序图转换为合作图。
ATM系统协作图 :
1.插入ATM卡
2.接受ATM卡
3.查询密码
4.显示输入密码请求
5.输入密码
6.密码传递
7.请求确认密码合法性
8.确认密码合法性
9.询问服务类别
10.显示输入服务服务类别请求
11.输入取款请求
12.取款请求
13.询问取款数额
14.显示输入数额请求
15.输入取款数额
16.传递取款数额
17.询问取款数额确认
火龙果整理 uml.org.cn
18.显示确认数额请求
19.输入确认
20.传递确认信息
21.数额合法性确认请求
22.确认数额和法性
23.出钞请求
24.计算帐户余额
25.出钞
26.取钞
27.传递余额并询问是否还需要其他服务
28.显示帐户余额并提示选择下面的服务 状态图建模
了解状态图的概念及其在系统设计中的作用
掌握使用Rose或PowerDesigner依据用例绘制对象的状态图
下图描述了顾客在ATM机上进行操作会经历的几种状态,及各种状态之间转换的条件。因为是简化了的例子,所以除了等待顾客插入磁卡的起始状态和结束服务的终止状态,顾客会处于输入密码、选择服务类型、存款及取款四种状态。
ATM状态图:
插入磁卡后进入输密码状态,当密码输入正确时进入选择服务类型状态,当输入密码不正确时,停留在原状态,但如果三次不正确,服务结束。进入选择服务类型后根据选择的不同,顾客可进入存款和取款状态。存、取款结束后,顾客既可以选择结束服务到最终状态,也可以选择继续服务回到选择服务类型状态。
通过状态图我们可以无歧义的了解各个活动角色是如何在不同状况下转换的,转换的条件是什么,是否会出现死锁现象,是否有条件没考虑周全,是否有状态无法达到。状态图可以帮助我们发现问题,并及时改正。构件图建模
了解系统物理体系结构模型和表示方法 了解构件图建模的概念及其在系统设计中的作用 掌握使用Rose或PowerDesigner绘制构件图
火龙果整理 uml.org.cn 部署图建模
了解系统物理体系结构模型和表示方法 了解部署图的概念及其在系统设计中的作用 掌握使用Rose或PowerDesigner绘制部署图的方法
第二篇:火龙果软件-海量数据处理小结
火龙果整理 uml.org.cn
海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:
一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
二、软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。那么处理海量数据有哪些经验和技巧呢,我把我所知道的罗列一下,以供大家参考:
一、选用优秀的数据库工具现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
二、编写优良的程序代码处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
三、对海量数据进行分区操作对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。
四、建立广泛的索引对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。
五、建立缓存机制当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
六、加大虚拟内存如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M,解决了数据处理中的内存不足问题。
七、分批处理 海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
八、使用临时表和中间表数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按
火龙果整理 uml.org.cn
汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
九、优化查询SQL语句在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
十、使用文本格式进行处理对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
十一、定制强大的清洗规则和出错处理机制海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。
十二、建立视图或者物化视图视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
十三、避免使用32位机子(极端情况)目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
十四、考虑操作系统问题海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。
十五、使用数据仓库和多维数据库存储数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
十六、使用采样数据,进行数据挖掘基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。还有一些方法,需要在不同的情况和场合下运用,例如使用代理键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。
一般来说第7种方案是最常用的,有的主要就是使用第7种方案,选择的余地也非常的大,不只是俺月,日,年,也可以按周等等划分,灵活性较高
而面对大量数据的处理一般都是分批次处理,之前我做一个文本分类器,面对1g多的索引(索引1g多,但是分类时需要的数据就大得多了),40-50分钟就可以跑完所有分类:
一是分批操作。
二是给jvm回收内存的时间,比如每次20w的数据进行分类,完成之后睡眠一段时间,每睡眠一端时间就手动gc一次。
火龙果整理 uml.org.cn
通过这些方式取得了很明显得见效。
海量数据处理专题
(一)大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。
本贴从解决这类问题的方法入手,开辟一系列专题来解决海量数据问题。拟包含 以下几个方面。
1.Bloom Filter 2.Hash 3.Bit-Map 4.堆(Heap)5.双层桶划分 6.数据库索引
7.倒排索引(Inverted Index)8.外排序 9.Trie树 10.MapReduce
在这些解决方案之上,再借助一定的例子来剖析海量数据处理问题的解决方案。欢迎大家关注。
海量数据处理专题
(二)【什么是Bloom Filter】
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。这里有一篇关于Bloom Filter的详细介绍,不太懂的博友可以看看。
【适用范围】
可以用来实现数据字典,进行数据的判重,或者集合求交集
【基本原理及要点】
火龙果整理 uml.org.cn
对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这 个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter,用一个counter数组代替位数组,就可以支持删除了。
还有一个比较重要的问题,如 何根据输入元素个数n,确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况 下,m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些,因为还要保证bit数组里至少一半为0,则m应 该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。
举个例子我们假设错误率为0.01,则此时m应大概是n的13倍。这样k大概是8个。
注意这里m与n的单位不同,m是bit为单位,而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。
【扩展】
Bloom filter将集合中的元素映射到位数组中,用k(k为哈希函数个数)个映射位是否全1表示元素在不在这个集合中。Counting bloom filter(CBF)将位数组中的每一位扩展为一个counter,从而支持了元素的删除操作。Spectral Bloom Filter(SBF)将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。
【问题实例】
给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。如果是三个乃至n个文件呢?
根据这个问题我们来计算下内存的占用,4G=2^32大概是40亿*8大概是340亿,n=50亿,如果按出错率0.01算需要的大概是650亿个 bit。现在可用的是340亿,相差并不多,这样可能会使出错率上升些。另外如果这些urlip是一一对应的,就可以转换成ip,则大大简单了。
海量数据处理专题
(三)什么是Hash
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
火龙果整理 uml.org.cn
HASH主要用于信息安全领域中加密算法,它把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值.也可以说,hash就是找到一种数据内容和数据存放地址之间的映射关系。数组的特点是:寻址容易,插入和删除困难;而链表的特点是:寻址困难,插入和删除容易。那么我们能不能综合两者的特性,做出一种寻址容易,插入删除也容易的数据结构?答案是肯定的,这就是我们要提起的哈希表,哈希表有多种不同的实现方法,我接下来解释的是最常用的一种方法——拉链法,我们可以理解为“链表的数组”,如图:
左边很明显是个数组,数组的每个成员包括一个指针,指向一个链表的头,当然这个链表可能为空,也可能元素很多。我们根据元素的一些特征把元素分配到不同的链表中去,也是根据这些特征,找到正确的链表,再从链表中找出这个元素。
元素特征转变为数组下标的方法就是散列法。散列法当然不止一种,下面列出三种比较常用的。1,除法散列法
最直观的一种,上图使用的就是这种散列法,公式:
index = value % 16
学过汇编的都知道,求模数其实是通过一个除法运算得到的,所以叫“除法散列法”。
2,平方散列法
求index是非常频繁的操作,而乘法的运算要比除法来得省时(对现在的CPU来说,估计我们感觉不出
火龙果整理 uml.org.cn
来),所以我们考虑把除法换成乘法和一个位移操作。公式:
index =(value * value)>> 28
如果数值分配比较均匀的话这种方法能得到不错的结果,但我上面画的那个图的各个元素的值算出来的index都是0——非常失败。也许你还有个问题,value如果很大,value * value不会溢出吗?答案是会的,但我们这个乘法不关心溢出,因为我们根本不是为了获取相乘结果,而是为了获取index。
3,斐波那契(Fibonacci)散列法
平方散列法的缺点是显而易见的,所以我们能不能找出一个理想的乘数,而不是拿value本身当作乘数呢?答案是肯定的。
1,对于16位整数而言,这个乘数是40503 2,对于32位整数而言,这个乘数是2654435769
3,对于64位整数而言,这个乘数是***98485
这几个“理想乘数”是如何得出来的呢?这跟一个法则有关,叫黄金分割法则,而描述黄金分割法则的最经典表达式无疑就是著名的斐波那契数列,如果你还有兴趣,就到网上查找一下“斐波那契数列”等关键字,我数学水平有限,不知道怎么描述清楚为什么,另外斐波那契数列的值居然和太阳系八大行星的轨道半径的比例出奇吻合,很神奇,对么?
对我们常见的32位整数而言,公式:
i ndex =(value * 2654435769)>> 28
如果用这种斐波那契散列法的话,那我上面的图就变成这样了:
很明显,用斐波那契散列法调整之后要比原来的取摸散列法好很多。
火龙果整理 uml.org.cn
【适用范围】
快速查找,删除的基本数据结构,通常需要总数据量可以放入内存。【基本原理及要点】
hash函数选择,针对字符串,整数,排列,具体相应的hash方法。
碰撞处理,一种是open hashing,也称为拉链法;另一种就是closed hashing,也称开地址法,opened addressing。
【扩展】
d-left hashing中的d是多个的意思,我们先简化这个问题,看一看2-left hashing。2-left hashing指的是将一个哈希表分成长度相等的两半,分别叫做T1和T2,给T1和T2分别配备一个哈希函数,h1和h2。在存储一个新的key时,同 时用两个哈希函数进行计算,得出两个地址h1[key]和h2[key]。这时需要检查T1中的h1[key]位置和T2中的h2[key]位置,哪一个 位置已经存储的(有碰撞的)key比较多,然后将新key存储在负载少的位置。如果两边一样多,比如两个位置都为空或者都存储了一个key,就把新key 存储在左边的T1子表中,2-left也由此而来。在查找一个key时,必须进行两次hash,同时查找两个位置。
【问题实例】
1).海量日志数据,提取出某日访问百度次数最多的那个IP。
IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。
海量数据处理专题
(四)【什么是Bit-map】
所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。
如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟1Byte 的空间,将这些空间的所有Bit位都置为0(如下图:)
火龙果整理 uml.org.cn
然后遍历这5个元素,首先第一个元素是4,那么就把4对应的位置为1(可以这样操作 p+(i/8)|(0x01<<(i%8))当然了这里的操作涉及到Big-ending和Little-ending的情况,这里默认为Big-ending),因为是从零开始的,所以要把第五位置为一(如下图):
然后再处理第二个元素7,将第八位置为1,,接着再处理第三个元素,一直到最后处理完所有的元素,将相应的位置为1,这时候的内存的Bit位的状态如下:
然后我们现在遍历一遍Bit区域,将该位是一的位的编号输出(2,3,4,5,7),这样就达到了排序的目的。下面的代码给出了一个BitMap的用法:排序。//定义每个Byte中有8个Bit位 #include <memory.h> #define BYTESIZE 8 void SetBit(char *p, int posi){
}
void BitMapSortDemo(){
//BufferLen这个值是根据待排序的数据中最大值确定的 //待排序中的最大值是14,因此只需要2个Bytes(16个Bit)//为了简单起见,我们不考虑负数 int num[] = {3,5,2,10,6,12,8,14,9};*p = *p|(0x01<<(posi%BYTESIZE));//将该Bit位赋值1 return;for(int i=0;i <(posi/BYTESIZE);i++){ } p++;
火龙果整理 uml.org.cn
} //就可以了。
const int BufferLen = 2;char *pBuffer = new char[BufferLen];//要将所有的Bit位置为0,否则结果不可预知。memset(pBuffer,0,BufferLen);for(int i=0;i<9;i++){
} //首先将相应Bit位上置为1 SetBit(pBuffer,num[i]);//输出排序结果
for(int i=0;i<BufferLen;i++)//每次处理一个字节(Byte){
} for(int j=0;j<BYTESIZE;j++)//处理该字节中的每个Bit位 {
} pBuffer++;
//判断该位上是否是1,进行输出,这里的判断比较笨。//首先得到该第j位的掩码(0x01<<j),将内存区中的 //位和此掩码作与操作。最后判断掩码是否和处理后的 //结果相同
if((*pBuffer&(0x01<<j))==(0x01<<j)){ }
printf(“%d ”,i*BYTESIZE + j);int _tmain(int argc, _TCHAR* argv[]){
} 【适用范围】 BitMapSortDemo();return 0;
火龙果整理 uml.org.cn
可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下 【基本原理及要点】
使用bit数组来表示某些元素是否存在,比如8位电话号码 【扩展】
Bloom filter可以看做是对bit-map的扩展 【问题实例】
1)已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。
8位最多99 999 999,大概需要99m个bit,大概10几m字节的内存即可。(可以理解为从0-99 999 999的数字,每个数字对应一个Bit位,所以只需要99M个Bit==1.2MBytes,这样,就用了小小的1.2M左右的内存表示了所有的8位数的电话)
2)2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。
将bit-map扩展一下,用2bit表示一个数即可,0表示未出现,1表示出现一次,2表示出现2次及以上,在遍历这些数的时候,如果对应位置的值是0,则将其置为1;如果是1,将其置为2;如果是2,则保持不变。或者我们不用2bit来进行表示,我们用两个bit-map即可模拟实现这个 2bit-map,都是一样的道理。
海量数据处理专题
(五)【什么是堆】
概念:堆是一种特殊的二叉树,具备以下两种性质
1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值
2)树是完全平衡的,并且最后一层的树叶都在最左边
这样就定义了一个最大堆。如下图用一个数组来表示堆:
火龙果整理 uml.org.cn
那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。
你一定发觉了,最小的一个元素就是数组第一个元素,那么二叉堆这种有序队列如何入队呢?看图:
火龙果整理 uml.org.cn
假设要在这个二叉堆里入队一个单元,键值为2,那只需在数组末尾加入这个元素,然后尽可能把这个元素往上挪,直到挪不动,经过了这种复杂度为Ο(logn)的操作,二叉堆还是二叉堆。
那如何出队呢?也不难,看图:
火龙果整理 uml.org.cn
出队一定是出数组的第一个元素,这么来第一个元素以前的位置就成了空位,我们需要把这个空位挪至叶子节点,然后把数组最后一个元素插入这个空位,把这个“空位”尽量往上挪。这种操作的复杂度也是Ο(logn)。
【适用范围】
海量数据前n大,并且n比较小,堆可以放入内存
【基本原理及要点】
最大堆求前n小,最小堆求前n大。方法,比如求前n小,我们比较当前元素与最大堆里的最大元素,如果它小于最大元素,则应该替换那个最大元 素。这样最后得到的n个元素就是最小的n个。适合大数据量,求前n小,n的大小比较小的情况,这样可以扫描一遍即可得到所有的前n元素,效率很高。
【扩展】
双堆,一个最大堆与一个最小堆结合,可以用来维护中位数。
【问题实例】
1)100w个数中找最大的前100个数。
用一个100个元素大小的最小堆即可。
海量数据处理专题
(六)火龙果整理 uml.org.cn
【什么是双层桶】
事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。
【适用范围】
第k大,中位数,不重复或重复的数字
【基本原理及要点】
因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。可以通过多次缩小,双层只是一个例子,分治才是其根本(只是“只分不治”)。
【扩展】
当有时候需要用一个小范围的数据来构造一个大数据,也是可以利用这种思想,相比之下不同的,只是其中的逆过程。
【问题实例】
1).2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。
有点像鸽巢原理,整数个数为2^32,也就是,我们可以将这2^32个数,划分为2^8个区域(比如用单个文件代表一个区域),然后将数据分离到不同的区域,然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间,就可以很方便的解决。当然这个题也可以用我们前面讲过的BitMap方法解决,正所谓条条大道通罗马~~~ 2).5亿个int找它们的中位数。
这个例子比上面那个更明显。首先我们将int划分为2^16个区域,然后读取数据统计落到各个区域里的数的个数,之后我们根据统计结果就可以判断中位数落到那个区域,同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。
实际上,如果不是int是int64,我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成2^24个区域,然后确定区域的第几 大数,在将该区域分成2^20个子区域,然后确定是子区域的第几大数,然后子区域里的数的个数只有2^20,就可以直接利用direct addr table进行统计了。
3).现在有一个0-30000的随机数生成器。请根据这个随机数生成器,设计一个抽奖范围是0-350000彩票中奖号码列表,其中要包含20000个中奖号码。
这个题刚好和上面两个思想相反,一个0到3万的随机数生成器要生成一个0到35万的随机数。那么我们完全可以将0-35万的区间分成35/3=12个区间,然后每个区间的长度都小于等于3万,这样我们就可以用题目给的随机数生成器来生成了,然后再加上该区间的基数。那么要每个区间生成多少个随机数呢?计算公式就是:区间长度*随机数密度,在本题目中就是30000*(20000/350000)。最后要注意一点,该题目是有隐含条件的:彩票,这意味着你生成的随机数里面不能有重复,这也是我为什么用双层桶划分思想的另外一个原因。
第三篇:火龙果作文指导教学设计 新版
《火龙果》作文指导教学设计
马上县城南小学 岑爱艳
【训练内容】
1.抓住火龙果的特征进行描述。
2.学会用眼睛看,用手摸,用鼻子闻,用口尝去了解火龙果果。【教学目标】
1.能抓住火龙果的特点,按一定的顺序说话、写话。2.培养学生的观察能力、表达能力和想象能力。
3.通过品尝火龙果,让学生切身感受、体验,为说写积累丰富的感性材料。【教学重点】
学会用多种观察方法观察水果。【教学难点】
善于联想和想象,会用上比喻、拟人等修辞手法把文章写生动。【教学准备】
多媒体教学课件、火龙果实物、稿纸。【教学过程】
一、创设情境引入
1、自我介绍,跟学生打招呼
2、今天岑老师第一次给大家上课,准备了一份见面礼(打开包拿出火龙果。
3、板书“火龙果”学生跟着书空
二、调动感官--感受体验--指导说话
/ 5
(一)看一看
师:下面我们来比赛,看看谁的眼睛最亮最会看? 师:火龙果是什么颜色的?(师板书:颜色)师:你最有精神,你来说。(提问两到三个学生)
师:你把火龙果的颜色介绍得很清楚,它好像穿上一件漂亮的衣裳,你会用上这句话再来说说火龙果的颜色吗?(师出示课件:课件出示句子: 穿着一件 的外衣)提问2——3名学生
师:火龙果不仅颜色漂亮而且还长得很特别,你发现了吗?(长满鳞片一样的叶子)
师:对,火龙果的颜色火红火红的,身上长满了像龙鳞一样的叶子,因此被人们叫做“火龙果”(火龙果名字的由来)
师:这个火龙果的形状是椭圆形的(师板书:形状),你知道吗?它还有别的形状呢?让我们来看一看吧,(师出示课件:有关火龙果形状和比喻句的图片及填空的题目)
课件:(火龙果(颜色)的,像穿上一件的 外衣。它身上长着像 一样的,所以大家叫它,它的形状有,也有。有的像 有的像 还有的像。)
让学生先自己说说后师再提问
(二)摸一摸
师:只要学会用心观察,就能把火龙果的形状和颜色介绍清楚。这么可爱的火龙果,想摸吗?(师拿出事先准备好的火龙果)拿到火龙果后请你先闭上
/ 5
眼睛闻一闻再摸一摸,摸出感觉迅速往后传,然后把你闻到的、摸到的感觉告诉的同桌。
师:谁愿意和大家分享你的感受。(引导学生说)师表扬学生(你说得真好!你有了新的发现,掌声祝贺他)
(三)闻一闻。
师:老师发现有的小朋友已经开始流口水了,老师也一样,好!现在老师要把火龙果切开,请你仔细观察,看一看里面的果肉是什么样的。和完成这样你的同桌分享吧。出示课件,完成这样的填空。
(课件出示)
老师———— 地切开———— 一看,哇!————的果肉出现在我面前,————的果肉上还有————,就像————————,那是火龙果的————。一阵————扑鼻而来。馋得我————————。(你可以按照上面的提示说也可以自己说)师巡堂个别指导
(四)尝一尝
师:同学们说得真好!现在嘴巴干了吧,好,我们就来尝一尝吧!(师拿起准备好的果肉并交代每一组左边的同学负责拿起两片火龙果,右边的同学负责把碗往后传,不能弄丢哦。)老师有个条件,千万别像猪八戒吃人参果一样“一口吞”,什么味都尝不出。请先闻一闻再咬上一小口,慢慢品尝。感觉怎么样?然后和同桌交流。
师:才咬了一小口就这么好吃,再吃上一大口,细细地品味一下,你还想说什么?
/ 5
师:谁来把自己尝到的火龙果的味道说给大家听一听?提问2—3名学生(板书:味道)
(指名说,评议)
三、指导写作
师:还有这么多小朋友都想说怎么办呢?这样吧,我给你们出个主意,我们来把刚才观察到的火龙果写下来好吗?看看谁能成为小作家。赶快动起手来吧!
课件出示写作提示:
1、在第一行中间写题目,从第二行空两格开始写。
2、第一段:今天,谁给我们带来什么礼物?看到礼物,自己的心情怎样?
3、第二段:通过用眼看、用手摸、用鼻闻、用口尝,把火龙果的形状、颜色、味道写具体,并会用上比喻、拟人等修辞手法。
颜色 :火红火红的(红通通的、红艳艳的、紫红色的)形状 :椭圆形、圆形、长满鳞片一样的叶子 果肉 :洁白的 籽
:像黑芝麻 外形
里面
味道 :清香、谈谈的甜味
第三段:表达对火龙果的感情。
/ 5
3、提醒学生写作时注意:坐姿端正,握笔正确,做到不停笔,不说话,一气呵成。
4、生写作,教师轻轻地走到学生身边,给予个别辅导。
五、总结:
同学们,这节课,我们学会了用眼看、用手摸、用鼻闻、用口尝的方法观察火龙果,希望同学们做生活的有心人,这样,我们就能发现更多的美,创造更多的美!
板书设计:
火龙果 形状:.....颜色:.......味道:.......}
看、摸、闻、尝
/ 5
第四篇:记叙文:火龙果
记叙文:火龙果1
看着那鲜红的火龙果,我的口水都要流下来了!它的外表如同一团燃烧的火焰,上面还点缀着嫩绿的小叶片。火龙果呈水滴形,可真是圆圆的,一看就觉得好吃!把火龙果切开,里面的果肉黑白相间,似乎是在洁白无瑕的雪地上散落了一片小黑点。我拿起一个小勺子,挖下一小勺果肉,送进口中。
哇!火龙果真是好吃,酸甜可口,让人一下舒服了许多,那可口的味道,从舌尖蔓延到口中的每一个角落,真是让精神了许多。
那一瞬间,我突然感到,全世界的水果,哪一种都与这美味的火龙果无法攀比。这美味,在我口中持续了很久,很久……
记叙文:火龙果2
“远看红绣球,近观生柳叶。
中间来一刀,豆腐镶芝麻。”
大家猜一猜这是什么水果?是“火龙果”,你猜对了吗?
今天,妈妈买来两个火龙果,我很高兴。火龙果的形状是椭圆形的,好像一个粉红色的“小炸弹”。它的外面长满了柳叶形状的厚叶片,就好像跳动的火苗,难怪大家都叫它火龙果呢。我迫不及待地把火龙果切开,哇,它的皮可真厚,足有一厘米。里面是白色的果肉,果肉里面还有一个个像芝麻粒一样的小黑点。我问妈妈:“这些小黑点是什么东西?"妈妈告诉我说:“这是火龙果的种子,可以培育出小火龙果呢。”
开始品尝了,我用小勺舀起一块果肉,放进嘴里,轻轻一嚼,甜滋滋的,清凉凉的,真爽口。果肉里面那些小小的种子被我嚼碎,发出“咯吱咯吱”的响声,满嘴清香,吃了一口还想吃第二口,第三口……真是越吃越好吃,吃也吃不够。眨眼间,一个火龙果就不见了。
妈妈把另一个火龙果打成果汁,小芝麻粒被打碎了,我尝一尝香味更浓了,再加上蜂蜜、鲜奶、冰块,真是异常美味可口。妈妈一边品尝着果汁一边告诉我,火龙果是最佳的天然维他命,它含有维他命及钙、磷、铁等矿物质,是最好的美容养颜水果。
我十分喜欢火龙果,它不仅味美,而且营养丰富,请大家也都来尝一尝吧。
记叙文:火龙果3
我家的阳台上,种着两株火龙果。它普普通通,看不出与其他的有什么不同。一直到昨天,我才发现它与其他火龙果有怎样的不同之处。
意外收获
在我姥姥还住在深圳时,一位罗奶奶送了我们两株树苗。它们长的奇型怪状,细细长长,呈立体扁状的三角形。我十分好奇,伸手摸了那两只“怪物”一下。啊唷……疼的我尖叫了起来。那东西长着仙人掌般尖锐的刺。“这到底是个什么玩意儿?”我问姥姥。姥姥说:“是火龙果呀。”“火龙果?”我惊讶极了,这就是传说中的火龙果?今天终于见到真的了。于是,我每天就开始勤奋的给它浇水、施肥,还有松土。它在我的`呵护下,慢慢的开始长高长大了。
“梦想”破灭
我从来都没有看见过火龙果的树苗,所以我急于让它结出果实来,所以没有一天亏待过它。但它似乎是不领情,长是够长的,都长到邻居家里了,就是没见过它结过果子。我在心里想:“我花了那么多心血去养它,给它营养,给它水分,给它松土,它却不领情。就这样想着想着,就逐渐逐渐地将它淡忘了。它身下的泥土干涸了,我也不管,它的一节被狂风吹倒了,我也视若无睹。到了暑假,我出去比赛回来的那一天,它竟然发生了不可思议的巨大的变化
苦尽甘来
它结出了一个火龙果,而且是一个大大的火龙果。听说这个消息时,我兴奋极了,连鞋也没来得及脱,就奔向了阳台。只见那个火龙果在风中摇摇欲坠,似乎马上就要掉下去一样。摘下来切开一看,还是紫心儿的呢,这种的火龙果我还没有见过呢。
经过这次的的“火龙果事件”后,我明白了一个道理——千万不要对别人泄气,因为它一定会做到的,对自己,也是一样。
第五篇:火龙果散文
火龙果!
认识火龙果,喜欢火龙果缘于QQ种菜。我的理想田园里种着红彤彤的招人喜爱的火龙果。
每每望着农场里成熟的果实,就想品尝它的味道!
火龙果是舶来的果实,东北没有。因为好奇上网查询,原来它的祖籍是中美洲热带,尤其墨西哥热带沙漠长得更好,怪不得她那么火热呢。后来由南洋引进台湾,再后来由台湾引进种植在广西、广东一带。因为它有着丰富的维生素和水性善纤维深受女性的青睐!
每当想品尝,就有朋友奉劝,不知道是良性还是热性的水果,慎重为先,尤其南方水果,北方人不一定适应。为了身体的安全,一忍再忍。
直到那天去朋友家,当朋友拿出一个硕大的火龙果让我们品尝时。望着红的似火有着蛟龙鳞片的果皮,我就猜想她名字的来历。果然网上说:因此而得名。
当朋友拿着刀把如蛟龙鳞片的外皮剥掉,脱掉外衣的火龙果,尽显白皙与光滑,透过白皙略见果肉掺杂着黑色点点。那黑色点点如芝麻大小,像黑色的宝石镶嵌在白色的天鹅绒上。不吃看着就令人垂涎欲滴。
一股淡淡的清香从果肉出发向四周蔓延,沁人心脾!
咬一口味道很平和,不酸也不甜。细细地咀嚼,有点猕猴桃的味道!朋友说不是,我说是。在争论中吞下一块,然后再吃一块。越吃越觉得味道不一般,他没有南国梨那样凛冽,也没有柑橘那样棉甜,更没有山楂那样令人牙酸。
那红的似火的外皮也不是摆设,它是一道最好的凉菜原材料。将切好的火龙果皮和切好的黄瓜混在一起,红的似火绿的清脆。清爽可口刺激你的味蕾,引起食欲,想减肥事半功倍!
从朋友家回来,吃了那么多好东西,印象最深的还是火龙果。望着农场成熟的火龙果,真想奔过去采摘品尝……
今天,去了超市,看见柜台一角摆放着火龙果。一堆火龙果聚在一起叽叽喳喳地述说着迁徙的喜悦!他们相互拥挤着推搡着让这里变得热闹!虽然季节的日历让沈阳到了春季,乍暖还寒的天气让人们没有感觉春天来临,厚重的冬装抵御春光抚媚!倒是火龙果让这里春光无限,让我的心变得暖暖的。
站在她们面前,让火龙果接受我的挑选。我早已心花怒放!
看得眼花缭乱,挑的手软。爱这个喜欢那个,总不能把它们全部带回家,那样既有些铺张浪费兜子银子也吃紧。最后在三千佳丽之中我最爱三位……
把它们摆放在家里,供奉在书桌前,我要给她们最好的礼遇,让她们的芬芳弥漫在我小小的房间,我要和她们促膝交谈,让她们敞开心扉,说说迁徙的苦与乐!
试图用我温暖的心,敲开她们紧闭的心房。我不是传说中的坏人,我想与他们心与心交流,问问几位对故乡的眷恋和我一样不一样?