第一篇:第5讲 信息熵
第5讲 随机变量的信息熵
在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。
信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。物理学中的熵也称为热熵。信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。香农用信息熵度量一个物理系统内部状态和运动的不确定性。
信息熵是信息论的核心和基础概念,具有多种物理意义。香农所创立的信息论是从定义和研究信息熵开始的。这一讲我们学习信息熵的定义和性质。
1.信息熵
我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。定义1.1 设离散型随机变量X的概率空间为
Xx1Pp1x2p2...xn
...pn我们把X的所有取值的自信息的期望称为X的平均自信息量,通常称为信息熵,简称熵(entropy),记为H(X),即
n
H(X)E[I(X)]pilogi11(比特)pi
信息熵也称为香农熵。
注意,熵H(X)是X的概率分布P的函数,因此也记为H(P)。
定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r,所得结果称为r-进制熵,记为Hr(X),其单位为“r-进制单位”。我们有
HXHrX
logr注意,在关于熵的表达式中,我们仍然约定
0log00,0log信息熵的物理意义:
信息熵可从多种不同角度来理解。
x0 0(1)H(X)是随机变量X的取值所能提供的平均信息量。
(2)统计学中用H(X)表征随机变量X的不确定性,也就是随机性的大小。
例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。
(3)若离散无记忆信源的符号概率分布为P,则H(P)是该信源的所有无损编码的“平均码长”的极限。
令X是离散无记忆信源的符号集,所有长度为n的消息集合为
Xn{1,2,,M}
每个消息i在某个无损编码下的码字为wi,码字长为li比特。假设各消息i出现的概率为pi,则该每条消息的平均码长为
Lnpili
i1M因此,平均每个信源符号的码长为
Ln1Mpili nni1这个平均每个信源符号的码长称为该编码的平均码长,其量纲为(码元/信源)。
我们有
LnLH(X)且 limnH(X)
nnn这是信源编码定理的推论。
例1.3 课本第26页例2.4.天气预报的平均信息量。
练习:
在电脑主板上,串行接口(Serial Interface)用于向外设输出数据,每次输出1比特符号,若某段时间内输出符号的概率分布为
1X0p1/32/3 求此时段内该串行接口的信息率,即平均每符号所传递的信息(单位为“比特/符号”)。
练习解答:输出0所传递的信息为
log
I(0)输出1所传递的信息为
13log比特3()
I(1)log因此,输出符号的信息熵为
H(X)2log31(比特)3122log3(log31)log30.919(比特)
333于是所求的信息速率为0.919比特每符号。
说明:上述信息熵H(X)反映了串行接口传输信息的速率,称为该接口的信息率。
2.熵函数H(P)的性质 性质1.非负性和确定性
H(P)≥0
其中H(P)=0 当且仅当P为退化分布。
一个随机变量的概率分布为退化分布,当且仅当该随机变量是常量,即取值唯一(所以其取值是确定的)。
性质2.对称性
H(p1,,pi,,pj,,pn)H(p1,,pj,,pi,,pn)性质3.连续性
H(p1,,pn)对于其中任何变量pi是连续的。
性质4.扩展性 可扩展性1:
H(p1,,pn,0)H(p1,,pn)可扩展性2: limH(p1,p2,,pn1,pn,)H(p1,p2,,pn2,pn1,pn)0证明:由连续性和可扩展性1立即可得。
证毕
意义:可扩展性表明,一个小概率事件对于熵的影响很小,可以忽略不计。在熵的计算中,可以忽略其中一部分小概率事件。
例2.1《中华字海》中收录了85000多个汉字,而常用汉字仅有3000个左右。(据统计现代汉语中这2400个汉字在一般书刊文章中所占的字数比例是99%)在计算汉字的熵时,大部分汉字都可以忽略不计,仅统计常用汉字出现的频率,以此作为这些汉字出现的概率,从而计算出汉字的熵。
性质5.可加性
注意:即课本第31页的“递增性”。课本上的“可加性”事实上是联合熵的链法则,涉及到条件熵,放在此处不妥,后面再讨论。我们将赋予“递增性”更贴切的含义。定理2.2(可加性公式)
qqqH(p1,p2,,pn1,q1,q2,,qm)H(p1,p2,,pn)pnH1,2,,mpnpnpn其中令pnq1q2qm
证明:可用熵函数的定义证明,细节留给读者完成。
证毕
可加性公式让我们不断降低信息熵中概率分布的维度,将高维计算简化为低维计算。有的教材称可加性为递推性。例2.3 应用熵函数的可加性计算
1111H(,,)33665
解:
1111111111H(,,)H(,)H(,)33663333221log3
31.918(bit)注意,可连续应用可加性公式:
111121211111H(,,)H(,)H(,)H(,)33663332232221H(,)1 33连续应用可加性公式,我们有 定理2.4(更一般的可加性公式)H(p11,,p1r1,p21,,p2r2,,pn1,,pnrn)piripi1pi2H(p1,p2,,pn)piH,,(2.1)pii1pipin
其中pipj1riij
解释:我们可以把可加性理解为分步试验结果的熵等于各步试验结果熵的加权组合。
,n,其概率分布为设一个随机试验分为两个步骤。第1步共有n个可能结果X11,2,(p1,p2,,pn)。这一步试验结果的熵为H(p1,p2,,pn)。
在第1步试验结果的基础上进行第2步试验。假设当第1步试验结果X1i时,第2步试验共有ri个可能结果,并且其概率分布为
piripi1pi2,, pppiii6
对应的熵为
piripi1pi2H,, pppiii因此,第2步传递的平均信息量为
piripi1pi2pH,, ipppi1iiin两步所获得的平均信息量之和就是上述(2.1)中的右式。左式可解释为第2步试验的所有可能结果的平均信息量。练习:应用熵函数的可加性计算
H(1/6,1/6,1/6,1/9,1/9,1/12,1/12)
性质6.递增性
低维分布分解为高维分布时,信息熵严格递增。
定理2.5 将n-维概率分布分解为n+1维分布后,熵增大:
H(p1,p2,,pn)H(p1,p2,,pn1,pn,)(0<pn)证明:由可加性立即可得。
证毕
性质7.严格上凸性
定理2.6 熵函数H(P)是严格上凸函数。
证明:根据严格上凸性定义,我们设P=(p1, p2, …, pn)与Q=(q1,q2, …, qn)是两个不同的概率分布并且设(1,2)为非退化分布,只需证明下列不等式
1H(P)2H(Q)H(1P2Q)(1)
即
1plogpqii2i1i1nnilogqi1(pi2qi)lo1g(pi2 qii1n)合并同类项后,上述不等式等价变换为
n1pi2qipq1pilog2qilog1i2i0 piqii1i1 n注意,1P2Q是一个n-维概率分布,根据预备知识中所证明的“信息不等式”,我们有
npilogi11pi2qipi0(2)
其中等号成立当且仅当P1P2Q,即P=Q。我们前面已假设P≠Q,所以上述不等式中的等号不成立。同理我们有
nqilogi11pi2qiqi0(3)
由(2)和(3)可得(1)。
证毕
不等式(1)也可以用基本对数不等式证明。
不等式(1)的第二个证明:取x1pi2qipi,由
ln得
11x xpilnpipi1pi2qi2(piqi)(4)1pi2qi根据预备知识中证明的基本对数不等式,(4)中等号成立的充要条件是P1P2Q,即P=Q。我们前面已假设P≠Q,所以不等式(4)中的等号不成立。因此,我们有
pilni1npi0(5)
1pi2qi同理我们有
nqilni1qi0(6)
1pi2qi由(5)和(6)可得(1)。
证毕
性质8.极值性(最大离散熵原理)
定理2.7(最大离散熵原理)对于任何n维概率分布p,H(p)logn
其中,等号成立的充要条件是p为均匀分布,即
p(1/n,1/n,,1/n)
证明: 令q为均匀分布(1/n,1/n,…,1/n),应用信息不等式立刻可得该定理成立。
证毕
记号:我们用H0表示一个随机变量的最大熵。当且仅当某随机变量共有n种取值时,H0logn(比特)
例2.8 二十问题游戏(the game of twenty problems)。甲心里想到一个事物,让乙猜。乙可以向甲提问,甲只回答是或者不是。若乙在20个问题之内猜出答案,则乙胜,否则甲胜。猜数:一个比较简单的实例是猜数。要猜出一个100以内的正整数至少需要几个问题?至多需几个问题?
练习:
设一条电线上串联了8个灯泡,如图所示。假设其中有且只有一个灯泡坏了,并且各灯泡 的损坏概率相同,用万用电表通过测量断路找出坏灯泡。(1)平均需要获得多少信息,才能找出其中的坏灯泡。(2)一次测量所获得的信息的最大期望值是多少?
(3)试设计一个最佳测量方案,即测量次数的期望值最小的测量方案。
作业
1.试证明信息熵的可加性。
2.伪币称量问题:今有12枚金币,其中1枚是伪币,其重量不同于真币。用一台没有砝码的天平通过比较金币重量可以找出这枚伪币。(1)用这台天平找出伪币并知道其偏重还是偏轻需获得多少信息?(2)求天平的3种称量结果,即等重、左重和右重,的最大平均自信息。(3)试证明找出这枚伪币至少需要称量3次。(4)试设计最优的第1次称量方案。
(5)若第1次称量结果为1-4号钱币的总重量大于5-8号钱币的总重量,试设计最优的第2次称量方案。
3.编程2:输入有限维概率分布,输出该分布的熵。
附录:热熵
1854年克劳修斯定义了物理系统的一种状态函数S,他之称为熵(entropy),现在也称为热熵。一个物理系统从状态o到状态A的熵增量定义为
SSo其中
AodQ T克劳修斯的热力学第二定律:dS0
德国物理学家玻尔兹曼的熵公式:划时代的发现
SklogeW
其中W是物理系统的(宏观)状态所对应的所有可能微观状态数,k称为玻尔兹曼常数。伟大意义:
(1)将宏观量S与微观状态数W相联系,架设了宏观与微观之间的桥梁。
(2)物理概念第一次用概率形式表达,意义深远。
(3)已成为物理学中最重要公式之一。
棋盘游戏:40X40的棋盘中间10X10位置上放着100颗棋子。这10X10位置构成系统I,其它位置构成系统II。将I中棋子挪动到II中,两个系统的状态都发生改变。求两个系统各自的熵与总熵,有 SIIISISII
第二篇:实验一-信息熵与图像熵计算-正确
实验一信息熵与图像熵计算(2 学时)
一、实验目的
1.复习MATLAB的基本命令,熟悉MATLAB下的基本函数; 2.复习信息熵基本定义,能够自学图像熵定义和基本概念。
二、实验内容
1.能够写出MATLAB源代码,求信源的信息熵;
2.根据图像熵基本知识,综合设计出MATLAB程序,求出给定图像的图像熵。
三、实验仪器、设备
1.计算机-系统最低配置256M内存、P4 CPU; 2.MATLAB编程软件。四 实验流程图
五 实验数据及结果分析
四、实验原理
1.MATLAB中数据类型、矩阵运算、图像文件输入与输出知识复习。
2.利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量:
1()1()[log ]()log()i n i i p a i H E p a p a X 信息熵的意义:信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。
3.学习图像熵基本概念,能够求出图像一维熵和二维熵。
图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图像的一元灰度熵为: 2550 log i ii p p H 图像的一维熵可以表示图像灰度分布的聚集特征,却不能反映图像灰度分布的空间特征,为了表征这种空间特征,可以在一维熵的基础上引入能够反映灰度分布空间特征的特征量来组成图像的二维熵。选择图像的邻域灰度均值作为灰度2 分布的空间特征量,与图像的像素灰度组成特征二元组,记为(i,j),其中i表示像素的灰度值(0<=i<=255),j表示邻域灰度(0<=j<=255), 2(,)/ ij p f i j N
上式能反应某像素位置上的灰度值与其周围像素灰度分布的综合特征,其中f(i,j)为特征二元组(i,j)出现的频数,N为图像的尺度,定义离散的图像二维熵为: 2550 logijij i p p H 构造的图像二维熵可以在图像所包含信息量的前提下,突出反映图像中像素位置的灰度信息和像素邻域内灰度分布的综合特征。
五、实验步骤
1.求解信息熵过程:
(1)输入一个离散信源,并检查该信源是否是完备集;(2)去除信源中符号分布概率为零的元素;(3)根据平均信息量公式,求出离散信源的熵。2.图像熵计算过程:
(1)输入一幅图像,并将其转换成灰度图像;(2)统计出图像中每个灰度阶象素概率;
(3)统计出图像中相邻两象素的灰度阶联合分布矩阵;(4)根据图像熵和二阶熵公式,计算出一幅图像的熵。
六、实验报告要求
1.按照本节内容后实验报告形式书写;
2.实验总结和心得要详细,可以根据自己实验情况,写出建议。
七、实验注意事项
1.MATLAB语言课下多复习,尽量采用模块化编程方法,通过函数调用形式运行程序。
2.仔细理解、体会图像熵的概念,能够将其联合熵的概念理解透彻。
八、思考题
举例说明图像熵、信息熵在现实中有何实践指导意义? 附录1:实验报告样式: 实验报告
班级:姓名:学号:组别:同组人: 课程名称:实验室:实验时间:
(使用实验报告纸的,以上内容可按照实验报告纸格式填写)实验一信息熵与图像熵计算3
一、实验目的:
二、实验内容与原理:
三、实验器材(设备、元器件、软件工具、平台):
四、实验步骤:
五、程序流程图:
六、实验数据及结果分析:
七、实验结论:
八、思考题:
九、编程、调试过程中遇到的问题及解决方法:
十、其他:实验总结、心得体会及对本实验方法、手段及过程的改进建议等。附录2:图像一维二维熵程序:
close all;clc;I=imread('11.bmp');img=rgb2gray(I);imview(I),imview(img);[ix,iy]=size(img);P1=imhist(img)/(ix*iy);temp=double(img);temp=[temp,temp(:,1)];CoefficientMat=zeros(256,256);for x=1:ix for y=1:iy i=temp(x,y);j=temp(x,y+1);CoefficientMat(i+1,j+1)=CoefficientMat(i+1,j+1)+1;end end P2 = CoefficientMat./(ix*iy);H1=0;H2=0;for i=1:256 if P1(i)~=0 H1=H1-P1(i)*log2(P1(i));end for j=1:256 if P2(i,j)~=0 H2=H2-P2(i,j)*log2(P2(i,j));end end end H2=H2/2;sprintf('1 ord image entropy is:%d',H1)sprintf('2 ord image entropy is:%d',H2)
实验二香农编码(2 个学时)
一、实验目的
1.了解香农编码的基本原理及其特点; 2.熟悉掌握香农编码的方法和步骤; 3.掌握MATLAB 编写香农编码的程序。
二、实验内容
1.根据香农编码的方法和步骤,用香农编码编写程序; 2.用编写的源程序验证书中例题的正确性。
三、实验仪器、设备
1.计算机-系统最低配置256M 内存、P4 CPU; 2.MATLAB 编程软件。
四、实验原理 1.香农编码原理:
香农第一定理指出了平均码长与信源之间的关系,同时也指出了可以通过编 码使平均码长达到极限值,这是一个很重要的极限定理。香农第一定理指出,选 择每个码字的长度i K 满足下式: I(Xi)K I(Xi)1,i 就可以得到这种码,这种编码方法就是香农编码。2.香农编码算法:
1.将信源消息符号按其出现的概率大小依次排列: 1 2 n P(X)P(X), ,P(X)2.确定满足下列不等式整数码长i K ; log2p()log2()1 i iix K p x
3.为了编成唯一可译码,计算第i 个消息的累加概率; 1 1()i i k k pp x
4.将累加概率i P变成二进制数; 5.取i P 二进制数的小数点后i K 位即为该消息符号的二进制码字。
五、实验步骤
1.根据实验原理,设计香农编码程序;
2.输入一组信源消息符号概率,可以求香农编码、平均码长和编码效率。
六、实验报告要求 5 1.按照本节内容后实验报告形式书写;
2.实验总结和心得要详细,可以根据自己情况写出建议。
七、实验注意事项
1.香农编码是符号概率大的用短表示,小长程序中 香农编码是符号概率大的用短表示,小长程序中 香农编码是符号概率大的用短表示,小长程序中 需要对概率进行排序,此我们调用 MATLAB MATLABMATLABMATLABMATLAB的库函数; 2.最后需要注意的是,求得码字依次与排序符号概率对应 ; 3.向无穷方取最小正整数位 ceilceilceil 函数。
八、思考题
举例说明香农编码在现实中有际作用,列一个子并简要说明? 附录 1:实验报告样式: 实验报告
班级:姓名:学号:组别:同组人: 课程名称:实验室:实验时间:
(使用实验报告纸的,以上内容可按照实验报告纸格式填写)
实验二香农编码
一、实验目的:
二、实验内容与原理:
三、实验器材(设备、元器件、软件工具、平台):
四、实验步骤:
五、程序流程图:
六、实验数据及结果分析:
七、实验结论:
八、思考题:
九、编程、调试过程中遇到的问题及解决方法:
十、其他:实验总结、心得体会及对本实验方法、手段及过程的改进建议等。附录 2:香农编码 程序 : close all;clc;n=input('输入信源符号个数:');p=zeros(1,n);for i=1:n p(1,i)=input('输入信源符号概率:');end if sum(p)<1||sum(p)>1 error('输入概率不符合概率分布')end 6 y=fliplr(sort(p));D=zeros(n,4);D(:,1)=y';for i=2:n D(1,2)=0;D(i,2)=D(i-1,1)+D(i-1,2);end for i=1:n D(i,3)=-log2(D(i,1));D(i,4)=ceil(D(i,3));end D A=D(:,2)';B=D(:,4)';Code_length=0;for j=1:n Code_length=Code_length+p(j)*D(j,4);end H=0;for j=1:n H=H+p(j)*log2(1/p(j));end for j=1:n fprintf('输入信源符号概率为%f的码字为:',p(1,j));C=deczbin(A(j),B(j));disp(C)end Efficiency=H/(Code_length)fprintf('平均码长:n');disp(Code_length)fprintf('n 香农编码效率:n');disp(Efficiency)A:累加概率; B:码子长度。:码子长度。function [C]=deczbin(A,B)C=zeros(1,B);temp=A;for i=1:B temp=temp*2;if temp>1 temp=temp-1;C(1,i)=1;else C(1,i)=0;end end 7 实验三费诺编码(2 学时)
一、实验目的
掌握费诺编码方法的基本步骤及优缺点。
二、实验内容
对于给定的信源的概率分布,按照费诺编码的方法进行计算机实现。
三、实验仪器、设备
1.计算机-系统最低配置256M 内存、P4 CPU; 2.MATLAB 编程软件。
四、实验原理 1.费诺编码原理:
费诺编码就是通过使编码中各个句号出现的概率大致相等,实现概率均匀化,从而减少冗余度,提高编码效率。凡是能载荷一定的信息量,且码字的平均长度 最短,可分离的变长码的码字集合称为最佳变长码。在编N 进制码时首先将信 源消息符号按其出现的额概率一次又小到大排列开来,并将排列好的心愿符号按 概率值分N 大组,使N 组的概率之和近似相同,并对各组赋予一个N 进制码元 0、1...N-1。之后再针对每一个大组内的心愿符号做如上处理,即再分为概率相 同的N 组,赋予N 进制码元。如此重复,直到每组只剩下一个心愿符号为止。此时每个信源符号所对应的码字即为费诺码。针对同一个心愿,费诺码比香农码平均码长小,消息出书速率大,编码效率高。费诺编码是一种信源编码,它编码 后的费诺码要比香农码的平均码长小,消息传输速率大,编码效率高。但它属于 概率匹配编码它不是最佳的编码方法。2.费诺编码算法:
(1)将信源消息符号按其出现的概率大小依次排列: 1 2()()...()n P X P X P X(2)将依次排列的信源符号按概率值分为两大组,使两个组的概率之和近似相同,并对各组赋予一个二进制码元“0”和“1”;
(3)将每一大组的信源符号再分成两组,使划分后的两个组的概率之和近似相同,并对各组赋予一个二进制符号“0”和“1”;(4)如此重复,直至每个组只剩下一个信源符号为止;(5)信源符号所对应的码子即为费诺码。
五、实验步骤
1.根据实验原理,设计费诺编码程序;
2.输入一组信源消息符号概率,可以求费诺编码,平均码长和编码效率。8
六、实验报告要求
1.按照本节内容后实验报告形式书写;
2.实验总结和心得要详细,可以根据自己情况写出建议。
七、实验注意事项 1.MATLAB 1.MATLAB1.MATLAB1.MATLAB1.MATLAB语言课下多复习,尽量采用模块化编程方法通过函数调形式 语言课下多复习,尽量采用模块化编程方法通过函数调形式 语言课下多复习,尽量采用模块化编程方法通过函数调形式 语言课下多复习,尽量采用模块化编程方法通过函数调形式 运行程序; 2.仔细理解、体会费诺编码。
八、思考题
举例说明 费诺编码 在现实中际应用,列举一个例子并简要说明? 附录 1:实验报告样式: 实验报告
班级:姓名:学号:组别:同组人: 课程名称:实验室:实验时间:
(使用实验报告纸的,以上内容可按照实验报告纸格式填写)实验三费诺编码
一、实验目的:
二、实验内容与原理:
三、实验器材(设备、元器件、软件工具、平台):
四、实验步骤:
五、程序流程图:
六、实验数据及结果分析:
七、实验结论:
八、思考题:
九、编程、调试过程中遇到的问题及解决方法:
十、其他:实验总结、心得体会及对本实验方法、手段及过程的改进建议等。附录2:费诺编程程序: clc;clear all;N=input('输入信源符号的个数:');s=0;l=0;H=0;for i=1:N fprintf('第%d个',i);p(i)=input('p=');if(p(i)<=0)||(p(i)>=1)error('不符合分布概率');end s=s+p(i);9 H=H+(-p(i)*log2(p(i)));end if(s<=0.999999||s>=1.000001)error('不符合分布概率')end for i=1:N-1 for j=i+1:N if p(i)
一、实验目的
1.掌握哈夫曼编码原理;
2.熟练掌握哈夫曼树的生成方法;
3.学会利用 MATLAB MATLABMATLABMATLABMATLAB实现 哈夫曼 编码 ; 4.提高独立进行算法编程的能力。
二、实验内容
1.用 MATLAB MATLABMATLABMATLABMATLAB实现 哈夫曼 哈夫曼 编码算法程序; 2.要求程序输出显示所有的码字以及编效率;
3.设计简单的输入界面(可以是文字提示信息),程序运行时用 设计简单的输入界面(可以是文字提示信息),程序运行时用 设计简单的输入界面(可以是文字提示信息),程序运行时用 设计简单的输入界面(可以是文字提示信息),程序运行时用 设计简单的输入界面(可以是文字提示信息),程序运行时用 户输入代表信源符号概率的向量;要对用进行合法性检查 户输入代表信源符号概率的向量;要对用进行合法性检查 ;
4.(选做)随机生成一幅图像,随机生成一幅图像,实现 哈夫曼 图像编码,比较前后 图像编码,比较前后 图片 大小。
三、实验仪器设备
1.计算机-系统最低配置 256M 内存、P4 CPUCPUCPU;
2.MATLAB MATLABMATLABMATLABMATLAB编程软件。编程软件。
四、实验原理
1.二进制 哈夫曼 编码的基本原理及算法
(1)把信源符号集中的所有按概率从大到小排队 把信源符号集中的所有按概率从大到小排队 ;
(2)取概率最小的两个符号作为片叶子合并(缩减)到一节点 取概率最小的两个符号作为片叶子合并(缩减)到一节点 ;
(3)视此节点为新符号,其概率等于被合并(缩减)的两个之和参 视此节点为新符号,其概率等于被合并(缩减)的两个之和参 与概率排队 ;
(4)重复(2)(3)(2)(3)两步骤,直至全部符号都被合并(缩减)到根 两步骤,直至全部符号都被合并(缩减)到根 ;(5)从根出发,对各分枝标记 从根出发,对各分枝标记 从根出发,对各分枝标记 0和 1。从根到叶的 路径就给出了各个码字。从根到叶的 路径就给出了各个码字编码和长。
2.哈夫曼 树的编码原理
(1)程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 程序的输入:以一维数组形式要进行 哈夫曼 哈夫曼 哈夫曼 编码的 信源符号编码的 信源符号编码的 信源符号编码的 信源符号编码的 信源符号编码的 信源符号编码的 信源符号编码的 信源符号概率,在运行该程序前显示文字提信息所要输入的矢量; 概率,在运行该程序前显示文字提信息所要输入的矢量; 概率,在运行该程序前显示文字提信息所要输入的矢量; 概率,在运行该程序前显示文字提信息所要输入的矢量; 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 然后对输入的概率矢量进行合法性判断,原则为:如果中存在 小于 0的项,则输入不合法提示重新;如果概率矢量求和大于 1,则输入也不合法,提示重新。
(2)在输入的概率矩阵 p正确的前提条件下 ,对 p进行排序,并用矩阵 L记 录 p排序之前各元素的顺,然后将概率数组 p的前两项,即 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 概率最小的两个数加和,得到新一组序列重复以上过程后 得到一个记录概率加和过程的矩阵 p以及每次排序之前概率顺的矩阵 ; 12(3)新生成一个 n-1行 n列,并且每个元素含有 n个字符的空白矩阵,然后 进行 哈夫曼 编码。
五、实验步骤
1.输入一个离散信源,并检查该是否完备集;
2.使用 哈夫曼 编码原理进行 哈夫曼 程序编写 ;
3.输出离散信源中每个符号的 哈夫曼 编码 及平均码长 和编码效率,并与手工,并与手工 运算的结果进行比较。
六、实验报告要求
1.按照本节内容后实验报告形式书写;
2.实验总结和心得要详细,可以根据自己情况写出建议。
七、实验注意事项 1.比较大小 在 MATLAB MATLABMATLABMATLABMATLAB中,调用的是 sort 函数 ; 2.仔细理解、体会 哈夫曼 编码思想。
八、思考题
比较香农编码、费诺哈夫曼并说出他们的优缺点? 附录 1:实验报告样式: 实 验 报 告
班级: 姓名: 学号: 组别: 同组人: 课程名称: 实验室: 实验时间:
(使用实验报告纸的,以上内容可按照实验报告纸格式填写)实验四 哈夫曼编码
一、实验目的:
二、实验内容与原理:
三、实验器材(设备、元器件、软件工具、平台):
四、实验步骤:
五、程序流程图:
六、实验数据及结果分析:
七、实验结论:
八、思考题:
九、编程、调试过程中遇到的问题及解决方法:
十、其他:实验总结、心得体会及对本实验方法、手段及过程的改进建议等。附录 2:哈夫曼编码程序 : clear all;close all;clc;13 n=input('输入信源符号数:');p=zeros(1,n);for i=1:n p(1,i)=input('输入信源符号概率:');end q=p;if sum(p)<1||sum(p)>1 error('输入概率不符合概率分布')end a=zeros(n-1,n);n=length(p);for i=1:n-1 [q,l]=sort(q);a(i,:)=[l(1:n-i+1),zeros(1,i-1)];q=[q(1)+q(2),q(3:n),1];end for i=1:n-1 c(i,1:n*n)=blanks(n*n);end c(n-1,n)='1';c(n-1,2*n)='0';for i=2:n-1 c(n-i,1:n-1)=c(n-i+1,n*(find(a(n-i+1,:)==1))-(n-2):n*(find(a(n-i+1,:)==1)));c(n-i,n)='1';c(n-i,n+1:2*n-1)=c(n-i,1:n-1);c(n-i,2*n)='0';for j=1:i-1 c(n-i,(j+1)*n+1:(j+2)*n)=c(n-i+1,n*(find(a(n-i+1,:)==j+1)-1)+1:n*find(a(n-i+1,:)==j+1));end end for i=1:n h(i,1:n)=c(1,n*(find(a(1,:)==i)-1)+1:find(a(1,:)==i)*n);ll(i)=length(find(abs(h(i,:))~=32));end Code_length=0;for i=1:n Code_length=Code_length+p(1,i)*ll(i);End Efficiency=H/(Code_length);fprintf('n 哈夫曼编码:n');disp(h)fprintf('n平均码长:n');disp(Code_length)fprintf('n 哈夫曼编码效率:n');disp(Efficiency)14 实验五 算术编码(2学时)
一、实验目的
1.掌握算数编码原理;
2.学习算术编码基本流程 ,学会调试算术编码程序 ; 3.根据给出资料,自学适应 0阶算术编码 方法。
二、实验内容
1.利用 MATLAB MATLABMATLABMATLABMATLAB编写程序实现算数码; 编写程序实现算数码;
2.对文件符号进行概率统计,生成编码表; 3.对文件进行压缩编码;
3.(选做)对文件进行解压缩,比较原始数据和后的之间是否有损(选做)对文件进行解压缩,比较原始数据和后的之间是否有损(选做)对文件进行解压缩,比较原始数据和后的之间是否有损(选做)对文件进行解压缩,比较原始数据和后的之间是否有损 耗。三实验仪器、设备
1.计算机-系统最低配置 256M 内存、P4 CPUP4 CPU P4 CPUP4 CPU; 2.MATLAB MATLABMATLABMATLABMATLAB编程软件。
四、实验原理 算术编码的编码对象是一则消息或一个字符序列,其编码思路是将该消息或字符序列表示成0和1之间的一个间隔(Interval)上的一个浮点小数。在进行算术编码之前,需要对字符序列中每个字符的出现概率进行统计,根据各字符出现概率的大小,将每个字符映射到[0,1]区间上的某个子区间中。然后,再利用递归算法,将整个字符序列映射到[0,1]区间上的某个Interval中。在进行编码时,只需从该Interval中任选一个小数,将其转化为二进制数。
符号序列越长,编码表示它的Interval的间隔就越小,表示这一间隔所需的二进制位数就越多,编码输出的码字就越长。
五、实验步骤
项目文件建立步骤同实验二,下面列出对给定序的算术编码:
1.编码器在开始时将“当前间隔”[L,H)设置为 设置为 [0,1); 2.对每一事件,编码器按步骤(a)和(b)进行处理 ;(a)编码器将“当前间隔”分为子,每一个事件;
(b)一个子间隔的大小与下将出现事件概率成比例,编码器选择 子间 隔对应于下一个确切发生的事件相,并使它成为新“当前子间 隔对应于下一个确切发生的事件相,并使它成为新“当前子间 隔对应于下一个确切发生的事件相,并使它成为新“当前隔”。隔”。
3.最后输出的“当前间隔”下边界就是该给定事件序列算术编码。
六、实验报告要求
1.按照本节内容后实验报告形式书写; 15 2.算术编码学习心得,特别是根据自适应模型 算术编码学习心得,特别是根据自适应模型 0阶编码,调整概率分布方法。阶编码,调整概率分布方法。根据自己实验情况,写出的做中遇到具体问题对本提建 根据自己实验情况,写出的做中遇到具体问题对本提建 根据自己实验情况,写出的做中遇到具体问题对本提建 议。
七、实验注意事项
1.编码概论累加分布;
2.编码区间上限和下迭代算法; 3.自适应模型 0阶的编码原理。
八、思考题
算术编码的优缺点? 附录 1:实验报告样式: 实验报告
班级:姓名:学号:组别:同组人: 课程名称:实验室:实验时间:
(使用实验报告纸的,以上内容可按照实验报告纸格式填写)实验五算术编码
一、实验目的:
二、实验内容与原理:
三、实验器材(设备、元器件、软件工具、平台):
四、实验步骤:
五、程序流程图:
六、实验数据及结果分析:
七、实验结论:
八、思考题:
九、编程、调试过程中遇到的问题及解决方法:
十、其他:实验总结、心得体会及对本实验方法、手段及过程的改进建议等。附录二:算术编码程序
disp('%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%start%%%%%%%%%%%%%%%%%%%%%%%')disp('程序限定字符为:a b c d e');str=input('请输入编码的字符串:');[j,k]=size(str);l=0;r=1;d=1;p=[0.2 0.3 0.1 0.15 0.25];pa=0.2;pb=0.3;16 pc=0.1;pd=0.15;pe=0.25;n=length(str);disp('a b c d e')disp(num2str(p))for i=1:k if i==1 switchstr(i)case 'a' m=1;a1=0;a2=pa;case 'b' m=2;a1=pa;a2=pa+pb;case 'c' m=3;a1=pa+pb;a2=pa+pb+pc;case 'd' m=4;a1=pa+pb+pc;a2=pa+pb+pc+pd;case 'e' m=5;a1=pa+pb+pc+pd;a2=pa+pb+pc+pd+pe;end l=a2-a1;end if(i>=2)&(i<=k)switchstr(i)case 'a' aa=a1;ab=a1+l*pa;a1=aa;a2=ab;case 'b' aa=a1+l*pa;ab=a1+l*(pa+pb);a1=aa;a2=ab;case 'c' 17 aa=a1+l*(pa+pb);ab=a1+l*(pa+pb+pc);a1=aa;a2=ab;case 'd' aa=a1+l*(pa+pb+pc);ab=a1+l*(pa+pb+pc+pd);a1=aa;a2=ab;case 'e' aa=a1+l*(pa+pb+pc+pd);ab=a1+l*(pa+pb+pc+pc+pd+pe);a1=aa;a2=ab;end l=a2-a1;end strl=strcat('input',int2str(i),' 编码区间起始值为:');disp(strl);disp(a1)strl=strcat('input',int2str(i),' 编码区间的终止值为:');disp(strl);disp(a2)strl=strcat('input',int2str(i),' 本程序选择区间中点作为编码是:');disp(strl);disp((a1+a2)/2)end disp('%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%code_finish%%%%%%%%%%%%%%%%%')disp('是否要译码,请选择')disp('
1、译码')disp('
2、不译码?')disp('说明:输入相应的数字进行选择')disp('%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%choice%%%%%%%%%%%%%%%%%%%%%%')YN=input('您选择的是:');if YN==1 bm=(a1+a2)/2;SuansuJiema(bm,k)end if YN==2 disp('你选择了不译码。')disp('%%%%%%%%%%%%%%%%%%%%%%%%%%%%end%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%')end 解码函数:
functionSuansuJiema(bm,num)18 format long pa=0.2;pb=0.3;pc=0.1;pd=0.15;pe=0.25;i=1;ym={};ym{1}(1)=YM(bm);bm0=bm;while i>=1&i functionym=YM(A)pa=0.2;pb=0.3;pc=0.1;pd=0.15;pe=0.25;switch 1 case 0<=A&A =1|A<0 disp('该码子为错误编码')end 19 实验六线性分组码的信道编码和译码(2 学时) 一、实验目的 1.熟悉MATLAB 工作环境及工具箱; 2.掌握线性分组码的编码、译码原理以及纠错原理。 二、实验内容 用MATLAB 软件编程实现线性分组码的信道编码和译码。 三、实验仪器、设备 1.计算机-系统最低配置256M 内存、P4 CPU; 2.MATLAB 编程软件。 四、实验原理 1.线性分组码基本原理 首先,将信息序列分成K 个符号一组,然后,在信息组中加入一些校验码 元,组成N 长码字,由此得到(N,K)分组码。(N,K)分组码中任一码字的 码长为N,所含的信息位数目为K,校验位数目为r=N-K,且码中任意两个码 字的和仍为码字。例如,对于(5,2)分组码,N=5,K=2,其编码函数f 为: 1 1 C M 2 2 C M 3 1 2 1 2 C M M C C 4 1 1 C M C 5 1 2 1 2 C M M C C 编码函数可知:c(码字)=m(信息矩阵)G(生成矩阵)其中,生成矩阵为: 1 0 1 1 1 0 1 1 0 1 G 当生成矩阵G 确定后,编码的问题就解决了。又由编码函数的后3 个方程 可以确定校验方程,对应的矩阵形式为0 T CH 或0 T GH ,式中,H 称为一致 性校验矩阵,一致性校验矩阵如下: 1 1 1 0 0 1 0 0 1 0 1 1 0 0 1 H H 和G 的关系为:K*K K*r G I A,K*r r*r H A I。 纠错译码时,若发送码字为C,则接收序列为y,校正子* * T T s y H e H,因此,可以得到译码c ye(模2 和)。其中,e 称为差错图样。S 是传输 是否出错的标志,称为伴随式。(5,2)线性分组码的最小汉明距离为dmin=3,20 能够检出2 位错误或纠正1 位错误。2.线性分组编码、译码算法:(1)线性分组码信道编码:(a)输入生成矩阵G 和原序列;(b)由矩阵G 得到n,k 和H;(c)根据公式生成编码。(2)线性分组码信道译码: (a)输入生成矩阵G 和接收序列;(b)由矩阵G 得到n,k 和H;(c)根据公式生得到校正S;(d)求错误图样e;(e)译码c y e。 五、实验步骤 1.根据实验原理能设计出线性分组编码、译码程序; 2.输入矩阵G 和原序列验证编码程序是否正确; 3.输入矩阵G 和接收序列验证译码程序是否正确。 六、实验报告要求 1.按照本节内容后实验报告形式书写; 2.实验总结和心得要详细,可以根据自己实验情况,写出建议。 七、实验注意事项 1.线性分组码中生成矩阵、校验矩阵、伴随式之间的关系。2.在计算矩阵时,注意位操作运算。 八、思考题 优化程序,提高运算速度? 附录1:实验报告样式: 实验报告 班级:姓名:学号:组别:同组人: 课程名称:实验室:实验时间: (使用实验报告纸的,以上内容可按照实验报告纸格式填写)实验六线性分组码的信道编码和译码 一、实验目的: 二、实验内容与原理: 三、实验器材(设备、元器件、软件工具、平台): 四、实验步骤: 21 五、程序流程图: 六、实验数据及结果分析: 七、实验结论: 八、思考题: 九、编程、调试过程中遇到的问题及解决方法: 十、其他:实验总结、心得体会及对本实验方法、手段及过程的改进建议等。附录二: 附录二: 线性分组码的信道编码和译码 close all;clc;G=input('请输入生产矩阵G,例如:G=[1 0 1 1 1;0 1 1 0 1]n G=');G;[k,n]=size(G);r=n-k;m=input('请输入需传送消息m,如m=[0 0 0 1 1 0 1 1]n m=');l=length(m);if(mod(l,k))disp('输入消息有误');else ge=l/k;temp1=[];for i=1:ge temp1(i,:)=m(k*(i-1)+1:i*k);end m=temp1;c=mod(m*G,2);A=G(:,k+1:n);H=[A',eye(r)];disp('校验矩阵');H disp('编码矩阵');c end disp('敲回车键继续');pause y=input('输入接收序列y,如:y=[0 0 0 0 0 0 1 1 0 1 1 0 1 1 1 1 0 0 1 0]n y=');temp2=[];for i=1:ge temp2(i,:)=y(1,n*(i-1)+1:i*n);end y=temp2 s=mod(y*H',2);e=s*pinv(H');22 for i=1:ge for j=1:n if(e(i,j)>0.5-eps)e(i,j)=1;else e(i,j)=0;end end end cc=mod(y+e,2);sc=cc(:,1:2);disp('差错图样);e disp('估计值');cc disp('译码序列');sc__ clear all;close all;clc;13 n=input('ÊäÈëÐÅÔ´·ûºÅÊý:');p=zeros(1,n);for i=1:n p(1,i)=input('ÊäÈëÐÅÔ´·ûºÅ¸ÅÂÊ:');end q=p;if sum(p)<1||sum(p)>1 error('ÊäÈë¸ÅÂʲ»·ûºÏ¸ÅÂÊ·Ö²¼')end a=zeros(n-1,n);n=length(p);for i=1:n-1 [q,l]=sort(q);a(i,:)=[l(1:n-i+1),zeros(1,i-1)];q=[q(1)+q(2),q(3:n),1];end for i=1:n-1 c(i,1:n*n)=blanks(n*n);end c(n-1,n)='1';c(n-1,2*n)='0';for i=2:n-1 c(n-i,1:n-1)=c(n-i+1,n*(find(a(n-i+1,:)==1))-(n-2):n*(find(a(n-i+1,:)==1)));c(n-i,n)='1';c(n-i,n+1:2*n-1)=c(n-i,1:n-1);c(n-i,2*n)='0';for j=1:i-1 c(n-i,(j+1)*n+1:(j+2)*n)=c(n-i+1,n*(find(a(n-i+1,:)==j+1)-1)+1:n*find(a(n-i+1,:)==j+1));end end for i=1:n h(i,1:n)=c(1,n*(find(a(1,:)==i)-1)+1:find(a(1,:)==i)*n);ll(i)=length(find(abs(h(i,:))~=32));end Code_length=0;for i=1:n Code_length=Code_length+p(1,i)*ll(i);end Efficiency=h/(Code_length);fprintf('n ¹þ·òÂü±àÂë:n');disp(h)fprintf('n ƽ¾ùÂ볤:n');disp(Code_length)fprintf('n ¹þ·òÂü±àÂëЧÂÊ£ºn');disp(Efficiency) close all;clc;G=input('ÇëÊäÈëÉú²ú¾ØÕóG,ÀýÈç:G=[1 0 1 1 1;0 1 1 0 1]n G=');G;[k,n]=size(G);r=n-k;m=input('ÇëÊäÈëÐè´«ËÍÏûÏ¢m,Èçm=[0 0 0 1 1 0 1 1]n m=');l=length(m);if(mod(l,k))disp('ÊäÈëÏûÏ¢ÓÐÎó');else ge=l/k;temp1=[];for i=1:ge temp1(i,:)=m(k*(i-1)+1:i*k);end m=temp1;c=mod(m*G,2);A=G(:,k+1:n);H=[A',eye(r)];disp('УÑé¾ØÕó');H disp('±àÂë¾ØÕó');c end disp('Çûسµ¼ü¼ÌÐø');pause y=input('ÊäÈë½ÓÊÕÐòÁÐy,Èç:y=[0 0 0 0 0 0 1 1 0 1 1 0 1 1 1 1 0 0 1 0]n y=');temp2=[];for i=1:ge temp2(i,:)=y(1,n*(i-1)+1:i*n);end y=temp2 s=mod(y*H',2);e=s*pinv(H');22 for i=1:ge for j=1:n if(e(i,j)>0.5-eps)e(i,j)=1;else e(i,j)=0;end end end cc=mod(y+e,2);sc=cc(:,1:2);disp('²î´íͼÑù');e disp('¹À¼ÆÖµ');cc disp('ÒëÂëÐòÁÐ');sc 三 四 哈夫曼编码 五算术编码 六线性分组码的信道编码和译码 第29讲信息安全评估标准的发展 企业的网络环境和应用系统愈来愈复杂,每个企业都有这样的疑惑:自己的网络和应用系统有哪些安全漏洞?应该怎样解决?如何规划企业的安全建设?信息安全评估回答了这些问题。 什么是信息安全评估? 关于这个问题,由于每个人的理解不同,可能有不同的答案。但比较流行的一种看法是:信息安全评估是信息安全生命周期中的一个重要环节,是对企业的网络拓扑结构、重要服务器的位置、带宽、协议、硬件、与Internet的接口、防火墙的配置、安全管理措施及应用流程等进行全面的安全分析,并提出安全风险分析报告和改进建议书。 信息安全评估的作用 信息安全评估具有如下作用: (1)明确企业信息系统的安全现状。进行信息安全评估后,可以让企业准确地了解自身的网络、各种应用系统以及管理制度规范的安全现状,从而明晰企业的安全需求。 (2)确定企业信息系统的主要安全风险。在对网络和应用系统进行信息安全评估并进行风险分级后,可以确定企业信息系统的主要安全风险,并让企业选择避免、降低、接受等风险处置措施。 (3)指导企业信息系统安全技术体系与管理体系的建设。对企业进行信息安全评估后,可以制定企业网络和系统的安全策略及安全解决方案,从而指导企业信息系统安全技术体系(如部署防火墙、入侵检测与漏洞扫描系统、防病毒系统、数据备份系统、建立公钥基础设施PKI等)与管理体系(安全组织保证、安全管理制度及安全培训机制等)的建设。 主要的信息安全评估标准 信息安全评估标准是信息安全评估的行动指南。可信的计算机系统安全评估标准(TCSEC,从橘皮书到彩虹系列)由美国国防部于1985年公布的,是计算机系统信息安全评估的第一个正式标准。它把计算机系统的安全分为4类、7个级别,对用户登录、授权管理、访问控制、审计跟踪、隐蔽通道分析、可信通道建立、安全检测、生命周期保障、文档写作、用户指南等内容提出了规范性要求。信息技术安全评估标准(ITSEC,欧洲百皮书)是由法、英、荷、德欧洲四国90年代初联合发布的,它提出了信息安全的机密性、完整性、可用性的安全属性。机密性就是保证没有经过授权的用户、实体或进程无法窃取信息;完整性就是保证没有经过授权的用户不能改变或者删除信息,从而信息在传送的过程中不会被偶然或故意破坏,保持信息的完整、统一;可用性是指合法用户的正常请求能及时、正确、安全地得到服务或回应。ITSEC把可信计算机的概念提高到可信信息 技术的高度上来认识,对国际信息安全的研究、实施产生了深刻的影响。 信息技术安全评价的通用标准(CC)由六个国家(美、加、英、法、德、荷)于1996年联合提出的,并逐渐形成国际标准ISO15408。该标准定义了评价信息技术产品和系统安全性的基本准则,提出了目前国际上公认的表述信息技术安全性的结构,即把安全要求分为规范产品和系统安全行为的功能要求以及解决如何正确有效地实施这些功能的保证要求。CC标准是第一个信息技术安全评价国际标准,它的发布对信息安全具有重要意义,是信息技术安全评价标准以及信息安全技术发展的一个重要里程碑。 ISO13335标准首次给出了关于IT安全的保密性、完整性、可用性、审计性、认证性、可靠性6个方面含义,并提出了以风险为核心的安全模型:企业的资产面临很多威胁(包括来自内部的威胁和来自外部的威胁);威胁利用信息系统存在的各种漏洞(如:物理环境、网络服务、主机系统、应用系统、相关人员、安全策略等),对信息系统进行渗透和攻击。如果渗透和攻击成功,将导致企业资产的暴露;资产的暴露(如系统高级管理人员由于不小心而导致重要机密信息的泄露),会对资产的价值产生影响(包括直接和间接的影响);风险就是威胁利用漏洞使资产暴露而产生的影响的大小,这可以为资产的重要性和价值所决定;对企业信息系统安全风险的分析,就得出了系统的防护需求;根据防护需求的不同制定系统的安全解决方案,选择适当的防护措施,进而降低安全风险,并抗击威胁。该模型阐述了信息安全评估的思路,对企业的信息安全评估工作具有指导意义。 BS7799是英国的工业、政府和商业共同需求而发展的一个标准,它分两部分:第一部分为“信息安全管理事务准则”;第二部分为“信息安全管理系统的规范”。目前此标准已经被很多国家采用,并已成为国际标准ISO17799。BS7799包含10个控制大项、36个控制目标和127个控制措施。BS7799/ISO17799主要提供了有效地实施信息系统风险管理的建议,并介绍了风险管理的方法和过程。企业可以参照该标准制定出自己的安全策略和风险评估实施步骤。 AS/NZS 4360:1999是澳大利亚和新西兰联合开发的风险管理标准,第一版于1995年发布。在AS/NZS 4360:1999中,风险管理分为建立环境、风险识别、风险分析、风险评价、风险处置、风险监控与回顾、通信和咨询七个步骤。AS/NZS 4360:1999是风险管理的通用指南,它给出了一整套风险管理的流程,对信息安全风险评估具有指导作用。目前该标准已广泛应用于新南威尔士洲、澳大利亚政府、英联邦卫生组织等机构。 OCTAVE(Operationally Critical Threat, Asset, and Vulnerability Evaluation)是可操作的关键威胁、资产和弱点评估方法和流程。OCTAVE首先强调的是O—可操作性,其次是C—关键系统,也就是说,它最注重可操作性,其次对关键性很关注。OCTAVE将信息安全风险评估过程分为三个阶段:阶段一,建立基于资产的威胁配置文件;阶段二,标识基础结构的弱点;阶段三,确定安全策略和计划。 国内主要是等同采用国际标准。公安部主持制定、国家质量技术监督局发布的中华人民共和国国家标准GB17895-1999《计算机信息系统安全保护等级划分准则》已正式颁布并实施。该准则将信息系统安全分为5个等级:自主保护级、系统审计保护级、安全标记保护级、结构化保护级和访问验证保护级。主要的安全考核指标有身份认证、自主访问控制、数据完整性、审计等,这些指标涵盖了不同级别的安全要求。GB18336也是等同采用ISO 15408标准。 现有信息安全评估标准的局限性 风险分析的方法有定性分析、半定量分析和定量分析。现有的信息安全评估标准主要采用定性分析法对风险进行分析,即通常采取安全事件发生的概率来计算风险。然而,在安全评估过程中,评估人员常常面临的问题是:信息资产的重要性如何度量?资产如何分级?什么样的系统损失可能构成什么样的经济损失?如何构建技术体系和管理体系达到预定的安全等级?一个由病毒中断了的邮件系统,企业因此造成的经济损失和社会影响如何计算?如果黑客入侵,尽管没有造成较大的经济损失,但企业的名誉损失又该如何衡量?另外,对企业的管理人员而言:哪些风险在企业可承受的范围内?这些问题从不同角度决定了一个信息系统安全评估的结果。目前的信息安全评估标准都不能对这些问题进行定量分析,在没有一个统一的信息安全评估标准的情况下,各家专业评估公司大多数是凭借各自积累的经验来解决。因此,这就需要统一的信息安全评估标准的出台。 信息安全评估的市场前景 随着业界对于信息安全问题认识的不断深入,随着信息安全体系的不断实践,越来越多的人发现信息安全问题最终都归结为一个风险管理问题。据统计,国外发达国家用在信息安全评估上的投资能占企业总投资的1%~5%,电信和金融行业能达到3%~5%。照此计算,每年仅银行的安全评估费用就超过几个亿。而且,企业的安全风险信息是动态变化的,只有动态的信息安全评估才能发现和跟踪最新的安全风险。所以企业的信息安全评估是一个长期持续的工作,通常应该每隔1-3年就进行一次安全风险评估。因此,信息安全评估有着广阔的市场前景。 第1 章 信息、信息科学与信息技术 本章在了解信息技术基本概念的基础上,介绍了信息技术著名企业和学术组织。 通过本章的学习:初步了解作为一名信息科学与技术专业毕业的学生应具有的知识和能力; 明确今后学习的目标和内容;树立作为一个未来信息科学与技术工作者的自豪感和责任感。本章的重点是了解:信息的基本概念;信息科学;信息技术;信息产业;著名的信息产业; 著名的信息技术企业;著名的信息技术学术组织和奖项。 1.1 信息1.2 信息科学1.3 信息技术1.4 信息科学(技术)与相关学科的关系1.5 信息产业 1.6 著名的信息技术企业1.7 著名的信息技术学术组织和奖项 1.1.1 信息的定义 1.从不同的角度和不同的层次出发.对信息概念有许多不同的理解。信息论的创始人香农认为:信息是有秩序的量度,是人们对事物了解的不确定性的消除或减少。信息是对组织程度的一种测度,信息能使物质系统有序性增强,减少破坏、混乱和噪音。控制论的创始人之一维纳认为:信息是我们适应外部世界、感知外部世界的过程中与外部世界进行交换的内容。2.信息的两方面含义: 在客观上信息是反映某种客观事物的现实情况。 在主观上信息是可接受的、可利用的,并能指导人们的行为。3.信息的定义: 一般而言,可以将信息定义为:信息是物质系统运动的本质特征,是物质系统运动的方式、运动的状态及运动的有序性。 其基本含义是:信息是客观存在的事实,是物质运动轨迹的真实反映。通俗的讲,信息一般泛指包含于消息、情报、指令、数据、图像、信号等形式之中的新的知识和内容。1.1.2 信息的本质 1 信息的分类 按信息产生的先后或加工深度划分:①一次信息 ②二次信息 ③三次信息 按信息的表现形式划分: ①文献型②档案型③统计型 ④动态型 ⑤图像型 按信息的来源划分:①书本 ②报刊、电视 ③人 ④具体事物 按信息产生的先后或加工深度划分: ①一次信息是指未经加工的原始信息。可以是口头的、图片的、数字的;也可以是表格、清单等。②二次信息是指对一次信息加工处理后得到的信息这种信息已经变成规则有序的信息,如文摘、索引、数据卡片等。经过加工后的二次信息易于存储、检索、传递和使用,有较高的使用价值。③三次信息是系统地组织、压缩和分析一次和二次信息的结果。是通过二次信息所提供的线索对某一范围的一次信息、二次信息进行分析、综合研究、整理加工所生成的信息,是人们深入研究的结晶。综述、专题报告、辞典、年鉴等都属于三次信息。按信息的表现形式划分 ①文献型:主要包括各种研究报告、论文、资料以及它们的二次文献等。文献型信息的特点是以文字为主,有明确的专业或学术领域,可以进行编目、分类等排序处理。 ②档案型:与文献型有很多相同之处,都以文字为主。不同之处在于档案型信息主要反映历史的事实和演变过程,是”事后的”、经过整理、筛选的文献,按时间序列贯穿始终。③统计型。是数字型信息的集合,是反映大量现象的特征和规律的数字资料。 包括以数据为基础的情况分析、趋势分析等内容。 区别于其他类型信息之处,在于以数据、图表为主要表现形式。④动态型。主要是行情、商情、战况等瞬息万变的情况反映。特点是生命周期很短,强调时效性。动态信息只有经过加工才能产生有价值的信息。 动态信息的收集、加工、存储和传递都与其他类型的信息不同,它对接受主体的要求很高,人们需要丰富的知识和分析能力,才能利用和判别动态信息,从而得到正确的结论。⑤图像型。图像型比较容易理解,在此不在赘述。按信息的来源划分 ①来源于各种书本上的信息。这类信息比较稳定,随时间的变化不大。 ②来源于报纸、杂志、广播、电视和各种报告等消息。这类信息具有很强的时效性。超过了一定的时间,其使用价值会大大降低。 ③来源于人与人之间的各种交流活动的信息。这类信息只在很小的范围内流传。④来源于具体事物的信息。这类信息是重要的,同时也最难获得的,因为这类 信息能增加整个社会的信息量,能给人们带来更多的财富。2 数据、消息、信号与信息 数据:是对事实、概念或指令的一种特殊表达形式。这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信、翻译转换或者进行加工处理。 根据这个定义,通常意义下的数字、文字、图形、声音、视频图像等都是数据。数据与信息是信息科学中常用的术语,它们之间的区别可以理解为: 数据是计算机加工处理的对象,是未加工的对象 信息是数据经过加工以后能为某个目的使用的数据,是数据的内容或解释。数据(原材料木头)与信息(加工以形成的结构)的关系 消息与信息也有区别 哈特来(信息论的先驱) 1928年在《信息传输》阐述消息与信息的关系和差异。他认为信息是包含在消息中的抽象,消息是具体的,其中蕴涵着信息 香农认为,在通信的过程中: 信息总是经过编码(符号化)成为消息以后才能由媒介传播; 而信息的接受者收到消息以后,总是要经过译码(解读)才能获取其中的信息。消息是信息的载体,信息是消息的内容 信号 在各种实际的通信系统中,为了克服时间或空间的限制而进行通信,必须对消息进行加工处理。 把消息变换成适合在信道中传输的物理量,这种物理量称为信号。信号携带消息,是消息的运输工具。信号是数据的电磁或光脉冲编码。信号可以分为模拟和数字信号。模拟信号是一种随时间而连续变化的信号。数字信号是在时间上离散的一种信号。1.1.3 信息的特点 信息的特点: 是指信息区别于其它事物的本质属性。表现在以下几方面: 1.信息的普遍性、无限性和客观性。2.信息的可共享性3.信息的可存储性 4.信息的可传输性。5.信息的可扩散性。6.信息的可转换性。7.信息的可度量性。8.信息的可压缩性。维系人类社会存在及发展的三大要素:物质、能源、信息 1.信息是人类认识客观世界及其发展规律的基础。 2.信息是客观世界和人类社会发展进程中不可缺少的资源要素。3.信息是科学技术转化为生产力的桥梁和工具。 4.信息是管理和决策的主要参考依据。5.信息是国民经济建设和发展的保证。1.2 信息科学:科学的定义:“科学”→拉丁文“Scientia” →英文“Science” 达尔文对科学的定义:科学就是整理事实,从中发现规律作出结论。科学的内涵:事实与规律。规律:客观事物之间内在的本质的必然联系。科学:是建立在实践基础上,经过实践检验和严密逻辑论证的,关于客观世界各种事物的本质及运动规律的知识体系。科学、技术与工程的界定 “科学”是指探知事物的本质、特征、内在规律以及与其他事物的联系, 是关于自然、社会和思维的发展与变化规律的知识体系。 “技术”则是运用科学规律解决实现某一目的的手段和方法,泛指根据生产实践经验和科学原理而发展形成的各种工艺操作方法、技能和技巧。 “工程”是指将科学原理应用到工农业等生产部门中去而形成的各门学科的总称。信息科学 1 定义:(1)是研究信息的产生、获取、变换、传输、存储、处理、显示、识别和利用的学科,是一门综合了数学、物理、天文、生物和人文等基础学科的新兴与综合学科。 (2)是研究信息现象及其运动规律和应用方法的科学,是以信息论、控制论、系统论为理论基础,以电子计算机等为主要工具的一门新兴学科。2 研究对象:信息 研究内容 :信息的基本概念和本质;信息的数字度量方法; 信息感知、识别、变换、传递、存储、检索、处理、再生、表示、施效等过程的一般规律; 利用信息描述系统和优化系统的方法和原理; 寻求通过加工信息来生成智能的机制和途径。研究方法:信息分析综合法,行为功能模拟法,系统整体优化法等。1.3 信息技术:指对信息的获取、传递、存储、处理以及应用的技术。 多数人认为,完整的信息技术应包含:传感技术+计算机技术+通信技术+控制技术。1.3.1 信息技术的概念:(1)传感技术:信息的采集技术,对应于人的感觉器官。(2)通信技术:信息的传递技术,对应于人的神经系统的功能(3)计算机技术:信息的使用技术,对应于人的效应器官(4)控制技术:信息的使用技术,对应于人的效应器官。 1.3.2 信息技术的范畴 (1)传感技术:能够检测爆炸物的微型化学传感器。(3)计算机技术(4)控制技术(2)通信技术:现代通信技术主要包括数字通信、卫星通信、微波通信、光纤通信等。智能控制技术当前主要包括以下几个方面:模糊控制技术,专家控制技术,机器学习技术 1.3.3 信息技术的发展:迄今为止,人类社会已经发生过四次信息技术革命。第一次革命是人类创造了语言和文字,接着现出了文献。第二次革命是造纸和印刷术的出现。 第三次革命是电报、电话、电视及其他通讯技术的发明和应用。第四次革命是电子计算机和现代通讯技术在信息工作中的应用。1.4 信息科学(技术)与相关学科的关系 1.4.1 计算科学 计算科学(或计算机科学)是对描述和变换信息的算法过程,包括其理论、分析、设计、效率分析、实现和应用的系统的研究。 1.4.3信息哲学:信息与哲学的联姻,科学哲学的新范式-信息哲学 1.4.4认知科学与认知心理学:研究人脑或心智工作机制的认知科学 1.5 信息产业:(1)日本学者认为:信息产业是为一切与各种信息的生产、采集、加工、存储、流通、传播和服务等有关的产业。(2)美国信息产业协会(AIIA)认为 信息产业是指依靠新的信息技术和信息处理的创新手段,制造和提供信息产品和信息服务的生产活动组合。1.5.1 信息产业的含义(3)欧洲信息提供者协会(EURIPA)认为信息产业是指提供信息产品和服务的电子信息工业。(4)我国的学者有人认为:信息产业是与信息的收集、传播、处理、存储、流通、服务 等。相关产业的总称。还有人认为:信息产业是指从事信息技术的研究、开发与应用,信息设备与器件的制造以及为公共社会需求提供信息服务的综合性生产活动和基础结构。(1)信息产业是具有战略性的新兴主导产业(2)信息产业是高渗透型、高催化型产业(3)信息产业是知识、智力密集型产业(4)信息产业是更新快、受科技影响大的变动型产业(5)信息产业是需要大量智力和资金投入的高投入型产业 (6)信息产业是效益高的高增值型产业(7)信息产业是增长快、需求广的新型产业(8)信息产业是就业面大,对劳动者的文化层次要求高的新职业供给型产业 1.5.2 信息产业的特征 :(1)合并与分离并存,既有大量的合并,又有不少的分离(2)竞争与垄断并存。(3)新兴与衰落并存。1.5.3 信息产业的发展趋势 1、信息技术行业的招聘还是保持着上升的趋势 (1)很多国际知名企业在中国开设了总部或新开设业务部门,由此产生对技术人员的需求;(2)信息技术的发展速度越来越快,企业需要掌握更多新技术的人才 (3)信息技术化的重要性在企业中越来越得到重视。 1.5.4 我国信息人才的需求: 2、职位一般可以按照销售、技术服务和终端分成三类:(1)销售类的职位一般指行业销售。(3)终端职位通常指企业内部的高级IT人员 (2)技术服务类的职位有三种:项目经理,技术支持,开发工程 1.6 著名的信息技术企业 :IBM公司,Intel公司,Microsoft公司,联想集团 国际商业机器公司,或万国商业机器公司,简称IBM(International Business Machines Corporation)。总公司在纽约州阿蒙克市公司,1911年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员 30万多人,业务遍及 160多个国家和地区。2006年,IBM 公司的全球营业收入达到 914亿美元。该公司创立时的主要业务为商用打字机,及后转为文字处理机,然后到计算机和有关的服务。1.6.1 IBM公司 英特尔公司(Intel Corporation),总部位于美国加利弗尼亚州圣克拉拉。由罗伯特·诺宜斯、高登·摩尔、安迪·葛洛夫,以集成电路之名(integrated electronics)共同创办Intel公司。现任经营高层是董事长克雷格·贝瑞特及总裁兼执行长保罗·欧特里尼。英特尔公司在随着个人电脑普及,英特尔公司成为世界上最大设计和生产半导体的科技巨擎。英特尔公司是全球最大的半导体芯片制造商,它成立于1968年,具有35年产品创新和市场领导的历史。1971年,英特尔推出了全球第一个微处理器。这一举措不仅改变了公司的未来,而且对整个工业产生了深远的影响。微处理器所带来的计算机和互联网革命,改变了整个世界。 1.6.2 Intel公司:微软(Microsoft)公司是世界PC(Personal Computer,个人计算机)机软件 开发的先导,比尔·盖茨是它的创始人。品牌排行榜中名列第三,在《巴伦周刊》公布的排在世界品牌实验室(World Brand Lab)编制的2006世界品牌500强2006全球100家大公司受尊重度排行榜中名列第二十二。该企业在2007《财富》全球最大五百家公司排名中名列第一百三十九。1.6.3 Microsoft公司:联想集团有限公司成立于1984年,由中国科学院计算所投资20万元人民币、11名科技人员创办。当时称为中国科学院计算所新技术发展公司。1989年成立北京联想计算机集团公司。 2004年4月1日,联想集团的英文名称由“Legend”改为现在的“Lenovo”。同年,联想以17.5亿美元(12.5亿美元以及IBM的5亿美元欠债)的价格收购 IBM PC事业部,并获得在5年内使用IBM品牌权,成为全球第三大PC厂商。1.6.4 联想集团 ACM,IEEE-CS,中国计算机学会,图灵奖,IEEE-CS的计算机先驱奖 1.7 著名的信息技术学术组织、奖项:ACM(Association for Computing Machinery,美国计算机协会)是一个国际科学教育计算机组织,它致力于发展在高级艺术、最新科学、工程技术和应用领域中的信息技术。它强调在专业领域或在社会感兴趣的领域中培养、发展开放式的信息交换,推动高级的专业技术和通用标准的发展。1.7.1 ACMIEEE—CS的宗旨 是推进计算机和数据处理技术的理论和实践的发展,促进会员之间的信息交流和合作。为此,IEEE—CS每年都要举办一系列的学术会议和讨论会,出版定期、不定期的刊物,成立许多地区分会和专题的技术委员会。其活动范围包括同计算机、计算和信息处理有关的设计、理论和实践的各个层面。IEEE—CS的会员.目前已超过10万,成为IEEE中最大的一个分会,也成为计算机界影响最大的两个群众性学术团体之一(另一个就是成立于1947年的美国计算机学会ACM—Association for Computing Machinery)。1.7.2 IEEE-CS 中国计算机学会成立于1962年,是中国计算机科学与技术领域群众性学术团体,属一级学会,独立法人单位,是中国科学技术协会的成员。学会的宗旨是团结和组织计算机科技界、应用界、产业界的专业人士,促进计算机科学技术的繁荣和发展,促进学术成果、新技术的交流、普及和应用,促进科技成果向现实生产力的转化,促进产业的发展,发现、培养和扶植年轻的科技人才。1.7.3 中国计算机学会 学术界公认电子计算机的理论和模型是由英国数学家图灵在此10年前发表的一篇论文“论可计算数及其在判定问题中的应用”中奠定了基础的。当美国计算机协会ACM(Association for Computing Machinery)在1966年纪念电子计算机诞生20周年时,决定设立计算机界的第一个奖项,并很自然地将其命名为“图灵奖”,以纪念这位计算机科学理论的奠基人。 被称为“计算机界的诺贝尔奖”的这个奖项设立至今,已经颁发了34届,共计有40位计算机科学家获此殊荣,以表彰他们在计算机科学技术领域所作出的杰出贡献。1.7.4 图灵奖 EEE—CS的计算机先驱奖(Computer Pioneer Award)设立于1980年,以奖励那些理应赢得人们尊敬的学者和工程师。与其他奖项不同的是:该奖项规定获奖者的成果必须是在15年以前完成的。这样既保证了获奖者的成果已经得到了时间的考验,又保证了奖项的得主是名符其实的“先驱”。该奖项虽然没有高额奖金,只向获奖者授以铜质奖章和证书,却成为计算机界最重要的奖项之一,受到普遍的重视和关注。 断江镇全面建设小康社会工作 信息 (第50期) 断江镇小康办 2014年3月26日 落实工作到位,计生温馨万家 为进一步夯实人口计生工作基础,营造真抓实干的工作氛围,集中解决当前人口计生工作中存在的突出问题,推动整体工作平衡发展。2014年3月25日上午,断江镇党委政府组织召开2014人口和计划生育工作推进会。党政领导班子、全镇干部职工、各村居支书主任、直管单位负责人全体参会。 会上镇党委书记徐政同志对过去半年的计生工作进行全面总结,充分肯定了半年来全镇计生工作取得的成绩的同时,详细分析了当前人口计生工作存的的问题和不足,对下 一阶段的工作进行了安排部署,指出下一阶段的主要工作是加大计生政策宣传力度,强力推进依法行政工作,强化计生优质服务职能,积极开展免费孕前优生检查,加强流动人口管理,确保信息采集不重不漏不错,强化计生队伍建设,提高计生干部队伍的工作能力和业务素质。 会议议程: 1、党委副书记敖柱传达盘党法【2014】32号文件《关于切实当前人口和计划生育工作的通知》和《关于印发断江镇驻村联系全面工作和机构调整方案》的通知。 2、传达县纪委第九届四中全会精神,把握反腐形势,扎实推进党政廉风建设。 3、党委委员任蕾传达镇党法【2014】24号文件精神,并传达和安排党的群众路线教育实践活动的相关工作。 最后党委书记徐政要求全体干部要在镇领导小组的统一指挥下,各司其职,形成上下联动,共同推进工作的格局。通过扎实开展集中整治活动,使全镇人口计生工作基础得到进一步夯实,管理体制得到完善,各项数据真实准确,节育措施及时到位,优先优惠政策全面落实,流动人口管理规范,优质服务全面开展,整体工作水平得到切实有效提升,确保2014人口和计划生育各项工作任务全面完成。第三篇:第29讲信息安全评估标准的发展
第四篇:第1讲_1+信息、信息科学与信息技术.PPT.Convertor
第五篇:信息第50期