第一篇:概率统计第五章大数定律及中心极限定理
第五章大数定律及中心极限定理
第一节 大数定律(Laws of Large Numbers)
随机现象总是在大量重复试验中才能呈现出明显的规律性,集中体现这个规律的是频率的稳定性。大数定律将为此提供理论依据。凡是用来说明随机现象平均结果稳定性的定理统称为大数定律。由于内容非常丰富,我们只介绍其中两个。
一 契比雪夫大数定律
[定理1(契比雪夫的特殊情况)]设相互独立的随机变量X1,X2,,Xn,具有相同的数学
期望和方差:E(Xk),D(Xk)(k1,2,),则0,1limPn
n
n
X
k1
k
1
.
【注1】 契比雪夫大数定律告诉我们:随机变量的算术平均有极大的可能性接近于它们的数学期望,这为在实际工作中广泛使用的算术平均法则提供了理论依据.例如,为测量某个零件的长度,我们进行了多次测量,得到的测量值不尽相同,我们就应该用所有测量值的算术平均作为零件长度的近似为最佳。
二 伯努利大数定律
[定理2(伯努利大数定律)]设nA是n次独立试验中事件A发生的次数,p是事件A在nA
每次试验中发生的概率,则事件A发生的频率n依概率收敛于事件A的概率p,即0,limP{|
n
nAn
p|}1
或
limP{|
n
nAn
p|}0
【注2】伯努利大数定律中的nAn,实际上就是事件A发生的频率,定律以严格的数学形式
表述了频率稳定于概率的事实。这样,频率的稳定性以及由此形成的概率的统计定义就有了理论上的依据。
第二节中心极限定理(Central Limit Theorems)
n
如果X1,X2,,Xn是同时服从正态分布的n个相互独立的随机变量,则它们的和
i1
Xi
仍
然是服从正态分布的随机变量。现在的问题是:如果X1,X2,,Xn是服从相同分布的n个相互独立的随机变量,并非服从正态分布,那么它们的和是否还会服从正态分布呢?中心极限定理对此给出了肯定的答复。所有涉及大量独立随机变量和的极限分布的定理统称为中心极限定理。由于内容非常丰富,我们只介绍其中两个。
一 独立同分布中心极限定理
[定理3(独立同分布中心极限定理)]设随机变量X1,X2,,Xn,相互独立,服从同一
分布,且具有数学期望和方差:E(Xk),D(Xk)0(k1,2,),则对于任意的x,n
X
limPn
k
n
x}
xt
dt(x)
.
n
【注3】 定理说明,均值为,方差为
n
0的独立同分布的随机变量之和
Xk的标准
k1
化变量Yn
X
k
n,当n很大时近似服从N(0,1);而
k1
n
Xk
近似服从N(n,n).
【注4】若记
2
X~N,
n
X
n
n
Xk,则Yn
k1
近似服从正态分布N(0,1);或X近似服从
.
二 棣莫佛—拉普拉斯中心极限定理
[定理4(棣莫佛—拉普拉斯中心极限定理)]
设随机变量Yn(n1,2,)服从参数为n,p(0p1)的二项分布,则xR,有
limPn
Ynpx}
x
t22
dt(x)
.
【注5】 这个定理的直观意义是,当n足够大时,服从二项分布的随机变量Yn可认为近似服从正态分布N(np,np(1
p))~N0,1
.【注6】一般的结论是,不管每个服从什么分布,只要满足条件:
1)构成和式的X1,X2,,Xn是服从相同分布的n个相互独立的随机变量
2)每个随机变量对和的影响要均匀地小
3)构成和式的随机变量的个数要相当多,至少在30个以上
n
那么,它们的和
i1
Xi
将近似服从正态分布。因此,中心极限定理揭示了正态分布的形成机
制。例如我们在对某经济问题进行定量分析时,如果在许多种随机影响因素中没有一个是起主导作用的,那么就可以把它看成正态分布来进行分析。
经验表明:应用中大量的独立随机变量的和,都可以看成近似地服从正态分布。例
如测量误差,炮弹落点离开目标的偏差以及产品的强度,折断力,寿命等质量指标均属于此列。这样,由于中心极限定理的出现和应用,更加显示出了正态分布的重要。
三 中心极限定理在近似计算中的应用 1.同分布独立和Xk的概率的计算
k1n
例1 每袋味精的净重为随机变量,平均重量为 100克,标准差为10克.一箱内装200袋
味精,求一箱味精的净重大于20200克的概率.
200
解:设每袋味精的净重为Xkk1,2,,200,则一箱味精的净重为
k1
200
Xk,又
EXk100,10
.由中心极限定理知
k1
Xk
近似地服从正态分布。所以
200200PXk202001P
Xk20200 k1k1
200
Xk200001P
111.4110.92070.0793.2.n很大时,二项分布中事件aYnb的概率的计算
例2 设有一大批电子元件,次品率为1 %,现在任意取500个,问其中次品数在5~9个
之间的概率为多少?
解:设任意取500个其中次品数为Yn,则Yn可认为近似服从正态分布N(np,np(1p)).
P
5Yn9P
401.800.50.96410.50.4641.2.22
例3.有200台独立工作(工作的概率为0.6)的机床,每台机床工作时需3 kw电力.问共需多少电力, 才可有99.9 %的可靠性保证正常生产? 解:同时对200台机床察看是开工还是停工?可看成n
200,p0.6的二项分布,设工作的机床数为Yn,假设至多有m台机床在工作,则依照题意有P0Ynm0.999
P
0YnmP
0
141.5
所以
0.999
3.1,即m1203.1,取整数解
m142(台),共需电力:142×3=426 kw.所以,至少需426 kw 电力, 才可有99.9 %的可靠性保证正常生产。
第二篇:中心极限定理和概率统计
若{Xn}的分布函数序列{Fn(x)}与X的分布函数F(x)有,在任意连续点x,limFn(x)F(x)。n
依概率收敛
n若0,有P(XnX)0。准确的表述是,0,0,N,nN,有P(XnX)成立
(3)几乎必然收敛
如果有P(limXnX)1。准确的表述是,除掉一个0概率集A,对所有的A,n
有limXn()X()成立。这是概率空间上的点收敛。n
定理1。(切贝雪夫大数律){Xn}相互独立,且有相同的期望和方差,(不一定同分布)
1nPE(Xn)uD(Xn),n,记YnXi,则Ynu。ni1
2统计发生——事物某方面的定量记录事前是不确定的,发生后的数据由真值和误差两部分构成,X。X是数据,是真值,是误差。导致误差的原因有:
1. 系统性误差:偏离真值的本质性错误,有内在原因所致;
2. 随机性误差:偏离真值的偶然性错误,没有内在原因,是纯偶然因素所致。
总体就是一个特定的随机变量
通过抽样,获得样本,构造样本统计量,由此推断总体中某些未知的信息
从总体中抽样是自由的,且当总体数量足够大,有放回与无放回抽样区别不大,有理由认为,取得的抽样观察值是没有关系的。所以,样本在未抽取前它们是与总体X同分布的随机变量,且是相互独立的,称此为随机样本。
定义2。设x1,,xn是取自总体X的一组样本值,g(x1,,xn)是Borel 可测函数,则称随机变量g(X1,,Xn)是一个样本统计量。
如果总体X中分布函数有某些参数信息是未知的,我们用统计量g(X1,,Xn)去推断这些信息,称此问题为统计推断问题。
给样本值x(x1,,xN),y(y1,,yN),定义:(1)样本均值
(xi/n)
i
1n
(2)样本方差
1n
ˆx)ˆvar((xi)2 n1i1
ˆ样本标准差
s.e.e)
x)i(y)
1n
(3)样本协方差cˆov(x,y)(1x
n1i1
样本相关系数
xy
ˆ(x,y)cov
1/2
ˆ(x)varˆ(y)][var
1nk
(4)样本k阶矩 Akxi k1,2,
ni11n
(5)样本k阶中心矩 Bk(xi)k
ni1
k1,2,
X的左侧分位点F,P(XF)dF(x)。左分位点的概率含义是,随机变量
F
不超过该点的概率等于
设总体X分布已知,但其中有一个或多个参数未知,抽样X1,,Xn,希望通过样本来估计总体中的未知参数,称此为参数估计问题,它是统计推断理论中最重要的基础部分。
用样本矩作为总体矩的估计量,以及用样本矩的连续函数作为总体矩的连续函数的估计量,这种方法称为矩估计法,这是一种最自然的估计方法。
ˆ(x,,x))对任意成立。当样本是称ˆ是参数的一个无偏估计,如果E(1n
有限的时候,我们首先要考虑的是无偏性。
n1n22
ˆS(Xi)2才是方差的无偏估计。故我们在样本统计量中定义n1n1i1
S2为样本方差。
ˆ是参数的一个一致估计,如果依概率有limˆ(x1,,xn)对任意成立。
n
有效性
在所有关于参数的无偏估计类中0,或所有的一致估计类1中,如果存在ˆ*是参数的一个无偏有效估计或一ˆ*)D(ˆ)对任意ˆ或任意ˆ成立,称D(01
ˆ具有最小方差性。致渐近有效估计。即
*
。无论总体X分布是什么,任意样本Xi和都是X的无偏估计,但比单独的样本估计Xi更有效。
DXi,所以n
设总体X关于分布F(x,)存在两类问题,一类是分布的形式未知,一类是分布的形式已知但参数未知,提出的问题是,需要对分布的形式作出推断,此称为非参数检验的问题; 或需要对参数作出推断,此称为参数检验问题。
奈克—皮尔逊定理告诉我们,当样本容量n固定,若要减少犯第一类错误的概率则犯第二类错误的概率会增加,要使两类错误都减少当且仅当增加样本容量。
超过了我们设定的F,(如,体温超过37度。)此意味一个小概率事件发生了。于是,我们有理由拒绝命题H0是真的。
X~N(u1,12),Y~N(u2,2),且相互独立,取样有(x1xn1),(y1yn2)。
欲检验H0:u1u2,或更一般,H0:u1u2u(u已知)。如何检验?
2(1)若12、2已知
因为~N(u1,1
2n
1),~N(u2,22
n2),且相互独立,所以~N(u1u2,122
n1
n2),~N(0,1),所以可找到检验统计量U。
(2)若1222,但未知,欲检验H0:u1u20,因为V
222
[(n1)S(n1)S]~(n1n22),11222
且与
U
~N(0,1)独立,n11n212
~t(n1n22),令S2,S12S2
n1n22n1n22可得
V2S2,所以可找到统计量
n1n22
T
~t(n1n22)。
注:如果u未知,问题就变困难了,可以证明此时统计量T就是一个非中心的t分布。
(3)又如何知道1222?
12(n1)(n1)2可做假设检验H0:21。因为12S12~2(n11),22S2 ~2(n21)且独立。
122
S12
所以,可找到统计量F2~F(n11,n21)。
S2
(4)若122,且未知。问题就变困难多了,我们找不到合适的统计量。如果样本容量
足够大,那么,可以用渐近检验的办法处理。注意,U
中,因为12,2未
知,但已知S12,S2是12,2的一致估计,故用它们代替,有:
n1,n2
limU
~N(0,1)。
从而当n1,n2充分大时可用渐近正态检验。
又当n1n2n较小时,可以证明,~t(n),注意,此与T
~t(n1n22)
自由度不同。此意味当期望、方差相同时,样本可以合并,认为X,Y属于同一总体。当期望相同,方差不同时,样本不能简单合并。
注:关于H0:u1u2u,或H0:u1u2u,统计量相同,并采用单侧的右分位点或单侧的左分位点检验。
ˆ是无偏线性估计类中的有效估计。OLS
ˆ 的极大似然估计在基本模型假定下就是OLS
估计做出后,评价、判断模型中的假定是否合理是对事前设定的模型做一个整体的把握。我们可以把这些假定、设定归结为一些对未知参数的判断,如果这些判断基本正确或错误,那么从整体数据中就能够反映出来。假设检验是估计完成后对模型的设定做进一步的确认。它以证否的形式完成。拒绝原假设,意味着命题真时犯错误的可能性可控制在一定的概率范围内。
第三篇:2018考研概率知识点总结:大数定律和中心极限定理
凯程考研辅导班,中国最权威的考研辅导机构
2018考研概率知识点总结:大数定律和
中心极限定理
考研数学复习最后两月多的时间,大家除了疯狂做题之外,对于知识点的整合联系也要做好,统筹全局才能稳操胜券,下面是概率与数理统计部分知识点整合,大家可以抽时间捋一捋。
2018考研概率知识点整合:大数定律和中心极限定理
凯程考研辅导班,中国最权威的考研辅导机构
页 共 2 页
第四篇:第五章 大数定律及中心极限定理
第五章
大数定律及中心极限定理
概率统计是研究随机变量统计规律性的数学学科,而随机现象的规律只有在对大量随机现象的考察中才能显现出来。研究大量随机现象的统计规律,常常采用极限定理的形式去刻画,由此导致对极限定理进行研究。极限定理的内容非常广泛,本章中主要介绍大数定律与中心极限定理。
5.1 切比雪夫Chebyshev不等式
一个随机变量离差平方的数学期望就是它的方差,而方差又是用来描述随机变量取值的分散程度的。下面我们研究随机变量的离差与方差之间的关系式。
定理5-1(切比雪夫不等式)设随机变量X的期望E(X)及方差D(X)存在,则对任意小正数ε>0,有:
或:
[例5-1]设X是抛掷一枚骰子所出现的点数,若给定ε=2,2.5,实际计算P{|X-E(X)|≥ε},并验证切比雪夫不等式成立。
解 X的分布律为
所以
当ε=2时,当ε=2.5时,可见,切比雪夫不等式成立。
[例5-2]设电站供电网有10 000盏灯,夜晚每一盏灯开灯的概率都是0.7,而假定所有电灯开或关是彼此独立的。试用切比雪夫不等式估计夜晚同时开着的灯数在6 800~7 200的概率。
解:设X表示在夜晚同时开着的电灯的数目,它服从参数n=10 000,p=0.7的二项分布。于是有
E(X)=np=10 000×0.7=7 000,D(X)=npq=10 000×0.7×0.3=2100,P{6 800 可见,虽然有10 000盏灯,但是只要有供应7 000盏灯的电力就能够以相当大的概率保证够用。 [例5-3补充] 用切比雪夫不等式估计 解: 的三倍的可能性极 可见,随机变量X取值与期望EX的差的绝对值大于其均方差小。 5.2 大数定律 在第一章中曾经提到过,事件发生的频率具有稳定性,即随着试验次数增多,事件发生的频率将逐渐稳定于一个确定的常数值附近。另外,人们在实践中还认识到大量测量值的算术平均值也具有稳定性,即平均结果的稳定性。大数定律以严格的数学形式表示证明了在一定的条件下,大量重复出现的随机现象呈现的统计规律性,即频率的稳定性与平均结果的稳定性。 5.2.1 贝努利大数定律 定理5-2 设m是n次独立重复试验中事件A发生的次数,p是事件A的概率,则对任意正数ε,有 贝努利大数定律说明,在大量试验同一事件A时,事件A的概率是A的频率的稳定值。 5.2.2 独立同分布随机变量序列的切比雪夫大数定律 先介绍独立同分布随机变量序列的概念。 称随机变量序列X1,X2,…Xn,…是相互独立的,若对任意的n>1,X1,X2,…Xn是相互独立的。此时,若所有的Xi又具有相同的分布,则称X1,X2,…Xn,…是独立同分布随机变量序列。 定理5-3 设X1,X2,…Xn,…是独立同分布随机变量序列E(Xi)=μ,D(Xi)=σ2(i=1,2…)均存在,则对于任意ε>0有 这一定理说明:经过算术平均后得到的随机变量在统计上具有一种稳定性,它的取值将比较紧密聚集在它的期望附近。这正是大数定律的含义。在概率论中,大数定律是随机现象的统计稳定性的深刻描述;同时,也是数理统计的重要理论基础。 5.3 中心极限定理 5.3.1独立同分布序列的中心极限定理 定理5-4 设X1,X2,…Xn,…是独立同分布的随机变量序列,且具有相同数学期望和方差E(Xi)=μ,D(Xi)=σ2(i=1,2,…)。记随机变量 的分布函数为Fn(x),则对于任意实数x,有 (不证) 其中φ(x)为标准正态分布函数。 由这一定理知道下列结论: (1)当n充分大时,独立同分布的随机变量之和的分布近似于正态分布N2(nμ,nσ)。我们知道,n个独立同分布的正态随机变量之和服从正态分布。中心极限定理进一步告诉我们。 不论X1,X2,…Xn,…独立同服从什么分布,当n充分大时,其和Zn近似服从正态分布。 (2)考虑X1,X2,…Xn,…的平均值,有 它的标准化随机变量为,即为上述Yn。因此的分布函数即是上述的F(,nx)因而有 由此可见,当n充分大时,独立同分布随机变量的平均值 的分布近似于正态分布 [例5-3]对敌人的防御地段进行100次射击,每次射击时命中目标的炮弹数是一个随机变量,其数学期望为2,均方差为1.5,求在100次射击中有180颗到220颗炮弹命中目标的概率。解 设Xi为第i次射击时命中目标的炮弹数(i=1,2,…,100),则中命中目标的炮弹总数,而且X1,X2,…X100同分布且相互独立。 为100次射击 由定理5-4可知,随机变量近似服从标准正态分布,故有 [例5-4]某种电器元件的寿命服从均值为100(单位:小时)的指数分布。现随机抽出16只,设它们的寿命是相互独立的,求这16只元件的寿命的总和大于1 920小时的概率。 解 设第i只电器元件的寿命为Xi=(i=1,2,…16),E(Xi)=100,D(Xi)=1002=10 000,则是这16只元件的寿命的总和。 E(Y)=100×16=1 600,D(Y)= 160 000,则所求概率为: 5.3.2 棣莫弗(De Moivre)-拉普拉斯(Laplace)中心极限定理 下面介绍另一个中心极限定理,它是定理5-4的特殊情况。 定理5-5(棣莫弗-拉普拉斯中心极限定理)设随机变量Zn是n次独立重复试验中事件A发生的次数,p是事件A发生的概率,则对于任意实数x 其中q=1-p,φ(x)为标准正态分布函数。由棣莫弗-拉普拉斯中心极限定理得到下列结论: (1)在贝努利试验中,若事件A发生的概率为p。又设Zn为n次独立重复试验中事件A发生的频数,则当n充分大时,Zn近似服从正态分布N(np,npq)。 (2)在贝努利试验中,若事件中A发生的概率为p,发生的频率,则当n充分大时,近似服从正态分布 【例5-5】用中心极限定理得到求解5.1例5-2的概率。 解 设同时开着的灯数为X,则 X-B(1000,0.7),np=1000×0.7=7000,为n次独立重复试验中事件A 【例5-6】设某单位内部有1000台电话分机,每台分机有5%的时间使用外线通话,假定各个分机是否使用外线是相互独立的,该单位总机至少需要安装多少条外线,才能以95%以上的概率保证每台分机需要使用外线时不被占用? 解:把观察每一台分机是否使用外线作为一次试验,则各次试验相互独立,设X为1000台分机中同时使用外线的分机数,则 X~B(1000,0.05),np=1000×0.05=50,根据题意,设N为满足条件的最小正整数 由于φ(-7.255)≈0,故有 查标准正态分布表得φ(1.65)=0.9505,故有 由此 N≥61.37 即该单位总机至少需要62条外线,才能以95%以上的概率保证每台分机在使用外线时不被占用。 小结 本章考核要求 (一)知道切比雪夫不等式 或 并且会用切比雪夫不等式估计事件|X-EX|≥ε或|X-EX|<ε的概率。 (二)知道贝努利大数定律 其中n是试验次数,m是A发生次数,p是A的概率,它说明试验次数很多时,频率近似于概率。 (三)知道切比雪夫不等式大数定律 取值稳定在期望附近。 它说明在大量试验中,随机变量 (四)知道独立同分布中心极限定理 若 记Yn~Fn(x),则有 它说明当n很大时,独立同分布的随机变量之和近似服从正态N(nμ,nσ2)所以,无论n个独立同分布的X1,X2,…Xn服从何种分布,n很大时,X1+X2+…Xn却近似正态N(nμ,nσ2).(五)知道棣莫弗—拉普拉斯中心极限定理 若Zn表示n次独立重复事件发生次数,即 Zn~B(n,p),则有 即Zn近似正态N(np,np(1-p)2)。并会用中心极限定理计算简单应用问题。 CH5 大数定律及中心极限定理 1.设Ф(x)为标准正态分布函数,Xi= 1001,事件A发生;0,事件A不发生,i=1,2,…,100,且P(A)=0.8,X1,X2,…,X100 相互独立。令Y= i1Xi,则由中心极限定理知Y的分布函数F(y)近似于() y80 4A.Ф(y) 2.从一大批发芽率为0.9的种子中随机抽取100粒,则这100粒种子的发芽率不低于88%的概率约为.(已知φ(0.67)=0.7486) 3.设随机变量X1,X2,…,Xn,…独立同分布,且i=1,2…,0 nB.Ф()C.Ф(16y+80)D.Ф(4y+80) Yn i1Xi,n1,2,.Φ(x)为标准正态分布函数,则limPn1()np(1p)Ynnp A.0B.Φ(1)C.1-Φ(1)D.1 4.设 5.设X服从(-1,1)上的均匀分布,试用切比雪夫不等式估计 6.设 7.报童沿街向行人兜售报纸,设每位行人买报纸的概率为0.2,且他们买报纸与否是相互独立的。试求报童在想100为行人兜售之后,卖掉报纸15到30份的概率 8.一个复杂系统由n个相互独立的工作部件组成,每个部件的可靠性(即部件在一定时间内无故障的概率)为0.9,且必须至少有80%的部件工作才能使得整个系统工作。问n至少为多少才能使系统的可靠性为0.95 9.某人有100个灯泡,每个灯泡的寿命为指数分布,其平均寿命为5小时。他每次用一个灯泡,灯泡灭了之后立即换上一个新的灯泡。求525小时之后他仍有灯泡可用的概率近似值相互独立的随机变量,且都服从参数为10的指数分布,求 的下界 是独立同分布的随机变量,设, 求第五篇:CH5 大数定律及中心极限定理--练习题