第一篇:多元统计分析期末试题及答案
11、设X~N2(,),其中X(x1,x2),(1,2),2则Cov(x1x2,x1x2)=____.1,2、设Xi~N3(,),i1,服从_________。,10,则W=(Xi)(Xi)i110 4x3,且协方差矩阵4349232,16
3、设随机向量Xx1x2则它的相关矩阵R___________________
4、设X=x 1 131x2x3的相关系数矩阵通过因子分析分解为,1R 32 310 230.93400.1280.9340.4170.83500.4170.8940.0270.8940.44700.1030.8350.4471
X1的共性方差h12
公因子f1对X的贡献g12
5、设Xi,i1,__________ __________,X1,的方差11________________。,16是来自多元正态总体Np(,),X和A分别为正态总体Np(,)的样本均值和样本离差矩阵,则T215[4(X)]A1[4(X)]~___________。
1642
1、设X(x1,x2,x3)~N3(,),其中(1,0,2),441,214x2x3试判断x12x3与是否独立?x1
2、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值0(90,58,16),现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。14.621082.04.3107其中X60.2,(5S)1(115.6924)114.62103.17214.58.946437.3760(0.01,F0.01(3,2)99.2,F0.01(3,3)29.5,F0.01(3,4)16.7)8.946437.376035.5936 2411
3、设已知有两正态总体G1与G2,且1,2,12,6219而其先验概率分别为q1q20.5,误判的代价C(21)e4,C(12)e;3试用Bayes判别法确定样本X属于哪一个总体?51T4、设X(X1,X2,X3,X4)~N4(0,),协方差阵(1)试从Σ出发求X的第一总体主成分;
(2)试问当 取多大时才能使第一主成分的贡献率达95%以上。
11,011
X
5、设X(X1,X2)T,Y(Y1,X2)T为标准化向量,令Z,且其协方差阵Y00010010.95011120 V(Z),10212200.95001000求其第一对典型相关变量和它们的典型相关系数?
1、设随机向量X的均值向量、协方差矩阵分别为、,试证:E(XX)。
2、设随机向量X~NP(,),又设Y=ArpX+br1,试证:Y~Nr(Ab,AA')。
1、0
2、W3(10,∑)
3、123R23114164、0.872 1 1.743
5、T2(15,p)或(15p/(16-p))F(p,n-p)
1、令yx2x31,y2x12x3,则x1yx2x301-1x11x100xy122x12x3102x30Ey1-1121y1000211022301-11-116Vy4201y1004410021021
2141021061661620162040210616故y1,y2的联合分布为N3(11620,63162040)故不独立。
14161
2、假设检验问题:H0:0,H1:08.0经计算可得:X02.2,1.54.310714.62108.9464S1(23.13848)114.62103.17237.37608.946437.376035.5936构造检验统计量:T2n(X0)S1(X0)670.0741420.445由题目已知F0.01(3,3)29.5,由是35TF0.01(3,3)147.53所以在显著性水平0.01下,拒绝原设H020.01 即认为农村和城市的2周岁男婴上述三个指标的均值有显著性差异
3、由Bayes判别知W(x)f1(x)exp[(x)T1(12)]exp(4x12x24)f2(x)其中,3ˆ1191242 1(12),,()21624411283qC(1|2)d2e3,W(x)exp(2)de3q1C(2|1)53XG2511
4、(1)由0得特征根为113,112341x111x20解1所对应的方程1x31x41111得1所对应的单位特征向量为22221111故得第一主成分ZX1X2X3X42222(2)第一个主成分的贡献率为11395%123440.9541得0.9333
0.10-110
25、由题得11=,=2200.101-12TT11122111T-12122-1201000.950.10000.100=0010.95000.0100100.90250求TTT的特征值,得020.902500.9025120.9025,22010.95TTT的单位正交化特征向量0000.9025e10.9025e1,10.10001112e1110111112221111000.950101000.100.95V1X2,W10.54Y1为第一典型相关变量,且(V1,W1)0.95为一对典型相关系数。
2、证明:由题可知Y服从正态分布,1、证明:=V(X)E[(XEX)(XEX)]E(XX)(EX)(EX)E(XX)故E(XX)E(Y)E(AXb)AE(X)bAbV(Y)V(AXb)AV(X)AAA'故Y~Nr(Ab,AA')。
一、填空题:
1、多元统计分析是运用 数理统计 方法来研究解决 多指标 问题的理论和方法.2、回归参数显著性检验是检验 解释变量 对 被解释变量 的影响是否著.3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型 聚类和 R型 聚类。
4、相应分析的主要目的是寻求列联表 行因素A 和 列因素B 的基本分析特征和它们的最优联立表示。
5、因子分析把每个原始变量分解为两部分因素:一部分为 公共因子,另一部分为 特殊因子。
6、若x()则样本均值向量x服从的分布为NP(,),=1,2,3….n且相互独立,_x~N(μ,Σ/n)_。
二、简答
1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、简述相应分析的基本思想。相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A 和因素B具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。
3、简述费希尔判别法的基本思想。从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。协差阵的检验 检验ΣΣ0 1n/2eH0:ΣIp exptrSS2nnp/2 np/21**n/2e H0:ΣΣ0IpexptrSS2n检验Σ1Σ2ΣkH0:Σ1Σ2Σk k统计量kn np/2Si1kni/2iSn/2ni1ipni/2
6、在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。(1).最短距离法 Dijmindij XiGi,XjGj Dkr(2)最长距离法 XiGk,XjGrmindijmin{Dkp,Dkq} DpqXiGp,XjGqmaxdij DkrXiGk,XjGrmaxdijmax{Dkp,Dkq}(3)中间距离法 121222 Dkr DkpDkqDpq其中错误!未找到引用源。22(4)重心法 2Dpq(XpXq)(XpXq)Xr1(npXpnqXq)nrD2krnpnrD2kpnqnrD2kqnpnqnr22Dpq(5)类平均法 1Dnpnq2pq1dD nknrXiGpXjGj2ij2krXiGkXjGrd2ijnpnrD2kpnqnr2Dkq(6)可变类平均法 np2nq222 Dkr(1)(DkpDkq)Dpqnrnr 其中是可变的且 <1(7)可变法 2Dkr1222(DkpDkq)Dpq 其中是可变的且 <1 2nt(8)离差平方和法 St(XitXt)(XitXt)t1 错误!未找到引用源。D2krnknpnrnkD2kpnknqnrnk2Dkqnk2Dpq nrnk7、比较主成分分析与因子分析的异同点。相同点:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
9、进行相应分析时在对因素A和因素B进行相应分析之前没有必要进行独立性检验?为什么?有必要,如果因素A和因素B独立,则没有必要进行相应分析;如果因素A和因素B不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。
第二篇:多元统计分析思考题
《多元统计分析思考题》
第一章 回归分析
1、回归分析是怎样的一种统计方法,用来解决什么问题?
2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性关系形式才能做线性回归吗?为什么?
3、实际应用中,如何设定回归方程的形式?
4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?
5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计两有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?
6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?
7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么?
8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的?
9、回归诊断可以大致确定哪些问题?回归分析有哪些基本假定?如果实际应用中不满足这些假定,将可能引起怎样的后果?如何检验实际应用问题是否满足这些假定?对于各种不满足假定的情形,分别采用哪些改进方法?
10、回归分析中的R2有何意义?它能用来衡量模型优劣吗?
11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同?为什么?
12、有哪些确定最优回归模型的准则?如何选择回归变量?
13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准化模型有何关系?形式有否不同?
14、利用回归方法解决实际问题的大致步骤是怎样的?
15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果?
第二章 判别分析
1、判别分析的目的是什么?
2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点或优劣之处?
3、判别分析与回归分析有何异同之处?
4、判别分析对变量与样本规模有何要求?
5、如何度量判别效果?有哪些影响判别效果的因素?
6、逐步判别是如何选择判别变量的?基本思想或步骤是什么?
7、判别分析有哪些现实应用?举例说明。
第三章 聚类分析
1、聚类分析的目的是什么?与判别分析有何异同?这种方法有哪些局限或欠缺?
2、有哪些常用的聚类统计量?
3、系统(谱系)聚类法的基本思想是怎样的?它包含哪些具体方法?
4、聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果?要想减少不利因素的影响,可以采取哪些改进方法?
5、实际应用问题,如何确定分类数目?
6、快速聚类法(K—均值法)的基本思想或步骤是怎样的?
7、有序样品的最优分别法的基本思想或步骤是怎样的?
8、应用聚类分析解决实际问题的基本步骤是怎样的?应该注意哪些方面的问题?
第四章 主成分分析与典型相关分析
1、主成分分析的基本思想是什么?在低维情况下,如何利用几何图形解释主成分的意义?
2、什么是主成分的贡献率与累计贡献率?实际应用时,如何确定主成分的个数?
3、主成分有哪些基本性质?
4、对于任何情形的多个变量,都可以采取主成分方法降维吗?为什么?
5、怎样的情况下需要计算标准化的主成分?
6、主成分有哪些应用?
7、如何解释主成分的实际含义?
8、典型相关分析的基本思想是什么?有何实际用途?
9、典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联?试比较这些方法的异同之处。
10、典型相关分析有哪些基本假定?
11、如何解释典型相关函数的实际意义?
12、典型相关方法中冗余度分析的意义是什么?
第五章 因子分析与对应分析
1、因子分析是怎样的一种统计方法?它的基本目的和用途是什么?
2、因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么?
3、因子分析有哪些类型?它们有何区别?Q型因子分析与聚类分析有何异同?
4、因子分析中的变量类型是怎样的?因子分析对变量数目有没有要求?对样本规模有没有要求?
5、因子分析有怎样的基本假定?对样本特点(或性质)有何要求?
6、因子分析模型中,因子载荷、变量共同度、方差贡献等统计量的统计意义是什么?
7、因子分析与主成分分析有何区别与联系?它们分别适用于怎样的情况?
8、如何确定公共因子数目?如何解释公共因子的实际意义?
9、怎样的情况下,需要作因子旋转?
10、有哪些估计因子得分的方法?因子得分的估计是普通意义下的参数估计吗?为什么?
11、对应分析的基本思想或原理是什么?试举例说明它的应用。
12、对应分析中总惯量的意义是什么?
第三篇:多元统计分析选择题
选择题 下面哪一项不是判别分析的方法(C)
A.距离判别 B.贝叶斯判别 C.协方差阵判别 D.费歇判别 2 式子cov(AX,BY)=(C)
A.cov(X,Y)B B.cov(X,Y)C.Acov(X,Y)D.Acov(X,Y)B 3 如果正态随机向量X=(1,2,……)的各分量是相互独立的随机变量,那么随机变量X的协方差阵是(B)。A.零矩阵 B.对角阵 C.对称阵 D.单位阵 4 利用主成分分析得到的各个主成分之间(D)
A.相互独立 B.线性相关 C.不完全相关 D.互不相关 5 典型相关分析是研究(B)变量之间相关关系的多元统计方法。
A.一组 B.两组 C.大于两组 D.大于一组 6 典型相关分析的步骤不包括(C)
A.设计典型相关分析 B.确定典型相关分析的目标 C.给出典型相关分析方案 D.验证模型 7 对数线性模型中表示两个因素的交互效应,此模型为非饱和模型的条件是(C)
A.>0 B.<0 C.=0 D.=1 8 贝叶斯判别法中的判别规则所带来的平均损失ECM达到(D)
A.0 B.1 C.一定数值 D.最小 9 一个p维变量的函数f(∙)能作为中某个随机向量的分布函数,当且仅当(B)
A.f x <0 B.f x >0 C.>0 D.<0 10 马氏距离不需要符合下面哪一条基本公理(A)
A.d x,y ≤0 B.d x,y =d(y,x)C.d x,y ≤d x,z +d(z,y)D.d x,y =0,当且仅当x=y。
第四篇:《多元统计分析》习题
《多元统计分析》习题分为三部分:思考题、验证题
和论文题
思 考 题
绪论
1﹑什么是多元统计分析?
2﹑多元统计分析能解决哪些类型的实际问题?
聚类分析
1﹑简述系统聚类法的基本思路。2﹑写出样品间相关系数公式。
3﹑常用的距离及相似系数有哪些 ?它们各有什么特点? 4﹑利用谱系图分类应注意哪些问题?
5﹑在SAS和SPSS中如何实现系统聚类分析?
判别分析
1﹑简述距离判别法的基本思路,图示其几何意义。2﹑判别分析与聚类分析有何异同? 3﹑简述贝叶斯判别的基本思路。4﹑简述费歇判别的基本思路。5﹑简述逐步判别法的基本思想。
6﹑在SAS和SPSS软件中如何实现判别分析?
主成分分析
1﹑主成分分析的几何意义是什么? 2﹑主成分分析的主要作用有那些?
3﹑什么是贡献率和累计贡献率,其意义何在?
4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息? 5﹑为什么要用标准化数据去估计V的特征向量与特征值? 6﹑证明:对于标准化数据有S=R。
7﹑主成分分析在SAS和SPSS中如何实现?
因子分析
1﹑因子得分模型与主成分分析模型有何不同? 2﹑因子载荷阵的统计意义是什么? 3﹑方差旋转的目的是什么? 4﹑因子分析有何作用?
5﹑因子模型与回归模型有何不同?
6﹑在SAS和SPSS中如何实现因子分析?
对应分析
1﹑简述对应分析的基本思想。2﹑简述对应分析的基本原理。
3﹑简述因子分析中Q型与R 型的对应关系。4﹑对应分析如何在SAS和SPSS中实现?
典型相关分析
1﹑典型相关分析适合分析何种类型的数据? 2﹑简述典型相关分析的基本思想。3﹑典型变量有哪些性质?
4﹑典型相关系数和典型变量有何意义? 5﹑典型相关分析有何作用? ﹑在SAS和SPSS中如何实现典型相关分析?
验 证 题
聚类分析
1、为了更深入了解我国人口的文化程度,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机结果按样品号画出聚类图,并根据聚类图将30个样品分为四类。
2、根据信息基础设施的发展状况,对世界20个国家和地区进行分类。只要采用6个指标:(1)Call—每千人拥有电话线数,(2)movecall—每千户居民蜂窝移动电话数,(3)fee—高峰时期每三分钟国际电话的成本,(4)Computer—每千人拥有的计算机数,(5)mips—每千人中计算机功率(每秒百万指令),(6)net—每千人互联网络户主数。计算样本之间的距离采用欧式距离,用最长距离法、重心法、离差平方和法进行计算。
3、按照城乡居民消费水平,对我国30个省市自治区分类。
判别分析
1、从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样本,另选四个国家作为待判样品做距离判别分析。
2、对全国30个省市自治区1994年影响各地区经济增长差异的制度变量: —经济增长率(%)、—非国有化水平(%)、—开放度(%)、—市场化程度(%)作判别分析。
3、为了解全国各地职工生活费用上涨水平,对29个省市自治区九项指标作判别分析。
主成分分析
1、对全国30个省市自治区经济发展基本情况的八项指标作主成分分析。
2、对30个省市自治区工业企业经济效益作综合评价。
3、对我国城市居民生活费支出作主成分分析。
因子分析
1、利用1995年的数据对我国社会发展状况进行综合考察。
2、对我国30个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果济效益出发,选取六项指标分别为: —乡村劳动力人口(万人),—人均经营耕地面积(亩),—户均生产性固定资产原值(元),—家庭基本纯收入(元),—人均农业总产值(千元/人),—增加值占总产值比重(%)。
3、对1979-1988年中国人民银行资金来源的10项指标作因子分析。
对应分析
1、用对应分析研究我国部分省份的农村居民家庭人均消费支出结构。选取7个变量: —食品支出比重,—衣着支出比重,—居住支出比重,—家庭设备及服务支出比重,—医疗保健支出比重,—交通和通讯支出比重,—文教娱乐、用品及服务支出比重。样品为10个:山西、内蒙古、辽宁、吉林、黑龙江、海南、四川、贵州、甘肃、青海。
2、对全国31个省市自治区按各种经济类型资产占总资产比重(%),利用1997年数据作对应分析。选取6个变量: —国有经济/总资产,—集体经济/总资产,—联营经济/总资产,—股份制经济/总资产,—外商投资经济/总资产,—港澳台经济/总资产
3、用对应分析研究1991年全国各地区独立核算工业企业的经济效益情况。
典型相关分析
1、对某高中一年级男生38人进行体力测试(共有七项指标)及运动能力测试(共有五项指标),试对两组指标作典型相关分析。体力测试指标: —反复横向跳(次),—纵跳(cm),—背力(kg),—握力(kg),—台阶试验(指数),—立定体前屈(cm),—俯卧上体后仰(cm)。运动能力测试的指标为:
—50米跑(秒),—跳远(cm),—投球(m),—引体向上(次),—耐力跑(秒)。
2、全国30个省市自治区农村居民收入和支出的典型相关分析。反映农村居民收入的变量取4个: —劳动者报酬(元),—家庭经营收入(元),—转移性收入(元),—财产性收入(元)。反映农村居民生活费支出的变量取8个: —食品支出(元),—衣着支出(元),—居住支出(元),—家庭设备及服务支出(元),—医疗保健支出(元),—交通和通讯支出(元),—文教、娱乐用品及服务支出(元),—其它商品及服务支出(元)。
3、社会经济综合发展水平与邮电发展状况的典型相关分析。
论 文 题
通过论文题,可以让学生掌握如何在图书馆查阅数据,录入数据,并根据论文要求对数据进行预处理,使学生了解各分析方法适合解决的问题类型,能够运用所学的多元统计分析方法解决实际数据分析问题。
1、自拟题目,论文中的数据处理方法至少选用对应分析、典型相关分析中的一种。
2、自拟题目,论文中的数据处理方法至少选用主成分分析、因子分析中的一种。
3、自拟题目,论文中的数据处理方法至少选用聚类分析、判别分析中的一种。
第五篇:多元统计分析实验报告格式
多元统计分析实验报告
姓名及学号:(例:张三20110000000)日期:
1、实验内容
2、实验目的(。。指出通过本实验要了解或掌握什么)
3、实验方案分析
(。。指出实验内容属于什么问题,说明用什么方法来实验,如果是检验问题,那么原假设是什么)
4、操作过程
(。。给出有关操作过程)
5、实验结果
(。。给出实验得到的重要结果)
6、讨论
(。。对上述得到的结果做出说明与讨论)
7、结论
(。。根据以上的讨论给出恰当的结论)