单变量统计分析方法总结(写写帮推荐)

时间:2019-05-15 10:13:55下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《单变量统计分析方法总结(写写帮推荐)》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《单变量统计分析方法总结(写写帮推荐)》。

第一篇:单变量统计分析方法总结(写写帮推荐)

单变量统计分析方法总结

一、计量资料

1.两组独立样本比较

1.1资料符合正态分布,且两组方差齐性,及独立性,可直接采用t检验。1.2资料不符合正态分布

(1)数据转换(如对数转换等)→使之服从正态分布→转换后的数据采用t检验;(2)直接采用非参数检验(如Wilcoxon检验)。1.3资料方差不齐

(1)t’检验(前提是资料满足正态性);(2)采用非参数检验(如Wilcoxon检验)。2.两组配对样本的比较

2.1 两组差值服从正态分布,采用配对t检验。

2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。3.多组完全随机样本比较

3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。

如检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,SNK法,Bonferroni法,tukey法,Scheffe法等。3.2资料不符合正态分布,或各组方差不齐

(1)数据转换(如对数转换等)→使之服从正态分布或方差齐性→转换后数据采用F检验;(2)直接采用非参数检验(如Kruscal-Wallis法)。

如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然 后用两组的Wilcoxon检验,或秩变换方法。4.多组随机区组样本比较

4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。

如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。

4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然 后用符号配对的Wilcoxon检验。★需要注意的问题:

(1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。

(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大α。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**

二、分类资料

1.四格表资料

2检验。

1.2 n≥40,且至少一个理论数1≤T<5,则用校正的2检验。1.1 n≥40,且所有理论数T>5,则用普通的Pearson 1.3 n<40,或有理论数T<1,则用Fisher’s确切概率法检验。2.R×C表资料的统计分析

2.1 列变量和行变量均为无序分类变量,则(1)n≥40,且理论数1≤T<5的格子数目占总格子数目<20%,则用普通的Pearson

2检验。

(2)超过理论数1≤T<5的格子数目占总格子数目20%,可采用似然比卡方检验或Fisher’s确切概率法检验(总例数不应太大,因为这种算法计算机也要算半天才能出结果)。2.2 需要统计分析变量为等级资料变量,另一变量为分组变量,采用非参数检验。两组的Wilcoxon秩和检验,或多组的 Kruskal-Wallis检验。如果总的来说有差别,还可进 一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。

2.3 列变量和行变量均为等级资料变量,如果要做两变量之间的相关性,可采用Spearson 相关分析。

3.配对分类资料的统计分析 则用McNemar配对检验。

第二篇:统计分析方法学习总结

统计分析方法学习总结

S201505158 陈丹妮

一、统计的描述

一般采用以下几种图形描述数据:

直方图:表示几个变量的数据,使人们能够看出这些数目的大体分布或“形状”; 盒形图:比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图);

茎叶图:既展示了数据的分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字;

散点图:描述的数据有两对连续变量; 定型变量的图:定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例,如:饼图、条形图。

二、汇总统计量

表示位置的汇总统计量:均值(mean):样本值的算术平均值;中位数(median):中间大小的数(一半样本点小于中位数);(第一或第三)(下、上)四分位数(点)(first quantile, third quantile)(分别有1/4或3/4的数目小于它们);k-百分位数(k-percentile);a分位数(a centile): k-百分位数=k%分位数:有k%的数目小于它;众数(mode):样本中出现最多的数。

表示尺度的汇总统计量:极差(range):极端值之差;四分位间距(四分位极差)(interquantile range)四分位数之差;标准差(standard deviation)方差平方根;方差(variance)各点到均值距离平方的平均。

三、相关的分布

相关的分布包括:离散分布、连续分布、抽样分布:我们能够利用样本统计量中的(描述样本的)信息, 比如样本均值和样本标准差中的信息,来对(描述总体的)总体参数(比如总体均值和总体标准差)进行推断(估计、检验等)。

大数定律:阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。其中又分为独立同分布大数定律(提供了用样本平均数估计总体平均数的理论依据)和贝努力大数定律(提供了频率代替概率的理论依据)。

中心极限定理:阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。独立同分布中心极限定理(不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取容量为n的样本,当n充分大时,则这个样本的总和或平均数是服从正态分布的随机变量)和德莫佛-拉普拉斯中心极限定理(提供了用正态分布近似计算二项分布概率的方法)。均值的假设检验包括对于正态总体均值的检验、对于比例的检验

四、各种分析方法

1.列联表分析

列联表变量中每个都有两个或更多的可能取值,称为水平,比如收入有三个水平,观点有两个水平,性别有两个水平等。列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。二维的列联表又称为交叉表(cross table)。列联表可以有

很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。

2.方差分析

方差分析(analysis of variance,ANOVA)是分析各个自变量对因变量影响的一种方法。这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。分析结果是由一个方差分析表表示的。原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。

3.相关和回归分析

发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。

假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent variable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable, explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。

一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。

4.主成分分析和因子分析

主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量,就有几个主成分。而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factor rotation);这个步骤可以使结果更好。对于计算机,因子分析并不费事。从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图;其解释和主成分分析的载荷图类似。

可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。

5.聚类分析

物以类聚、人以群分;但根据什么分类呢?如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。当然,不一定事先假定有多少类,完全可以按照数据

本身的规律来分类。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。

k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)却要求先说好要分多少类。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。另一种聚类称为分层聚类或系统聚类(hierarchical cluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。

6.判别分析

在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。在判别分析中,至少有一个已经明确知道类别的“训练样本”,并利用该样本来建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果作解释。在计算中需要看关于各个类的有关变量的均值是否显著不同的。

7.典型相关分析

由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此必须找到既有意义又可以确定的线性组合。典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的相关系数最大。目的:研究多个变量之间的相关性。方法:利用主成分思想,可以把多个变量与多个变量之间的相关化为两个变量之间的相关.即找一组系数(向量)l和m, 使新变量U=l`X(1)和V=m`X(2)有最大可能的相关关系。

8.对应分析

在因子分析中,或者只对变量(列中的变量)进行分析,或者只对样品(观测值或行中的变量)进行分析;而且利用载荷图来描述各个变量之间的接近程度。典型相关分析也只研究列中两组变量之间的关系。然而,在很多情况下,所关心的不仅仅是行或列本身变量之间的关系,而是行变量和列变量的相互关系;对应分析方法被普遍认为是探索性数据分析的内容,处理列联表的问题仅仅是对应分析的一个特例。一般地,对应分析常规地处理连续变量的数据矩阵;这些数据具有如在主成分分析、因子分析、聚类分析等时所处理的数据形式。在对应分析中,根据各行变量的因子载荷和各列变量的因子载荷之间的关系,行因子载荷和列因子载荷之间可以两两配对。如果对每组变量选择前两列因子载荷,则两组变量就可画出两因子载荷的散点图。由于这两个图所表示的载荷可以配对,于是就可以把这两个因子载荷的两个散点图画到同一张图中,并以此来直观地显示各行变量和各列变量之间的关系。由于列联表数据形式和一般的连续变量的数据形式类似,所以也可以用对应分析的数学方法来研究行变量各个水平和列变量各个水平之间的关系。

9.时间序列分析

人们对统计数据往往可以根据其特点从两个方面来切入,以简化分析过程。一个是研究所谓横截面(cross section)数据,也就是对大体上同时,或者和时间无关的不同对象的观测值组成的数据。另一个称为时间序列(time series),也就是由对象在不同时间的观测值形成的数据。时间序列分析也是一种回归。回归分析的目的是建立因变量和自变量之间关系的模型;并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。也就是说,时间序列的因变量为变量未来的可能值,而用来预测的自变量中就包含该变量的一系列历史观测值。当然时间序列的自变量也可能包含随着时间度量的独立变量。一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此,如果要想对一个时间序列本身进行较深入的研究,把序列的这些成分分解出来、或者把它们过虑掉则会有很大的帮助。如果要进行预测,则最好把模型中的与这些成分有关的参数估计出来。

如果我们不仅仅满足于分解现有的时间序列,而且想要对未来进行预测,就需要建立模型。首先,这里介绍比较简单的指数平滑(exponential smoothing)。指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列的因果关系的研究。指数平滑的原理为:当利用过去观测值的加权平均来预测未来的观测值时(这个过程称为平滑),离得越近的观测值要给以更多的权。而“指数”意味着:按照已有观测值“老”的程度,其上的权数按指数速度递减。

第三篇:两个多重相关变量组的统计分析

两个多重相关变量组的统计分析

摘 要

本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法,以及在SAS软件包中如何实现,文中给出了一个典型的例子。关键词:统计分析;典型相关;典型冗余分析

在实际问题中,经常遇到需要研究两组变量间的相关关系,而且每组变量中间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的相关关系;体育科研中运动员的体力测试指标与运动能力指标间的相关关系;经济领域中投资性变量与国民收入变量间的相关关系;教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系;医学研究中患某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等。

研究两个变量组之间相关关系的常用方法是多元统计中的典型相关分析(参考[2]和 [3])。如果进一步研究这两组多重相关变量间的相互依赖关系,即考虑多对多的回归建模问题,除了最小二乘准则下的多对多回归分析、双重筛选逐步回归分析,以及提取自变量成分的主成分回归等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。关于多对多回归建模问题,我们将另文介绍。本文介绍典型相关与典型冗余分析,它是偏最小二乘回归的理论基础。

一 典型相关分析的基本思想与解法

第一组变量记为X=(X1Xp),第二组变量记为Y=(Y1Yq)(不妨设p≤q)。典型相关分析借助于主成分分析提取成分的思想,从第一组变量X提取典型成分V(V是X1,„,Xp的线性组合);再从第二组变量Y提取典型成分W(W是Y1,„,Yq的线性组合),并要求V和W 的相关程度达到最大。这时V和W 的相关程度可以大致反映两组变量X和Y的相关关系。

X11 12记p+q维随机向量Z=的协差阵∑=其中∑11一是X的协差阵,,21 22Y∑22:是Y的协差阵,∑l2=∑21是X,Y的协差阵。我们用X和Y的线性组合 V=aX和W=bY之问的相关来研究X和Y之间的相关。我们希望找到a和b,使ρ(V,W)最大。由相关系数的定义,ρ(V,W)=

Cov(V,W)Var(v)Var(w)

分析上式将发现:在使得V,W的相关达最大的同时,V和W的方差将达最小,这说明按此准则得到的典型成分V和W,对原变量组X和Y的代表性最差,它们无法更多地反映原变量组的变异信息。另方面因V,W任意线性组合的相关系数与 V,W 的相关系数相等,即使得相关系数最大的V=aX和W=bX并不唯一。故在典型相关分析解法中附加了约束条件:

Var(U)= a∑11a = 1 Var(V)= b∑22b = 1。

问题化为在约束条件Var(U)=1,Var(V)=1下,求a和b,使得ρ(U,V)= a∑l2b达最大。

X定义l 设X=(X1Xp),Y=(Y1Yq),p+q维随机向量Y的均值向量为

O,协差阵∑>O(不妨设p≤q)。如果存在a1 =(al1,„,alp)和b1 =(b1l,„,b1q)使得

ρ1=ρ(a1X,b lY)=

Var(,X)1,Var(,Y)1max(X,Y)

则称aX ,b Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数。

如果存在ak(ak1,akp)和bk(bk1,akq)使得

①akX , b kY和前面 k-1对典型变量都不关;

②Var(akX)= l,Var(b kY)= 1;

③akX与b kY的相关系数 k最大,则称akX , b kY是X,Y的第k对典型相关变量,它们之间的相关系数k称为第k个典型相关系数(k2,,p)。

已知p+q维总体Z的n次中心化观测数据阵为:

x11x12x1px21x22x2pZn(pq)xn1xn2xnpy11yn1y12yn2y21y22y1qy2qXnpynqY nq若假定Z~Npq(0,),则协差阵∑的最大似然估计为

11XXSZZnnYXXYS11S12 YYS21S22下面我们将从样本协差阵S出发,来讨论两组变量问的相关关系。

令TS111/2SS121/222为p×q阵,则p×q阵和q×q阵TT的非零特征根相同,且非零特征根均为正的。若rk(T)=rk(S12)=r≤p(因p≤q),非零特征根依次为 1≥2≥„≥T >O(且λi>O,i=1,„,r)。记r阶对角阵D=diag(λi,„,λr)。利用p×q阵T的奇异值分解定理(参考[4])有 222T(a,,a)D(,,)

1r12pqrr其中口ai(i=l,„,r)为TT对应于i2的单位正交特征向量;i(i=1,„,r)为TT对应于i2的单位正交特征向量,且ai与i满足关系式:iai1/2S11i,容易验证与满足:biai(i1,r)1/2S22ibi1iTi。令

11/2aibiS111/2i(i1,r)

i1iS22i则ViaiX,WibiY为X,Y的第i对样本典型相关变量,i为第i个样本典型相关系数。

二 典型相关系数的显著性检验

总体z的两组变量X=(X1Xp)和Y=(Y1Yq)如果不相关,即Cov(X,Y)= ∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相关关系之前,应首先对假设H0:∑l2=0作统计检验,它等价于检验H0:ρl=0。

设总体Z~Npq(0,),用似然比方法可导出检验H0:∑l2=0的似然比统计量Λ,利用矩阵行列式及其分块行列式的关系,可得出

SS11||S222IpS11S12S22S21(11)

i111p其中p+q阶方阵s是∑的最大似然估计量,Sy分别是∑ij(i,j=1,2)的最大似然估计i2(i1,,p)是TT的特征值。

统计量Λ的精确分布已由Hotelting(1936年)等人给出,但表达式很复杂。由Λ统计量 出发可导出检验H0的近似检验方法,如 Willksλ统计量,Pillai的迹,Hotettintg-Lawley迹和Roy的极大根等(参阅[2])。

当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数ρ1≠0。相应的第一 对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息。两组变量余下的部分可认为不相关,这时ρ1≈(i=2,„,p)。故在否定H0后,有必要检验H0:i(i2,,p)即第i个及以后的所有典型相关系数均为0。利用似然比方法可导出检验H0的似然比统计量,并给出该统计量的近似分布。从i=2开始逐个检验,直到某个i0,使H0相容时为止。这时说明第i0个及以后的所有典型相关系数均为0。假定经检验,前m个典型相关系数显著地不等于0(m≤p)。

(t)(t)(t)三 典型结构与典型冗余分析

1.典型结构

求出典型变量后,进一步可以来计算原始变量与典型变量之问的相关系数阵——典型结 构。

记A=(al,a2,„,ar)为P×r矩阵,B=(bl,b2,„,br)为q×r矩阵,典型随机向量V(V1,,Vr)(a1X,arX)AX;W(W1,Wr)(b1y,brY)BY;随机向量Z的11 12S11S12S协差阵为∑=>0,随机向量的协差阵为S21S22是∑的最大似然21 22然估计。则

Cov(X,V)=Cov(X,AX)=∑11A,Cov(X,W)=Cov(X,BY)=∑12B,Cov(Y,V)=Gov(Y,AX)= ∑12A,Cov(Y,W)=Coy(X,BY)=∑22B。

用Sij代替以上公式中的∑ij(i,j=1,2),即可计算出原始变量与典型变量之间的协差阵。由协差阵还可以计算原始变量与典型变量之间的相关系数阵。若假定原始变量均为标准化变量,则以上计算得到的原始变量与典型变量的协方差阵就是相关系数阵。

若计算这四个相关系数阵中各列(或各行)相关系数的平方和,还将得出下面一些有关的概念。2.几个概念 类似于主成分分析,把Vk看成是由第一组标准化变量X提取的成分,Wk看成是由第二组标准化变量Y提取的成分,由相关阵R(X,V)=S11A=[r(Xj,Vk)](p,r)和R(Y,W)=S11B=[r(Xj,Vk)](q,r)分别计算第k列的平方和。记

1p21p2Rd(X,Vk)r(Xj,Vk),Rd(Y,Wk)r(Yj,Vk)(k1,,r)

pj1qj1并称Rd(X,Vk))(或Rd(Y,Wk))为第k个典型变量 Vk(或Wk)解释本组变量X(或Y)总变差的百分比。记

1mp21mq2Rd(X;V1,,Vm)r(Xj,Vk),Rd(Y;W1,,Wm)r(Xj,Vk)

pk1j1qk1j1并称Rd(X;V1,,Vm)(或Rd(Y;W1,,Wm))为前m(m≤r)个典型变量V1,,Vm(W1,,Wm)解释本组变量X(或Y)总变差的累计百分比。

在典型相关分析中,从两组变量分别提取的两个典型成分首先要求相关程度最大,同时也希望每个典型成分解释各组变差的百分比也尽可能的大。百分比的多少反映由每组变量提取的用于典型相关分析的变差的多少。

类似于主成分分析,还可以引入前m个典型变量对本组第j个变量Xi(或Yj,)的贡献等概念(参考[1])。3.典型冗余分析

我们进一步来讨论典型变量解释另一组变量总变差百分比的问题。在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量韵信息,还解释了另一组变量的信息。典型相关系数越大,典型成分解释对方变量组变差的信息也将越多。

类似可以定义Rd(X;Vk))(或Rd(Y;Wk))为Wk(或Vk)解释另一组总变差的百分比。以下给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比的公式:

Rd(X;Vk)1prj1p2(Xj,Vk)2,,r)kRd(X;Vk)(k12,Rd(Y;Vk)1qrj1p(Xj,Vk)2,,r)kRd(Y;Wk)(k1事实上,由典型变量的系数ak与bk之间的关系: ak1kS11S12bkkakS11S12bkkS11akS11S11S12bkS12bk以及典型111变量与原始变量(假定已标准化)的相关阵即得:r(Xj,Wk)= λk(Xj;Vk),故有Rd(X;Wk)=2kRd(X;Vk),类似可证明另一式。

Rd(X;Wk)表示第一组中典型变量解释的变差被第二组中典型变量重复解释的百分比,简称为第一组典型变量的冗余测度;Rd(X;Vk)表示第二组中典型变量解释的变差被第一组中典型变量重复解释的百分比,简称为第二组典型变量的冗余测度。

冗余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小。它将为进一步讨论多对多建模提供一些有用信息。

四 应用例子一康复俱乐20名成员测试数据的典型相关分析

康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高)(数据见以下数据行)。试分析生理指标和训练指标这二组变量间的相关性。

解 使用SAS/STAT软件中的CANCORR过程来完成典型相关分析。首先把测试数据生成SAS数据集,SAS程序如下:

data da20x6;input weight waist pulse chins situps jumps@@;label wight =’体重’ waist=’腰围’ pulse=’脉搏’ chins=’单杠’

situps=’仰卧起坐’ jumps=’跳高’;

cards;191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115 154 34 64 14 215 105 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 156 33 54 15 225 73 138 33 68 2 110 43;run;proc cancorr data=da20x6 all vname=’生理指标’wname=’训练指标’;var weight waist pulse;with chins situps jumps;run;DATA步创建康复俱乐部测试数据的SAS数据集(名为DA20X6),它有20个观测,6个变量。

CANCORR过程用于对输入数据集DA20X6做典型相关分析。选项ALL要求输出所有可选择的计算结果;VNAIVIE=给出VAR语句中变量组的标签为生理指标 ;WNAIVIE=对WITH语句给出的第二组变量规定标签为训练指标。VAR语句列出第一组变量的名字,WITH列出第二组变量的名字。部分计算结果见输出1至输出5。

输出1 均值、标准差和两组变量问的相关系数

— 输出1列出6个变量的均值和标准差及生理指标和训练指标之间的相数。理指标和训练指标之间的相关性是中等的,其中WAIST和SITUPS 相关系数最大为-0.6456。

输出2 典型相关分析系数及显著性检验

— 输出2给出典型相关分析的一般结果。第一典型相关系数为07956,它比生理指标和训练指标两组间的任一个相关系数都大 检验总体中所有典型相关均为O的零假设时显著性概率为0.0635(即Pr>F的值),故在α=0.10的显著水平下,否定所有典型相关为0的假设。也就是至少有一个典型相关是显著的。从后面的检验结果可知,只有第一典型相关系数是显著不等于0的。因此,两组变量相关性的研究可转化为研究第一对典型相关变量的相关性。

输出3 标准化后典型变量的系数

— 输出结果中还给出原始变量和标准化变量的典型相关变量的系数。因六个变量没有用相同单位测量,我们来分析标准化后的系数(见输出3)。来自生理指标的第一典型变量V1为(右上角带“*”的变量表示标准化变量): V1=-0.7754WEIGHT* + 1.5793WAIST*1054SITUPS* + O.7164JUMPS*

它在SITUPS*上的系数最大 这一对典型变量主要是反映腰围(WAIST*)和仰卧起坐(SITUPS)的负相关关系。

输出4 典型结构—原始变量和典型变量的相关系数阵

—由输出4可看出来自生理指标的第一典型变量v1与腰围(WAIST)的相关系数为0.92,V与体重(WEIGHT)的相关为0.6206,它们都是正的。但典型变量V1在体重上的系数为负的(-0.7754),即体重在V1的系数和它与V1的相关反号。来自训练指标的第一典型变量Wl与三个训练指标的相关都是负值,其中跳高(JUMPS)在W1的系数(0.7164)和它与Wl的相关(-0.1622)也是反号。因此,体重和跳高在这两组变量中是一个校正(或抑制)变量。

一个变量同典型变量的相关与在典型变量上的系数符号相反似乎是矛盾的。下面以体重为例来说明这一现象,我们知道肥胖性同腰围和体重之间的关系很密切的。一般说来,有理由认为胖的人比瘦的人仰卧起坐的次数少。假定这组样本中没有身高非常高的人,因此体重和腰围之间的相关(0.8702)是很强的。· 腰围大的人倾向于比腰围小的人胖。因此腰围与仰卧起坐为负相关(-0.6456)。· 体重大的人倾向于比体重小的人胖。于是体重与仰卧起坐为负相关(-0.4931)。

考虑用多元回归方法由WAIST*(腰围)和WEIGHT*(体重)来预测SITUPS*(仰卧起坐),得到的回归式为:SITUPS* =0.2833 WEIGHT* – 0.8921 WAIST*,回归式中WEIGHT* 系数的符号为正似乎不合理,关于系数的符号可解释如下:

· 若固定体重的值,腰围大的人倾向于较强壮和较胖,故而仰卧起坐次数少,于是腰围的多元回归系数(-0.8921)应是负的。

· 若固定腰围的值,体重大的人倾向于比较高和比较瘦,故而仰卧起坐次数多;因此体重的多元回归系数(0.2833)应为正的。这里体重与仰卧起坐的相关同体重的回归系数符号相反。

因此,第一典型相关一般解释为以体重(WEIGHT)和跳高(JUMPS)作为校正(或抑制)变量来强化腰围(WAIST)和抑卧起坐(SITUPS)之间的负相关关系。

输出5 CANCORR过程产生的典型冗余分析结果

—输出5给出典型冗余分析的结果。我们来分析标准化的方差,第一典型变量vl可以解释45.08%组内变差,并解释25.84%的另一组(训练指标)的变差;而典型变量wl可以解释40.81%组内变差,并解释28.54%的另一组(生理指标)的变差。可见第一对典型变量V1和Wl都不能很好地全面地预测另一组变量。第二和第三对典型变量实际上都没有给出什么信息,三个典型变量解释另一组总变差的累计百分比分别为0.2969和0.2767。

输出5中第4张表格给出训练指标组中各个变量被生理指标变量组提取的前M个(M=1,2,3)典型变量V1,„,VM解释变差的累计百分比(即多重相关的平方和:r2(Y1,Vk)),可以看出只有CHINS(O.3351)和SITUPS(0.4233)可被对k1M方变量组的第一典型变量Vl预测,Vl对JUMPS(O.0167)几乎没有预测能力。从第3张表格类似可得出,而来自训练指标的第一典型变量Wl对WAIST(O.5421)有相当好的预测能力,对WEIGHT(0.2438)较差,而对PULSE(0.0701)几乎没有预测能力。

[参考文献]

[ 1]王惠文.偏最小二乘回归方法及其应用[M].北京:国肪工业出版社,2000. [2]高惠璇等.SAs系统SAS/STAT软件使用手册[M].北京:中国统计出版社,1998.[3] 高惠璇.实用统计方法与SAS系统[M]北京:北京大学出版社,2001. [4] 高惠璇.统计计算[M]北京:北京大学出版社,1995. [5]王学民.应用多元分析[M]上海:上海财经大学出版社,1999

第四篇:数据统计分析方法

数据统计分析方法

排列图:

排列图是由两个纵坐标,一个横坐标,若干个按高低顺序依次排列的长方形和一条累计百分比折线所组 的,为寻找主要问题或主要原因所使用的图。

排列图有以下优点:直观,明了--全世界品质管理界通用用数据说明问题--说服力强用途广泛: 品质管理 / 人员管理 / 治安管理排列图的作图步骤收集数据(某时间)作缺陷项目统计表绘制排列图画横坐标(标出项目的等分刻度)画左纵坐标(表示频数)画直方图形(按每项的频数画)画右纵坐标(表示累计百分比)定点表数。

因果图何谓因果图:

对于结果(特性)与原因(要因)间或所期望之效果(特性)与对策的关系,以箭头连接,详细分析原因或对策的一种图形称为因果图。因果图为日本品管权威学者石川馨博士于1952年所发明,故又称为石川图,又因其形状似鱼骨,故也可称其为鱼骨图,或特性要因图作因果图的原则采取由原因到结果的格式通常从‘人,机,料,法,环’这五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三个层次:主干线、支干线、分支线尽可能把所有的原因全部找出来列上对少数的主要原因标上特殊的标志写上绘制的日期、作者、有关说明等作因果图应注意的事项问题(结果)应单

一、具体,表述规范最后细分出来的因应是具体的,以便采取措施;在寻找和分析原因时,要集思广益,力求准确和无遗漏可召开诸葛亮会,采用头脑风暴法层次要清,因果关系不可颠倒原因归类正确作因果图应注意的事项画法按从左至右的贯例执行--规范化在作因果图前,可先从排列图中找出主要问题,然后针对主要问题,召集相关人员进行讨论,力求尽可能找出产生问题的原因,通过分析,确立主要原因。因果图在今后可不断进行修改,逐渐完善,反復使用。

直方图:

是通过对数据的加工整理,从而分析和掌握品质数据的分布状况和估算工序不合格率的一种方法。直方图的作法作直方图的三大步骤作频数表画直方图进行有关计算作直方图的步骤(例3)1.搜集数据作直方图的步骤计算极差(Range),上表中最大值Xmax=48;最小值Xmin=1;R=Xmax-Xmin=48-1=47适当分组(k)在本例中,取k=10确定组距(h)组距用字母 h 表示:h=R/k=47/10=4.7, Y约等于5。确定各组界限--组的边界值单位取最小测量单位的一半。作直方图的步骤本例第一组的下限为:第一组的上限值为下界限值加上组距第二组的下界值为上界限值,第一组的上界值加上组距就是第二组上界限值,照此类推,定出各组的边界。编制频数分布表

分层法

分层的目的是把杂乱无章和错综复杂的数据,按照不同的目的、性质、来源等加以分类整理,使之系统化、条理化,能更确切地反映数据所代表的客观事实,便于查明产品质量波动的实质性原因和变化规律,以便抓住主要矛盾,找到主要影响因素,从而对症下药,采取相应的措施。

分层的原则是使同一层内的数据波动尽可能小、而层与层之间的差别尽可能大。

为了达到目的,通常按操作者、机器设备、材料、工艺方法、测量手段、环境条件和时间等标志对数据进行分层。

调查表

调查表也叫检查表或核对表,它是一种为了便于搜集数据而使用简单记号并予统计整理,并作进一步分析或作为核对、检查之用而事先设计的一种表格或图表

控制图

控制图是一种带有控制界限的反映过程质量的记录图形,图的纵轴代表産品质量特性值(或由质量特性值获得的某种统计量);横轴代表按时间顺序(自左至右)抽取的各个样本号;图内有中心线(记爲CL)、上控制界限(记爲UCL)和下控制界限(记爲LCL)三条线(见下图)

第五篇:实习九 数值变量资料的统计分析

(二)应用题

1.某市100名7岁男童的坐高

(2)计算均数=66.65(cm)

(3)计算标准差=2.06(cm)

2.用玫瑰花结形成试验检查13名流行性出血热患者的抗体滴度,结果如下,求平均滴度。G=lg-1(lg20+lg20+...+lg40)13

=lg-11.95=89.00

下载单变量统计分析方法总结(写写帮推荐)word格式文档
下载单变量统计分析方法总结(写写帮推荐).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    大数据的统计分析方法

    统计分析方法有哪几种?下面天互数据将详细阐述,并介绍一些常用的统计分析软件。 一、指标对比分析法指标对比分析法 统计分析的八种方法一、指标对比分析法指标对比分析法,又......

    统计分析学习总结

    经过四周的课程主要学习了以下几种分析方法: 1.方差分析 方差分析(Analysis of Variance,简称ANOVA),又称"变异数分析"或"F检 验",是R.A.Fisher发明的,用于两个及两个以上样本均......

    化工设计单元变量知识总结

    1.单元变量(CB)=化学反应数(MB)+dQ/dt(某设备的传热、描述传热的单元变量,通常为1,分流器为0)(HB)2.HB方程:一个单元HB单元变量只有一个,分流器HB为0 3.CB=HB+MB 4.对一个含n种组份的单......

    时间类型变量的处理总结

    日期时间类变量的处理 C++编程时对日期时间类变量的处理一般采用CTime与COleDateTimeCTime类 1) 获取当前时间。 CTime time; time = CTime::GetCurrentTime(); 2) 获取时间......

    医疗器械临床试验常用统计分析方法(精选五篇)

    医疗器械临床试验常用统计分析方法 同的研究设计方法、资料类型、研究目的,适用的统计方法也各不相同,所以临床科研人员应依据自身研究的特点,选择合适的统计方法,才能得出科学......

    单目结构光测距标定方法总结

    1、总体思路: 两步标定法: (1)利用张正友的多平面标定法,对摄像机的内参数与外参数包括径向畸变和切向畸变参数进行标定,精度能够得到较高的保证。 (2)对结构光平面进行标定,摄像机标......

    现货做单方法的总结[合集5篇]

    现货品种走势千变万化,也还是有东西万变不离其中。大家要结合自己的习惯还有实际做盘的情况选择适合自己的做单方法。现货界的随缘在这里总结了一点做单方法经验,预祝大家投资......

    重庆单招应对方法

    面试分比重大: 重庆工业职业学院150/500 重庆工程职业学院300/600 重庆电子工程职业学院 200/500 重庆城市管理职业学院 300/600 重庆工商职业学院200/500 重庆航天职业技术......