第一篇:SPSS因子分析经典案例
SPSS因子分析经典案例
因子分析已经被各行业广泛应用,各种案例琳琅满目,以前在百度空间发表过相关文章,是以每到4至6月,这些文章总会被高校毕业生扒拉一遍,也总能收到各种魅惑的留言,因此,有必要再次发布这经典案例以飨读者。
什么是因子分析?
因子分析又称因素分析,传统的因子分析是探索性的因子分析,即因子分析是基于相关关系而进行的数据分析技术,是一种建立在众多的观测数据的基础上的降维处理方法。其主要目的是探索隐藏在大量观测数据背后的某种结构,寻找一组变量变化的共同因子。因子分析能做什么?
人的心理结构具有层次性,即分为外显和内隐。但是作为具有同一性的个体来说,内隐的方面总是和外显的方面相互作用,内隐方面制约着外显特征。所以我们经常说,一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜存在),这就是因子分析所能做的。具体来说主要应用于:
(1)个体的综合评价:按照综合因子得分对case进行排序;
(2)调查问卷效度分析:问卷所列问题作为输入变量,通过KMO、因子特征值贡献率、因子命名等判断调查问卷架构质量;
(3)降维处理,结果再利用:因子得分作为变量,进行 聚类 或其他分析。
案例描述:
高中大家都读过吧,那是一个以成绩论英雄的时代,理科王子、文科小生是时代标签。为什么我们会将数学、物理、化学归并为理科,其他的归并为文科,有没有数据支持?今天我们将用科学的方法找到答案。
100个学生数学、物理、化学、语文、历史、英语成绩如下表(部分),请你来评价他们。
这是一个有趣的案例,你可以客观的观测到每一科目的成绩,但你可以直接看到理科、文科的情况吗?6个科目的成绩是我们观测到的外在表现,隐藏在其中的公共因子你找到了吗?如果我们针对6科目做降维处理,会得到什么结果,拭目以待。
SPSS分析过程
6科目成绩作为6个原始变量,利用SPSS进行因子分析,具体步骤请参照各 因子分析教程,默认亦可,不在讨论范围之内。公共因子命名:解释的清楚、有无实际意义
经过SPSS降维,由公因子方差表看出,默认提取两个公因子,能够解释差异的81%,似乎暗合文科和理科。
我们试图通过旋转后进行因子的命名与解释,这似乎一点也不难,因子1与语文、历史、英语三科最相关,均在0.8相关度以上,因子2与数学、物理、化学相关,也基本达到0.8以上,这正好与我们经常说的文科和理科不谋而合,没有理由不这样命名。
因子得分排序:综合评价
为公共因子合理命名之后,因子分析并没有结束,一般可以将因子得分作为变量,用于后续分析步骤。
本例:100名学生按照文科和理科因子得分进行排序,可以用(语文+历时+英语)及(数学+物理+化学)平均值验证因子得分排序是否合理,同时,也可以观测因子得分为负值时是否影响排序。
第二篇:SPSS统计分析案例
一、事件
近日,教育部考试中心主任戴家干透露,今年高考的全国报名人数为946万余人,比2009年1020万的考生数减少74万人。950万人,1010万人,1050万人,1020万人,956万人„„数据显示,近5年来,前3年全国高考人数一直在攀升。2006年首次突破千万大关,2008年则达到顶峰--1050万人。去年高考人数急转直下,比上一减少30万人,而今年更是减少74万人,是5年来人数减少最多的年份。
戴家干表示,高考报名人数的减少,主要原因是因为我国按毛入学率计算的适龄入学人口数量在逐年下降。
大约在去年这个时候,教育部也透露了高考报名人数,随即在全国范围内,引爆了一条消息——应届高中毕业生84万弃考。这引发了持续较长时间的讨论与关注,或云大学生就业难吓跑考生,或说中国大学教育质量不高难敌国外大学竞争。今年,我很想再看教育部公布的数据,得到弃考人数消息,以作分析(一年的情况往往并不能说明问题,需多年情况),但遗憾的是,教育部却没有公布。
戴主任把报名人数减少归因于适龄人口减少,可我怎么计算,也只能得到这只是其中一方面原因。根据教育部公布的报名数,今年的考生数比去年减少74万,而再看应届毕业生数,今年(803万)比去年(834万)减少31万,两者相差43万。这43万从何而来?
二、数据统计理论
这些数据采用了统计学中普查的方式,对象为全国参加高考的学生。
为了一定的目的而对考查对象进行的全面调查,称为普查。
普查,统计调查的组织形式之一。对统计总体的全部单位进行调查以搜集统计资料的工作。普查资料常被用来说明现象在一定时点上的全面情况。如高考人数调查就是对全国报考参加高考的学生一一进行调查统计,通常一年一次,规定某个特定时点(某年某月某日某时)作为全国统一的统计时点,以反映高考人数的自然和社会的各类特征。
普查的几个特点:
1.需要规定统一的标准时间(上例为2010年高考报名截止日)
2.通常是一次性或周期性的(上例为一年一次)
3.数据的规范化程度较高
4.普查适用的对象比较狭窄,只能调查一些最基本、最一般的现象。组织普查工作必须遵循的原则:
1.必须统一规定调查资料所属的标准时点。
2.正确确定调查期限、选择登记时间。为了提高资料的准确性,一般应选择在调查对象变动较小和登记、填报较为方便的时间,并尽可能在各普查地区同时进行,力求最短时间完成;
3.规定统一的调查项目和计量单位。同种普查,各次基本项目应力求—致,以便历次普查资料的汇总和对比;
4.普查尽可能按一定周期进行,以便于研究现象的发展趋势及其规律性。
三、事件评析
以上事件只可能有两种解释,一是弃考人数增加,二是复读生人数减少。这两个数据,在教育部的账本里都有的,教育部为何不公布,只会引起舆论更多的揣测。比如,有人就推测今年的弃考数可能远高于去年的84万,理由是,如果是复读生在全国范围内大幅减少,教育部定会公布复读生减少消息,因为,这几年来,教育部一直在治理高复班,2008年当有媒体报道高考报名考生中复读生比例高达三分之一时,教育部有关官员还曾“辟谣”说复读生只占到15%。而去年教育部公布高考报名数,却泄露天机,当年的复读生达到270万,占到1020万高考考生的26%。假使那另外减少的43万,主要来自高复班学生减少,那么,教育部是可以“骄傲”地宣布高复学生减少近两成的。现在教育部没有公布这一数据,极有可能的原因是弃考的应届毕业生进一步增加,或超过百万。而这势必会引起媒体进一步关注。质疑大学生就业难、中国大学教育质量的声音会铺天盖地。教育部由此就把数据藏起来。
当然,这些都是“揣测”。我想说的是,引起这样的揣测,是教育部门的失职,而且,教育部门的做法,也违背《信息公开条例》。全民关注的高考报名数据,既非国家机密,也非商业秘密,应该向社会公开,而且公开之后有助于分
析教育发展中存在的问题,同时以便考生选择教育、选择学校——针对弃考增多,需进一步研究弃考的原因,是就业难,还是学费贵,抑或是选择境外高校,不同的原因反映出我国教育的不同问题;针对复读减少,需分析哪种原因,是平行志愿减少高分落榜可能由此减少复读需求,还是实行新课改新高考增加复读难度不再复读,还是公办高中禁办复读班增加复读开支。这不同的原因可检验不同教育政策的实施效果。
教育的发展,离不开研究。教育部门公开教育信息,不仅是本身职责使然,也是进行科学的教育决策的要求。把高考报名数据打闷包,用“适龄入学人口数量减少”归纳报名人数下降主因,这不是科学、负责的教育发展态度。这只能掩盖教育的问题,更可能酿成教育发展的危机——需要提醒的是,假如高复学生大幅减少,适龄学生数也大幅减少,高考招生人数将大于应届毕业生报考人数的局面,在不久的将来马上出现。以今年应届毕业生803万,弃考规模与去年持平(84万)计算,应届高考毕业生报考数为719万,高复学生则为227万,应届毕业生报考数只比高考招生数657万多62万(如果弃考学生增多达到100万,这一数据则为46万)。我国高校需要立即着手应对即将到来的严重的生源危机。
从上述事件可以看出,正确运用统计学原理就能分析事物的本质,抓住问题的关键,才能做到未雨绸缪,防范于未然。
第三篇:因子分析方法
因子分析法
1.因子分析(Factor Analysis)
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
因子分析法与其他一些多元统计方法的区别:
2.主成分分析
主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
3.聚类分析(Cluster Analysis)
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。
4.判别分析(Discriminatory Analysis)
判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
5.对应分析(Correspondence Analysis)
对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。
6.典型相关分析
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量,也可有定性随机变量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。
注意:
1.严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。
2.典型相关模型的基本假设和数据要求
要求两组变量之间为线性关系,即每对典型变量之间为线性关系;
每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。即log经济水平,log收入水平。
3.典型相关模型的基本假设和数据要求
所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。
7.多维尺度分析(Multi-dimension Analysis)
多维尺度分析(Multi-dimension Analysis)是市场研究的一种有力手段,它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应用中,距离矩阵的获得主要有两种方法:一种是采用直接的相似性评价,先所有评价对象进行两两组合,然后要求被访者所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。同时该方法实施方便,调查中被访者负担较小,很容易得到理解接受。当然,该方法的不足之处是牺牲了个体距离矩阵,由于每个被访者个体的距离矩阵只包含1与0两种取值,相对较为粗糙,个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的,因为对大多数研究而言,我们并不需要知道每一个体的空间知觉图。
多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅对所研究的专业领域要有很好的训练,而且要掌握必要的统计分析工具。对实际领域中的研究者和高等院校的研究生来说,要学习掌握多元统计分析的各种模型和方法,手头有一本好的、有长久价值的参考书是非常必要的。这样一本书应该满足以下条件:首先,它应该是“浅入深出”的,也就是说,既可供初学者入门,又能使有较深基础的人受益。其次,它应该是既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么”这样做。最后,它应该是内涵丰富、全面的,不仅要基本包括各种在实际中常用的多元统计分析方法,而且还要对现代统计学的最新思想和进展有所介绍、交代。
因子分析的核心问题有两个:
一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。
(i)因子分析常常有以下四个基本步骤:
(1)确认待分析的原变量是否适合作因子分析。
(2)构造因子变量。
(3)利用旋转方法使因子变量更具有可解释性。
(4)计算因子变量得分。
(ii)因子分析的计算过程:
(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。
(2)求标准化数据的相关系数矩阵;
(3)求相关矩阵的特征值和特征向量;
(4)计算方差贡献率与累积方差贡献率;
(5)确定因子:
设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;
(6)因子旋转:
若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
(7)用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
(8)综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。
F =(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)
此处wi为旋转前或旋转后因子的方差贡献率。
(9)得分排序:利用综合得分可以得到得分名次。
在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:
· 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。
· 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。
· 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。
如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
第四篇:因子分析读书笔记
因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家
C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量(latent variable, latent factor)。比如,如果要测量学生的学习积极性(motivation),课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中,期末成绩来反应。在这里,学习积极性与学习成绩是无法直接用一个测 度(比如一个问题)测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地来把握。换句话说,这些变量无法直接测量。可以直接测量的可能只是它所反映的一个表征(manifest),或者是它的一部分。在这里,表征与部分是两个不同的概念。表征是由这个隐性变量直接决定的。隐性变量是因,而表征是果,比如学习积极性是课堂参与程度(表征测度)的一个主要决定因素。
因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法
第五篇:spss案例分析报告
Spss分析身高与体重的相互影响
姓名:刘海艳
班级:11电商班
学号:14113201683
序号:26
一、案例介绍:这是某幼儿园学生的身高体重数据,数据中主要包括编号,学生姓名,性别,学生年龄,每个学生的体重以及身高数值。主要是看下幼儿园学生体重与身高的相互关系。
二、研究案例的目的:分析幼儿园学生身高体重的相互关系和影响。
三、下面是数据来源:
四、研究的方法:主要是使用spss中的描述统计分析和线性回归分析;在描述统计分析中主要是分析出身高体重的最大值和最小值、均值,在图表中可以看出身高的最大值;在线性回归分析中主要是采用身高为自变量,体重为因变量来进行分析的。
五、研究的结果:
1)描述分析:
打开文件“某班23名同学的身高、体重、年龄数据”,通过菜单兰中的分析选项,进行描述性分析,选择体重和身高,求最大值最小值和均值,得到如下结果:
从结果看出,该班学生样本数为23,体重最小值为13.7kg,最大值为23kg,平均体重为17.7167kg。身高最小值为105cm,最大值为116cm,平均身高为108.85cm。
以身高为例子,选择描述中的频率选项可以得出分布,在频率对话框的图形选项中,选择条形图,即可用图形直观看到结果。
从图形中可以很直观的看出不同身高段的人数分布情况,其中108cm左右的人数最多。从表格中则可以清楚地看到具体数目。
2)线性回归分析:
选择分析——回归——线性,在弹出的对话框中,以身高作为自变量,体重作为因变量,结果如下:
从表中可以得出。R=0.223,即两者具有弱相关性。
从图表中,可以看出它们之间的线性关系大概可以表示为y=-0.139x+2.617
六、研究结论:
从描述分析和回归分析可以身高和体重的相关性是相对比较弱的,也就是弱相关性。