第一篇:对SPSS,AMOS的总结分析
对SPSS,AMOS的总结分析
作者:spssman 来源:【整理】 发布时间:2009-5-5 浏览:
访问者:
58.23.96.242 摘要提示:SPSS是探索性统计分析软件,AMOS是验证性统计分析软件。做探索性因素分析时用SPSS,探索性因素分析完成后,为了验证所得到的因子结构是否合理,就需要进行验证性因
素分析,这就用的了AMOS。
近段时间以来,我对SPSS11.0 SPSS16.0 AMOS16.0进行了较为系统的理论和技能的学习,可以说受益匪浅。咨将学习过程中的体会总结之,如下:
一.对SPSS而言,可以说是一个十分强大的统计工具,里面的任何一个菜单都可以完成诸多任务。如果想掌握整个SPSS操作功能的话,可以说难度很大。当然都学下来也没有必要,我们只要掌握所需要用到的即可。对于心理学和社会学而言,主要学习下面的操作:(1)参数检验:单样本、两独立样本、配对样本(2)方差分析:单因素、多因素、协方差分析(3)非参数检验:X2、二项式分布、K—S检验(4)相关分析和线性回归分析(5)聚类分析(6)因子分析(7)信度分析。以上的内容是我们经常用到的,尤其是相关分析和线性回归分析。
当然我主要学习的是SPSS中的探索性因素分析。所谓探索性因素分析其实就是尝试找出某事物中最能代表其本质的因素。因素可以是一个,两个或者多个。因素的个数可以人为规定也可以由系统自动生成,软件会自动将相似的题目数划到同一因素下。但是不管是人为决定因素的个数还是系统自动生成,其最大的目的就是为了尽可能找到特征根值大于1的因素数以及找到方差的最大贡献率,一般而言大于50%就认为不错了。(1)首先我要讲到的是探索性因素分析中对正交旋转和斜交旋转选择的问题。在这个问题上,各家的看法也不太一致。比较有代表性的是李茂能一般会采用斜交中的Promax法,其解释是为了简化结构,使项目与因素间达到较高的因素负荷;而张文彤则主张采用正交旋转法,其解释是斜交旋转的结果太容易受研究者主观意愿的左右,故一般采用正交旋转。我想正交相对斜交而言,前者能够最大的保持因子的不相关性,这点很重要。从我所看过的硕士论文中,用正交的相对来说比较多,所以建议还是采用正交旋转会更好一些。(2)其次,就是对正交旋转下最大变异法(Varimax)和极大相等法(Equanmax)的选择。前者的特点是能够导致第一个因素的负荷量过大,而后者则是平均分配几个因子的负荷量,当然这也要考虑你的研究目的了。不过从使用的频次和哈师大崔洪弟老师的建议还是采用Varimax法的居多。(3)最后一点我要提的就是在编制问卷过程中试题的删减标准,以下几点是我总结的,错误之处希望大家给予指正:①理论上的语义分析。②鉴别度和难度的判断,一般而言要大于0.3。③项目与总分的相关,应大于0.3.④项目的负荷量。视样本大小而定,一般大于0.4.⑤一般横跨两个因素或空白的项目也要删除,这一点我是在李茂能的书上看到的。
二、对AMOS16.0的使用。初学AMOS给人耳目一新的感觉,尤其是相对LISREL枯燥的编程而言,AMOS的主动操作更是增大了使用者的便捷性和趣味性。AMOS是线性结构方程的一种,其操作方法也就是验证性因子分析,其涵义即为对理论模型和现实数据拟合程度的一种再分析。其版本经历了AMOS4.0 AMOS6.0 AMOS9.0和AMOS16.0,目前我使用的便是当前最新的版本。(1)首先做验证性因素分析重要的就是前期模型的假设,即构建显变量和潜变量之间的关系。将可能的关系罗列出来,并在模型中予以表示。(2)关于拟合指标的选择。结合李茂能、侯杰泰和所见到的论文,用到的比较多的拟合指标如下:X2/df、RMR RMSEA GFI AGFI AIC CAIC NFI TLI(NNFI)和CFI。其中X2/df一般在1~3左右波动,越小越好。RMR RMSEA均小于0.05,模型拟合的较好;GFI AGFI NFI TLI(NNFI)和CFI均大于0.9,模型拟合的比较好。(3)关于问卷编制中试题的删减标准,以下几点是我自己总结而得,错误之处希望大家给予指正:①在标准化下,看其因子中的负荷。若小于0.3则考虑删除,同时也要参考下MI值。②若MI值中两误差的指数很高的话,找到两误差对应的题目原题,看一下相关,若相关高,则删除其中一题,这是崔老师在课上讲到的,原文出处我没有找到。③以上过程不断的重复,修正和删除,直至模型拟合的的较好。注意一点就是理论上一定要通,不能仅仅根据数据数值而定。(4)最后我要提的就是在SEM中对中介变量和调节变量的检验。由于国内相关研究并不多,但是AMOS却是一个极好利用的工具。我想随着统计工具的普及,对三变量中介和调节关系的研究也会逐渐多起来。
以上只是简要叙述了SPSS,AMOS的使用后的感受,里面涉及的内容还有很多。下面介绍几本比较好的这方面的书籍。SPSS方面比较好的是张文彤的《SPSS统计分析高级教程》,张本的语言很幽默,特点就是操作性强,每步的操作都有详细的介绍,很适合上机演练。对每个菜单都有较为详细的叙述,当然缺点便造成了对每一个功能的介绍并不够深入。另外一本是薛薇的SPSS统计软件的应用,可以说是本SPSS的入门书,浅显易懂,最大的特点就是书后附了张数据光盘,可以在电脑上实时练习,是初学SPSS的不错选择。
对AMOS的书,容易买到的应该是侯杰泰的《结构方程模型及应用》是很好的一本书,可以作为SEM的入门书,不过书中的软件是以LISREL来运行的;如果想学AMOS的话,台湾李茂能的《结构方程模式软体AMOS之简介及其在测验编制上之应用:Graphics&Basic》,这本书编写的非常好,算是很详细的一本书了,可惜的是大陆这本书可能并不多。学习时主要参考以上两本书来进行的。
另外有对中介和调节变量感兴趣的同学可以参见近几年温忠麟和侯杰泰在《心理学报》上发表的相关文章。想这以后必将是心理学研究的一个热点。
问:
AMOS与SPSS到底有哪些区别 答:
如果你对统计知识一点都不懂的话还是最好看看基础的统计学,任何软件都只是一个工具,还要你自己有统计知识。
软件还是用SPSS比较简单,只要你会点就可以了至于AMOS他是一个做路径分析、结构方程比较常用的软件,建议用SPSS,一般的统计都能做。
SPSS是探索性统计分析软件,AMOS是验证性统计分析软件。做探索性因素分析时用SPSS,探索性因素分析完成后,为了验证所得到的因子结构是否合理,就需要进行验证性因素分析。现在的论文如果涉及因子分析的话,大多要求进行验证性因素分析,以及路径分析等等。这时候,AMOS就派上用场了,AMOS可以进行验证性因素分析、路径分析、群组分析等等
第二篇:SPSS总结
SPSS的基本统计功能
1、数据的预处理
2、描述性统计和探索性统计
3、假设检验(包括参数检验、非参数检验等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相关分析
6、回归分析
7、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等
8、时间序列分析
9、信度分析
10、数据挖掘:决策树与神经网络
SPSS 统计分析的一般步骤
1、建立SPSS数据文件: 在【变量视图】定义SPSS数据文件的结构,在【数据视图】进行录入数据文件的录入。
2、SPSS数据的管理数据的预处理 :
集中于【数据】和【转换】两个菜单项。
3、SPSS数据的统计分析阶段
: 在【分析】菜单中选择正确的统计方法。
4、SPSS分析结果的阅读和解释
: 读懂SPSS输出窗口中的分析结果
5、明确其统计含义,并结合背景知识做出合理的解释。
第2章 SPSS统计分析前的准备
一、SPSS数据文件的特点
1、SPSS数据文件是一种有结构的数据文件(一般文本文件仅有纯数据部分,而没有关于结构的描述);
2、由数据的结构和内容两部分构成;
3、其中数据的结构记录数据类型、取值说明、数据缺失等必要信息(在【变量视图】,每一列大家都要明白你在定义什么,有什么用);
4、数据的内容是那些待分析的具体数据;
5、在【数据视图】每一列代表一个变量(variable),变量名显示在表格顶部;
6、在【数据视图】的每一行代表一个记录(case)(即一个案例,或称一个对象、一个观察、一个个体),记录序号显示在表格的左侧;
7、在【数据视图】可以输入和编辑数据,但是不能输入数学表达式和函数
二、定义变量
1、【数据视图】是进行数据输入、数据编辑的界面,对应的表格用于查看、录入和修改数据。
2、【变量视图】 是定义数据文件的变量的界面,对应的表格用于输入和修改变量的定义。
3、用SPSS读取其他格式的数据:
1)数据文件:*。sav
语法文件:*。sps 结果文件:*。spo
脚本文件: *。sbs 2)文件-打开-数据,可打开多种文件类型(。sav、。xls、。dbf、。txt、。dat等)
注:要想顺利打开txt文档,txt文档最好有固定的分隔符,如一个空格或一个逗号等。
三、数据的编辑
在SPSS中,数据文件的编辑、整理等功能被集中在了【数据】和【转换】两个菜单项中:
1、数据的增删、复制、剪切、粘贴;
2、数据的排序,Sort Cases排序便于数据的浏览,快捷找到最大值或最小值,迅速发现数据的异常值;
四、文件的拆分:文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分组。
五、数据选取 :
数据选取(个案选取)的基本方式
按指定条件选取(If condition is satisfied)
随机抽样(Random sample of cases)选取某一区域内(Based on time or case range)
六、个案加权:记录加权是对观测数据赋以权重,常用于频数表资料;
七、文件的合并:合并文件是指将外部数据中的记录或变量合并到当前的数据文件中去。合并数据文件包括两种方式:
从外部数据文件增加记录到当前数据文件中——纵向合并或称追加记录。从外部数据文件增加变量到当前数据文件中——横向合并或称追加变量。
八、变量的计算和变换:【转换】-【计算变量】
九、数据的重新编码recode 统计分组
将字符型变量转换为数值型变量 将几个小类别合为一个类别 将数值型变量转换为字符型
十、统计结果的保存为word文件:【文件】-【导出】
第3章
SPSS描述性统计
1.Frequencies(频率)过程的特色是产生频数表;功能 产生频数分布表;
绘制条形图、饼图、直方图;
计算集中趋势与离散程度、分布形状(峰度和偏度的意义)等统计量; 按要求给出分位数;
对数据的分布趋势进行初步分析
(注:对于定性变量来说,一般来说产生频数分布表,制作条形图,饼图即可);
2.描述分析(Descriptives过程)
适用的分析对象:定量变量,测度为scale。功能:
调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等; 并可将原始数据转换成Z分数((原始值-均值)/标准差)。
3.Explore(探索)过程用于对数据概况不清时的探索性分析,定量变量; 在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。提供茎叶图、箱线图、PP图、QQ图等;
指出异常值(Outliers),可检查数据是否有错误,剔除异常值和错误数据; 进行点估计和区间估计,计算均值的置信区间,; 检验一组数据是否呈正态分布; 4.列联表分析
(1)列联表分析的适用条件
对一个定量变量的描述和分析,一般用频数分析(频数分布表、饼图、直方图、条形图); 对两个定性变量的描述和分析,通常使用列联表、对应分析,或使用卡方检验; 对两个以上定性变量的描述和分析,通常使用高维列联表。(2)期望频数的分布
如果行变量和列变量是独立的,可以计算出列联表中每个格子里的频数应该是多少,称为期望频数;
(3)列联表分析的基本思路
检验列联表中的行变量与列变量之间是否独立(或是否相关)。原假设为行变量与列变量之间独立(或不相关)。比较观察频数与期望频数的差。
如果两者的差越大,表明实际情况与原假设相去甚远;如果差越小,表明实际情况与原假设越相近。
对于这个假设的检验,可以采用卡方分布,进行卡方检验。
(4)列联表分析的步骤
检验列联表中的行变量与列变量之间是否独立(是否相关)提出假设
H0:行变量与列变量独立(不相关)H1:行变量与列变量不独立(相关 计算检验的统计量 统计决策
进行决策:P值决策
P<0。05,则拒绝原假设H0,否则,接收原假设。(5)Pearson卡方检验的应用条件
所有单元的期望频数应该大于1,或不应有大量的期望频数小于5的单元格。
如果列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。Pearson卡方检验最普遍
第4章
SPSS的均值比较过程 1。Means过程
对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。(1)Means过程是专门计算各种平均数,并对平均数进行简单比较的;(2)虽然Descriptive Statistics(描述统计)菜单项中的几个过程也能计算均数,但Means过程的输出结果是将各组的描述指标放在一起的,便于相互比较;
(3)Means过程必须设置分组变量,若没有分组变量的话,可以使用Descriptive Statistics菜单项中的几个过程。
(4)适用于测度水平为SCALE的变量。
2。单样本T检验(1)目的
检验某变量的总体均值与指定的检验值之间是否存在显著差异。(2)适用条件
样本来自的总体服从正态分布(3)基本步骤
H0: μ=μ0 H1: μ≠μ0
构造检验统计量 统计决策
如果P值<α(α一般取值为0。05),拒绝原假设; 如果P值>α,接受原假设;
3。
独立样本T 检验(1)目的
通过比较两个样本均值差的大小来确定两个总体的均值是否相等。(2)适用条件
独立性:两个样本相互独立,且均为大样本;
正态性:如果两个样本相互独立但都是小样本,或有一个样本是小样本,则要求总体服从正态分布;
方差齐性
(3)基本步骤
a、方差齐性F检验
原假设:两个总体方差相等; 备则假设:两个总体方差不相等;
P值<0。05 时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。b、对两总体的均值提出假设 H0: μ1=μ2
H1: μ1≠μ2 c、统计决策
在SPSS中进行两独立样本t检验时,应首先对F检验作判断。如果方差相等,观察分析结果中Equal variances assumed列的t检验相伴概率值;如果方差不相等,观察Equal variances not assumed列的t检验相伴概率值。如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
4.配对样本的T 检验
配对样本是指对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。其差别在于抽样不是相互独立的,而是互相关联的。(1)配对样本通常有两个特征: 第一,两组样本的样本数相同;
第二,两个样本记录的先后顺序一一对应,不能随意更改。(2)适用条件
两样本数据必须两两配对 两总体服从正态分布
配对样本的录入方式是:每对数据在同一个case的两个配对的变量上(3)检验步骤 a、提出假设 H0: μ1=μ2
H1: μ1≠μ2 b、统计决策
如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
第5章 方差分析
如何对一个或两个总体的均值进行检验,我们可以用均值比较,如果要讨论多个总体均值是否相等,我们所采用的方法是方差分析。
方差分析中有以下几个重要概念。(1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。
(2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。
(3)单元(Cell):指因素水平之间的组合。(4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。
(5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。
1.单因素方差分析
单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。(1)适用条件
在各个水平之下观察对象是独立随机抽样,即独立性;
各个水平的因变量服从正态分布,即正态性;
各个水平下的总体具有相同的方差,即方差齐性;(2)基本原理
SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)
如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。
SPSS将自动计算检验统计量和相伴概率P值,若P<α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。
另外,SPSS还提供了多重比较方法,多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异,最常用的多重比较方法是LSD。(3)检验步骤 a、提出假设
H0: 各个总体的均值无显著性差异。
H1: 各个总体的均值有显著性差异。b、统计决策
方差齐性检验结果,P值>0。05,方差齐,否则,方差不齐;
单因素方差分析表,P值>α,接受H0,都则,拒绝H0,接受H1。
2.多因素方差分析
多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。(2)基本原理
由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:
Q总=Q控1+Q控2+Q控1控2+Q随其中,Q表示各部分对应的离差平方和。多因素方差分析比较
Q
控
1、Q 控
2、Q 控 1 控
Q
随
占 Q
总 的比例,以此推断不同因素以及因素之间的交互作用
2、是否给观测变量带来显著影响。
(3)基本术语
a、Dependent Variable 观测变量或因变量 主要指研究中的定量变量
如:移动话费、学生成绩、销售量、亩产量等
b、Fixed Factor 固定效应因素,固定因素,控制因素
主要指研究中的定性变量
如:资费等级、客户类型、漫游类型、促销策略等 c、Random Factor 随机效应因素、随机因素
人为无法对其水平值进行准确控制,只是能够直观观测到
如:话费水平、收入水平、消费习惯等
d、Interaction 交互作用、交互效应
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。
当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。例如:饮食习惯、适量运动对减肥的作用; e、main effect 与交互效应相对应的
主效应就是每个因素对因变量的单独影响(main effect)f、Covariates 协变量
指对应变量可能有影响,需要在分析时对其作用加以控制的连续性定量变量 当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响(3)应用条件
等方差;
各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性);
正态性:即所有观察值系从正态总体中抽样得出;(4)基本步骤
提出假设
H0:因素A中的r个水平的均值相等(因素A 对因变量无显著性影响)H1:因素A中的r个水平的均值不全相等(因素A 对因变量有显著性影响)统计决断 P值检验法
依次查看各F值的P值,p-值<α,应拒绝原假设; 如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;
第6章
非参数检验
非参数检验(nonparametric test),又称为任意分布检验(distribution-free test); 不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(nonparametric test)
它不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断;
而是通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。特点
参数检验条件不满足时的处理方法
不对均数等参数检验,而是检验分布是否相同
在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。非参数检验的着眼点不是总体参数,而是总体的分布情况 非参数检验研究目标总体的分布是否与已知理论分布相同 非参数检验研究各样本所在总体的分布位置,形状是否相同 优点
第一,具有较好的稳健性;
第二,受限条件少:对数据要求不像参数检验那样严格
第三,适用范围广:可应用于各种不同的情况,不受总体分布形状的限制,适合处理无法精确数量化的定性数据和小样本数据 第四,计算通常较简单,且容易理解 缺点
第一,将定量数据转换为定性数据时,漏失了数据的一些信息
第二,检验的敏感度和效果,均不如参数检验好。检验效率低于参数检验,主要是犯第二类错误的可能性加大。
第三,参数检验适用的数据,非参数方法会降低检验效能;当数据满足参数检验条件时,效能低于参数法,不满足参数法条件时,处于“优势” 非参数检验的应用场合
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题; 定量数据,其分布类型无法获知,且为小样本; 定量数据,极度偏态,或个别数值偏离过大; 各组离散度相差悬殊
一端或两端存在不确定数值的定量数据
定序数据,比较各组间等级强度的差别; 非参数检验的主要方法 单个样本的非参数检验
卡方检验(Chi-Square过程)
二项检验(Binomial过程)
游程检验(Runs过程)
柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)两个独立样本的非参数检验 多个独立样本的非参数检验 两个配对样本的非参数检验 多个配对样本的非参数检验 顺序统计量
通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。
秩(Rank):排序号(排队号)在统计学上称为秩
结(ties):绝对值相等称为结,又称同秩,则取平均秩次。
一般来说,秩就是该组数据按照升序排列之后,每个数据的位置。
1.单个样本的非参数检验 卡方检验(Chi-Square过程)
用卡方检验来检验定性变量的几个取值(分类数据,或类别)所占比例是否和理论的比例没有统计学差异。检验分类变量的分布
适合于定性数据及频数资料的分析
要求样本足够大,要求样本容量一般大于50; 应用领域
如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同)成绩优、良、中、差的学生人数是否相同 赞同某种观点的人数是否达到80%,等等。
比如在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。Chi-Square检验的基本思路
先按照已知总体的构成比例分布,计算出样本中定性数据(即各类别)的期望频数然后求出观测频数和期望频数的差值,最后计算出卡方统计量 利用卡方分布求出P值,假设检验的H0是样本中某指标的比例与已知比例一致 得出检验结论
2.二项检验(Binomial过程)检验二项分类变量分布
用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
Binomial过程对二项分类变量的单个样本作检验,推断总体中两个分类数据的比例是否分别为π和(1-π)应用领域
射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与反面;人群性别,男和女;产品质量,合格和不合格 定量数据、符号检验(SING TEST)与Binomial过程
定量数据:大样本;或小样本,总体服从正态分布,总体方差已知; 参数检验:单个样本的均值检验
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
极度偏态,或个别数值偏离过大;
一端或两端存在不确定数值
3.游程检验(Runs过程)
Runs过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验 二分类数据和定量数据(连续数据)均可
对于一个取两个值的分类变量,游程检验方法是检验这两个值的出现是否是随机的。游程检验还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题 游程检验的作用
1、检验总体分布是否相同
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2、检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数,分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。应用范围
生产过程是否需要调整,即不合格产品是否随机产生; 奖券的购买是否随机;
期货价格的变化是否随机等等。
若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。
当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程 ;
4.(l-Sample K-S过程)
柯尔莫诺夫-斯米尔诺夫检验,考察某个连续性变量是否符合理论分布 利用样本数据推断总体是否服从某种分布
可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。数据要求:定量数据,Scale
5。
独立样本的非参数检
检验两个或多个独立样本所在总体是否相同
在不了解总体分布的情况下,通过分析样本数据均值或中位数的差异,推断样本来自的两/多个独立总体的分布存在的显著性差异。Independent Samples过程:主要用于检验两个独立样本所在总体分布是否相同 K Independent Samples过程:主要用于检验多个独立样本所在总体分布是否相同 界面上基本相同
(1)两个独立样本的非参数检验
含义:由样本数据,推断两个独立总体的分布是否存在显著差异(或两样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较 应用范围
两种训练方法中哪一种更出成绩 两种汽 油中哪一个污染更少 两种市场营销策略中那种更有效
与独立样本t检验的区别
对于定量数据,如果方差相等,且服从正态分布
两个独立样本的非参数检验的过程
定序数据;对于定量数据,不满足两个独立样本t检验的条件
曼-惠特尼U检验(Mann-Whitney U)
为检验两总体的中位数是否相等,常用Mann-Whitney U 检验,或称Wilcoxon秩和检验(Wilcoxon rank sum test);
这两种方法是独立提出的,检验结果完全等价的; 分析步骤
建立检验假设,确定显著性水平α :
H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同;
H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。或:
H0:M1=M2;
H1:M1>M2
2、编秩,将两组数据由小到大统一编秩,编秩时如遇有相同数据,取平均秩次。
3、求秩和,两组秩次分别相加。
4、确定统计量
若两组样本容量相等,则任取一组的秩和为统计量;
若两组样本容量不等,则以样本样本容量较小者对应的秩和为统计量。
5、查表确定P值,作出推断结论。若P>α,不能拒绝原假设。
若则P<α,拒绝原假设,认为两总体的分布不相同。
(2)多独立样本非参数检验
对三个或三个以上的总体的均值是否相等进行检验,使用的方法是单因素方差分析 ; 单因素方差分析过程需要假定条件,F检验才有效; 有时候所采集的数据常常不能满足这些条件,K Independent Samples过程 K Independent Samples过程
含义:由样本数据,推断多个独立总体的分布是否存在显著差异(或多个样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的多个总体分布位置比较,可以简化地理解为多个总体中位数的比较。应用范围
各城市儿童身高分布一致吗?
不同收入的居民存(取)款金额分布一致吗?
电信公司人力资源部门比较3所大学雇员的管理业绩是否存在差异? 检验方法
Kruskal-Wallis H :克鲁斯卡尔-沃利斯单因素方差分析最常用,原理同Wilcoxon检验 多个样本间的两两比较 多组独立样本;
每组5个观察值,样本量小,分布类型未知;
考虑采用秩转换的非参数检验方法——Kruskal-Wallis秩和检验。
(3)两/多个配对样本非参数检验
检验两个或多个配对样本所在总体位置是否相同
在不了解总体分布的情况下,通过分析两/多个配对样本,推断样本来自的两/多个总体的分布是否存在显著性差异。Related Samples过程:主要用于检验两个配对样本所在总体分布是否相同 K Related Samples过程:主要用于检验多个配对样本所在总体分布是否相同 界面上基本相同
两个配对样本的非参数检验
含义:由样本数据推断两配对总体分布是否存在显著差异。数据要求
两组配对的样本数据;
两组数据的样本容量相同,先后次序不能任意改变,一一对应; 统计分析步骤
提出基本假设
H0:两配对总体分布无显著差异 H1:两配对总体分布有显著差异 统计决断
P值>α,不能拒绝原假设
P值<α,拒绝原假设
多个配对样本非参数检验
含义:由样本数据推断多个配对总体分布是否存在显著差异。
数据要求:多组配对的样本数据,多组数据的样本容量相同,先后次序不能任意改变,一一对应; 应用范围
三种促销形式的销售额分布一致吗? 收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异 评委打分一致吗? 三种检验方法
Friedman M检验:最常用
Kendall W检验 :和谐系数检验
Cochran Q:要求样本数据为二分类数据(1-满意
0-不满意)检验方法的选择
1)单个样本:若来自正态总体,可用t检验,若来自非正态总体或总体分布无法确定,可用二项检验(二项检验)2)配对样本:
二分类变量,可用McNemar检验;
连续型变量,若来自正态总体,可用配对t检验,否则可用Wilcoxon符号秩和检验。
3)两组独立样本:连续型变量,若来自正态总体,可用t检验,否则,可用 Wilcoxon秩和检验;
二分类变量或无序多分类变量,可用卡方检验;
有序多分类变量,宜用Wilcoxon秩和检验。4)多组独立样本
连续型变量值,来自正态总体且方差相等,可用方差分析;否则,进行数据变换使其满足正态性或方差齐的要求后,采用方差分析;数据变换仍不能满足条件时,可用Kruskal-Wallis秩和检验。
二分类变量或无序多分类变量,可用卡方检验。
有序多分类变量宜用Kruskal-Wallis秩和检验。
第7章 相关分析 概念
相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。相关关系的类型
1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。4)根据研究变量的多少,可分为单相关、复相关。相关分析的作用
1)判断变量之间有无联系
2)确定选择相关关系的表现形式及相关分析方法 3)把握相关关系的方向与密切程度
4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。5)相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等 相关系数
相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。相关系数的数值范围是介于–1与 +1之间(即–1≤ r ≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。
两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。
相关系数的注意事项
1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。2)相关系数r 受变量取值区间大小及样本数目多少的影响比较大。
3)来自于不同群体且不同质的事物的相关系数不能进行比较。4)对于不同类型的数据,计算相关系数的方法也不相同
1.简单相关分析的基本原理
简单相关分析是研究两个变量之间关联程度的统计方法。它主要是通过计算简单相关系数来反映变量之间关系的强弱。一般它有图形(散点图)和数值(一方面应观察相关系数的大小,另一方面,应观察概率P值,其原假设为**不相关)两种表示方式。简单相关系数
1)皮尔逊(Pearson)相关系数
常称为积差相关系数,适用于研究连续变量之间的相关程度。例如,收入和储蓄存款、身高和体重等变量间的线性相关关系。注意Pearson相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,系数的大小并不能代表其相关性的强弱。2)Spearman等级相关系
Spearman等级相关系数是用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性相关分析,适用条件为:
① 两个变量的变量值是以等级次序表示的资料;
②
一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量n不一定大于30。
从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围要比积差相关广泛,它的突出优点是对数据的总体分布、样本大小都不做要求。但缺点是计算精度不高。3)Kendall’s等级相关系数
它是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系。它利用变量的秩计算一致对数目和非一致对数目。
2.偏相关分析的基本原理
方法概述
简单相关分析计算两个变量之间的相互关系,分析两个变量间线性关系的程度。但是现实中,事物之间的联系可能存在于多个主体之间,因此往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度。基本原理
偏相关分析是在相关分析的基础上考虑了两个因素以外的各种作用,或者说在扣除了其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的就在于消除其他变量关联性的传递效应。3.距离分析的基本原理
简单相关分析和偏相关分析有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但在实际中有时会遇到一种情况,在分析前对数据所代表的专业背景知识尚不充分,本身就属于探索性的研究。这时就需要先对各个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步了解,然后再根据结果考虑如何进行深入分析。
距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的P值,而只能给出各变量/记录间的距离大小,以供用户自行判断相似性。
第8章 SPSS的回归分析 1。一元线性回归 方法概述
线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。
一般线性回归的基本步骤如下。
① 确定回归方程中的自变量和因变量。
② 从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。
③ 建立回归方程,在一定统计拟合准则下,估计出模型中的各个参数,得到一个确定的回归方程。
④ 对回归方程进行各种统计检验。
⑤ 利用回归方程进行预测。
注:一元线性回归的经验模型是:Y=β0+β1X 统计检验
在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。
1)输出结果的模型摘要
其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(R Square),校正后的可决系数(adjusted R Square)和回归系数的标准误(Std。Error of the Estimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数R Square的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。
2)输出结果中的方差分析表
它是回归模型显著性检验的结果,所用方法为F检验,其零假设为原方程无效,通过P值来判断原方程是否有效。3)输出结果中的回归系数表
应特别关注回归系数β1 的T检验,它的零假设为β1 =0,通过P值来判断β1 是否有实际意义。
2.多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
其基本步骤与一元回归几乎一致,只是在输出结果的模型摘要中通过观察调整R2 来判断方程的拟合情况,另外,同样可通过折线图来观察模型拟合效果。
3.曲线拟合
实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。
在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法将这些曲线方程转化为线性方程来估计参数。
在选择模型的时候可以结合专业知识多选几种,如同时选择“指数分布”、“逆模型”和“幂函数”,然后在模型汇总中比较R2 的大小,选择最大的一个,同时,注意观察各自的P值,其原假设为其模型无统计学意义。
4.非线性回归分析
非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。通过散点图观察,如果自变量和应变量不能通过线性回归或区县估计来实现,则可以在SPSS通过【分析】-【回归】-【非线性】来实现。
以下是SPSS处理问卷的总结
当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以SPSS为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存。下面将从这四个方面来对问卷的处理做详细的介绍。
SPSS处理:
第一步:定义变量
大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位)、label(变量标签)、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类)。
我们知道在SPSS中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值。现在我们以问卷第一个问题为例来说明变量的设置。为了便于说明,可假设此题为:
1。请问你的年龄属于下面哪一个年龄段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric,width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可。同样道理我们可做如下设置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定义变量缺失值,单击missing框右侧的省略号,会弹出缺失值对话框,界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明。
1。开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value、Missing两项不设置即可。
2。多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍。这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项,即选中该项和不选中该项。现在举例来说明在SPSS中的具体操作。比如如下一例:
请问您通常获取新闻的方式有哪些()1 报纸 2 杂志 3 电视 4 收音机 5 网络
在SPSS中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_
1、3_
2、3_
3、3_
4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可。
使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。到此,我们的定义变量的工作就基本上可以结束了。下面我们要作就是数据的录入了。首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了。
第二步:数据录入
SPSS数据录入有很多方式,大致有一下几种: 1。读取SPSS格式的数据 2。读取Excel等格式的数据
3。读取文本数据(Fixed和Delimiter)4。读取数据库格式数据(分如下两步)(1)配置ODBC(2)在SPSS中通过ODBC和数据库进行
但是对于问卷的数据录入其实很简单,只要在SPSS的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下。
1。在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案。
2。在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5„„。的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题。以次类推。我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入。比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的)。
3。我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据。在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了。
第三步:统计分析
有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择。SPSS有数值分析和作图分析两类方法。
1。作图分析:
在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::
(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。
(2)Interactive:交互式统计图。(3)Map:统计地图。
(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 散点图 线图 直方图 饼图 面积图 箱式图
正态Q-Q图 正态P-P图 质量控制图 Pareto图
自回归曲线图 高低图 交互相关图 序列图 频谱图 误差线图
作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好。
2。数值分析:
SPSS 数值统计分析过程均在Analyze菜单中,包括:
(1)、Reports和Descriptive Statistics:又称为基本统计分析。基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。
Descriptive Statistics包括的统计功能有:
Frequencies(频数分析):作用:了解变量的取值分布情况
Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值进行标准化处理
Explore(探索分析):功能:考察数据的奇异性和分布特征
Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系 Reports包括的统计功能有:
OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。
Case Summaries(观测量列表):察看或打印所需要的变量值 Report Summaries in Row:行形式输出报告 Report Summaries in Columns:列形式输出报告
(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。
以下是进行均值比较及检验的过程:
MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
T test 过程:对样本进行T检验的过程
单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)
配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)one-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。
(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决
(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远
(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic:二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling 最优编码回归;其中最常用的为前面三个。
(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
非参数检验的过程有以下几个: 1。Chi-Square test 卡方检验 2。Binomial test 二项分布检验 3。Runs test 游程检验
4。1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5。2 independent Samples Test 两个独立样本检验 6。K independent Samples Test K个独立样本检验 7。2 related Samples Test 两个相关样本检验 8。K related Samples Test 两个相关样本检验(7)、Data Reduction(因子分析)(8)、Classify(聚类与判别)等等
以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果。
第四步:结果保存
我们的SPSS软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于SPSS软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制﹑粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存。因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果。
总结:
以上便是SPSS处理问卷的四个步骤,四个步骤结束后,我们需要SPSS软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了。值得一提的是。SPSS是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用。
第三篇:用spss对学生成绩进行分析
<
课程设计报告
班 级 姓 名 学 号 指导教师
用统计软件spss分析学生成绩
摘要:应用统计软件spss,对某校一、二班学生语文,数学,英语成绩进行分析。学生成绩分析是考试后老师应做的一项比较麻烦的工作,主要包括:计算平均值和标准差,绘制学生成绩分布直方图等,用统计分析软件spss来进行这类数据的处理,速度快,直观,全面。spss是世界顶尖的统计软件,其功能-几乎涵盖了数理统计的各个方面,适用于自然科学于社会科学各个领域进行分析统计,给人们进行数据分析爱来很大方便。
关键字:频数分析,描述性分析,均值比较,独立样本均值检验
一、数据调查
(1)数据调查方法:由于学校的班级比较多,涉及到学生有上千人,如果对于每一个学生的学习成绩进行普查,会加大工作难度,并且不利于从繁杂的数据中获取信息。因此采用抽样的方法进行数据调查。
(2)数据来源:抽取一班、二班的各十名,共二十名同学,采集语文成绩,数学成绩,英语成绩作为本次统计分析的
表1 学生成绩表(原始数据)
二、spss软件应用分析
1、频数分析
(1)语文成绩的频数分析
由分析可得,语文成绩为86分的最多,占总人数15%(2)数学成绩频数分析
由此得知,数学成绩为60分的人数最多,占总人数的15%。
(3)英语成绩频数分析
有分析得知,英语成绩为78分的人最多。占总人数的15%。
2、描述性统计
有分析得知:语文成绩的最低分是66分,最大值是88分,标准 差是7.725。数学成绩的最低分是40分,最大值是90分,标准差是13.214。英语的最低分是44分,最大值是89分,标准差是10.723 可见,英语的标准差最大,水平相差较大。
3、均值比较
独立样本均值检验 一班和二班的英语成绩
分组统计量表 独立样本均值检验表
由图得知:分组统计量表显示两组数据的样本容量,均值,标准差,和抽样平均误差。一班的英语平均成绩低于二班。独立样本均值检验表包含了两组样本的独立检验统计量。在进行独立样本均值检验时,先利用Levene方差齐次检验统计量判断两组样本对应的总体方差是否相同。Levene检验统计量F=1.828,其对应的显著性水平sig=0.193>0.05,在5%的显著水平不能拒绝这两组样本对应的总体方差相等的假设。P值为0.131>0.5,所以在5%的显著水平下接受。
三、结论
通过上述分析,可以看到,通过用spss数据分析软件,可以对成绩进行分析,很简便的就能求出每科成绩的平均数,标准差,均值检验等,老师可以根据分析结果因材施教,调整教学计划。
第四篇:spss数据分析报告
关于某班级2012考试成绩、获奖情况统计分析
报告
一、数据介绍:
本次分析的数据为某班级学号排列最前的15个人在2012学习、获奖统计表,其中共包含七个变量,分别是:专业、学号、姓名、性别、第一学期的成绩、第二学期的成绩、考级考证数量,通过运用spss统计软件,对变量进行频数分析、描述分析、探索分析、交叉列联表分析,以了解该班级部分同学的综合状况,并分析各变量的分布特点及相互间的关系。
二、原始数据:
三、数据分析
1、频数分析
(1)第一学期考试成绩的频数分析
进行频数分析后将输出两个主要的表格,分别为样本的基本统计量与频数分析的结果
1)样本的基本统计量,如图1所示。样本中共有样本数15个,第一学期的考试成绩平均分为627.00,中位数为628.00,众数为630,标准差为32.859,最小值为568,最大值为675。“第一学期的考试成绩”的第一四分位数是602,第二四分位数为628,第三四分位数为657。
2)“第一学期考试成绩”频数统计表如图2所示。
3)“第一学期考试成绩”Histogram图统计如图3所示。
(2)、第二个学期考试成绩的频数分析
1)样本的基本统计量,如图4所示。第二学期的考试成绩平均分为463.47,中位数为452.00,众数为419,标准差为33.588,最小值为419,最大值为522。“第二学期的考试成绩”的第一四分位数是435,第二四分位数为452,第三四分位数为496。
3)“第二学期考试成绩”频数统计表如图5所示。3)“第二学期考试成绩”饼图统计如图6所
2、描述分析
描述分析与频数分析在相当一部分中是相重的,这里采用描述分析对15位同学的考级考证情况进行分析。
输出的统计结果如图7所示。从图中我们可以看到样本数15,最小值1,最大值4,标准差0.941等统计信息。
3.探索分析。
探索分析能够对变量进行更为深入、详尽的描述性统计分析。下面就利用探索式分析对不同性别的同学获奖情况进行探索分析。
1)在结果输出窗口中将看到如下统计数据。如图8所示,给出了输出的观察量。
2)图9所示给出了根据性别分组的各组描述统计量。根据表中的数据,2012,女生比男生获奖的次数多。
3)图10以茎叶图的形式也直观的呈现了女生获奖数量远远比男生多的现象。,4)图为稳健估计量表,给出了4种不同权重下因变量均值的稳健估计。
5)图11中给出了分组后的百分位数,分别输出男生和女生获奖数量的5%、10%、25%、75%、90%、及95%的百分位数。
4、交叉列联表分析
分析多个变量在不同取值情况下的数据分布情况,从而进一步的分析变量关系。下面就利用交叉列联表分析不同性别学生对目前所学专业的态度。在结果输出窗口中将显示如下统计数据。1)观察量处理摘要表,如图12所示,2)“性别”和“所学专业兴趣”的交叉列联表如图13所示,从图中我们可以看出,男生中对所学专业感兴趣的只有2个,(占22.2%),一般感兴趣的有4人,(占44.4%),不感兴趣的有3人,(占33.3%),理论值为3.6人感兴趣,3.0人一般感兴趣,2.4人不感兴趣,残差分别为-1.6,1.0,0.6。女生中对专业感兴趣的有4人,(占66.7%),一般感兴趣的有1人,(占16.7%),不感兴趣的也有1人,(占16.7%),理论值为2.44人感兴趣,2.0人一般感兴趣,1.6人不感兴趣,残差分别为1.6,-1.0,-0.6.可见,男生对目前所学专业的兴趣与女生有很大差别。
3)图14是交叉分组下的频数分布图,从该图中我们可以很直观的看到数据分布情况。
第五篇:实习总结spss
实习总结
这次实习使用的是spss17.0版本的软件,通过这次实习,我了解到SPSS具有完整的数据输入、编辑、统计分析、图形制作等功能。平日课下进行统计调查技能培训的时候,分析数据所用的软件是Excel。虽然使用Excel可以对数据进行透视、分类、筛选以及计算相关系数等,但是这些操作都需要自己每一步每一步的进行手动操作,而使用SPSS软件在对数据进行整理时,只需对软件某选项内设置变量条件,系统便自动的进行整理。通过这次spss实习,我又入门了一项非常实用的软件,会为以后统计分析提供多一种的选择。下面我会从以下四方面分别阐述这次实习的收获与总结。
做问卷调查
根据指导老师的安排,我需要独自完成6份 《广东高校在校大学生消费使用数码产 品情况》的调查问卷。去广工、广财听宣讲会并且在那里做了两份问卷调查,剩下的4份是以电子版的形式做的问卷调查。在做问卷调查的过程中,为了保证问卷的有效性和准确性,我会认真审核每一份问卷是否填写完整以及前后是否合逻辑。在我的六份问卷调查中,比较容易出现问题的主要在每天使用数码产品的时间,也是在做问卷调查中叮嘱最多的。这都是值得的,因为保证问卷的客观和有效是后面做统计分析的基础。这次实训是全班合作完成问卷,如果是一个人完成30几份的问卷,那么真是一项不容小觑的任务。
Spss入门操作
这一部分主要是根据老师编制的指导书展开。Spss入门操作主要涉及到数据的输入、描述统计分析、假设检验、相关与回归分析。针对每一项都有专门的案例以及相应的练习。个人认为最难的是假设检验这一块,因为《统计学原理》是在之前的学期学习的,统计分析的原理基本上都记不起来,对于输出假设检验结果对问题进行分析方面问题比较大。我自己也回去看了相应的统计学原理,有一定的了解后,进行实操也比较顺利。假设检验主要是
单样本T检验、独立样本T检验、配对样本T检验。独立样本与配对样本的区分很重要,这决定着我需要进行哪种检验以及得出什么样的结论。假设检验中通常都需要先进行方差齐性的F检验,F值小,相应的p值越大,就可以说方差齐性,再进行均值差异是否显著的T检验,T检验中,相应的p值小于显著性水平,就可以认为两个样本的均值存在显著差异。
问卷分析
这部分需要设置多个变量,输入至少30份数据,我选择跟舍友分工合作,我们的数据输入降低到20份左右,彼此共享一部分数据合起来达到30份以上的样本量。对于问卷的分析,主要从以下三方面进行: 大学生基本情况 运用描述性统计分析对大学生每月生活费支出做频率分析、计算均值及离散程度,发现大学生的月生活费支出主要集中在800—1200范围。
运用交叉表分析得出手机、电脑这两种数码产品样本中全部大学生都拥有,其他数码产品的拥有比率各有不同。在这学期当中更换意愿最强的数码产品是手机,并且主要是高年级的学生有更换的打算。
对大学生月生活费支出与月消费数码产品支出做相关与回归分析,发现这两个变量存在较为显著的相关性,一般情况下,大学生月生活费越高,每月在数码产品方面的消费相应也会越高。
数码产品的购买情况
对样本中大学生对数码产品的了解途径、购买方式、倾向性选择、感兴趣的促销手段、能否接受分期付款做频率分析,就目前来讲,大学生主要通过网络了解数码产品,倾向于大陆行货以及港澳台行货,对于打折促销比较感兴趣,大部分大学生还是会选择实体店购买较大宗数码产品,并且对分期付款方式较为能接受。
对所有在用数码产品购买支出、月生活费支出以及月消费数码产品支出做相关与回归分析,发现所有在用数码产品购买支出与月消费数码产品支出存在较强的正相关性,可以说,月消费数码产品支出越高,大学期间够买数码产品总支出越高的可能性就越大。
数码产品的使用情况
对样本中 使用数码产品对作息时间的影响、上课玩手机的频率、数码产品使用时间最长的用途 做描述统计频率分析,发现男生中有更大比例会因为使用数码产品而影响作息时间,数码产品使用时间最长的用途占比最大的是娱乐,基本上所有人都会在课堂上使用数码产品,经常使用的频率达到25.8%。
对使用数码产品对学习的影响利弊进行频率分析,并且对每天花在数码产品上的时间、学生绩点做相关回归分析,大部分学生认为数码产品对学习的影响利弊平衡或者利大于弊。相关性分析显示,大学生每天使用数码产品的时间与学生绩点相关性不强,两者之间没有必然的联系。
通过这次实习,对于spss软件有了一个基本的认识,会对样本进行一些简单的描述性统计分析、假设检验、相关与回归分析,能够将一些数据信息转换成可以直观理解并运用的实用信息,对于以后的学习和工作大有好处。数码产品带给我们极大的便利。基于调查问卷的分析,大学生每天都会花相当一部分时间使用电子产品。学习绩点与每天使用数码产品的时长没有必然联系,不过,的确有一部分同学承认因过度使用数码产品影响作息,同时也会在不同程度上受到他人使用数码产品的影响。大学生应该学会合理控制分配使用数码产品的时间,让自己最大程度地受益。