第一篇:统计分析与SPSS的应用实习报告
广东海洋大学
统计分析与SPSS的应用实习报告
学院(系)专业名称 使用班级 实习地点 起止时间
姓名:班级:
学号:
统计分析与SPSS的应用实习报告
学院(系)
学生姓名
学号 专业实习地点 班级
实习要求:
1、掌握SPSS 软件使用基础;
2、熟练使用 SPSS 进行描述统计、频数分析;
3、使用SPSS进行参数估计,假设检验;
4、使用SPSS进行方差分析;
5、使用SPSS进行相关分析——包括相关图和相关系数;
6、使用SPSS进行一般的回归分析——理解模型的选定、估计、系数及方程的显著性检验、简单的残差分析、预测。
实习目的:
本课程从加强基础、培养学生动手能力、提高素质的教学目标出发,建立一个科学的、合理的统计分析与SPSS的应用这一实验教学课程体系。使学生通过本课程实验教学,不只是加深理解和巩固所学理论知识,而且更能切实掌握各种统计分析方法在统计软件SPSS中的实现,并能正确解释SPSS的运行结果。在实验教学中,同时加强对学生进行科学素质和良好的实验室工作习惯的训练,培养学生的时间意识,为培养具有创新精神和实践能力的高素质人才奠定良好的基础。
实习时间:
实习地点:
实习内容:(对实习过程的描述)
实习体会:
成绩指导教师
日期 第页,共页注:请用A4纸书写,不够另附纸。
※ 打印时删除后面的内容
实习报告撰写的要求
(一)实习报告内容组成:实习报告应包括题目和正文两方面内容。
(二)实习报告撰写内容要求
1、题目:实习报告题目应该简短、明确、有概括性;字数要适当。如有特殊要求,可
加注副标题。
2、正文:正文一般包括序言、实习内容与过程、实习心得体会与收获几部分组成。
(三)实习报告撰写规范
1、实习报告按规定要求,用计算机打印。汉字必须使用国家公布的规范字。纸张选用A4。
2、使用计算机完成实习报告,必须按照如下统一格式打印:(1)封页内容一律按照统一封面的样张式样打印,必须正确无误。(2)题目和标题:①实习报告题目为3号黑体字,可以分为1或2行居中打印。②题目下空二行为实习报告正文。(3)标题:一级标题以三号字黑体居中打印;副标题以四号黑体左起空二格打印。(4)正文:采用小四号宋体字打印。
(四)实习报告的装订:实习报告必须按规定的要求进行装订,装订顺序为:第一页:封面,第二页:题目、正文
第二篇:SPSS统计分析案例
一、事件
近日,教育部考试中心主任戴家干透露,今年高考的全国报名人数为946万余人,比2009年1020万的考生数减少74万人。950万人,1010万人,1050万人,1020万人,956万人„„数据显示,近5年来,前3年全国高考人数一直在攀升。2006年首次突破千万大关,2008年则达到顶峰--1050万人。去年高考人数急转直下,比上一减少30万人,而今年更是减少74万人,是5年来人数减少最多的年份。
戴家干表示,高考报名人数的减少,主要原因是因为我国按毛入学率计算的适龄入学人口数量在逐年下降。
大约在去年这个时候,教育部也透露了高考报名人数,随即在全国范围内,引爆了一条消息——应届高中毕业生84万弃考。这引发了持续较长时间的讨论与关注,或云大学生就业难吓跑考生,或说中国大学教育质量不高难敌国外大学竞争。今年,我很想再看教育部公布的数据,得到弃考人数消息,以作分析(一年的情况往往并不能说明问题,需多年情况),但遗憾的是,教育部却没有公布。
戴主任把报名人数减少归因于适龄人口减少,可我怎么计算,也只能得到这只是其中一方面原因。根据教育部公布的报名数,今年的考生数比去年减少74万,而再看应届毕业生数,今年(803万)比去年(834万)减少31万,两者相差43万。这43万从何而来?
二、数据统计理论
这些数据采用了统计学中普查的方式,对象为全国参加高考的学生。
为了一定的目的而对考查对象进行的全面调查,称为普查。
普查,统计调查的组织形式之一。对统计总体的全部单位进行调查以搜集统计资料的工作。普查资料常被用来说明现象在一定时点上的全面情况。如高考人数调查就是对全国报考参加高考的学生一一进行调查统计,通常一年一次,规定某个特定时点(某年某月某日某时)作为全国统一的统计时点,以反映高考人数的自然和社会的各类特征。
普查的几个特点:
1.需要规定统一的标准时间(上例为2010年高考报名截止日)
2.通常是一次性或周期性的(上例为一年一次)
3.数据的规范化程度较高
4.普查适用的对象比较狭窄,只能调查一些最基本、最一般的现象。组织普查工作必须遵循的原则:
1.必须统一规定调查资料所属的标准时点。
2.正确确定调查期限、选择登记时间。为了提高资料的准确性,一般应选择在调查对象变动较小和登记、填报较为方便的时间,并尽可能在各普查地区同时进行,力求最短时间完成;
3.规定统一的调查项目和计量单位。同种普查,各次基本项目应力求—致,以便历次普查资料的汇总和对比;
4.普查尽可能按一定周期进行,以便于研究现象的发展趋势及其规律性。
三、事件评析
以上事件只可能有两种解释,一是弃考人数增加,二是复读生人数减少。这两个数据,在教育部的账本里都有的,教育部为何不公布,只会引起舆论更多的揣测。比如,有人就推测今年的弃考数可能远高于去年的84万,理由是,如果是复读生在全国范围内大幅减少,教育部定会公布复读生减少消息,因为,这几年来,教育部一直在治理高复班,2008年当有媒体报道高考报名考生中复读生比例高达三分之一时,教育部有关官员还曾“辟谣”说复读生只占到15%。而去年教育部公布高考报名数,却泄露天机,当年的复读生达到270万,占到1020万高考考生的26%。假使那另外减少的43万,主要来自高复班学生减少,那么,教育部是可以“骄傲”地宣布高复学生减少近两成的。现在教育部没有公布这一数据,极有可能的原因是弃考的应届毕业生进一步增加,或超过百万。而这势必会引起媒体进一步关注。质疑大学生就业难、中国大学教育质量的声音会铺天盖地。教育部由此就把数据藏起来。
当然,这些都是“揣测”。我想说的是,引起这样的揣测,是教育部门的失职,而且,教育部门的做法,也违背《信息公开条例》。全民关注的高考报名数据,既非国家机密,也非商业秘密,应该向社会公开,而且公开之后有助于分
析教育发展中存在的问题,同时以便考生选择教育、选择学校——针对弃考增多,需进一步研究弃考的原因,是就业难,还是学费贵,抑或是选择境外高校,不同的原因反映出我国教育的不同问题;针对复读减少,需分析哪种原因,是平行志愿减少高分落榜可能由此减少复读需求,还是实行新课改新高考增加复读难度不再复读,还是公办高中禁办复读班增加复读开支。这不同的原因可检验不同教育政策的实施效果。
教育的发展,离不开研究。教育部门公开教育信息,不仅是本身职责使然,也是进行科学的教育决策的要求。把高考报名数据打闷包,用“适龄入学人口数量减少”归纳报名人数下降主因,这不是科学、负责的教育发展态度。这只能掩盖教育的问题,更可能酿成教育发展的危机——需要提醒的是,假如高复学生大幅减少,适龄学生数也大幅减少,高考招生人数将大于应届毕业生报考人数的局面,在不久的将来马上出现。以今年应届毕业生803万,弃考规模与去年持平(84万)计算,应届高考毕业生报考数为719万,高复学生则为227万,应届毕业生报考数只比高考招生数657万多62万(如果弃考学生增多达到100万,这一数据则为46万)。我国高校需要立即着手应对即将到来的严重的生源危机。
从上述事件可以看出,正确运用统计学原理就能分析事物的本质,抓住问题的关键,才能做到未雨绸缪,防范于未然。
第三篇:spss统计分析实习心得3篇
spss统计分析实习心得3篇
五天的SPSS软件实训终于结束了,虽然实训过程充满了酸甜苦辣,但实训结果却是甜的。看着小组的课题报告,心里有种说不出来的感触。高老师在对统计理论及 SPSS 软件功能模块的讲解的同时更侧重于统计分析在各项工作中的实际应用,使我们不仅掌握 SPSS 软件及技术原理而且学会运用统计方法解决工作和学习中的实际问题这个实训。我真真正正学到了不少知识,另外,也提高了自己分析问题解决问题的能力。
小组中每个人完成不同的任务,我的任务是用独立样本T检验的方法分析市、县及县以下的分类对社会消费品零售总额的影响,分析方差,均值,P值,显著性如何并进行T检验,得出结论报告。结果中比较有用的值为差值变量的均值Mean和Sig显著性在初级统计中,通常都要求所分析的数据呈现正态分布。通过对spss软件对数据的实践处理,我感觉显著性检验问题还是比较简单的,但对具体数据分析的目的性,实用性以及自己在做研究时如何使用,还有待进一步实践和提高。
SPSS 有具体的使用者要求的分析深度,同时是一个可视化的工具,使我们非常容易使用,这样我们可以自己对结果进行检查。电算化老师曾经说过,学习软件其实只是学习软件的操作流程,而要真正掌握整个软件,就得自己摸索探究,真真正正弄懂它,还要下一定的功夫的。我也深刻体会到了这点。前几次实训都是关于会计实验的,虽然时间安排比此次实训紧,任务量大,但实训结束后,基本的试训内容都完全掌握。而这次实训,虽然时间安排较为轻松,内容也不多,操作起来也有一定的难度,另外受外界因素的影响,根本就听不见看不见老师讲的,即便后来老师一讲就去前面,由于没有条件跟着操作,导致一部分内容总是不熟练,请教同学他们也不会,不过,问题也总会用解决的办法。经过我坚持不懈的努力,在本次实训结束之前,我终于弥补了自己不熟练的那部分内容。
学习SPSS软件,对于我们这些将来要时刻与数据打交道的人是有很大的帮助的,它主要的是运用SPSS软件结合所学统计知识对数据进行需要的处理,相对于EXCEL处理,SPSS软件处理不仅效率高,而且操作简单。我个人觉得,SPSS软件是一门专业性较强的课程,对于我们财务管理专业的学生是一门必备的课程,也是一门必须熟练掌握的课程,很庆幸,我是抱着将来要学习运用SPSS软件进行此次实训的。这次实训,使我对统计工作的过程和 SPSS应用的流程取得一定的感性认识,拓展了视野,巩固所学理论知识,提高了分析问题、解决问题的能力,也增强了我的职业意识、劳动观点以及适应社会的能力,最重要的是它使我获得了思想和课题分析处理上的双丰收。
在SPSS学习中,我对它的认识由浅入深,循序渐进,在实践中遇到的各种问题也能逐个攻克。学习这种在日常工作中有价值的分析方法,会使我们更能轻易应付日后的社会的信息工作;掌握这种高级的技能,对我们工作就业也提供了竞争优势.但是,软件的学习并不是一蹴而就的,在这个科技高速发达和知识不断更新的时代,我们应该不断学习不断更新自己的知识体系,争取做一名国家所需要的优秀的统计者。
本学期一周的SPSS软件实训结束了,我感触很深,因为本次实训过程是在共同努力下完成的。实训结果是可喜的。老师在对统计理论及 SPSS 软件功能模块的讲解的同时更侧重于统计分析在各项工作中的实际应用,使我们不仅掌握 SPSS 软件及技术原理而且学会运用统计方法解决工作和学习中的实际问题这个实训。我真真正正学到了不少统计知识,另外,也提高了自己分析问题和解决问题的能力。
SPSS 软件有具体的使用者要求的分析深度,同时是一个可视化的工具,使我们非常容易使用,这样我们可以自己对结果进行检查。我记得老师曾经说过,学习软件其实只是学习软件的操作流程,而要真正掌握整个软件,就得自己摸索探究,真真正正弄懂它,还要下一定的功夫的。我也深刻体会到了这点。这次实训,虽然时间安排较为轻松,内容也不多,操作起来也有一定的难度,一部分内容总是不熟练,请教同学他们也不会,不过,问题也总会用解决的办法。经过我坚持不懈的努力,在本次实训结束之前,我终于弥补了不熟练的那部分内容。
在SPSS学习中,我对它的认识由浅入深,循序渐进,在实践中遇到的各种问题也能逐个攻克。学习这种在日常工作中有价值的分析方法,会使我们更能轻易应付日后的社会的信息工作,掌握这种高级的技能,对我们工作就业也提供了竞争优势。
学习SPSS软件,对于我们这些将来要时刻与数据打交道的人是有很大的帮助的,它主要的是运用SPSS软件结合所学统计知识对数据进行需要的处理,相对于EXCEL处理,SPSS软件处理不仅效率高,而且操作简单。
我个人觉得,SPSS软件是一门专业性较强的课程,对于我们国际经济与贸易专业的学生是一门必备的课程,也是一门必须熟练掌握的课程,我是很喜欢本次的SPSS软件实训的。这次实训,使我对统计工作的过程和 SPSS应用的流程取得一定的感性认识,拓展了视野,巩固所学理论知识,提高了分析问题、解决问题的能力,也增强了我的职业意识、劳动观点以及适应社会的能力,最重要的是它使我获得了思想和课题分析处理上的双丰收。但是,软件的学习并不是一蹴而就的,在这个科技高速发达和知识不断更新的时代,我们应该不断学习不断更新自己的知识体系。最后,要感谢老师的认真指导。
通过本次的教学实习,使我们对统计工作有了一个初步的认识,以及统计软件在
统计工作中应用的重要性和方便性,认识实习的目的认识实习的目的就在于让同学们初步了解企业的基本情况,了解信息收集,处理过程加强感性认识,为以后专业理论课程的学习特别是毕业设计奠定必要的实践基础。就是要我们把所学的知识运用到实践中。学习了统计学软件SPSS,有力的将理论知识与实践联系在一起,并且进一步掌握了理论知识;其次,通过老师对普查与政府统计机构的讲解,使我对统计的了解更加深刻。这次认识实习可以说是理论与实践的联系,校园与社会的联系,使我了解社会统计工作的轮廓,使我对统计在现实中的运作有所了解,也对统计也有了进一步的掌握。使同学们对统计工作的过程和 SPSS应用的流程取得一定的感性认识,拓展了视野,巩固所学理论知识,提高了分析问题、解决问题的能力,增强了学生职业意识、劳动观点以及适应社会的能力,使学生获得业务和思想双丰收。
现在我将近期的实习的过程感受汇总如下:SPSS 有具体的使用者要求的分析深度,同时是一个可视化的工具,使我们非常容易使用,这样我们可以自己对结果进行检查。我觉得我们可以在全校范围内把 SPSS 作为数据分析工具进行推广,向学生提供日常工作需要的有价值的分析技术。如果我们能够掌握这种高级技术,毕业后就能够轻易地应付来信息社会和商业世界的挑战。在这次短学期实习中,我第一次接触到了统计分析软件spss,并对其进行了基本的学习。
首先,我们学习了数据编辑窗口的几个部分:窗口主菜单、工具栏、数据编辑区、系统状态显示区等,并先后学习了这几个部分的操作步骤及计算出的数据所表示的意义。通过学习,我深刻的体会到要想学会一套软件的操作,远没有我想象的那么容易,尤其是这套spss统计软件。学习软件的基本操作相对来讲是容易的,但要理解每一个步骤的意义及每一组所计算出来的数据的代表内容,就要付出更多的精力和时间。在学习过程中,细心和耐心是很必要的。在某些操作中,比如说spss线形回归的操作步骤,只要稍微马虎一些,就会弄错,导致操作结果错误。通过这次在实验室的认识实习,我们不仅对spss这套统计软件有了初步的认识,而且掌握了一些基本的spss的操作,但更重要的是,我学会了如何去学习一种操作软件,如何去理解统计学这门学科。
近两周的短学期实习,使我对统计学有了更深刻的理解,并且更加深刻的体会到了一位统计工作人员所必备的严谨的态度和一丝不苟的精神。正所谓实践出真知,通过实践,我发现自己在课堂上所掌握的理论知识还很不扎实,专业英语也不是很过关。在应用软件分析出的数据中,有很多都不知道是什么意思,还有的数据概念模糊,这都是在今后的学习中需要改进和加强的。我想,这对我今后的学习是有何大帮助的。总之,这次的短学期学习给我们很大的感触,对今后的学习还是将来的工作都有了一定的帮助,统计是一门理论性很强的课程,要求我们一定要统计知识的重要性,才能在将来做一名合格的统计工作者,为国家奉贤。
第四篇:《SPSS统计分析与应用》论文 关于某市对广告偏好的数据分析报告 2
北京师范大学网络教育课程论文
课程代码:
课程名称: 0544 SPSS统计分析与应用》
学习中心
姓 名
学 号
专 业
年 级 《关于某市对广告偏好的数据分析报告
一、引言
电视商业在新世纪以来的高速发展,让它成为了企业为产品的销售提供了巨大的作用。首先,商业广告可以为企业提供良好的社会形象,在市场经济的新体制下,经营商品,增强企业的活力,离不开广告的支持,广告就是让世界发现你。其次,商业电视广告企业可以成为企业促进商品销售的直接宣传手段。现代工商业的一个最显著的特点,就是大规模的产品生产与销售。由于社会化大生产的高度发展,形成了市场商品品种繁多,同类产品品牌众多的局面,市场竞争十分激烈。在这种情况下,广告成为工商企业促进商品销售的直接宣传手段。
通过以上的论述,于是在网上收集到关于某市广告偏好情况的调查数据,由于是以市场调查的形式,所以数据是以问卷形式呈现,在此给出的汇总后的数据结果。在此我们对该市的广告偏好采用SPSS软件进行相关数据分析。
二、数据来源
本数据是在市场调查的基础上得到的,其来源是以问卷形式得到的,在此我们提取了部分数据,以分析某市广告偏好的情况。
三、基本情况分析
被调查者年龄的分析,如下所示:
从图中可以看出,被调查者的趋势呈钟形,而且是右偏。被调查者学历的分析,如下图所示:
从上面的图中可以看出,大学(大专)学历的人占了很大一部分,比率占到了51.1%,其余的高中学历、初中及以下学历、研究生以上学历各占26.2%、18.1%、4.5%,比例相对较少。利用交叉表,比较不同的性别对广告宣传态度,如下图所示:
a.3 单元格(30.0%)的期望计数少于 5。最小期望计数为 3.07。
根据上面的图示,Pearson卡方检验,P值是0.818(如果置信水平设为95%),这表示男女在广告宣传态度中没有差异。而持没有多大感觉的人占绝大多数。
利用交叉表,比较不同年龄的南昌市居民对于广告宣传的态度,如下图所示:
卡方检验
根据上图,Pearson卡方检验的p值是0.048(如上把置信水平设为95%),这表示不同年龄阶段的人对于广告宣传态度有差异。
利用交叉表,分析不同学历的人对于广告宣传的态度,如下图所示:
根据上图,Pearson卡方检验的p值是0.164(如上把置信水平设为95%),这表示不同学历的人对于广告宣传态度没有差异。
广告词分析,如下图所示:
如上图所示,有累积概率62.4%的居民认为会或者肯定会因为一句广告词而对商品产生深刻印象。而只有9.9%的居民表示不会或者肯定不会因为一句广告词而对商品产生印象,这表明广告词占据十分重要的地位。
广告词类型分析,广告词类型的多选项分析,如下图所示:
根据上图所示,广告词类型多选项分析中,在有效的个案中,选择幽默诙谐的广告词的份额最大,这表明有很多居民喜欢幽默诙谐的广告词,因此在广告制作过程中,走幽默搞笑路线是可行之路。
广告时间长度和广告播放时间段的分析,如下图所示:
以上表明大部分居民都认为广告时间长度不应该过于长,应该适宜,15-30秒是最好的选择。
根据上图所示,在晚上看电视的居民达到41.2%,也有13.6%和14.5%的居民选择在8时-11时和11时-14时之间接触到广告。
背景音乐在衣食住行各个方面的分析,如下图分析:
综上所述,在衣食住行的选择中,依据最多的居民选择,即是最大概率中,服装是选择愉悦休闲类得,食品类是选择愉悦休闲类,住房家具类选择轻柔舒缓类,交通工具类选择的是热情奔放类的。
广告画面的分析,如下所示;$广告画面多选项
根据上图所示,居民在选择广告画面时,有47.1%和40.7%的居民选择了真人代言和风景版的广告画面。
根据上面的广告画面与学历的交叉表所示,不同学历的人在选择广告画面时没有差异,都时选择真人代言的比较多。
居民信任的广告形式的分析:
$广告形式
根据上图所示,我们知道在广告形式的选择中,大部分的人集中选择了经典语录、问换传承、情感方式(它们的百分比分别是23%、23%、29.9%)的广告形式。
广告宣传应该突出强调的内容分析:
$宣传内容
根据上图,产品的质量保证占了38.6%,产品的功能占了26.3%,其他占据了少数,说明广告中应该突出强调其产品的质量保证和功能,而对企业信息则关注较少。
广告形式对销售额的单因素方差分析
从广告形式对销售额的单因素方差分析结果。可以看出,观测变量销售额的总离差平方和为26169.306;如果仅考虑广告形式单个因素的影响,则销售额总变差中,广告形式可解释的变量为:5866.083,抽样误差引起的变差为:20303.222,它们的方差分别入上图所示。如果显著性水平α=0.05,由于概率P值小于显著性水平,则拒绝零假设,认为不同广告形式对销售产生了显著影响。
广告满意度与观众学历的参数检验分析
由分析结果可知,第一步,F统计量的观察值为:0.9684,对应P;显然如果显著性水平α=0.05,则显然概率大于0.05,因此认为两总体的方差无显著差异;第二步,关于均值检验的分析。显然P小于0.05,应该拒绝原假设,也就是说两者存在显著差异。
广告前与广告后对商品购买意愿的分析
图中表明广告前和广告后平均值有较大差异,而且在显著性水平α=0.05时,观众选择购买的意愿在前后并没有明显的线性变化,其线性相关程度较弱。同时,在0.05的显著性水平上,应该拒绝原假设,认为购买意愿的平均值与0有显著不同,意味着前后存在显著差异,认为广告对提高观众购买意愿有一定提高。
研究不同类型广告对观众偏好的影响
从散点图可以看出,前后的偏好都呈较为明显的线性关系,而斜率类似。可以做协方差分析。
如上是协方差分析的过程。
广告的时间、广告的内容与观众偏好的相关分析
从中可以看出,观众偏好与观众时间的简单相关系数为0.959,与广告内容的为:0.952,而他们的相关系数检验的P近似为0.所以如果0.05或0.01是显著性水平的话,则拒绝零假设,而且两总体存在线性关系。
偏相关分析
偏相关分析过程以及结果说明了,即使控制广告内容,依旧改变不了广告时间与观众偏好的 显著线性关系。
线性回归分析:
以上就是回归分析的输出结果,其中有向后筛选的策略,可以看出其中线性回归的结果。
曲线估计
可以发现两变量呈现非线性关系,可以尝试二次、三次曲线、复合函数等模型,利用曲线估计进行本质线性模型分析也是可以的。
四、数据分析结论
通过广告偏好数据各个环节的分析,包括频数分析、统计图形的建立、交叉表的制定、以及参数检验、非参数检验、方差分析、相关回归分析等统计的分析过程,得出每一个结论,每一个步骤都会更加深刻揭露数据的特征、数据的结构和内部特点,都可以帮助我们更好地去分析关于广告偏好的问题。同时也给出相关建议。
在居民调查的结果中,在广告宣传内容方面,企业不光要注意广告的外在内容,更应该在广告强调产品质量,功能特性。其中功能包括其产品的实用性、耐用性、多功能性,还有应该在广告中提及做出的承诺以提升其品牌。还有,居民在广告的时间选择和观看时间方面,也提出了很多的建议,其中居民认为广告的播放不应该太集中,应该注意广告的播放时间段。还有广告宣传,不是仅仅反应在广告的时间长度,居民认为广告不应该太长,在15-30秒适宜。居民坚持认为广告注重的不是时间长度,而是广告中对于产品的宣传。广告宣传对于企业的形象也有很大的关系,所以对于企业品牌的树立,在广告宣传中也应该做出很大的努力。居民认为广告宣传的量对于产品的质量以及功能并没有很大的关系,但是与企业的品牌有很大的关系。因此,企业在树立品牌阶段,应该重点注意广告宣传。
第五篇:spss 17中文版统计分析典型实例精粹
第3章 SPSS基础统计描述
SPSS基础统计描述是进行统计分析的基础和前提。使用一些数学统计量来直观地描述原始数据的集中程度、离散状况和分布情况,之后就可以对数据的总体特征进行较为准确的归纳,从而便于选择合适的统计分析方法。基础统计描述主要包括数据描述、频数分析、探索分析、交叉列联表分析、P-P图、Q-Q图等,下面将具体介绍。
3.1 数理统计量概述
SPSS在描述性统计分析中,提供了多个统计量来描述数据特征,这些统计量包括均值、中位数、众数、方差、标准差、四分位数、十分位数、百分位数、峰度系数、偏度系数等。在进行描述性统计分析之前,首先要对这些统计量在统计学上的定义及其计算公式有所了解。
3.1.1 均值(Mean)和均值标准误差(S.E.Mean)
均值(平均数、平均值)表示的是某个变量所有取值的集中趋势或平均水平。例如,某班学生数学考试的平均成绩、公司员工的平均收入、某年级学生的平均身高、某高校高招录取平均分等。
平均数有总体平均数和样本平均数之分。
总体平均数:若一组数据X1,X2,……,XN代表一个大小为N的有限总体,则其总体平均数为:
样本平均数:若一组数据x1,x2,……,xn代表一个大小为n的有限样本,则其样本平均数为: 样本数据是从总体数据中抽取出来的,但在不同次抽样中得到的样本是不同的。虽然在一定程度上,样本数据可以反映总体数据的特征,但由于抽样等原因,样本数据是总体数据的随机变量。同样,虽然样本均值可以反映总体数据的特征,但在不同次抽样中所得的样本均值是不同的,并且它们与总体均值间存在差异。
均值标准误差(Standard Error of Mean,S.E.Mean,简称标准误)就是描述这些样本均值与总体均值之间平均差异程度的统计量。
3.1.2 中位数(Median)
中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据等分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数列中的位置,不受极端值的影响,因此可以用它表示总体的一般水平。同时,中位数比算术平均数具有更好的稳定性。
一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列,如果N为奇数,那么该数列的中位数就是 位置上的数;如果N为偶数,中位数则是该数列中第 与第 位置上的两个数值的平均数。3.1.3 众数(Mode)
众数是指总体数据中出现次数最多的变量,用Mode表示。它同样不受数据极端值的影响,从而在一定程度上提高了平均水平的代表性。例如,制衣厂可以根据消费者所需服装尺码的众数来安排生产。此外,如果众数的值出现的频数或频率较大,那么说明众数的代表性就越高,数列的集中趋势也就越显著。
确定众数没有明确的公式,一般只能用手工统计,故较为烦琐。SPSS所提供的统计功能可以减少诸如此类烦琐的过程。
众数、中位数与算术平均数之间存在一定的关系,这种关系决定于总体分布的状况。当总体分布呈对称的钟形分布时,算术平均数位于分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和算术平均数三者相等。当总体分布呈非对称的钟形分布时,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系。当分布右偏时,算术平均数受偏高数值影响较大,其位置必然在众数之右,中位数在众数与算术平均数之间。反之,当次数分布左偏时,算术平均数受偏小数值的影响较大,其位置在众数之左,中位数仍在众数与算术平均数之间。以上的均值、中位数和众数都是反映数据集中趋势的统计量。3.1.4 全距(Range)
全距,又称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差,借以表明总体标志值最大可能的差异范围。全距越长,说明数据越离散;反之,全距越小,说明数据越集中。
用符号表示全距的计算公式为:
全距的缺点在于其方法过于粗略,因为它只考虑总体两端数值的差异,没有考虑中间数值差异的情况,因而它是测定离散程度的一种粗略的方法,不能全面反映总体数据的差异程度。要充分利用每一个数据的信息,就需要利用方差和标准差。
3.1.5 方差(Variance)和标准差(Standard Deviation)
方差是总体所有变量值与其算术平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。
其中,为总体平均数,为样本平均数,N为总体的个数,n为样本的个数。虽然标准差有计量单位,而方差无计量单位,但两者的作用一样,故在此仅介绍标准差。标准差用平方的方法消除了正负号,因而它是最常用、最重要的离散趋势统计量。标准差越大,表示变量值之间的差异越大,各数据距离均值越远,则平均数的代表性就越低。反之,标准差越小,表示变量值之间的差异越小,各数据距离均值较近,则平均数的代表性就越高。
标准差在实际生活中也有广泛的应用。例如,可以用标准差来测定居民收入分配的差异程度,还可以用来反映平均收支、平均结余、平均产量等经济变量的代表性等。
全距、方差和标准差都是反映数据离散趋势的统计量。3.1.6 峰度(Kurtosis)和偏度(Skewness)
峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。
峰度的具体计算公式为:
偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。
偏度的具体计算公式为:
3.1.7 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散。
与四分位数类似,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与这9个点位置上相对应的数值称为十分位数,分别记为D1,D2,……,D9,表示10%的数据落在D1下,20%的数据落在D2下,……,90%的数据落在D9下。
同理,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的数值称为百分位数,分别记为P1,P2,……,P99,表示1%的数据落在P1下,2%的数据落在P2下,……,99%的数据落在P99下。
通过四分位数、十分位数和百分位数,可以大体看出总体数据在哪个区间内更为集中,也就是说,它们在一定程度上可以反映数据的分布情况。
上面的峰度系数、偏度系数和四分位数、十分位数、百分位数,都是反映数据分布状况的统计量。3.2 数据描述
描述性统计分析是对数据进行基础性的描述。通过得出的数据的平均值(Mean)、和(Sum)、标准差(Std deviation)、最大值(Max)、最小值(Min)、方差(Variance)、全距(Range)、均值标准误差(S.E.Mean)、峰度(Kurtosis)、偏度(Skewness)等统计量,来估计原始数据的集中程度、离散状况和分布情况。
数据描述功能的操作步骤如下:
打开【分析】(Analyze)菜单,选择【描述统计】(Descriptive Statistics)命令下的【描述】(Descriptives)命令,如图3-1所示。
这里,需要提醒的是如果数据文件尚未打开,【分析】(Analyze)菜单下的任一功能都不能使用,SPSS会弹出一个对话框,如图3-2所示,提醒用户打开文件。打开文件后,【分析】(Analyze)菜单下的统计功能才能正常使用。选择【描述】(Descriptives)命令后,SPSS将打开“描述性”(Descriptives)对话框,如图3-3所示。在该主对话框中,用户可以通过单击 按钮从左边原变量中选择一个或者几个变量进入右边的“变量”(Variable(s))列表框中。
对话框底部有一个“将标准化得分另存为变量”(Save standardized values as variables)复选框,选择该项,将对“变量”(Variable(s))列表框中被选中变量的数据进行标准化,然后将标准化的结果保存到新变量中。新变量的变量名为原变量的变量名前面添加字母“z”,并被添加在数据编辑窗口中变量的最后一列。
数据标准化的计算公式为:
通过标准化,可以将均值为、标准差为 的原变量转化成均值为0、标准差为1的新变量。
“描述性”(Descriptives)主对话框的下端有5个按钮,如果还未将左边原变量中的变量添加至“变量”(Variable(s))列表框中,则【确定】(OK)和【粘贴】(Paste)按钮为灰白显示,不可单击,但【重置】(Reset)、【取消】(Cancel)和【帮助】(Help)按钮可以单击。通过单击【重置】(Reset)按钮,用户可以将已进入右框的变量全部转移至左框的变量列表中,重新进行选择。
单击【选项】(Options)按钮,将打开“描述:选项”(Descriptives:Options)对话框,如图3-4所示。在该对话框中,用户可以选择所要统计的统计量和图表输出方式。具体对话框中各选项的意义如下:
(1)在对话框中最上面一行是均值(Mean)和合计(Sum)。
(2)离散(Dispersion)栏中的统计量包括:
标准差(Std Deviation)最小值(Minimum)
方差(Variance)最大值(Maximum)
范围(极差)(Range)均值的标准误(S.E.Mean)
(3)分布(Distribution)栏中的统计量包括:
峰度(Kurtosis)偏度(Skewness)
(4)显示顺序(Display Order)栏中,用户可以自行选择输出变量的排序方式,包括: 变量列表(Variable List):在结果输出窗口中,用户选择输出的变量将按照变量在数据编辑窗口中原来的排列顺序进行排列。
字母顺序(Alphabetic):在结果输出窗口中,用户选择输出的变量将按照变量名的字母排列顺序进行排列。
按均值的升序排序(Ascending Means):SPSS将计算每个输出变量的平均值,并按照平均值从小到大对输出变量的顺序进行排列。
按均值的降序排序(Descending Means):SPSS将计算每个输出变量的平均值,并按照平均值从大到小对输出变量的顺序进行排列。
用户可在“选项”(Options)对话框第一行、离散(Dispersion)栏和分布(Distribution)栏中,选中所需统计的统计量(可多项选择)。SPSS默认的描述统计量包括均值、标准差、最小值、最大值。在“显示顺序”(Display Order)一栏里,用户只可选择一种变量排序方式,SPSS的默认选项为“变量列表”(Variable List)。
进行选择后,单击【继续】(Continue)按钮,即可返回“描述性”(Descriptives)主对话框。
单击【确定】(OK)按钮,即可在结果输出窗口中得到描述性统计分析结果输出表格。
3.3 频数分析
对于一组数据,考察不同的数值出现的频数,或者是数据落入指定区域内的频数,可以了解数据的分布状况。从SPSS15.0开始就提供了“频数分析”这一功能。通过频数分析,用户在得到描述性统计结果的同时,还能了解变量取值的分布情况,从而使总体数据的分布通过频数分析得到更为清晰、准确的输出。
频数分析的具体操作步骤如下:
打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【频率】(Frequencies)命令。SPSS将弹出“频率”(Frequencies)主对话框,如图3-5所示。在该主对话框中,同样可以通过单击 按钮从左边的原变量中选择一个或者几个变量进入右边的“变量”(Variable(s))列表框中。
对话框底部有一项“显示频率表格”(Display frequency tables)复选框,SPSS默认选择此项。选择此项后,输出结果将显示频数分布表,否则只显示直方图,不显示频数分布表。
“频率”主对话框的右方有3个按钮,从上到下依次为【统计量】(Statistics)按钮、【图表】(Charts)按钮和【格式】(Format)按钮。单击可进入对应对话框。
单击【统计量】按钮,打开“频率:统计量”(Frequencies:Statistics)对话框,如图3-6所示。在该对话框中,用户可以选择所要统计的统计量。对话框中各选项的具体意义如下:
(1)百分位值(Percentile Values)栏为复选项,在此栏中可选择多项。
四分位数(Quartile)
割点(Cut points):选择此项,在后面的文本框中输入数值,假设为N(N为在2 100之间的整数),则计算并显示N分位数。
百分位数(Percentile(s)):选择此项,在后面的文本框中输入数值,可以有选择地显示百分位数。在文本框中可以输入0到100之间的数,输入后,单击【添加】(Add)按钮,将对应的百分位数添加到方框内的列表框中,利用【更改】(Change)按钮和【删除】(Remove)按钮,可以对列表框中的选项进行修改和删除。
(2)离散(Dispersion)栏(复选项):
标准差(Std Deviation)最小值(Minimum)方差(Variance)最大值(Maximum)
范围(极差)(Range)均值的标准误(S.E.Mean)
(3)集中趋势(Central Tendency)栏(复选项):
均值(Mean)、中位数(Median)、众数(Mode)、合计(Sum)。
“集中趋势”栏下方有一个“值为组的中点”(Values are group midpoints)复选框,如果假设数据已经分组,而且数据取值为初始分组的中点,选择此项,将计算百分位数统计和数据的中位数。
(4)分布栏(Distribution)(复选项):
峰度(Kurtosis)、偏度(Skewness)。
用户在“频率:统计量”对话框中单击选中所要统计的统计量后,单击【继续】(Continue)按钮,即可返回主对话框。
单击【图表】(Charts)按钮,打开“频率:图表”(Frequencies:Charts)对话框,如图3-7所示。
在该对话框中,用户可以选择频数分析的图表类型。该对话框中各选项的具体意义如下:
(1)图表类型(Chart Type)(单选项):无(None)(系统默认选项)、条形图(Bar charts)、饼形图(Pie charts)、直方图(Histograms)。
如果选择输出“直方图”,可以选择是否在输出的直方图中添加正态分布曲线。如果需要输出正态分布曲线,则可勾选“带正态曲线”(With normal curve)复选框。(2)图表值(Chart Values)(单选项组):可选择图形中分类值的表现形式。
频率(Frequencies):如果图表类型是直方图,则直方图的纵轴为频数;如果图表类型是饼形图,则饼形图中每块表示属于该组观测值的频数。
百分比(Percentage):如果图表类型是直方图,则直方图的纵轴为百分比;如果图表类型是饼形图,则饼形图中每块表示该组的观测量数占总数的百分比。
用户在“频率:图表”对话框中选择图表类型和图表分类值后,单击【继续】(Continue)按钮,即可返回主对话框。
单击【格式】(Format)按钮,打开“频率:格式”(Frequencies:Format)对话框,如图3-8所示。在该对话框中,用户可以设置频率分布表的输出格式。对话框中各选项的意义如下:
(1)排序方式(Order by)栏:单选项组,用户可以选择频数分布表中数值及其对应频率的排列顺序。
按值的升序排序(Ascending values):系统默认选项,频数分布表中将按照数值从小到大排列。
按值的降序排序(Descending values):频数分布表中将按照数值从大到小排列。
按计数的升序排序(Ascending counts):频数分布表中将按照计数从小到大排列。
按计数的降序排序(Descending counts):频数分布表中将按照计数从大到小排列。
如果用户在“频率:图表”对话框中选择输出直方图,频数分布表将按照数值顺序排列。
(2)多个变量(Multiple Variables)栏:单选项组,当“频率(Frequencies)”主对话框的“变量”(Variable(s))列表框中有多个变量时,利用“多个变量”栏可以设置表格的显示方式。
比较变量(Compare variables):系统默认选项,SPSS将所有变量的描述统计的结果显示在同一张表格中,方便用户进行比较分析。
按变量组织输出(Organize output by variable):SPSS将对应每个变量分别输出单独的描述统计表格。
在“频率:格式”对话框的底端,有一个“最大类别数”(Suppress tables with more than n categories)文本框。通过输入数值,确定频数表输出的方位,即输出数据的组数不得大于窗口中输入的数值。分类数最大参数的默认值是10。用户在“频率:格式”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“频率”主对话框。一般情况下,对“频率:格式”对话框的选项都默认为系统默认值,不作调整。
单击【确定】(OK)按钮,即可在结果输出窗口中得到频数分布表、描述性统计分析输出表格和用户选择的对应的输出图形。
3.4 探索分析
探索分析是在对数据的基本特征统计量有初步了解的基础上,对数据进行的更为深入详细的描述性观察分析。它在一般描述性统计指标的基础上,增加了有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。主要的分析如下:
(1)观察数据的分布特征:通过绘制箱锁图和茎叶图等图形,直观地反映数据的分布形式和数据的一些规律,包括考察数据中是否存在异常值等。过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实地反映数据的总体特征。
(2)正态分布检验:检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此,检验数据是否符合正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。
(3)方差齐性检验:用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前,就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平(Significance)小于0.05,那么就可以拒绝方差相同的假设。
探索分析的具体操作步骤如下:
打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【探索】(Explore)命令,SPSS将弹出“探索”(Explore)对话框,如图3-9所示。
在“探索”(Explore)对话框中,左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入右边的“因变量列表”(Dependent List)框、“因子列表”(Factor List)框和“标注个案”(Label Cases by)列表框。因变量是用户所研究的目标变量。因子变量是影响因变量的因素,例如分组变量。标注个案是区分每个观测量的变量,如雇员的ID等。例如,研究同一班级男生和女生的身高差距时,就可将“身高”变量列入“因变量列表”(Dependent List)框中,将“性别”列入“因子列表”(Factor List)框中,同时将学生的“学号”变量列入“标注个案”(Label Cases by)列表框中。
如果有多个分组变量进入“因子列表”列表框中,那么会以分组变量的各种取值进行组合分组。如两个分组变量各有2种取值,那么输出的结果就会有4种组合分组。
在对话框下端的“输出”(Display)框中有三个选项:
两者都(Both):默认选项,表示同时输出描述统计量的统计表格和图形。选择此项将激活右边的【统计量】(Statistics)和【绘制】(Plots)按钮。
统计量(Statistics):表示只输出统计表格,不输出图表。选择此项将激活右边的【统计量】(Statistics)按钮,【绘制】(Plots)按钮不被激活。
图(Plots):表示只输出图表,不输出统计表格。选择此项将激活右边的【绘制】(Plots)按钮,【统计量】(Statistics)按钮不被激活。
单击【统计量】(Statistics)按钮,打开“探索:统计量(Explore:Statistics)”对话框,如图3-10所示。在该对话框中,4个选择项分别如下:
描述性(Descriptives):选择此项,将生成描述性统计表格。表中显示样本数据的描述统计量,包括平均值、中位数、5%调整平均数、标准误、方差、标准差、最大值、最小值、组距、四分位数、峰度、偏度及峰度和偏度的标准误。此项为默认选项,在下面的“均值的置信区间”(Confidence Interval for Mean)文本框中,用户还可输入数值指定均值的置信区间的置信度,系统默认的置信度为95%。
M-估计量(M-estimators):选择此项,将计算并生成稳健估计量。M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化,通过给远离中心值的数据赋予较小的权重来减小异常值的影响。
界外值(Outliers):选择此项,将输出分析数据中的5个最大值和5个最小值作为异常嫌疑值。
百分位数(Percentiles):选择此项,将计算并显示指定的百分位数,包括5%、10%、25%、50%、75%、90%和95%等。
“探索:统计量”对话框中的4个选项为复选框,用户可进行多项选择,单击【继续】(Continue)按钮,即可返回“探索”主对话框。
单击【绘制】(Plots)按钮,打开“探索:图”(Explore:Plots)对话框,如图3-11所示。“探索:图”对话框中有如下4个选择组:
(1)箱图(Boxplots)栏(单选项组):箱图,又称箱锁图。如果用户在“探索”主对话框的“因变量列表”(Dependent List)框中输入了多个变量名,则在此选择组中进行选择,可确定箱锁图的生成方式。箱锁图中,底部的水平线段是数据的最小值(异常点除外),顶部的水平线段是数据的最大值(异常点除外),中间矩形箱子的底所在的位置是数据的第一个四分位数(即25%分位数),箱子顶部所在位置是数据的第三个四分位数据(即75%分位数)。箱子中间的水平线段刻画的是数据的中位数(即50%分位数)。
按因子水平分组(Factor levels together,系统默认):选择此项,将为每个因变量创建一个箱锁图,在每个箱锁图内根据分组变量的不同水平的取值创建箱形单元。
不分组(Dependents together):选择此项,将为每个分组变量的水平创建一个箱锁图,在每个箱锁图内用不同的颜色区分不同因变量所对应的箱形单元,方便用户进行比较。
无(None):选择此项,不创建箱图。
(2)描述性(Descriptive)栏(复选项):选择该组内的选项,可以生成茎叶图和(或)直方图。在箱图(Boxplots)组内选择的选项不同,则生成的茎叶图和直方图也不相同。选择“按因子水平分组”单选按钮时,在创建茎叶图和(或)直方图时,首先会根据因变量的不同进行分类,为每一个因变量对应的不同分组变量的不同水平创建一个茎叶图和(或)直方图;选择“不分组”单选按钮时,在创建茎叶图和(或)直方图时,则首先根据不同分组变量水平的不同,为每一个因变量创建一个茎叶图和(或)直方图。
茎叶图(Stem-and-leaf,系统默认):茎叶图主要由3个部分组成,即频率(Frequency)、茎(Stem)和叶(Leaf),在图中按从左到右的顺序依次排列,在图的底端,注明了茎的宽度(Stem Width)和每一叶所代表的观测量数(Each Leaf)。茎叶图中,茎表示数据的整数部分,叶表示数据的小数部分(小数位数只有一位,频数的数值有多大,则对应的小数就有多少个),将茎和叶的数值组合起来再乘以茎宽,便是该数据的值。由于茎叶图不仅仅能表示数据的频数分布,还能近似地表示数据的大小,因此它比直方图表达的信息更全面。
直方图(Histogram):直接绘制直方图的步骤详见第10章。
(3)带检验的正态图(Normality plots with test,复选框):选择此项,将进行正态性检验,并生成正态Q-Q概率图和无趋势正态Q-Q概率图。
(4)伸展与级别Levene检验(Spread vs level with Levene Test)栏(单选项组):对所有的展布-水平图进行方差齐性检验和数据转换,同时输出回归直线的斜率及方差齐性的Levene检验,但如果没有指定分组变量,则此选项无效。
无(None):不进行Levene检验,系统默认。选择此项,SPSS将不产生回归直线的斜率和方差齐性检验。
幂估计(Power Estimation):对每组数据产生一个中位数的自然对数及四个分位数的自然对数的散点图。
已转换(Transformed):变换原始数据,用户可在后面的参数框中选择数据变换类型。
未转换(Untransformed):不变换原始数据时选择此项。
用户在“探索:图”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“探索”主对话框。
单击【选项】(Options)按钮,打开“探索:选项”(Explore:Options)对话框,如图3-12所示。在该对话框中,可选择缺失值的处理方式,SPSS提供了3种处理方式:
按列表排除个案(Exclude cases listwise,系统默认):选择此项,对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据;
按对排除个案(Exclude cases pairwise):同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据,在其他分析过程中可能包含缺失值;
报告值(Report values):选择此项,将分组变量的缺失值单独分为一组,在输出频数表的同时输出缺失值。
用户在“探索:选项”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“探索”主对话框。
单击【确定】(OK)按钮,即可在结果输出窗口中得到探索分析过程的数据概述、基本统计描述表、极端值列表、正态分布检验、方差齐性检验、茎叶图、直方图、箱锁图、正态分布Q-Q图、离散正态分布Q-Q图等图表。
3.5 交叉列联表分析
在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。
因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。
常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。
SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。
在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:
(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为:
其中,f0表示实际观察频数,fe表示期望频数。
卡方统计量服从(行数 1)(列数 1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。
(2)列联系数(Contingency coefficient):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式如下:(3)系数(Phi and Cramer's V):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式如下:
系数介于0和1之间,其中,K为行数和列数较小的实际数。
交叉列联表分析的具体操作步骤如下:
打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【交叉表】(Crosstabs)命令。“交叉表”(Crosstabs)主对话框如图3-13所示。
在该主对话框中,左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入右边的“行”(Row(s))变量列表框、“列”(Column(s))变量列表框和“层”(Layer)变量列表框中。如果是二维列联表分析,只需选择行列变量即可,但如进行三维以上的列联表分析,可以将其他变量作为控制变量选到“层”(Layer)变量列表框中。有多个层控制变量时,可以根据实际的分析要求确定它们的层次,既可以是同层次的也可以是逐层叠加的。
在“交叉表”对话框底端有两个可选择项:
显示复式条形图(Display clustered bar chart):指定绘制各个变量不同交叉取值下关于频数分布的柱形图;
取消表格(Suppress table):不输出列联表的具体表格,而直接显示交叉列联表分析过程中的统计量,如果没有选中统计量,则不产生任何结果。所以,一般情况下,只有在分析行列变量间关系时选择此项。
该对话框的右端有4个按钮,从上到下依次为【精确】(Exact)按钮、【统计量】(Statistics)按钮、【单元格】(Cells)按钮和【格式】(Format)按钮。单击可进入对应的对话框。
单击【精确】(Exact)按钮,打开“精确检验”(Exact Tests)对话框,如图3-14所示。
该对话框提供了3种用于不同条件的检验方式来检验行列变量的相关性。用户可选择以下3种检验方式之一:
仅渐近法(Asymptotic only):适用于具有渐近分布的大样本数据,SPSS默认选择该项。
Monte Carlo(蒙特卡罗法):此项为精确显著性水平值的无偏估计,无需数据具有渐近分布的假设,是一种非常有效的计算确切显著性水平的方法。在“置信水平”(Confidence Level)参数框内输入数据,可以确定置信区间的大小,一般为90、95、99。在“样本数”(Number of samples)参数框中可以输入数据的样本容量。
精确(Exact):观察结果概率,同时在下面的“每个检验的时间限制为”(Time limit per test)的参数框内,选择进行精确检验的最大时间限度。
用户在本对话框内进行选择后,单击【继续】(Continue)按钮即可返回“交叉表”主对话框。一般情况下,“精确检验”(Exact Tests)对话框的选项都默认为系统默认值,不作调整。单击【统计量】(Statistics)按钮,打开“交叉表:统计量”(Crosstabs:Statistics)对话框,如图3-15所示。
在该对话框中,用户可以选择输出合适的统计检验统计量。对话框中各选项的意义如下:
(1)卡方(Chi-square)检验复选框:检验列联表行列变量的独立性检验,也被称为Pearson chi-square检验、χ2检验。
(2)相关性(Correlations)检验复选框:输出列联表行列变量的Pearson相关系数或Spearman相关系数。
(3)名义(Nominal)栏:适用于名称变量统计量。
相依系数(Contingency coefficient):即Pearson相关系数或Spearman相关系数。
Phi 和Cramer变量(系数):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,如公式(3.13)所示。ψ系数介于0和1之间,其中,K为行数和列数较小的实际数。Lambda(λ系数):在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。
不定性系数(Uncertainty coefficient):以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度上来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
(4)有序(Ordinal)栏:适用于有序变量的统计量。
Gamma(伽马系数,γ系数):两有序变量之间的关联性的对称检验。其数值界于0和1之间,所有观察实际数集中于左上角和右下角时,取值为1,表示两个变量之间有很强的相关;取值为0时,表示两个变量之间相互独立。
Somers'd值:两有序变量之间的关联性的检验,取值范围为[-1,1]。
Kendall s tau-b值:考虑有结的秩或等级变量关联性的非参数检验,相同的观察值选入计算过程中,取值范围为[-1,1]。Kendall s tau-c值:忽略有结的秩或等级变量关联性的非参数检验,相同的观察值不选入计算过程,取值范围界为[-1,1]。
(5)按区间标定(Nominal by interval)栏:适用于一个名义变量与一个等距变量的相关性检验。
Kappa系数:检验数据内部的一致性,仅适用于具有相同分类值和相同分类数量的变量交叉表。
Eta值:其平方值可认为是因变量受不同因素影响所致方差的比例。
风险(相对危险度):检验事件发生和某因素之间的关联性。
McNemar检验:主要用于检验配对的资料率(相当于配对卡方检验)。
(6)Cochran's and Mantel-Haenszel统计量复选框:适用于在一个二值因素变量和一个二值响应变量之间的独立性检验。
用户在“交叉表:统计量”对话框中进行选择后,单击【继续】(Continue),即可返回“交叉表”(Crosstabs)主对话框。一般情况下,对“交叉表:统计量”对话框内的选项不作选择或选择较为常用的卡方检验。
单击【单元格】(Cells)按钮,打开“交叉表:单元显示”(Crosstabs:Cell Display)对话框,如图3-16所示。在该对话框中,用户可以指定列联表单元格中的输出内容。SPSS17.0默认在交叉列联表中输出实际的观察值,但观察值有时候不能确切地反映事物的实质,因此还需要输出其他的数据项。对话框中各选项的具体意义如下:
(1)计数(Counts)栏:
观察值(Observed):系统默认选项,表示输出为实际观察值。
期望值(Expected):表示输出为理论值。
(2)百分比(Percentages)栏:
行(Row)百分比:以行为单元,统计行变量的百分比。
列(Column)百分比:以列为单元,统计列变量的百分比。
总计(Total)百分比:行列变量的百分比都进行输出。
(3)残差(Residuals)栏: 未标准化(Unstandardized):输出非标准化残差,为实际数与理论数的差值。
标准化(Standardized):输出标准化残差,为实际数与理论数的差值除以理论数。
调节的标准化(Adjusted standardized):输出修正标准化残差,为标准误确定的单元格残差。
(4)非整数权重(Noninteger Weights)栏:
四舍五入单元格计数(Round cell counts,系统默认):将单元格计数的非整数部分的尾数四舍五入为整数。
截短单元格计数(Truncate cell counts):将单元格计数的非整数部分的尾数舍去,直接化为整数。
四舍五入个案权重(Round case Weights):将观测量权数的非整数部分的尾数四舍五入为整数。
截短个案权重(Truncate case Weights):将观测量权数的非整数部分的尾数舍去,化为整数。
无调节(No adjustments):不对计数数据进行调整。
用户在“交叉表:单元显示”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“交叉表”主对话框。一般情况下,对“交叉表:单元显示”对话框的选项都默认为系统默认值,不作调整。
单击【格式】(Format)按钮,打开“交叉表:表格格式”(Crosstabs:Table Format)对话框,如图3-17所示。
在该对话框中,用户可以指定列联表的输出排列顺序。对话框中各选项的具体意义如下:
在行序(Row Order)栏中有如下两个选项: 升序(Ascending):系统默认,以升序显示各变量值;
降序(Descending):以降序显示各变量值。
用户在该对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“交叉表”主对话框。
在“交叉表”对话框中单击【确定】(OK)按钮,可在输出窗口中得到数据概述、交叉列联表、卡方检验表、交叉分组下频率分布柱形图、相对危险性估计等图表。
3.6 比率分析
比率分析主要用于对两个变量间变量值的比率变化进行描述分析,适用于定距型变量(scale)。例如,可以对受处分的学生和没受处分的学生的上网时间与用计算机的时间进行比率分析。
比率分析生成比率变量,并对该比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),进而刻画出比率变量的集中趋势和离散程度。除此之外,SPSS17.0还提供了其他对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴。
打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【比率】(Ratio)命令。打开“比值统计量”(Ratio Statistics)对话框(软件翻译为“比值”,但准确的术语应是“比率”),如图3-18所示。在该主对话框中,左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入右边的“分子”(Numerator)变量列表框、“分母”(Denominator)变量列表框和“组变量”(Group Variable)列表框中。进行不同组间的比率比较时,需要将变量分组,将变量选择到“组变量”(Group Variable)列表框中后,可以选择将变量按照分组变量进行升序或者降序排列。
“比值统计量”对话框的左下角有如下两个复选框:
显示结果(Display results,系统默认)
将结果保存到外部文件(Save results to external file):如果选择该项,【文件】(File)按钮被激活,单击【文件】(File)按钮可将输出结果保存至用户指定的位置。
该对话框的右下角是【统计量】(Statistics)按钮,单击它将打开“比率统计量:统计量”(Ratio Statistics:Statistics)对话框。
单击【统计量】(Statistics)按钮,打开“比率统计量:统计量”对话框,如图3-19所示。在该对话框中,用户可以选择比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),并描述比率变量的集中趋势和离散程度。对话框中各选项的具体意义如下:
(1)集中趋势(Central Tendency)栏(复选项):
中位数(Median)
均值(Mean)
权重均值(Weighted Mean):指两变量均值的比。
置信区间(Confidence intervals):默认置信区间的置信度为95%。
(2)离散(Dispersion)栏(复选项)
AAD(Average Absolute Deviation,平均绝对离差),其计算公式为:
其中,Ri是比率数,M是比率变量的中位数,N为样本数。
COD(Coefficient of Dispersion,离散系数),其计算公式为:
PRD(Price-related Differential,相关价格微分):是比率均值与加权比率均值的比。
中位数居中COV(Median Centered COV):计算公式为: 均值居中COV(Mean Centered COV):通常意义下的变异系数,即标准差除以均值。
(3)集中指数(Concentration Index)栏:
在以下比例之间(Ratios Between):通过在低比例(Low Proportion)和高比例(High Proportion)后面的文本框中输入数值,可以控制比率的范围。输入后,单击【添加】(Add)按钮,将对应的比率范围添加到方框内的列表框中,利用【更改】(Change)按钮和【删除】(Remove)按钮,可以对列表框中的选项进行修改和删除。
在以下比例之内(Ratios Within):通过在中位数的%(% of median)前面的文本框中输入数值,可以控制比率相对于中位数的范围。输入后,单击【添加】(Add)按钮,将对应的比率限制条件添加到方框内的列表框中,利用【更改】(Change)按钮和【删除】(Remove)按钮,可以对列表框中的选项进行修改和删除。
用户在本对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“比值统计量”(Ratio Statistics)主对话框。
在“比值统计量”主对话框中单击【确定】(OK)按钮,可在输出窗口中得到分组描述结果和比率分析结果等图表。
3.7 P-P图和Q-Q图
P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。如果P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。
Q-Q图同样可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。
由于P-P图和Q-Q图的用途完全相同,只是检验方法存在差异,SPSS17.0中用于做出P-P图的对话框和用于做出Q-Q图的对话框完全一致,下面将对两者统一加以说明。具体操作步骤如下:
打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【P-P图】(P-P Plots)或【Q-Q图】(Q-Q Plots)命令。“P-P图”(P-P Plots)、“Q-Q图”(Q-Q Plots)的对话框分别如图3-20和图3-21所示。
在“P-P图”(P-P Plots)或“Q-Q图”(Q-Q Plots)对话框中,最左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入位于对话框中间的“变量”(Variables)列表框中。根据这些变量数据可创建P-P图或Q-Q图,并进行分布检验。
“P-P图”或“Q-Q图”对话框的中下方和右方有5个选项栏,选项栏中各选项的意义如下:
(1)转换(Transform)栏(复选项):
自然对数转换(Natural log transform):选择此项,对当前变量的数据取自然对数,即将原有变量转换成以自然数e为底的对数变量。
标准值(Standardize values):选择此项,将当前变量的数据转换为标准值,即转换后变量数据的均值为0,方差为1。差分(Difference):选择此项,对当前变量的数据进行差分转换,即利用变量中连续数据之间的差值来转换数据。选择此项以后,后面的文本框变为可用,在其中输入一个正整数,以确定转换的差分度,默认值为1。
季节性差分(Seasonally difference):用于确定指明计算时间序列的季节差分。只有在对当前变量的数据序列定义了周期(通过主菜单中的【数据】(Data)菜单中的【定义日期】(Define Dates)选项定义)以后才可用,如果当前周期为0,将不能计算季节差分。选择此项,在后面的文本框中输入正整数,然后根据该正整数所确定的范围来计算该范围内数据的差值,并用该差值来转换原数据。
需要注意的是,这些数据转换并不改变变量中的变量值,只影响正态概率图。
(2)检验分布(Test Distribution)栏:可选择不同的分布类型,检验变量数据是否符合所选分布。单击选项分布栏下的箭头可选择不同的分布类型。SPSS默认的检验分布是正态分布(Normal)。
P-P图(或Q-Q图)可检验的分布包括:
贝塔分布(Beta)T分布(Student t)
卡方分布(Chi-square)伽马分布(Gamma)
指数分布(Exponential)半正态分布(Half-normal)
Logistic分布(Logistic)拉普拉斯分布(Laplace)
对数正态分布(Lognormal)威布尔分布(Weibull)
正态分布(Normal)均匀分布(Uniform)
帕累托分布(Pareto)
dt:在该文本框中输入正整数,表示所选分布的自由度。
(3)分布参数(Distribution Parameters)栏:在该栏中可输入所选分布类型的参数,选择的分布不同,参数输入窗口也不同。
从数据中估计(Estimate from data):为系统默认选项。选择此项,系统将自动从数据中推测数据分布的参数,否则就要在该选项下方的参数框中根据需要自行指定。位置(Location)参数窗口:选择正态分布时,用户自行输入位置参数。
比例(Scale)参数窗口:选择正态分布时,用户自行输入比例参数。
(4)比例估计公式(Proportion Estimation Formula)栏(单选项组)
以上公式中,n表示观测量的数目,r是从1到n的秩次。
(5)为结指定的秩(Rank Assigned to Ties)栏(单选项组):
均值(Mean):用连接值的平均秩指定顺序。
高(High):用连接值的最大秩指定顺序。
低(High):用连接值的最小秩指定顺序。
强制打开结(Break ties arbitrarily):忽略观测量权重的影响。
3.8 图表绘制
进行数字统计分析时,有时我们需要绘制统计图表,把资料所反映的变化趋势、数量多少、分布状态和相互关系等形象直观地表现出来,以便于读者的阅读、比较和分析。SPSS的【图形】(Graphs)菜单提供了绘制图表的功能,主要包括3个子菜单:【图表建立】(Chart Builder)命令相当于图表向导,它对SPSS的绘图功能作了粗略的介绍,初学者可以大致了解SPSS的绘图能力;【交互图表】(Interactive)命令主要涵盖了SPSS各种复杂的交互性图表;【旧对话框】(Legacy Dialogs)命令主要包括多种SPSS传统的常用的统计报表,下面重点讲解。
3.8.1 条形图
条形图(Bar Charts),又称带形图或柱形图,它是利用相同宽度的条形的长短或高低来表现统计数据大小或变动的统计图。
绘制条形图的具体操作步骤如下:
打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【条形图】(Bar Charts)命令,SPSS将弹出“条形图”(Bar Charts)导航对话框,如图3-22所示。
在该导航对话框中,用户可以选择条形图的类型,并定义条形图中数据的表达方式。
SPSS将条形图大致分为3种类型:
简单(Simple):单式条形图,各个条形相互独立; 复式条形图(Clustered):分组条形图,每组的相邻两个或多个条形左右连接,以方便进行组间比较;
堆积面积图(Stacked):分段条形图,同一组的条形图上下连接,以方便进行组与组之间的互相比较。
在图3-22下部的“图表中的数据为”(Data in Chart are)栏,用户可以选择的条形图中数据的表达类型如下:
个案组摘要(Summaries for groups of cases):用分类值作图,条形图中每一条代表观测量的一个分类;
各个变量的摘要(Summaries of separate variables):用变量值作图,条形图中每一条代表一个变量;
个案值(Values of individual cases):用单元值作图,条形图中每一条代表一个观察值。
通过以上3个条形图类型和3个数据的表达方式的不同搭配,SPSS可以生成9种不同的条形图。本书以用户选择“简单”(Simple)条形图和“个案组摘要”(Summaries for groups of cases)为例,阐述条形图的绘制步骤,如果用户需要制作其他类型的条形图,请参看简单条形图绘制的类似步骤。
单击【定义】(Define)按钮,进入正式的条形图定义对话框“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for groups of cases)对话框,如图3-23所示。根据用户所选的条形图类型和数据表达方式的不同,出现的对话框名称也不同,但对话框的主体内容大致相同。
在该对话框中,用户可以选择条形图绘制的相关细节。
“条的表征”(Bar Present)栏中,用户可以选择以下条形图中条所代表的统计量:
个案数(N of cases):按照分组变量分组后各组的观测量个数;
个案数的%(% of cases):按照分组变量分组后各组的观测量个数占总观测量个数的百分比;
累积个数:观测量数的累计数目;
累积%:观测量数的累计百分比;
其他统计量(Other statistics):用户可以自行定义条形图中的统计量。选中该选项,下面的“变量”(Variable)列表框被激活,用户需要通过单击 按钮从左边原变量中选择一个分析变量进入“变量”(Variable)列表框中,然后单击【更改统计量】(Change Statistics)按钮,SPSS将弹出“统计量”(Statistic)对话框,如图3-24所示。
在该对话框中,用户可以选择需要计算的描述统计量作为条形图中的统计量。对话框中的描述统计量包括:
值的均值(Mean of values):按照分组变量分组后,以分析变量的均值作为条形图中的统计量;
值的中位数(Median of values):按照分组变量分组后,以分析变量的中位数作为条形图中的统计量;
值的众数(Mode of values):按照分组变量分组后,以分析变量的众数作为条形图中的统计量;
个案数(Number of cases):按照分组变量分组后,以分析变量的样本个数作为条形图中的统计量;
值的和(Sum of values):按照分组变量分组后,以分析变量数据的总和作为条形图中的统计量;
标准差(Standard deviation):按照分组变量分组后,以分析变量的标准差作为条形图中的统计量;
方差(Variance):按照分组变量分组后,以分析变量的方差作为条形图中的统计量; 最小值(Minimum value):按照分组变量分组后,以分析变量的最小值作为条形图中的统计量;
最大值(Maximum value):按照分组变量分组后,以分析变量的最大值作为条形图中的统计量;
累计求和(Calculative sum):按照分组变量分组后,以分析变量的累计总和作为条形图中的统计量。
在该对话框的中部,用户可以在“值”(Value)文本框中输入数值或者百分数,然后选择相关选项,SPSS将对数值或百分数上侧或下侧的观测量按照大小进行筛选。
在该对话框的下部,用户可以在“低”(Low)和“高”(High)文本框中输入数值或者百分数,然后选择对应选项,SPSS将按照大小对观测量在限定范围内进行筛选。
对话框底部的“值是组中点”(Values are grouped midpoints)复选框只有在用户选择“值的中位数”(Median of values)或者“百分位”(Percentile)时,才被激活。选中该选项,则表明数据分布为频数分布表的格式,输出的条形图中的统计量为分组的中值。
选择条形图中的统计量后,单击【继续】(Continue)按钮,即可返回到“定义简单条形图:个案组摘要”主对话框中。
接下来,需要指定做图变量。在“类别轴”(Category Axis)列表框中,用户需要通过单击 按钮从左边原变量中选择一个变量作为分类变量(也称为分组变量)。条形图中每个条形的长度分别代表对应各组的统计量的值。
模板(Template):用户可以选中该选项,并单击【文件】(File)按钮选择模板文件,作为散点图的格式模板。
单击【标题】(Titles)按钮,打开“标题”(Titles)对话框,如图3-25所示。在该对话框中,用户可以定义散点图的标题、子标题和脚注。
(1)标题(Title)和子标题(Subtitle):通过输入,用户可以定义两行标题和一行子标题。标题和子标题将在散点图上方显示。用户也可以在结果输出窗口中定义标题。
(2)脚注(Footnote):通过输入,用户可以定义两行脚注,脚注将在散点图下方显示。
输入标题后,单击【继续】(Continue)按钮,即可返回“定义简单条形图:个案组摘要”主对话框中。
单击【选项】(Options)按钮,打开“选项”(Options)对话框,如图3-26所示。
在该对话框中,用户可以指定缺失值的处理方式和误差条的设定形式。
(1)缺失值(Missing Values)栏:用户可以定义分析中对缺失值的处理方式,包括按列表排除个案(Exclude cases listwise)和按变量顺序排除个案(Exclude cases variable by variable)。为尽可能充分利用数据,SPSS默认选择前者。
(2)误差条图的表征(Error Bars Represent)栏:用户可以选择设定置信区间(Confidence intervals)、标准误(Standard Error)或者标准差(Standard deviation)条件,并显示误差条图。
指定缺失值的处理方式和误差条的设定形式后,单击【继续】(Continue)按钮,即可返回“定义简单条形图:个案组摘要”主对话框中。
在“定义简单条形:个案组摘要”主对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到简单条形图。
3.8.2 线图 线图(Line Charts),又称曲线图,它是利用点的高低来表明数据升降情况的一种统计图。通过将不同阶段的数据点连接,可以更清晰地表明数据的变化趋势。线图主要用于时间序列分析、数据分配情况比较和两变量依存关系的分析等。
绘制线图的具体操作步骤如下:
打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【线图】(Line Charts)命令,SPSS将弹出“线图”(Line Charts)导航对话框,如图3-27所示。
在该导航对话框中,用户可以选择线图的类型,并定义线图中数据的表达方式。
SPSS将线图大致分为3种类型:
(1)简单(Simple):单线图,一个图形中只有一条水平走向的折线;
(2)多线线图(Multiple):多线图,一个图形中有多条水平走向的折线;
(3)垂直线图(Drop-line):垂线图,一个图形中有多组水平走向的数据,但在水平方向上不予以连接,而只是在垂直方向上将同一时间点的数据予以连接。
图表中的数据为(Data in Chart are)栏:用户可以选择以下的条形图中的数据表达类型: 个案组摘要(Summaries for groups of cases):用分类值作图,线图中每一条线代表观测量的一个分类;
各个变量的摘要(Summaries of separate variables):用变量值作图,线图中每一条线代表一个变量;
个案值(Values of individual cases):用单元值作图,线图中每一条线代表一个观察值。
通过以上3个线图类型和3个数据表达类型的不同搭配,SPSS可以生成9种不同的线图。本书以用户选择“简单”线图和“个案组摘要”为例,阐述线图的绘制步骤。
单击【定义】(Define)按钮,进入正式的定义对话框“定义简单线图:个案组摘要”(Define Simple Line:Summaries for groups of cases)对话框,如图3-28所示。根据用户所选的线图类型和数据表达类型的不同,出现的对话框名称也不同。
在该对话框中,用户首先需要指定绘图变量,即通过单击 按钮从左边原变量中选择多个需要绘制折线图的变量进入右边的“线的表征”(Lines Represent)中。绘图变量的数值将在线图的纵轴上表示。同时,用户需要指定分类变量。用户可以选择以“个案数”(Case number),即观测量的编号作为分类变量,也可以选中“变量”(Variable)选项,然后单击 按钮选择一个变量作为分类变量。例如,在时间序列分析中,用户就可以将时间变量作为分类变量。分类变量的数值将在线图的横轴上表示。
本对话框的其他部分及单击【标题】(Title)按钮所弹出的“标题”(Title)对话框都与“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for Groups of Cases)对话框完全相同,此处不再赘述。
在“定义简单线图:个案组摘要”主对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到线图。
3.8.3 面积图
面积图(Area Charts),又称区域图,是用面积来表现连续性的频数分布的统计图。面积越大,频数越多,反之亦然。制作面积图的原始数据大多为频数分布表。
绘制面积图的具体操作步骤如下:
打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【面积图】(Area Charts)命令,SPSS将弹出“面积图”(Area Charts)导航对话框,如图3-29所示。
在该导航对话框中,用户可以选择面积图的类型,并定义面积图中数据的表达方式。
SPSS将面积图大致分为以下两种类型:
(1)简单(Simple):简单面积图,图形中只有一个区域表示频数大小;
(2)堆积面积图(Stacked):图形由多个不同颜色的区域从下到上堆积而成,不同的区域表示不同类型的频率大小。
“面积图”(Area Charts)导航对话框中的“图表中的数据为”(Data in Chart are)栏与条形图、线图的导航对话框该栏的内容相同,不再赘述。
通过以上两个面积图类型和三个数据表达类型的不同搭配,SPSS可以生成6种不同的面积图。本书以用户选择“简单”面积图和“个案组摘要”为例,阐述面积图的绘制步骤。单击【定义】(Define)按钮,进入“定义简单面积图:个案组摘要”(Define Simple Area:Summaries for groups of cases)对话框,如图3-30所示。根据用户所选的面积图类型和数据表达方式的不同,出现的对话框名称也不同。
本对话框与“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for Groups of Cases)对话框几乎完全相同,此处不再赘述。
在本主对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到面积图。
3.8.4 饼形图
饼形图(Pie Charts)是用扇形的大小来表示数值大小的统计图。饼形图简单易懂,并且便于比较,因此,饼形图的制图过程使用最为广泛。
绘制饼形图的具体操作步骤如下:
打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【饼图】(Pie Charts)命令,SPSS将弹出“饼图”(Pie Charts)导航对话框,如图3-31所示。在该导航对话框中,用户可以定义饼形图中数据的表达方式。
“饼图”导航对话框中只有“图表中的数据为”(Data in Chart are)一栏,并且与条形图、线图、面积图的导航对话框该栏的内容相同,此处不再赘述。
根据3个不同的数据表达方式,SPSS可以生成3种不同的面积图。本书以用户选择“个案组的摘要”(Summaries for groups of cases)为例,阐述饼形图的绘制步骤,如果用户需要制作其他类型的饼图,请举一反三学习类似的步骤。
单击【定义】(Define)按钮,进入“定义饼图:个案组摘要”(Define Pie:Summaries for groups of cases)对话框,如图3-32所示。根据用户所选的数据表达方式的不同,出现的对话框名称也不同。
在本对话框中,用户可以选择饼形图绘制的相关细节。
分区的表征(Bar Present)栏:用户可以选择饼形图中扇形切片所代表的统计量。
个案数(N of cases):按照分组变量分组后各组的观测量个数。个案数的%(% of cases):按照分组变量分组后各组的观测量个数占总观测量个数的百分比。
变量和(Sum of variables):按照分组变量分组后,用户可以选择另一变量并以该变量的总和作为切片统计量的表达方式。选中该选项,下面的“变量”(Variable)列表框被激活,用户需要通过单击 按钮从左边原变量中选择一个计算总和的变量进入“变量”(Variable)列表框中。
在“定义分区”(Define Slices by)列表框中,用户需要单击 按钮从左边原变量列表中指定一个分类变量作为不同扇形的识别变量。
该对话框的其他部分及【标题】(Title)按钮、【选项】(Options)按钮都与“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for Groups of Cases)对话框完全相同,此处不再赘述。
在本对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到饼形图。
3.8.5 高低图
高低图(High-Low Charts)是用多个垂直线段来表示数值区域的统计图,例如一组测定值的范围(最小值-最大值)、95%置信区间(下限-上限)、±1.96·SD(低值-均值-高值)等。
绘制高低图的具体操作步骤如下:
打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)下的【高低图】(High-Low Charts)命令,SPSS将弹出“高-低图”(High-Low Charts)导航对话框,如图3-33所示。
在该导航对话框中,用户可以选择高低图的类型,并定义高低图中数据的表达方式。