第一篇:预防医学spss软件总结
一、Spss软件的特点:①功能强大:能够完成多项功能,包括:建立数据库、资料编辑、统计分析、统计表制作和统计图绘制。理论上讲,只要计算机硬盘和内存足够大,SPSS可以处理任意大小的数据文件,不限制变量个数和观测(观察单位)个数。②分析功能齐全:几乎能够完成所有的统计分析,包括数值变量资料(计量资料)、分类变量(计数资料)的统计分析方法,非参数检验方法,以及多元回归分析。③操作简便,易学实用:界面为窗口式,因而简便易学,特别适用于非统计专业人员学习和使用。④直接可以调用Excel 等许多数据进行分析。
一、spss界面:SPSS主界面上,有10个下拉菜单,单击菜单可以完成各项功能。10个菜单为:①文件;②编辑;③视图;④数据;⑤转换;
带美元符号的数值型变量元格,点击“复制”,;
(Dollar):显示时数字前带有$,用用鼠标左键拖动所有希望填入该值的逗号做分割符,用圆点做小数与整数单元格区域; 间的分界符。单击右键,点击“粘贴”。2)日期型变量(Date): 须按指定的(二)、利用值标签检查录入错误:将格式进行输入。其格式有: 变量按照“数值型变量”进行设置,mm-dd-yy: 月月-日日-年年 然后设置“值标签”;在快捷键中选择 mm-dd-yyyy:月月-日日-年年年年 “值标签”快捷键,单击之,变量值 Mm/dd/yy: 月月/日日/年年 即会切换成相应的值标签; mm/dd/yyyy:月月/日日/年年年年 如果发现缺失值或无标签的数值,即实际上,日期型存储的是该时间与为录入中出现的错误。1582年10月14日零点相差的秒数; 第二章 可以用两个时间变量的差值
一、数据文件的整理:数据文件的整/(60*60*24*365=86400*365)来计算理是我们在分析前或分析中对数据所两个时间相差的年数 做的分类、排序、行列转置、数据文(3)字符型变量(String):字符型件的合并和分割,以及观测的选择和变量不能参与运算,因此在设置为字加权等。符型变量时要考虑到这一点。
数据文件的整理是为进一步分析变量的其它属性:1。变量值标签做好准备。(values): 4.测度
二、计算变量:在数据分析中常常需(measurement)2。列宽(column)要对某个变量值进行计算和进行变量个案,不创建组)analyze all cases, dot
not creat groups”,确定即可。第三章
一、统计图的绘制原则:1)根据资料的性质和分析目的,选择合适的图形;
(2)统计图的标题用简明扼要的语言说明图的内容,放于图的下方;
(3)纵坐标和横坐标要注明标目,有单位时要注明单位;
(4)一张图中同时表达几个事物时,要用不同的图案或不同的颜色表达不同的部分。
二、统计图的绘制过程:
1、建立数据文件;
2、根据分析目的和数据类型选择适当图形;
3、作图;
4、对图进行编辑
三、条图与误差条图:单式条图
2、复式条图
3、分段条图:用分段表示频数
4、误差条图 ① 指定可信度(一般为95%)可信区间:95%CI ② 均值±指定倍数的标准差(最常见为2SD)③ 均值±指定倍数的标准误(最常见为2倍标准⑥统计分析;⑦作图;⑧工具;⑨ 窗口转换(Windows);⑩ 帮助(Help)
二、观测(Case):即指研究的个体(观察对象)。在SPSS 的数据文件中用“行”表示。观测个数即观察对象的个数。
变量(Variable): 指研究对象的某种特征,即研究的指标,如身高、体重等,在SPSS数据文件中用“列”表示。列数即为变量的个数。每一个变量只能占一列位置,即同一指标的测量值应在同一列出现。
三、数据文件的建立:1)打开“数据视图”:启动SPSS可直接进入此窗口,或点击菜单中的“文件”中的“新建”也可进入该窗口。(2)定义变量属性:打开变量视图(variable view),必须对变量名、变量类型进行定义,必要时应对其长度和变量标签进行定义。(3)数据录入:打开数据视图(data view)进行数据录入。(4)保存数据文件:用快捷键存盘,或打开菜单用保存(Save)或另存为(Save as)将文件存入指定路径,系统则生成扩展名为.sav的SPSS数据文件。
四、数据文件的保存:
保存对话框中按钮的“变量”,可用来选择保存于数据库中的变量,可以全选,也可以选择某些变量保存成一个独立的文件。
如果打开一个已有文件,可以用该法选择需要的变量组成新的文件,以便于分析。
六、分析结果的保存和导出:分析结果会在output窗口展现,可用save/save as保存结果。但此文件只能用SPSS软件才能打开。可以将打开的output窗口中的结果,利用Export转成Word文档进行保存。
也可将结果中有用的表格,拷贝到Word文档进行保存和编辑。
七、变量:
变量有4种比较重要的属性:变量名,类型,标签和变量长度
定义一个变量至少要定义变量名和变量类型,变量标签和变量长度可采用默认值。
变量名(name):每一个变量必须有变量名,最大不超过256个字符。第一字符不能是数字,后可跟除“?”、“!”、“*”字符或数字。变量名也可汉字表示。
注意:变量名不区分大小写字母。在一个文件中文件名不能重复使用。
八、变量的类型:三种基本类型:数值型、字符型和日期型
(1)数值型:即数值变量,可进行运算。分为5类
标准数值型变量(Numeric): 默认总长度为8;小数点2位。
带逗号的数值型变量(Comma): 数值显示时整数部分自右向左每3位用逗号做分割符,用圆点做整数与小数的分割符。
圆点数值型变量(Dot):数值显示时整数部分自右向左每3位用圆点做分割符,用逗号做整数与小数的分割符。
科学记数法(Scienmtific noation):可有指数部分也可没有,指数的字母可用E也可用D。如1.23E2或 1.23D2。5.缺失值(missing)3。对齐方式(align)
九、变量标签和变量值标签:
1、变量标签(Variable labels): 是对变量进行的附加说明和进一步解释。变量标签可以定义也可不进行定义。如:
变量名 变量标签 sex 性别 T101 第1题
2、变量值标签(values): 是对变量值进行注释。如:
变量名 变量值标签 sex 1=男 2=女
文化程度 1=小学 2=初中 3=高中 4=大专及以上
十、度量测度:(1)定义的变量必须是数值变量;
(2)数值之间是有大小的区别的; 序号测量:用于表示有序分类,比如用4、3、2、1,分别代表优、良、中、差,只表示等级,这里的4不表示为2的等级。名义测量:数值仅代表种类或属性,没有大小的差别。
十一、小批量的数据,用SPSS录入即可;数据量较大时,可用Epidata、Foxpro进行录入,然后再转换为SPSS数据进行分析
十二、excel文件的调入:
1、打开SPSS数据界面;
2、在主菜单中,点击“打开数据库”命令;
3、将弹出的对话框中的文件类型改为Excel 类型,双击欲打开的文件名;
4、在弹出的对话框中的选中文件所在的sheet;
5、点击OK.十三、数据文件的编辑:复制(copy)剪切(cut)粘贴(paste)插入新变量/观测:(insert variable/case)注意:插入新变量后,必要时对变量的属性进行定义
删除变量/观测:(delete variable/case)变量信息显示:菜单utilities中的variable information
十四、已有数据和变量的修改:数据的修改:打开数据库(data view),将错误数据进行修改,并存盘;变量的修改:打开数据库(variable view),将错误进行修改(包括变量的任何属性),并存盘;
十五、多选题的录入:多选题需要使用几个变量进行记录;
1、定义变量时,如X20有三个选项,可以设三个变量,X20_
1、X20_2 及X20_3; 均以1表示选中,2表示未选中;
2、在分析之前,还应使用“分析”—“多重响应”—“定义变量集”来设定多选题变量集。
3、而多选题变量集只能在“分析”—“多重响应”—“频率”或“交叉表”中使用。
十六、日期型变量的录入:首先将变量定义为“日期型”,选定录入格式,并按照选定格式录入数据;日期型变量可以进行计算,两个日期型变量相减,为两个日期间隔的秒数; 可以将秒数换算成天、月、年
十七、操作技巧
(一)、连续输入多个相同值:如果许多连续单元格输入相同的值,步骤如下: 首先在其中任意单元格内输入相应数值,如“1”,按回车键后右击该单变换,如将某个变量值扩大10倍,或将其转换为对数值等,可按下列方法实现。
(1)打开主菜单----转换----计算变量----进入计算变量对话框;(2)在目标变量(Target variable)中键入新变量名,如键入原有变量名,将用新的数值覆盖原来的变量值。(3)从数字表达式(Numeric expression)中选择计算式,或键入计算式,并把要改变的变量放于计算式中;(4)点击 OK,即生成以目标变量 所键名为变量名的变量
三、选择个案:用途:按照分析者的要求选择需要的观测(病例)如只需要分析性别=1且年龄<10岁的人作为分析对象。
步骤:
(1)打开“数据”----选择个案,进入选择个案的的对话框,然后按照条件选择符合要求的观测
(2)将选择的观测过滤(filter)、保存成数据库或删除(delete).注意:不论滤过或删除的变量将不再进入统计分析。
四、重新编码为相同或不同变量:根据数据分析的要求,有时需对数据进行重新分类,如将数值变量转换为分类变量,或将某分类变量进行重新分组。
步骤:
(1)打开欲分析的数据文件;
(2)主菜单中的“转换”---重新编码为相同变量或重新编码为不同变量;(3)如不对变量更改变量名,则点击重新编码为相同变量;如生成新变量名,则点击重新编码为不同变量.(4)点击 旧值和新值 ,并进行变量值的设置。
五、对个案内的值计数:将个案按照某种条件分成两类。数据库中会自动生成一个新变量,“1”表示符合条件,“0”表示不符合条件
六、文件的合并:文件合并就是将两个文件合并成一个新的文件。
(1)添加个案(纵向合并):在基础数据文件后加入另一数据文件的个案。
(2)添加变量(横向合并):在基础数据文件变量后加入另一数据文件中的变量。
注意:进行纵向合并时,两个文件必须已经进行过升序排列。
七、加权病例(weight,定义频数列):功能:将某列数据定义为频数列。
步骤:数据---加权个案,打开加权个案对话框,选中加权个案,并将频数变量放于频率变量 框中.注意:定义频数列后,其它各变量进行运算时,会都按加权进行。
八、拆分文件(spilt file):功能:按照指定变量将文件分组分析。步骤:数据---拆分文件(split flie),将选择变量放于右侧“分组方式(grouping based on)”框中.选择“分组方式(compare group)”,或选择“按组组织输出(organize output by groups)”后,数据库按照选择变量进行排序,后续分析中将按指定变量分组分析。注意:如取消拆分,选择“分析所有
误)
四、单式直条图:点击“图形”→“图表构建程序”菜单项,打开“图表构建程序”对话框;
2、在图库中选择“条”图组,将右侧出现的简单条图图标拖入画布中;
3、将横轴变量拖入横轴框中;
4、将纵轴变量拖入纵轴框中;
5、单击确定;
6、编辑。
五、统计图的编辑:在结果窗口双击欲进行编辑的统计图,就会打开一个独立的“图形编辑器”窗口,一般与之相配套出现一个“属性”子对话框;
“属性”子对话框为多选项卡界面。对应着“图形编辑器”窗口中被选中的元素种类,该子对话框出现的选项卡种类也会跟着变化。
如果希望选择不同的多个图形元素,按住Ctrl键分别选择即可
编辑完成后,一定要利用编辑对话框右上角的“×”关闭对话框,然后再进行拷贝。
六、
第二篇:SPSS软件学习心得(模版)
SPSS软件学习心得
SPSS(Statistical Product and Service Solutions),名称是“统计产品与服务解决方案”软件。SPSS软件的统计分析步骤:
(1)读入数据文件,或直接建立SPSS数据文件,或调用其它类型的数据文件,如:Excel、纯文本文件等;
(2)调用统计分析程式或模板;
(3)选择变量,设定参数并运行;
(4)查看统计分析输出结果。
SPSS的主要功能分为两个方面:一个是对数据文件的建立和管理;另一个是提供了各种统计分析方法。对数据文件的建立和管理主要通过Data菜单和Transform菜单实现,可以对数据进行修改编辑、查找、排序、合并、分割、抽样、加权、重新编码、编秩、设定种子数及计算或转换新的变量等多种功能;提供各种统计分析方法则是通过Analyze菜单实现.可以对数据集进行一般统计分析,如描述性统计、探索性分析、t检验、单因素和多因素方差分析、协方差分析、四格表和列联表卡方检验、相关分析、线性回归分析、非参数检验、生存分析等。
特点:不需编程,完全采用菜单和对话框的操作方式,绝大多数操作过程仅靠鼠标点击即可完成,简便易学,易于操作;具备完备的统计图表制作功能,能绘制精美的统计图表,并可以极其方便地对其编辑和修饰。
应用例子:如为了科学合理的评估和开发利用河北省土壤中水分,并在不同地区因地制宜的采取相应措施,选定了干旱指数、土壤质地和植被等指数,用层次分析法,计算出每个指标的权重,利用SPSS统计软件,对河北省土壤水资源进行分类,细分为了8类,实现了有效合理地利用土壤水分。
第三篇:SPSS软件学习心得
误差理论数据处理分析
常见的统计软件有SAS,SPSS,MINITAB,EXCEL等。这些统计软件的功能大同小异,各有所侧重。其中的SAS和SPSS是目前在大型企业,各类院校及科研机构中较为流行的两种统计软件。特别是SPSS,其界面友好,功能强大,易学,易用,包含了几乎全部尖端的统计方法,具备完善的数据定义,操作管理和开放的数据接口以及灵活美观的统计图表制作。作为专业的统计软件,SPSS感觉比EXCEL更丰富,也更准确。
从表1中分析,抗拉强度的极小值为67.89,极大值为80.36,均值标准误差为0.86948,标准差为3,47793,方差为12.096。屈服强度的极小值为47.14,极大值为8.227。
表
2从表2中分析,回归平方和为176.469,自由度为1,均值方差,176.469,显著性为
497.056,残差平方和为4.970,自由度为14,均值方差为0.355。
表
3从表3从分析,常数量B为12.514,非标准化系数的标准误差为2.719,T值为4.602。标准系数使用版为0.986,T值为22.自变量的B值为1.196,非标准化系数的标准误差为0.054,295。
表
4图
1从散点图可以看出,抗拉强度Y与屈服强度X大致呈线性关系。人们假设Y与X之间的内在关系是一条直线,这些点与直线的偏离是实验过程中其他一些随机因素的影响而引起的。
心得体会
在学习SPSS中必须学会的是“数据组织方式和数据测度”,这个对于那些学习信息的人容易理解,对文科出身的人不容易理解。但是这个问题对于初学者很重要。在实际使用SPSS时,就得按部就班地按照先定义变量,测调度,在录入(导入数据),再分析。分析并不是整个流程。
在大二快结束的学习过程中参加了SPSS的课程学习,尽管我只是大略地学习,泛泛地接触这门课程,但是对这门课的兴趣很浓。参与这次实践的经历深刻改变了我对这门课的认识。我越发感到我需要这门课程,我必须掌握这门统计技术,分析方法。这就是社会的需求,学校的标准,也是个人发展得需要。
虽然只有几周的学习时间,但我已经对该课程有了更多的了解,十分感谢黄璟老师讲解的这门课,提供了这个平台。理论加实践,为不同基础的学生提供了好的学习环境。我认为开设很有必要,应当成为重点。
现实生活中的数据多不胜数,但要得到有用的数据并不容易,这就要应用数据分析的方法确定数据的属性,再用清理工具(清洗、集成、转换、消减)进行筛选转化为有用的信息,再用SPSS深入分析,得出规律。
对数据的分析是以统计学为基础的,统计学提供了一套完整的科学方法论,统计软件则是实现的手段,统计分析软件具有很多有点。它功能全面,系统地集成了多种成熟的统计分析方法;有完善的数据定义、操作和管理功能;方便地生成各种统计图形和统计表格;使用方式简单,有完备的联机帮助功能;软件开放性好,能方便地和其他软件进行数据交换。我们接触最多的统计软件是EXCEL 和SPSS。在统计学中应用EXCEL,在数据分析中则主要是SPSS,它具有很好的人机界面和完善的输出结果。
这门课程中我们学了另外一种数据分析方法就是聚类分析。它与“物以类聚,人以群分”是同样的道理。多元统计分析方法就是对样品或指标进行量化分类的问题,它们讨论的对象是大量的样品,要求能合理地按各自的特性也就是相似性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。我们学习了Q型聚类法、R型聚类法以及系统聚类法。Q型聚类分析样品间的聚类,用距离来测度亲疏程度。R型聚类分析变量间的聚类,用相似系数来测度亲疏程度。
常用的Q聚类法有闵氏距离和马氏距离,只是我们必须掌握的。具体的计算方法有最短距离法、最长距离法、重心法、离差平方和连接法等等。在最后一节课老师讲了贝叶斯理论,根据先验概率和实验事件得出后验概率,从而得出更为可信的概率。最后,这门课程就学完了,学到了很,还有很多不懂。本课程需要很好的统计和概率论的基础,要不,很难听懂或者简直听不懂。同时,老师很少强求我们及时做作业,以至于我们知识掌握不牢固,前学后忘现象严重。有时候觉得老师讲得过深,我们根本无法接受。希望老师以后讲授本课程时把难度降低一点,多给学生练习的机会。我希望在考试之前把学懂的知识巩固,把不懂得尽量弄懂,但愿以后在工作中能轻松运用。
第四篇:SPSS知识点总结—211重点软件知识点
SPSS 绪论(1)
数据文件的建立、导入与导出(1)数据文件的整理(2)数据转换(2)
基本统计分析(基本描述和卡方检验)(4) 均数比较(2) 相关与回归分析(2) 非参数检验(2)
SPSS是软件英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。
输出结果十分美观漂亮(从国外的角度看),存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。 SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。
其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。
对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序,极大的方便了中、高级用户。SPSS基础:主要窗口及功能 数据编辑窗口(data editor) 结果输出窗口(viewer)
程序编辑窗口(syntax editor) 脚本编辑窗口(Script)
数据编辑窗口(data editor)
打开方式:
启动SPSS后,数据编辑窗将首先自动打开
在SPSS运行过程中建立新的数据文件,从菜单选择
File—New---Data
由数据窗口(Data View)和变量窗口(Variable View)组成,两个窗口切换单独显
示
数据窗口用于显示和编辑数据
变量窗口用于定义、显示和编辑变量特征 结果输出窗口(viewer)
打开方式
在第一次产生分析结果的SPSS过程后,结果输出窗口被自动打开 打开新的结果输出窗,从菜单选择
File—New---Output
结果输出窗口(viewer)
功能:SPSS统计分析报表及图形的输出窗口
组成:窗口主菜单、工具栏、结果显示区、状态显示区
在进行第一次分析时自动打开,也可手工打开;可以手工打开若干个可相互切换的viewer窗口;输出窗口可以关闭; 状态栏上的!表示当前输出窗口 窗口内容以.spo存于磁盘上
程序编辑窗口(syntax editor)
功能:编辑命令语句
窗口内容以.sps存于磁盘上
打开方式:第一次通过对话框选择SPSS过程时,击按钮paste,程序编辑窗自动打开;也可通过菜单打开file—new—syntax
数据文件的建立、导入与导出 1.数据文件的建立
2.SPSS所处理的数据文件有两种来源:
a)在SPSS环境下新建数据文件 b)调用已建立的各种类型的数据文件
在SPSS环境下建立数据文件:
启动SPSS后,界面显示数据编辑窗
在数据编辑窗内直接输入数据,保存后便形成SPSS数据文件 --数据文件的结构
二维行列结构,每行为1个记录或1个观察单位(Case),每列为一个变量(Variable)
--定义变量
SPSS数据文件是一种有结构的数据文件:
定义数据文件的结构: 1.name:变量名,是变量存取的唯一标志 定义变量名的原则:
变量名最长不超过64字节(32个汉字)(不推荐使用汉字,越简单越好)
首字符必须是字母或汉字,不能以下划线或圆点结尾 变量名中不能有空格或某些特殊符号,如!、?和* 变量名不能与SPSS的关键字相同,即不能用all/and/by/eq/ge/gt/le/lt/ne/not/op/to/with等做变量名 对变量名英文字母的大小写不作区分 2.type:变量类型
数值型:常用标准数值型(Numeric):默认类型8.2如:12345678、12345.67、-1234.56 字符型(String): 存储字符数据8位。如:beijing处理时用双引号扩起来
日期型(Date):存储日期数据,如:20-AUG-1999 注意:显示宽度不影响数据的存储
3.width:变量宽度,默认为8 4.Decimals:小数位数,默认为2
5.label:变量标签,对每一个变量的含义进行解释,变量较多时非常重要!
6.Values:变量值标签,对变量取值的水平进行定义
7.Missing:缺失值
8.Column:变量列宽,默认为8。 9.Align:对齐,默认右对齐(Right) 10.Measure:变量度量,包括三类:
定量变量(Scale), 定性变量(Nominal), 等级变量(Ordinal)。
该选项只用于统计制图时坐标轴变量的区分以及SPSS决策树模块的变量定义
统计软件中数据的录入原则: 1.同一观察对象的数据应独占一行
2.同一个指标的测量值都应当录入到同一个变量中(除外配对数据和重复测量数据)
3.最终的数据集应当能够包含原始数据的所有信息
数据可保存为各种格式
2.数据文件的整理(Data菜单)
插入(Insert)
观测值排序(sort):
合并文件(Merge Files):
Merge Files—Add Case(添加观察单位): 例:new Drug(a).sav和new Drug(b).sav合并
Merge Files—Add Variables(添加变量): 例:将ex(a).sav
和
ex(b).sav合并
数据分类汇总(Aggregate Data):
例:分类汇总:不同文化程度的家庭平均收入 数据文件:休闲调查.sav
选择观察单位(select cases)选择观察单位(select cases)
变量加权(Weight Cases)
数据文件的整理(Transform菜单)
计数统计(count)
例:由家庭月收入产生一个分组变量group 月收入<1500 group=0
月收入>=1500 group=1
排秩(Rank)
例如:对sbp1(治疗前SBP)进行排秩
排秩后产生新变量rsbp1,其中对于相等的变量值(称为结点ties)取平均秩次。本例中第2、3位的平均秩次为2.5。
例:按家庭收入等分为五组
第四章 基本统计分析(descriptive statistics菜单)
Frequencies过程的特色是产生频数表;
Descriptives过程则进行一般性的统计描述;
Explore过程用于对数据概况不清时的探索性分析;
Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们 常用的检验也在其中完成。
常用的描述统计量
集中趋势指标(Central tendency):均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)等
离散趋势指标(Dispersion):标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)百分位数指标(Percentile Values):四分位数(Quartiles)、每隔指定百分位输出当
前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles)分布指标(Distribution):偏度系数(Skewness)和峰度系数(Kurtosis)。
其他:M统计量(M-estimators)、极端值(outlier)等
众数(mode):一组数据中出现次数最多的变量值称为众数。
偏度系数(skewness):数据分布的不对称性称为偏态,偏态系数SK>0时为右(正)
偏,SK<0时为左(负)偏。
峰度系数(kurtosis):数据分布的平峰或尖峰程度称为峰态,峰度系统K>0时
为尖峰分布,K<0时为扁平分布。K=0时为标准正态分布。
(一)频数分析(Frequencies)
最常用的统计分析之一
功能:不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图
菜单:Analyze—Descriptive Statistics—Frequencies 命令
实例:对“diameter_sub.sav”中的“矢状面管径”变量作描述性分析并输出直方图
(二)Descriptives过程
是连续资料统计描述应用最多的一个过程,计算并列出一系列相应的统计指标。
该过程特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。
菜单:Analyze—Descriptive Statistics—Descriptives命令
(三)Explore过程
可对变量进行更为深入详尽的描述性统计分析 主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。 它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如枝叶图、箱图等
菜单:Analyze—Descriptive Statistics—Explore命令
例:对“clinical trial.sav”中的“plt1”按分类变量“group”进行探索性 分析
第五章:基本统计分析descriptive statistics菜单
(二)Crosstabs过程:
Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断
在分析时可以产生2维至n维列联表,并计算相应的百分数指标。 统计推断则包括了我们常用的检验、Kappa值,分层
还可计算n维列联表的确切概率(Fisher’s Exact Test)值。 菜单: Analyze—Descriptive Statistics—Crosstabs 命令
例
为比较紫外线和抗病毒药物治疗带状疱疹的疗效,将带状疱疹患者随机分为两组,临床观察结果见下表,问两组的总体有效率有无差别? 组别 抗病毒组 紫外线组 合 计
有效 31 55 86
无效 25 9 34
合计 56 64 120 由于此处给出的直接是频数表,因此在建立数据集时可以直接建立三个变量:行变量、列变量和频数的变量 group,effect,freq
在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有100例,如果每一行就是一条记录,你就需要输入100条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到Weight Cases对话框。
第五篇:SPSS总结
SPSS的基本统计功能
1、数据的预处理
2、描述性统计和探索性统计
3、假设检验(包括参数检验、非参数检验等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相关分析
6、回归分析
7、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等
8、时间序列分析
9、信度分析
10、数据挖掘:决策树与神经网络
SPSS 统计分析的一般步骤
1、建立SPSS数据文件: 在【变量视图】定义SPSS数据文件的结构,在【数据视图】进行录入数据文件的录入。
2、SPSS数据的管理数据的预处理 :
集中于【数据】和【转换】两个菜单项。
3、SPSS数据的统计分析阶段
: 在【分析】菜单中选择正确的统计方法。
4、SPSS分析结果的阅读和解释
: 读懂SPSS输出窗口中的分析结果
5、明确其统计含义,并结合背景知识做出合理的解释。
第2章 SPSS统计分析前的准备
一、SPSS数据文件的特点
1、SPSS数据文件是一种有结构的数据文件(一般文本文件仅有纯数据部分,而没有关于结构的描述);
2、由数据的结构和内容两部分构成;
3、其中数据的结构记录数据类型、取值说明、数据缺失等必要信息(在【变量视图】,每一列大家都要明白你在定义什么,有什么用);
4、数据的内容是那些待分析的具体数据;
5、在【数据视图】每一列代表一个变量(variable),变量名显示在表格顶部;
6、在【数据视图】的每一行代表一个记录(case)(即一个案例,或称一个对象、一个观察、一个个体),记录序号显示在表格的左侧;
7、在【数据视图】可以输入和编辑数据,但是不能输入数学表达式和函数
二、定义变量
1、【数据视图】是进行数据输入、数据编辑的界面,对应的表格用于查看、录入和修改数据。
2、【变量视图】 是定义数据文件的变量的界面,对应的表格用于输入和修改变量的定义。
3、用SPSS读取其他格式的数据:
1)数据文件:*。sav
语法文件:*。sps 结果文件:*。spo
脚本文件: *。sbs 2)文件-打开-数据,可打开多种文件类型(。sav、。xls、。dbf、。txt、。dat等)
注:要想顺利打开txt文档,txt文档最好有固定的分隔符,如一个空格或一个逗号等。
三、数据的编辑
在SPSS中,数据文件的编辑、整理等功能被集中在了【数据】和【转换】两个菜单项中:
1、数据的增删、复制、剪切、粘贴;
2、数据的排序,Sort Cases排序便于数据的浏览,快捷找到最大值或最小值,迅速发现数据的异常值;
四、文件的拆分:文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分组。
五、数据选取 :
数据选取(个案选取)的基本方式
按指定条件选取(If condition is satisfied)
随机抽样(Random sample of cases)选取某一区域内(Based on time or case range)
六、个案加权:记录加权是对观测数据赋以权重,常用于频数表资料;
七、文件的合并:合并文件是指将外部数据中的记录或变量合并到当前的数据文件中去。合并数据文件包括两种方式:
从外部数据文件增加记录到当前数据文件中——纵向合并或称追加记录。从外部数据文件增加变量到当前数据文件中——横向合并或称追加变量。
八、变量的计算和变换:【转换】-【计算变量】
九、数据的重新编码recode 统计分组
将字符型变量转换为数值型变量 将几个小类别合为一个类别 将数值型变量转换为字符型
十、统计结果的保存为word文件:【文件】-【导出】
第3章
SPSS描述性统计
1.Frequencies(频率)过程的特色是产生频数表;功能 产生频数分布表;
绘制条形图、饼图、直方图;
计算集中趋势与离散程度、分布形状(峰度和偏度的意义)等统计量; 按要求给出分位数;
对数据的分布趋势进行初步分析
(注:对于定性变量来说,一般来说产生频数分布表,制作条形图,饼图即可);
2.描述分析(Descriptives过程)
适用的分析对象:定量变量,测度为scale。功能:
调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等; 并可将原始数据转换成Z分数((原始值-均值)/标准差)。
3.Explore(探索)过程用于对数据概况不清时的探索性分析,定量变量; 在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。提供茎叶图、箱线图、PP图、QQ图等;
指出异常值(Outliers),可检查数据是否有错误,剔除异常值和错误数据; 进行点估计和区间估计,计算均值的置信区间,; 检验一组数据是否呈正态分布; 4.列联表分析
(1)列联表分析的适用条件
对一个定量变量的描述和分析,一般用频数分析(频数分布表、饼图、直方图、条形图); 对两个定性变量的描述和分析,通常使用列联表、对应分析,或使用卡方检验; 对两个以上定性变量的描述和分析,通常使用高维列联表。(2)期望频数的分布
如果行变量和列变量是独立的,可以计算出列联表中每个格子里的频数应该是多少,称为期望频数;
(3)列联表分析的基本思路
检验列联表中的行变量与列变量之间是否独立(或是否相关)。原假设为行变量与列变量之间独立(或不相关)。比较观察频数与期望频数的差。
如果两者的差越大,表明实际情况与原假设相去甚远;如果差越小,表明实际情况与原假设越相近。
对于这个假设的检验,可以采用卡方分布,进行卡方检验。
(4)列联表分析的步骤
检验列联表中的行变量与列变量之间是否独立(是否相关)提出假设
H0:行变量与列变量独立(不相关)H1:行变量与列变量不独立(相关 计算检验的统计量 统计决策
进行决策:P值决策
P<0。05,则拒绝原假设H0,否则,接收原假设。(5)Pearson卡方检验的应用条件
所有单元的期望频数应该大于1,或不应有大量的期望频数小于5的单元格。
如果列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。Pearson卡方检验最普遍
第4章
SPSS的均值比较过程 1。Means过程
对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。(1)Means过程是专门计算各种平均数,并对平均数进行简单比较的;(2)虽然Descriptive Statistics(描述统计)菜单项中的几个过程也能计算均数,但Means过程的输出结果是将各组的描述指标放在一起的,便于相互比较;
(3)Means过程必须设置分组变量,若没有分组变量的话,可以使用Descriptive Statistics菜单项中的几个过程。
(4)适用于测度水平为SCALE的变量。
2。单样本T检验(1)目的
检验某变量的总体均值与指定的检验值之间是否存在显著差异。(2)适用条件
样本来自的总体服从正态分布(3)基本步骤
H0: μ=μ0 H1: μ≠μ0
构造检验统计量 统计决策
如果P值<α(α一般取值为0。05),拒绝原假设; 如果P值>α,接受原假设;
3。
独立样本T 检验(1)目的
通过比较两个样本均值差的大小来确定两个总体的均值是否相等。(2)适用条件
独立性:两个样本相互独立,且均为大样本;
正态性:如果两个样本相互独立但都是小样本,或有一个样本是小样本,则要求总体服从正态分布;
方差齐性
(3)基本步骤
a、方差齐性F检验
原假设:两个总体方差相等; 备则假设:两个总体方差不相等;
P值<0。05 时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。b、对两总体的均值提出假设 H0: μ1=μ2
H1: μ1≠μ2 c、统计决策
在SPSS中进行两独立样本t检验时,应首先对F检验作判断。如果方差相等,观察分析结果中Equal variances assumed列的t检验相伴概率值;如果方差不相等,观察Equal variances not assumed列的t检验相伴概率值。如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
4.配对样本的T 检验
配对样本是指对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。其差别在于抽样不是相互独立的,而是互相关联的。(1)配对样本通常有两个特征: 第一,两组样本的样本数相同;
第二,两个样本记录的先后顺序一一对应,不能随意更改。(2)适用条件
两样本数据必须两两配对 两总体服从正态分布
配对样本的录入方式是:每对数据在同一个case的两个配对的变量上(3)检验步骤 a、提出假设 H0: μ1=μ2
H1: μ1≠μ2 b、统计决策
如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
第5章 方差分析
如何对一个或两个总体的均值进行检验,我们可以用均值比较,如果要讨论多个总体均值是否相等,我们所采用的方法是方差分析。
方差分析中有以下几个重要概念。(1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。
(2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。
(3)单元(Cell):指因素水平之间的组合。(4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。
(5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。
1.单因素方差分析
单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。(1)适用条件
在各个水平之下观察对象是独立随机抽样,即独立性;
各个水平的因变量服从正态分布,即正态性;
各个水平下的总体具有相同的方差,即方差齐性;(2)基本原理
SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)
如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。
SPSS将自动计算检验统计量和相伴概率P值,若P<α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。
另外,SPSS还提供了多重比较方法,多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异,最常用的多重比较方法是LSD。(3)检验步骤 a、提出假设
H0: 各个总体的均值无显著性差异。
H1: 各个总体的均值有显著性差异。b、统计决策
方差齐性检验结果,P值>0。05,方差齐,否则,方差不齐;
单因素方差分析表,P值>α,接受H0,都则,拒绝H0,接受H1。
2.多因素方差分析
多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。(2)基本原理
由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:
Q总=Q控1+Q控2+Q控1控2+Q随其中,Q表示各部分对应的离差平方和。多因素方差分析比较
Q
控
1、Q 控
2、Q 控 1 控
Q
随
占 Q
总 的比例,以此推断不同因素以及因素之间的交互作用
2、是否给观测变量带来显著影响。
(3)基本术语
a、Dependent Variable 观测变量或因变量 主要指研究中的定量变量
如:移动话费、学生成绩、销售量、亩产量等
b、Fixed Factor 固定效应因素,固定因素,控制因素
主要指研究中的定性变量
如:资费等级、客户类型、漫游类型、促销策略等 c、Random Factor 随机效应因素、随机因素
人为无法对其水平值进行准确控制,只是能够直观观测到
如:话费水平、收入水平、消费习惯等
d、Interaction 交互作用、交互效应
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。
当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。例如:饮食习惯、适量运动对减肥的作用; e、main effect 与交互效应相对应的
主效应就是每个因素对因变量的单独影响(main effect)f、Covariates 协变量
指对应变量可能有影响,需要在分析时对其作用加以控制的连续性定量变量 当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响(3)应用条件
等方差;
各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性);
正态性:即所有观察值系从正态总体中抽样得出;(4)基本步骤
提出假设
H0:因素A中的r个水平的均值相等(因素A 对因变量无显著性影响)H1:因素A中的r个水平的均值不全相等(因素A 对因变量有显著性影响)统计决断 P值检验法
依次查看各F值的P值,p-值<α,应拒绝原假设; 如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;
第6章
非参数检验
非参数检验(nonparametric test),又称为任意分布检验(distribution-free test); 不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(nonparametric test)
它不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断;
而是通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。特点
参数检验条件不满足时的处理方法
不对均数等参数检验,而是检验分布是否相同
在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。非参数检验的着眼点不是总体参数,而是总体的分布情况 非参数检验研究目标总体的分布是否与已知理论分布相同 非参数检验研究各样本所在总体的分布位置,形状是否相同 优点
第一,具有较好的稳健性;
第二,受限条件少:对数据要求不像参数检验那样严格
第三,适用范围广:可应用于各种不同的情况,不受总体分布形状的限制,适合处理无法精确数量化的定性数据和小样本数据 第四,计算通常较简单,且容易理解 缺点
第一,将定量数据转换为定性数据时,漏失了数据的一些信息
第二,检验的敏感度和效果,均不如参数检验好。检验效率低于参数检验,主要是犯第二类错误的可能性加大。
第三,参数检验适用的数据,非参数方法会降低检验效能;当数据满足参数检验条件时,效能低于参数法,不满足参数法条件时,处于“优势” 非参数检验的应用场合
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题; 定量数据,其分布类型无法获知,且为小样本; 定量数据,极度偏态,或个别数值偏离过大; 各组离散度相差悬殊
一端或两端存在不确定数值的定量数据
定序数据,比较各组间等级强度的差别; 非参数检验的主要方法 单个样本的非参数检验
卡方检验(Chi-Square过程)
二项检验(Binomial过程)
游程检验(Runs过程)
柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)两个独立样本的非参数检验 多个独立样本的非参数检验 两个配对样本的非参数检验 多个配对样本的非参数检验 顺序统计量
通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。
秩(Rank):排序号(排队号)在统计学上称为秩
结(ties):绝对值相等称为结,又称同秩,则取平均秩次。
一般来说,秩就是该组数据按照升序排列之后,每个数据的位置。
1.单个样本的非参数检验 卡方检验(Chi-Square过程)
用卡方检验来检验定性变量的几个取值(分类数据,或类别)所占比例是否和理论的比例没有统计学差异。检验分类变量的分布
适合于定性数据及频数资料的分析
要求样本足够大,要求样本容量一般大于50; 应用领域
如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同)成绩优、良、中、差的学生人数是否相同 赞同某种观点的人数是否达到80%,等等。
比如在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。Chi-Square检验的基本思路
先按照已知总体的构成比例分布,计算出样本中定性数据(即各类别)的期望频数然后求出观测频数和期望频数的差值,最后计算出卡方统计量 利用卡方分布求出P值,假设检验的H0是样本中某指标的比例与已知比例一致 得出检验结论
2.二项检验(Binomial过程)检验二项分类变量分布
用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
Binomial过程对二项分类变量的单个样本作检验,推断总体中两个分类数据的比例是否分别为π和(1-π)应用领域
射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与反面;人群性别,男和女;产品质量,合格和不合格 定量数据、符号检验(SING TEST)与Binomial过程
定量数据:大样本;或小样本,总体服从正态分布,总体方差已知; 参数检验:单个样本的均值检验
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
极度偏态,或个别数值偏离过大;
一端或两端存在不确定数值
3.游程检验(Runs过程)
Runs过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验 二分类数据和定量数据(连续数据)均可
对于一个取两个值的分类变量,游程检验方法是检验这两个值的出现是否是随机的。游程检验还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题 游程检验的作用
1、检验总体分布是否相同
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2、检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数,分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。应用范围
生产过程是否需要调整,即不合格产品是否随机产生; 奖券的购买是否随机;
期货价格的变化是否随机等等。
若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。
当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程 ;
4.(l-Sample K-S过程)
柯尔莫诺夫-斯米尔诺夫检验,考察某个连续性变量是否符合理论分布 利用样本数据推断总体是否服从某种分布
可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。数据要求:定量数据,Scale
5。
独立样本的非参数检
检验两个或多个独立样本所在总体是否相同
在不了解总体分布的情况下,通过分析样本数据均值或中位数的差异,推断样本来自的两/多个独立总体的分布存在的显著性差异。Independent Samples过程:主要用于检验两个独立样本所在总体分布是否相同 K Independent Samples过程:主要用于检验多个独立样本所在总体分布是否相同 界面上基本相同
(1)两个独立样本的非参数检验
含义:由样本数据,推断两个独立总体的分布是否存在显著差异(或两样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较 应用范围
两种训练方法中哪一种更出成绩 两种汽 油中哪一个污染更少 两种市场营销策略中那种更有效
与独立样本t检验的区别
对于定量数据,如果方差相等,且服从正态分布
两个独立样本的非参数检验的过程
定序数据;对于定量数据,不满足两个独立样本t检验的条件
曼-惠特尼U检验(Mann-Whitney U)
为检验两总体的中位数是否相等,常用Mann-Whitney U 检验,或称Wilcoxon秩和检验(Wilcoxon rank sum test);
这两种方法是独立提出的,检验结果完全等价的; 分析步骤
建立检验假设,确定显著性水平α :
H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同;
H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。或:
H0:M1=M2;
H1:M1>M2
2、编秩,将两组数据由小到大统一编秩,编秩时如遇有相同数据,取平均秩次。
3、求秩和,两组秩次分别相加。
4、确定统计量
若两组样本容量相等,则任取一组的秩和为统计量;
若两组样本容量不等,则以样本样本容量较小者对应的秩和为统计量。
5、查表确定P值,作出推断结论。若P>α,不能拒绝原假设。
若则P<α,拒绝原假设,认为两总体的分布不相同。
(2)多独立样本非参数检验
对三个或三个以上的总体的均值是否相等进行检验,使用的方法是单因素方差分析 ; 单因素方差分析过程需要假定条件,F检验才有效; 有时候所采集的数据常常不能满足这些条件,K Independent Samples过程 K Independent Samples过程
含义:由样本数据,推断多个独立总体的分布是否存在显著差异(或多个样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的多个总体分布位置比较,可以简化地理解为多个总体中位数的比较。应用范围
各城市儿童身高分布一致吗?
不同收入的居民存(取)款金额分布一致吗?
电信公司人力资源部门比较3所大学雇员的管理业绩是否存在差异? 检验方法
Kruskal-Wallis H :克鲁斯卡尔-沃利斯单因素方差分析最常用,原理同Wilcoxon检验 多个样本间的两两比较 多组独立样本;
每组5个观察值,样本量小,分布类型未知;
考虑采用秩转换的非参数检验方法——Kruskal-Wallis秩和检验。
(3)两/多个配对样本非参数检验
检验两个或多个配对样本所在总体位置是否相同
在不了解总体分布的情况下,通过分析两/多个配对样本,推断样本来自的两/多个总体的分布是否存在显著性差异。Related Samples过程:主要用于检验两个配对样本所在总体分布是否相同 K Related Samples过程:主要用于检验多个配对样本所在总体分布是否相同 界面上基本相同
两个配对样本的非参数检验
含义:由样本数据推断两配对总体分布是否存在显著差异。数据要求
两组配对的样本数据;
两组数据的样本容量相同,先后次序不能任意改变,一一对应; 统计分析步骤
提出基本假设
H0:两配对总体分布无显著差异 H1:两配对总体分布有显著差异 统计决断
P值>α,不能拒绝原假设
P值<α,拒绝原假设
多个配对样本非参数检验
含义:由样本数据推断多个配对总体分布是否存在显著差异。
数据要求:多组配对的样本数据,多组数据的样本容量相同,先后次序不能任意改变,一一对应; 应用范围
三种促销形式的销售额分布一致吗? 收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异 评委打分一致吗? 三种检验方法
Friedman M检验:最常用
Kendall W检验 :和谐系数检验
Cochran Q:要求样本数据为二分类数据(1-满意
0-不满意)检验方法的选择
1)单个样本:若来自正态总体,可用t检验,若来自非正态总体或总体分布无法确定,可用二项检验(二项检验)2)配对样本:
二分类变量,可用McNemar检验;
连续型变量,若来自正态总体,可用配对t检验,否则可用Wilcoxon符号秩和检验。
3)两组独立样本:连续型变量,若来自正态总体,可用t检验,否则,可用 Wilcoxon秩和检验;
二分类变量或无序多分类变量,可用卡方检验;
有序多分类变量,宜用Wilcoxon秩和检验。4)多组独立样本
连续型变量值,来自正态总体且方差相等,可用方差分析;否则,进行数据变换使其满足正态性或方差齐的要求后,采用方差分析;数据变换仍不能满足条件时,可用Kruskal-Wallis秩和检验。
二分类变量或无序多分类变量,可用卡方检验。
有序多分类变量宜用Kruskal-Wallis秩和检验。
第7章 相关分析 概念
相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。相关关系的类型
1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。4)根据研究变量的多少,可分为单相关、复相关。相关分析的作用
1)判断变量之间有无联系
2)确定选择相关关系的表现形式及相关分析方法 3)把握相关关系的方向与密切程度
4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。5)相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等 相关系数
相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。相关系数的数值范围是介于–1与 +1之间(即–1≤ r ≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。
两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。
相关系数的注意事项
1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。2)相关系数r 受变量取值区间大小及样本数目多少的影响比较大。
3)来自于不同群体且不同质的事物的相关系数不能进行比较。4)对于不同类型的数据,计算相关系数的方法也不相同
1.简单相关分析的基本原理
简单相关分析是研究两个变量之间关联程度的统计方法。它主要是通过计算简单相关系数来反映变量之间关系的强弱。一般它有图形(散点图)和数值(一方面应观察相关系数的大小,另一方面,应观察概率P值,其原假设为**不相关)两种表示方式。简单相关系数
1)皮尔逊(Pearson)相关系数
常称为积差相关系数,适用于研究连续变量之间的相关程度。例如,收入和储蓄存款、身高和体重等变量间的线性相关关系。注意Pearson相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,系数的大小并不能代表其相关性的强弱。2)Spearman等级相关系
Spearman等级相关系数是用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性相关分析,适用条件为:
① 两个变量的变量值是以等级次序表示的资料;
②
一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量n不一定大于30。
从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围要比积差相关广泛,它的突出优点是对数据的总体分布、样本大小都不做要求。但缺点是计算精度不高。3)Kendall’s等级相关系数
它是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系。它利用变量的秩计算一致对数目和非一致对数目。
2.偏相关分析的基本原理
方法概述
简单相关分析计算两个变量之间的相互关系,分析两个变量间线性关系的程度。但是现实中,事物之间的联系可能存在于多个主体之间,因此往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度。基本原理
偏相关分析是在相关分析的基础上考虑了两个因素以外的各种作用,或者说在扣除了其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的就在于消除其他变量关联性的传递效应。3.距离分析的基本原理
简单相关分析和偏相关分析有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但在实际中有时会遇到一种情况,在分析前对数据所代表的专业背景知识尚不充分,本身就属于探索性的研究。这时就需要先对各个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步了解,然后再根据结果考虑如何进行深入分析。
距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的P值,而只能给出各变量/记录间的距离大小,以供用户自行判断相似性。
第8章 SPSS的回归分析 1。一元线性回归 方法概述
线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。
一般线性回归的基本步骤如下。
① 确定回归方程中的自变量和因变量。
② 从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。
③ 建立回归方程,在一定统计拟合准则下,估计出模型中的各个参数,得到一个确定的回归方程。
④ 对回归方程进行各种统计检验。
⑤ 利用回归方程进行预测。
注:一元线性回归的经验模型是:Y=β0+β1X 统计检验
在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。
1)输出结果的模型摘要
其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(R Square),校正后的可决系数(adjusted R Square)和回归系数的标准误(Std。Error of the Estimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数R Square的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。
2)输出结果中的方差分析表
它是回归模型显著性检验的结果,所用方法为F检验,其零假设为原方程无效,通过P值来判断原方程是否有效。3)输出结果中的回归系数表
应特别关注回归系数β1 的T检验,它的零假设为β1 =0,通过P值来判断β1 是否有实际意义。
2.多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
其基本步骤与一元回归几乎一致,只是在输出结果的模型摘要中通过观察调整R2 来判断方程的拟合情况,另外,同样可通过折线图来观察模型拟合效果。
3.曲线拟合
实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。
在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法将这些曲线方程转化为线性方程来估计参数。
在选择模型的时候可以结合专业知识多选几种,如同时选择“指数分布”、“逆模型”和“幂函数”,然后在模型汇总中比较R2 的大小,选择最大的一个,同时,注意观察各自的P值,其原假设为其模型无统计学意义。
4.非线性回归分析
非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。通过散点图观察,如果自变量和应变量不能通过线性回归或区县估计来实现,则可以在SPSS通过【分析】-【回归】-【非线性】来实现。
以下是SPSS处理问卷的总结
当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以SPSS为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存。下面将从这四个方面来对问卷的处理做详细的介绍。
SPSS处理:
第一步:定义变量
大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位)、label(变量标签)、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类)。
我们知道在SPSS中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值。现在我们以问卷第一个问题为例来说明变量的设置。为了便于说明,可假设此题为:
1。请问你的年龄属于下面哪一个年龄段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric,width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可。同样道理我们可做如下设置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定义变量缺失值,单击missing框右侧的省略号,会弹出缺失值对话框,界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明。
1。开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value、Missing两项不设置即可。
2。多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍。这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项,即选中该项和不选中该项。现在举例来说明在SPSS中的具体操作。比如如下一例:
请问您通常获取新闻的方式有哪些()1 报纸 2 杂志 3 电视 4 收音机 5 网络
在SPSS中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_
1、3_
2、3_
3、3_
4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可。
使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。到此,我们的定义变量的工作就基本上可以结束了。下面我们要作就是数据的录入了。首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了。
第二步:数据录入
SPSS数据录入有很多方式,大致有一下几种: 1。读取SPSS格式的数据 2。读取Excel等格式的数据
3。读取文本数据(Fixed和Delimiter)4。读取数据库格式数据(分如下两步)(1)配置ODBC(2)在SPSS中通过ODBC和数据库进行
但是对于问卷的数据录入其实很简单,只要在SPSS的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下。
1。在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案。
2。在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5„„。的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题。以次类推。我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入。比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的)。
3。我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据。在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了。
第三步:统计分析
有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择。SPSS有数值分析和作图分析两类方法。
1。作图分析:
在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::
(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。
(2)Interactive:交互式统计图。(3)Map:统计地图。
(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 散点图 线图 直方图 饼图 面积图 箱式图
正态Q-Q图 正态P-P图 质量控制图 Pareto图
自回归曲线图 高低图 交互相关图 序列图 频谱图 误差线图
作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好。
2。数值分析:
SPSS 数值统计分析过程均在Analyze菜单中,包括:
(1)、Reports和Descriptive Statistics:又称为基本统计分析。基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。
Descriptive Statistics包括的统计功能有:
Frequencies(频数分析):作用:了解变量的取值分布情况
Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值进行标准化处理
Explore(探索分析):功能:考察数据的奇异性和分布特征
Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系 Reports包括的统计功能有:
OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。
Case Summaries(观测量列表):察看或打印所需要的变量值 Report Summaries in Row:行形式输出报告 Report Summaries in Columns:列形式输出报告
(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。
以下是进行均值比较及检验的过程:
MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
T test 过程:对样本进行T检验的过程
单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)
配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)one-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。
(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决
(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远
(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic:二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling 最优编码回归;其中最常用的为前面三个。
(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
非参数检验的过程有以下几个: 1。Chi-Square test 卡方检验 2。Binomial test 二项分布检验 3。Runs test 游程检验
4。1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5。2 independent Samples Test 两个独立样本检验 6。K independent Samples Test K个独立样本检验 7。2 related Samples Test 两个相关样本检验 8。K related Samples Test 两个相关样本检验(7)、Data Reduction(因子分析)(8)、Classify(聚类与判别)等等
以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果。
第四步:结果保存
我们的SPSS软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于SPSS软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制﹑粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存。因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果。
总结:
以上便是SPSS处理问卷的四个步骤,四个步骤结束后,我们需要SPSS软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了。值得一提的是。SPSS是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用。