第一篇:SPSS学习报告总结心得
应用统计分析学习报告
本科的时候有概率统计和数理分析的基础,但是从来没有接触过应用统计分析的东西,SPSS也只是听说过,从来没有学过。一直以为这一块儿会比较难,这学期最初学的时候,因为没有认真看老师给的英文教材,课下也没有认真搜集相关资料,所以学起来有些吃力,总感觉听起来一头雾水。老师说最后的考核是通过提交学习报告,然后我从图书馆里借了些教材查了些资料,发现很多问题都弄清楚了。结合软件和书上的例子,实战一下,发现SPSS的功能相当强大。最后总结出这篇报告,以巩固所学。
SPSS,全称是Statistical Product and Service Solutions,即“统计产品与服务解决方案”软件,是IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,也是世界上公认的三大数据分析软件之一。SPSS具有统计分析功能强大、操作界面友好、与其他软件交互性好等特点,被广泛应用于经济管理、医疗卫生、自然科学等各个领域。具体到管理方面,SPSS也是一个进行数据分析和预测的强大工具。这门课中也会用到AMOS软件。
关于SPSS的书,很多都是首先介绍软件的。这个软件易于安装,我装的是19.0的,虽然20.0有一些改变和优化,但是主体都是一样的,而且都是可视化界面,用起来很方面且容易上手。所以,我学习的重点是卡方检验和T检验、方差分析、相关分析、回归分析、因子分析、结构方程模型等方法的适用范围、应用价值、计算方式、结果的解释和表述。
首先是T检验这一部分。由于参数检验的基础不牢固,这部分也是最初开始接触应用统计的东西,学起来很多东西拿不准,比如说原假设默认的是什么。结果出来后依然分不清楚是接受原假设还是拒绝原假设。不过现在弄懂了。这部分很有用的是T检验。T检验应用于当样本数较小时,且样本取自正态总体同时做两样本均数比较时,还要求两样本的总体方差相等时,已知一个总体均数u,可得到一个样本均数及该样本标准差,样本来自正态或近似正态总体。T检验分为单样本T检验、独立样本T检验、配对样本T检验。其中,单样本T 检验是样本均数与总体均数的比较的T检验,用于推断样本所代表的未知总体均数μ与已知的总体均数uo有无差别;独立样本T检验主要用于检验两个样本是否来自具有相同均值的总体,即比较两个样本的均值是否相同,要求两个样本是相互独立的;配对样本T检验中,要正确理解“配对”的含义,主要用于检验两个有联系的正态总体的均值是否有显著差异,跟独立检验的区别就是样本是否是配对样本。这几个方法用软件操作起来都是相对简单的,关键是分清楚什么时候用这个什么时候用那个。
然后是方差分析。方差分析就是将索要处理的观测值作为一个整体,按照变异的不同来源把观测值总变异的平方和以及自由度分解为两个或多个部分,获得不同变异来源的均值与误差均方,通过比较不同变异来源的均方与误差均方,判断各样本所属总体方差是否相等。方差分析主要包括单因素方差分析、多因素方差分析和协方差分析等。这一部分在学习的过程中出现一些问题,就是用SPSS来操作的时候分不清观测变量和控制变量,如果反了的话会导致结果的不准确。其次,对Bonferroni、Tukey、Scheffe等方法的使用目的不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关分析研究现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。主要有双变量相关分析、偏相关、距离相关几个方法。双变量相关分析是相关分析中最常使用的分析过程,主要用于分析两个变量之间的线性相关分析,可以根据不同的数据类型和条件,选用Pearson积差相关、Spearman等级相关和Kendall的tau-b等级相关。当数据文件包括多个变量时,直接对两个变量进行相关分析往往不能真实反映二者之间的关系,此时就需要用到偏相关分析,从中剔除其他变量的线性影响。距离相关分析是对观测变量之间差异度或相似程度进行的测量,其中距离需要弄清楚,距离分析是对观测量之间相似或不相似程度的一种测度,是计算一对观测量之间的广义距离。这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。
接着是回归分析。相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。回归分析的目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。应用回归分析时应首先确定变量之间是否存在相关关系,如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。正确应用回归分析预测时应注意:①用定性分析判断现象之间的依存关系;②避免回归预测的任意外推;③应用合适的数据资料;
接下来是因子分析。因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量。从显性的变量中得到因子的方法有两类。一类是探索性因子分析,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。而验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。这一部分不能用SPSS来操作,要用AMOS,用起来也很方便。
最后一部分学习的是结构方程模型。结构方程模型是一种融合了因素分析和路径分析的多元统计技术。它的强势在于对多变量间交互关系的定量研究。在近三十年内,其大量应用于社会科学及行为科学的领域里,并在近几年开始逐渐应用于市场研究中。结构方程模型是对顾客满意度的研究采用的模型方法之一。其目的在于探索事物间的因果关系,并将这种关系用因果模型、路径图等形式加以表述。结构方程模型与传统的回归分析不同,结构方程分析能同时处理多个因变量,并可比较及评价不同的理论模型。与传统的探索性因子分析不同,在结构方程模型中,我们可以提出一个特定的因子结构,并检验它是否吻合数据。通过结构方程多组分析,我们可以了解不同组别内各变量的关系是否保持不变,各因子的均值是否有显著差异。
这门课要学习完了,整个学习的过程是充满曲折和挑战的,我见证了自己从一无所知到困惑迷茫再到略懂再到会用的过程。甚至学完之后有些问题还没有彻底搞清楚,自己接下来还会不断的探索的。SPSS是个很神奇的工具,结合AMOS和EXCEL更是如虎添翼,相信学习了SPSS在以后的论文和数据分析中很有用。这门课给我的感觉是看起来很难,但是实际学起来就好很多,因为当我结合具体实例和软件的时候,很多抽象的问题就豁然开朗了。但是想给老师一个建议,这门课需要很强的统计和概率论的基础,要不然就会很难听懂或者听得半懂。然后这门课的很多方法的相关资料都是用在医疗卫生、自然科学领域的,在管理中的应用的资料不怎么多。老师希望我们上课的时候结合在管理中的应用来学习,但是资料有限,希望老师在这个方面多给学生一些引导。
第二篇:SPSS学习总结
学习SPSS感想
以前学统计学的时候就听老师讲过SPSS有非常强大的统计功能,对我们学习、工作有很大的帮助,所以我一直认为SPSS很神秘。通过这个学期周老师的课让我对此清楚了许多,也学到了SPSS强大的统计功能,更加让我明白了SPSS与Excel的区别。
SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。1968年,美国斯坦福大学H.Nie等三位大学生开发了最早的SPSS统计软件,并于1975年在芝加哥成立了SPSS公司,已有30余年的成长历史,全球约有25万家产品用户,广泛分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。
在学习SPSS期间,我主要遇到的问题是后面几章,SPSS的参数检验、方差分析、相关分析、线性回归分析、聚类分析、因子分析等。
在参数检验中我不知道原假设是什么,导致分析的时候不知道该拒绝原假设还是接受原假设,不能分析出统计结果。不会区分单样本t检验和两配对样本t检验的区别,现在懂得了它们都要服从正态分布,基本思想是小概率反证法,反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。
在学习方差分析中,开始常常把观测变量和控制变量弄混淆,在分析的时候应分别送入哪个对应框中,如果反了的话会导致结果的不准确。其次,对LSD、Bonferroni、Tukey、Scheffe等方法的使用不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。
在学习相关分析的过程中,在绘制散点图时,不知道哪个该做横坐标,哪个该做纵坐标,明白了横坐标是解释变量,纵坐标是被解释变量,还有对相关系数的种类分析不熟练等。在学习回归分析的过程中,对DW可检验的含义不理解,不记得对应的DW表示的残差序列的相关性。对解释变量向前筛选、向后筛选、逐步帅选策略不能熟练掌握,特别是对向前向后筛选时到处的结果不会进行分析。
学习聚类分析中,变量的选择分不清,无关变量有时会引起严重的错分,应当只引入在不同类间有显著差别的变量,尽量只使用相同类型的变量进行分析。分类数不明确,从实用角度讲,2~8 类比较合适。掌握了K-means Cluster 分析,样本量大于100时有必要考虑,只能使用连续性变量。
学习因子分析的过程中,对提取出来的因子的实际含义不清晰,不能使因子具有命名解释性。
学习了SPSS后,我不禁想到了SPSS与Excel的区别,这一点是针对像我这样开始只懂得用EXCEL的人来说。从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。但是SPSS又比Excel更加强大:
一、图型的表现力是SPSS的主要优点之一
应该说,Excel的图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现,SPSS就更为详细和准确,这一点据说在所有统计软件中都突出。
二、通过SPSS检验方差齐性和数据分布
假设检验中,采用的t检验和方差检验都需要满足二个要求,即
1.样本方差齐性
2.样本总体呈正态分布
在Excel中,提供了F检验来检验方差齐性问题,也就是可以先通过F检验确定方差齐性与否来选择下一步用哪个T检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布实际工作中,只要分布单峰且近似对称分布,也可应用,但要具体确定样本的分布也有难度。这二个问题在SPSS就可以解决
最后,在感叹它的方便与快捷的同时,对软件开发人员的智慧到了肃然起敬的地步。一直觉得计算机语言是最难的一门外语。虽然本科时曾经对这种逻辑性很强的东西很感兴趣,并在编程课上取得不错的成绩,但一直觉得这似乎不是我能掌控的东西。SPSS的神奇之处在于,它省去了使用者巨大的计算量,并提高准确性。它开发了开发者的智慧,却弱化了使用者的大脑。
第三篇:SPSS总结
SPSS的基本统计功能
1、数据的预处理
2、描述性统计和探索性统计
3、假设检验(包括参数检验、非参数检验等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相关分析
6、回归分析
7、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等
8、时间序列分析
9、信度分析
10、数据挖掘:决策树与神经网络
SPSS 统计分析的一般步骤
1、建立SPSS数据文件: 在【变量视图】定义SPSS数据文件的结构,在【数据视图】进行录入数据文件的录入。
2、SPSS数据的管理数据的预处理 :
集中于【数据】和【转换】两个菜单项。
3、SPSS数据的统计分析阶段
: 在【分析】菜单中选择正确的统计方法。
4、SPSS分析结果的阅读和解释
: 读懂SPSS输出窗口中的分析结果
5、明确其统计含义,并结合背景知识做出合理的解释。
第2章 SPSS统计分析前的准备
一、SPSS数据文件的特点
1、SPSS数据文件是一种有结构的数据文件(一般文本文件仅有纯数据部分,而没有关于结构的描述);
2、由数据的结构和内容两部分构成;
3、其中数据的结构记录数据类型、取值说明、数据缺失等必要信息(在【变量视图】,每一列大家都要明白你在定义什么,有什么用);
4、数据的内容是那些待分析的具体数据;
5、在【数据视图】每一列代表一个变量(variable),变量名显示在表格顶部;
6、在【数据视图】的每一行代表一个记录(case)(即一个案例,或称一个对象、一个观察、一个个体),记录序号显示在表格的左侧;
7、在【数据视图】可以输入和编辑数据,但是不能输入数学表达式和函数
二、定义变量
1、【数据视图】是进行数据输入、数据编辑的界面,对应的表格用于查看、录入和修改数据。
2、【变量视图】 是定义数据文件的变量的界面,对应的表格用于输入和修改变量的定义。
3、用SPSS读取其他格式的数据:
1)数据文件:*。sav
语法文件:*。sps 结果文件:*。spo
脚本文件: *。sbs 2)文件-打开-数据,可打开多种文件类型(。sav、。xls、。dbf、。txt、。dat等)
注:要想顺利打开txt文档,txt文档最好有固定的分隔符,如一个空格或一个逗号等。
三、数据的编辑
在SPSS中,数据文件的编辑、整理等功能被集中在了【数据】和【转换】两个菜单项中:
1、数据的增删、复制、剪切、粘贴;
2、数据的排序,Sort Cases排序便于数据的浏览,快捷找到最大值或最小值,迅速发现数据的异常值;
四、文件的拆分:文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分组。
五、数据选取 :
数据选取(个案选取)的基本方式
按指定条件选取(If condition is satisfied)
随机抽样(Random sample of cases)选取某一区域内(Based on time or case range)
六、个案加权:记录加权是对观测数据赋以权重,常用于频数表资料;
七、文件的合并:合并文件是指将外部数据中的记录或变量合并到当前的数据文件中去。合并数据文件包括两种方式:
从外部数据文件增加记录到当前数据文件中——纵向合并或称追加记录。从外部数据文件增加变量到当前数据文件中——横向合并或称追加变量。
八、变量的计算和变换:【转换】-【计算变量】
九、数据的重新编码recode 统计分组
将字符型变量转换为数值型变量 将几个小类别合为一个类别 将数值型变量转换为字符型
十、统计结果的保存为word文件:【文件】-【导出】
第3章
SPSS描述性统计
1.Frequencies(频率)过程的特色是产生频数表;功能 产生频数分布表;
绘制条形图、饼图、直方图;
计算集中趋势与离散程度、分布形状(峰度和偏度的意义)等统计量; 按要求给出分位数;
对数据的分布趋势进行初步分析
(注:对于定性变量来说,一般来说产生频数分布表,制作条形图,饼图即可);
2.描述分析(Descriptives过程)
适用的分析对象:定量变量,测度为scale。功能:
调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等; 并可将原始数据转换成Z分数((原始值-均值)/标准差)。
3.Explore(探索)过程用于对数据概况不清时的探索性分析,定量变量; 在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。提供茎叶图、箱线图、PP图、QQ图等;
指出异常值(Outliers),可检查数据是否有错误,剔除异常值和错误数据; 进行点估计和区间估计,计算均值的置信区间,; 检验一组数据是否呈正态分布; 4.列联表分析
(1)列联表分析的适用条件
对一个定量变量的描述和分析,一般用频数分析(频数分布表、饼图、直方图、条形图); 对两个定性变量的描述和分析,通常使用列联表、对应分析,或使用卡方检验; 对两个以上定性变量的描述和分析,通常使用高维列联表。(2)期望频数的分布
如果行变量和列变量是独立的,可以计算出列联表中每个格子里的频数应该是多少,称为期望频数;
(3)列联表分析的基本思路
检验列联表中的行变量与列变量之间是否独立(或是否相关)。原假设为行变量与列变量之间独立(或不相关)。比较观察频数与期望频数的差。
如果两者的差越大,表明实际情况与原假设相去甚远;如果差越小,表明实际情况与原假设越相近。
对于这个假设的检验,可以采用卡方分布,进行卡方检验。
(4)列联表分析的步骤
检验列联表中的行变量与列变量之间是否独立(是否相关)提出假设
H0:行变量与列变量独立(不相关)H1:行变量与列变量不独立(相关 计算检验的统计量 统计决策
进行决策:P值决策
P<0。05,则拒绝原假设H0,否则,接收原假设。(5)Pearson卡方检验的应用条件
所有单元的期望频数应该大于1,或不应有大量的期望频数小于5的单元格。
如果列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。Pearson卡方检验最普遍
第4章
SPSS的均值比较过程 1。Means过程
对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。(1)Means过程是专门计算各种平均数,并对平均数进行简单比较的;(2)虽然Descriptive Statistics(描述统计)菜单项中的几个过程也能计算均数,但Means过程的输出结果是将各组的描述指标放在一起的,便于相互比较;
(3)Means过程必须设置分组变量,若没有分组变量的话,可以使用Descriptive Statistics菜单项中的几个过程。
(4)适用于测度水平为SCALE的变量。
2。单样本T检验(1)目的
检验某变量的总体均值与指定的检验值之间是否存在显著差异。(2)适用条件
样本来自的总体服从正态分布(3)基本步骤
H0: μ=μ0 H1: μ≠μ0
构造检验统计量 统计决策
如果P值<α(α一般取值为0。05),拒绝原假设; 如果P值>α,接受原假设;
3。
独立样本T 检验(1)目的
通过比较两个样本均值差的大小来确定两个总体的均值是否相等。(2)适用条件
独立性:两个样本相互独立,且均为大样本;
正态性:如果两个样本相互独立但都是小样本,或有一个样本是小样本,则要求总体服从正态分布;
方差齐性
(3)基本步骤
a、方差齐性F检验
原假设:两个总体方差相等; 备则假设:两个总体方差不相等;
P值<0。05 时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。b、对两总体的均值提出假设 H0: μ1=μ2
H1: μ1≠μ2 c、统计决策
在SPSS中进行两独立样本t检验时,应首先对F检验作判断。如果方差相等,观察分析结果中Equal variances assumed列的t检验相伴概率值;如果方差不相等,观察Equal variances not assumed列的t检验相伴概率值。如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
4.配对样本的T 检验
配对样本是指对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。其差别在于抽样不是相互独立的,而是互相关联的。(1)配对样本通常有两个特征: 第一,两组样本的样本数相同;
第二,两个样本记录的先后顺序一一对应,不能随意更改。(2)适用条件
两样本数据必须两两配对 两总体服从正态分布
配对样本的录入方式是:每对数据在同一个case的两个配对的变量上(3)检验步骤 a、提出假设 H0: μ1=μ2
H1: μ1≠μ2 b、统计决策
如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
第5章 方差分析
如何对一个或两个总体的均值进行检验,我们可以用均值比较,如果要讨论多个总体均值是否相等,我们所采用的方法是方差分析。
方差分析中有以下几个重要概念。(1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。
(2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。
(3)单元(Cell):指因素水平之间的组合。(4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。
(5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。
1.单因素方差分析
单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。(1)适用条件
在各个水平之下观察对象是独立随机抽样,即独立性;
各个水平的因变量服从正态分布,即正态性;
各个水平下的总体具有相同的方差,即方差齐性;(2)基本原理
SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)
如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。
SPSS将自动计算检验统计量和相伴概率P值,若P<α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。
另外,SPSS还提供了多重比较方法,多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异,最常用的多重比较方法是LSD。(3)检验步骤 a、提出假设
H0: 各个总体的均值无显著性差异。
H1: 各个总体的均值有显著性差异。b、统计决策
方差齐性检验结果,P值>0。05,方差齐,否则,方差不齐;
单因素方差分析表,P值>α,接受H0,都则,拒绝H0,接受H1。
2.多因素方差分析
多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。(2)基本原理
由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:
Q总=Q控1+Q控2+Q控1控2+Q随其中,Q表示各部分对应的离差平方和。多因素方差分析比较
Q
控
1、Q 控
2、Q 控 1 控
Q
随
占 Q
总 的比例,以此推断不同因素以及因素之间的交互作用
2、是否给观测变量带来显著影响。
(3)基本术语
a、Dependent Variable 观测变量或因变量 主要指研究中的定量变量
如:移动话费、学生成绩、销售量、亩产量等
b、Fixed Factor 固定效应因素,固定因素,控制因素
主要指研究中的定性变量
如:资费等级、客户类型、漫游类型、促销策略等 c、Random Factor 随机效应因素、随机因素
人为无法对其水平值进行准确控制,只是能够直观观测到
如:话费水平、收入水平、消费习惯等
d、Interaction 交互作用、交互效应
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。
当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。例如:饮食习惯、适量运动对减肥的作用; e、main effect 与交互效应相对应的
主效应就是每个因素对因变量的单独影响(main effect)f、Covariates 协变量
指对应变量可能有影响,需要在分析时对其作用加以控制的连续性定量变量 当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响(3)应用条件
等方差;
各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性);
正态性:即所有观察值系从正态总体中抽样得出;(4)基本步骤
提出假设
H0:因素A中的r个水平的均值相等(因素A 对因变量无显著性影响)H1:因素A中的r个水平的均值不全相等(因素A 对因变量有显著性影响)统计决断 P值检验法
依次查看各F值的P值,p-值<α,应拒绝原假设; 如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;
第6章
非参数检验
非参数检验(nonparametric test),又称为任意分布检验(distribution-free test); 不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(nonparametric test)
它不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断;
而是通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。特点
参数检验条件不满足时的处理方法
不对均数等参数检验,而是检验分布是否相同
在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。非参数检验的着眼点不是总体参数,而是总体的分布情况 非参数检验研究目标总体的分布是否与已知理论分布相同 非参数检验研究各样本所在总体的分布位置,形状是否相同 优点
第一,具有较好的稳健性;
第二,受限条件少:对数据要求不像参数检验那样严格
第三,适用范围广:可应用于各种不同的情况,不受总体分布形状的限制,适合处理无法精确数量化的定性数据和小样本数据 第四,计算通常较简单,且容易理解 缺点
第一,将定量数据转换为定性数据时,漏失了数据的一些信息
第二,检验的敏感度和效果,均不如参数检验好。检验效率低于参数检验,主要是犯第二类错误的可能性加大。
第三,参数检验适用的数据,非参数方法会降低检验效能;当数据满足参数检验条件时,效能低于参数法,不满足参数法条件时,处于“优势” 非参数检验的应用场合
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题; 定量数据,其分布类型无法获知,且为小样本; 定量数据,极度偏态,或个别数值偏离过大; 各组离散度相差悬殊
一端或两端存在不确定数值的定量数据
定序数据,比较各组间等级强度的差别; 非参数检验的主要方法 单个样本的非参数检验
卡方检验(Chi-Square过程)
二项检验(Binomial过程)
游程检验(Runs过程)
柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)两个独立样本的非参数检验 多个独立样本的非参数检验 两个配对样本的非参数检验 多个配对样本的非参数检验 顺序统计量
通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。
秩(Rank):排序号(排队号)在统计学上称为秩
结(ties):绝对值相等称为结,又称同秩,则取平均秩次。
一般来说,秩就是该组数据按照升序排列之后,每个数据的位置。
1.单个样本的非参数检验 卡方检验(Chi-Square过程)
用卡方检验来检验定性变量的几个取值(分类数据,或类别)所占比例是否和理论的比例没有统计学差异。检验分类变量的分布
适合于定性数据及频数资料的分析
要求样本足够大,要求样本容量一般大于50; 应用领域
如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同)成绩优、良、中、差的学生人数是否相同 赞同某种观点的人数是否达到80%,等等。
比如在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。Chi-Square检验的基本思路
先按照已知总体的构成比例分布,计算出样本中定性数据(即各类别)的期望频数然后求出观测频数和期望频数的差值,最后计算出卡方统计量 利用卡方分布求出P值,假设检验的H0是样本中某指标的比例与已知比例一致 得出检验结论
2.二项检验(Binomial过程)检验二项分类变量分布
用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
Binomial过程对二项分类变量的单个样本作检验,推断总体中两个分类数据的比例是否分别为π和(1-π)应用领域
射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与反面;人群性别,男和女;产品质量,合格和不合格 定量数据、符号检验(SING TEST)与Binomial过程
定量数据:大样本;或小样本,总体服从正态分布,总体方差已知; 参数检验:单个样本的均值检验
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
极度偏态,或个别数值偏离过大;
一端或两端存在不确定数值
3.游程检验(Runs过程)
Runs过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验 二分类数据和定量数据(连续数据)均可
对于一个取两个值的分类变量,游程检验方法是检验这两个值的出现是否是随机的。游程检验还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题 游程检验的作用
1、检验总体分布是否相同
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2、检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数,分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。应用范围
生产过程是否需要调整,即不合格产品是否随机产生; 奖券的购买是否随机;
期货价格的变化是否随机等等。
若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。
当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程 ;
4.(l-Sample K-S过程)
柯尔莫诺夫-斯米尔诺夫检验,考察某个连续性变量是否符合理论分布 利用样本数据推断总体是否服从某种分布
可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。数据要求:定量数据,Scale
5。
独立样本的非参数检
检验两个或多个独立样本所在总体是否相同
在不了解总体分布的情况下,通过分析样本数据均值或中位数的差异,推断样本来自的两/多个独立总体的分布存在的显著性差异。Independent Samples过程:主要用于检验两个独立样本所在总体分布是否相同 K Independent Samples过程:主要用于检验多个独立样本所在总体分布是否相同 界面上基本相同
(1)两个独立样本的非参数检验
含义:由样本数据,推断两个独立总体的分布是否存在显著差异(或两样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较 应用范围
两种训练方法中哪一种更出成绩 两种汽 油中哪一个污染更少 两种市场营销策略中那种更有效
与独立样本t检验的区别
对于定量数据,如果方差相等,且服从正态分布
两个独立样本的非参数检验的过程
定序数据;对于定量数据,不满足两个独立样本t检验的条件
曼-惠特尼U检验(Mann-Whitney U)
为检验两总体的中位数是否相等,常用Mann-Whitney U 检验,或称Wilcoxon秩和检验(Wilcoxon rank sum test);
这两种方法是独立提出的,检验结果完全等价的; 分析步骤
建立检验假设,确定显著性水平α :
H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同;
H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。或:
H0:M1=M2;
H1:M1>M2
2、编秩,将两组数据由小到大统一编秩,编秩时如遇有相同数据,取平均秩次。
3、求秩和,两组秩次分别相加。
4、确定统计量
若两组样本容量相等,则任取一组的秩和为统计量;
若两组样本容量不等,则以样本样本容量较小者对应的秩和为统计量。
5、查表确定P值,作出推断结论。若P>α,不能拒绝原假设。
若则P<α,拒绝原假设,认为两总体的分布不相同。
(2)多独立样本非参数检验
对三个或三个以上的总体的均值是否相等进行检验,使用的方法是单因素方差分析 ; 单因素方差分析过程需要假定条件,F检验才有效; 有时候所采集的数据常常不能满足这些条件,K Independent Samples过程 K Independent Samples过程
含义:由样本数据,推断多个独立总体的分布是否存在显著差异(或多个样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的多个总体分布位置比较,可以简化地理解为多个总体中位数的比较。应用范围
各城市儿童身高分布一致吗?
不同收入的居民存(取)款金额分布一致吗?
电信公司人力资源部门比较3所大学雇员的管理业绩是否存在差异? 检验方法
Kruskal-Wallis H :克鲁斯卡尔-沃利斯单因素方差分析最常用,原理同Wilcoxon检验 多个样本间的两两比较 多组独立样本;
每组5个观察值,样本量小,分布类型未知;
考虑采用秩转换的非参数检验方法——Kruskal-Wallis秩和检验。
(3)两/多个配对样本非参数检验
检验两个或多个配对样本所在总体位置是否相同
在不了解总体分布的情况下,通过分析两/多个配对样本,推断样本来自的两/多个总体的分布是否存在显著性差异。Related Samples过程:主要用于检验两个配对样本所在总体分布是否相同 K Related Samples过程:主要用于检验多个配对样本所在总体分布是否相同 界面上基本相同
两个配对样本的非参数检验
含义:由样本数据推断两配对总体分布是否存在显著差异。数据要求
两组配对的样本数据;
两组数据的样本容量相同,先后次序不能任意改变,一一对应; 统计分析步骤
提出基本假设
H0:两配对总体分布无显著差异 H1:两配对总体分布有显著差异 统计决断
P值>α,不能拒绝原假设
P值<α,拒绝原假设
多个配对样本非参数检验
含义:由样本数据推断多个配对总体分布是否存在显著差异。
数据要求:多组配对的样本数据,多组数据的样本容量相同,先后次序不能任意改变,一一对应; 应用范围
三种促销形式的销售额分布一致吗? 收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异 评委打分一致吗? 三种检验方法
Friedman M检验:最常用
Kendall W检验 :和谐系数检验
Cochran Q:要求样本数据为二分类数据(1-满意
0-不满意)检验方法的选择
1)单个样本:若来自正态总体,可用t检验,若来自非正态总体或总体分布无法确定,可用二项检验(二项检验)2)配对样本:
二分类变量,可用McNemar检验;
连续型变量,若来自正态总体,可用配对t检验,否则可用Wilcoxon符号秩和检验。
3)两组独立样本:连续型变量,若来自正态总体,可用t检验,否则,可用 Wilcoxon秩和检验;
二分类变量或无序多分类变量,可用卡方检验;
有序多分类变量,宜用Wilcoxon秩和检验。4)多组独立样本
连续型变量值,来自正态总体且方差相等,可用方差分析;否则,进行数据变换使其满足正态性或方差齐的要求后,采用方差分析;数据变换仍不能满足条件时,可用Kruskal-Wallis秩和检验。
二分类变量或无序多分类变量,可用卡方检验。
有序多分类变量宜用Kruskal-Wallis秩和检验。
第7章 相关分析 概念
相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。相关关系的类型
1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。4)根据研究变量的多少,可分为单相关、复相关。相关分析的作用
1)判断变量之间有无联系
2)确定选择相关关系的表现形式及相关分析方法 3)把握相关关系的方向与密切程度
4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。5)相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等 相关系数
相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。相关系数的数值范围是介于–1与 +1之间(即–1≤ r ≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。
两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。
相关系数的注意事项
1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。2)相关系数r 受变量取值区间大小及样本数目多少的影响比较大。
3)来自于不同群体且不同质的事物的相关系数不能进行比较。4)对于不同类型的数据,计算相关系数的方法也不相同
1.简单相关分析的基本原理
简单相关分析是研究两个变量之间关联程度的统计方法。它主要是通过计算简单相关系数来反映变量之间关系的强弱。一般它有图形(散点图)和数值(一方面应观察相关系数的大小,另一方面,应观察概率P值,其原假设为**不相关)两种表示方式。简单相关系数
1)皮尔逊(Pearson)相关系数
常称为积差相关系数,适用于研究连续变量之间的相关程度。例如,收入和储蓄存款、身高和体重等变量间的线性相关关系。注意Pearson相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,系数的大小并不能代表其相关性的强弱。2)Spearman等级相关系
Spearman等级相关系数是用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性相关分析,适用条件为:
① 两个变量的变量值是以等级次序表示的资料;
②
一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量n不一定大于30。
从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围要比积差相关广泛,它的突出优点是对数据的总体分布、样本大小都不做要求。但缺点是计算精度不高。3)Kendall’s等级相关系数
它是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系。它利用变量的秩计算一致对数目和非一致对数目。
2.偏相关分析的基本原理
方法概述
简单相关分析计算两个变量之间的相互关系,分析两个变量间线性关系的程度。但是现实中,事物之间的联系可能存在于多个主体之间,因此往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度。基本原理
偏相关分析是在相关分析的基础上考虑了两个因素以外的各种作用,或者说在扣除了其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的就在于消除其他变量关联性的传递效应。3.距离分析的基本原理
简单相关分析和偏相关分析有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但在实际中有时会遇到一种情况,在分析前对数据所代表的专业背景知识尚不充分,本身就属于探索性的研究。这时就需要先对各个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步了解,然后再根据结果考虑如何进行深入分析。
距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的P值,而只能给出各变量/记录间的距离大小,以供用户自行判断相似性。
第8章 SPSS的回归分析 1。一元线性回归 方法概述
线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。
一般线性回归的基本步骤如下。
① 确定回归方程中的自变量和因变量。
② 从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。
③ 建立回归方程,在一定统计拟合准则下,估计出模型中的各个参数,得到一个确定的回归方程。
④ 对回归方程进行各种统计检验。
⑤ 利用回归方程进行预测。
注:一元线性回归的经验模型是:Y=β0+β1X 统计检验
在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。
1)输出结果的模型摘要
其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(R Square),校正后的可决系数(adjusted R Square)和回归系数的标准误(Std。Error of the Estimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数R Square的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。
2)输出结果中的方差分析表
它是回归模型显著性检验的结果,所用方法为F检验,其零假设为原方程无效,通过P值来判断原方程是否有效。3)输出结果中的回归系数表
应特别关注回归系数β1 的T检验,它的零假设为β1 =0,通过P值来判断β1 是否有实际意义。
2.多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
其基本步骤与一元回归几乎一致,只是在输出结果的模型摘要中通过观察调整R2 来判断方程的拟合情况,另外,同样可通过折线图来观察模型拟合效果。
3.曲线拟合
实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。
在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法将这些曲线方程转化为线性方程来估计参数。
在选择模型的时候可以结合专业知识多选几种,如同时选择“指数分布”、“逆模型”和“幂函数”,然后在模型汇总中比较R2 的大小,选择最大的一个,同时,注意观察各自的P值,其原假设为其模型无统计学意义。
4.非线性回归分析
非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。通过散点图观察,如果自变量和应变量不能通过线性回归或区县估计来实现,则可以在SPSS通过【分析】-【回归】-【非线性】来实现。
以下是SPSS处理问卷的总结
当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以SPSS为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存。下面将从这四个方面来对问卷的处理做详细的介绍。
SPSS处理:
第一步:定义变量
大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位)、label(变量标签)、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类)。
我们知道在SPSS中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值。现在我们以问卷第一个问题为例来说明变量的设置。为了便于说明,可假设此题为:
1。请问你的年龄属于下面哪一个年龄段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric,width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可。同样道理我们可做如下设置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定义变量缺失值,单击missing框右侧的省略号,会弹出缺失值对话框,界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明。
1。开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value、Missing两项不设置即可。
2。多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍。这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项,即选中该项和不选中该项。现在举例来说明在SPSS中的具体操作。比如如下一例:
请问您通常获取新闻的方式有哪些()1 报纸 2 杂志 3 电视 4 收音机 5 网络
在SPSS中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_
1、3_
2、3_
3、3_
4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可。
使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。到此,我们的定义变量的工作就基本上可以结束了。下面我们要作就是数据的录入了。首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了。
第二步:数据录入
SPSS数据录入有很多方式,大致有一下几种: 1。读取SPSS格式的数据 2。读取Excel等格式的数据
3。读取文本数据(Fixed和Delimiter)4。读取数据库格式数据(分如下两步)(1)配置ODBC(2)在SPSS中通过ODBC和数据库进行
但是对于问卷的数据录入其实很简单,只要在SPSS的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下。
1。在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案。
2。在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5„„。的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题。以次类推。我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入。比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的)。
3。我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据。在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了。
第三步:统计分析
有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择。SPSS有数值分析和作图分析两类方法。
1。作图分析:
在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::
(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。
(2)Interactive:交互式统计图。(3)Map:统计地图。
(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 散点图 线图 直方图 饼图 面积图 箱式图
正态Q-Q图 正态P-P图 质量控制图 Pareto图
自回归曲线图 高低图 交互相关图 序列图 频谱图 误差线图
作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好。
2。数值分析:
SPSS 数值统计分析过程均在Analyze菜单中,包括:
(1)、Reports和Descriptive Statistics:又称为基本统计分析。基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。
Descriptive Statistics包括的统计功能有:
Frequencies(频数分析):作用:了解变量的取值分布情况
Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值进行标准化处理
Explore(探索分析):功能:考察数据的奇异性和分布特征
Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系 Reports包括的统计功能有:
OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。
Case Summaries(观测量列表):察看或打印所需要的变量值 Report Summaries in Row:行形式输出报告 Report Summaries in Columns:列形式输出报告
(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。
以下是进行均值比较及检验的过程:
MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
T test 过程:对样本进行T检验的过程
单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)
配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)one-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。
(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决
(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远
(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic:二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling 最优编码回归;其中最常用的为前面三个。
(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
非参数检验的过程有以下几个: 1。Chi-Square test 卡方检验 2。Binomial test 二项分布检验 3。Runs test 游程检验
4。1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5。2 independent Samples Test 两个独立样本检验 6。K independent Samples Test K个独立样本检验 7。2 related Samples Test 两个相关样本检验 8。K related Samples Test 两个相关样本检验(7)、Data Reduction(因子分析)(8)、Classify(聚类与判别)等等
以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果。
第四步:结果保存
我们的SPSS软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于SPSS软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制﹑粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存。因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果。
总结:
以上便是SPSS处理问卷的四个步骤,四个步骤结束后,我们需要SPSS软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了。值得一提的是。SPSS是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用。
第四篇:SPSS学习心得体会
应用统计分析学习报告
本科的时候有概率统计和数理分析的基础,但是从来没有接触过应用统计分析的东西,spss也只是听说过,从来没有学过。一直以为这一块儿会比较难,这学期最初学的时候,因为没有认真看老师给的英文教材,课下也没有认真搜集相关资料,所以学起来有些吃力,总感觉听起来一头雾水。老师说最后的考核是通过提交学习报告,然后我从图书馆里借了些教材查了些资料,发现很多问题都弄清楚了。结合软件和书上的例子,实战一下,发现spss的功能相当强大。最后总结出这篇报告,以巩固所学。spss,全称是statistical product and service solutions,即“统计产品与服务解决方案”软件,是ibm公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,也是世界上公认的三大数据分析软件之一。spss具有统计分析功能强大、操作界面友好、与其他软件交互性好等特点,被广泛应用于经济管理、医疗卫生、自然科学等各个领域。具体到管理方面,spss也是一个进行数据分析和预测的强大工具。这门课中也会用到amos软件。
关于spss的书,很多都是首先介绍软件的。这个软件易于安装,我装的是19.0的,虽然20.0有一些改变和优化,但是主体都是一样的,而且都是可视化界面,用起来很方面且容易上手。所以,我学习的重点是卡方检验和t检验、方差分析、相关分析、回归分析、因子分析、结构方程模型等方法的适用范围、应用价值、计算方式、结果的解释和表述。
首先是t检验这一部分。由于参数检验的基础不牢固,这部分也是最初开始接触应用统计的东西,学起来很多东西拿不准,比如说原假设默认的是什么。结果出来后依然分不清楚是接受原假设还是拒绝原假设。不过现在弄懂了。这部分很有用的是t检验。t检验应用于当样本数较小时,且样本取自正态总体同时做两样本均数比较时,还要求两样本的总体方差相等时,已知一个总体均数u,可得到一个样本均数及该样本标准差,样本来自正态或近似正态总体。t检验分为单样本t检验、独立样本t检验、配对样本t检验。其中,单样本t 检验是样本均数与总体均数的比较的t检验,用于推断样本所代表的未知总体 均数μ与已知的总体均数uo有无差别;独立样本t检验主要用于检验两个样本是否来自具有相同均值的总体,即比较两个样本的均值是否相同,要求两个样本是相互独立的;配对样本t检验中,要正确理解“配对”的含义,主要用于检验两个有联系的正态总体的均值是否有显著差异,跟独立检验的区别就是样本是否是配对样本。这几个方法用软件操作起来都是相对简单的,关键是分清楚什么时候用这个什么时候用那个。
然后是方差分析。方差分析就是将索要处理的观测值作为一个整体,按照变异的不同来源把观测值总变异的平方和以及自由度分解为两个或多个部分,获得不同变异来源的均值与误差均方,通过比较不同变异来源的均方与误差均方,判断各样本所属总体方差是否相等。方差分析主要包括单因素方差分析、多因素方差分析和协方差分析等。这一部分在学习的过程中出现一些问题,就是用spss来操作的时候分不清观测变量和控制变量,如果反了的话会导致结果的不准确。其次,对bonferroni、tukey、scheffe等方法的使用目的不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用bonferroni(lsd)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用tukey法;其他情况宜用scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,post hoc键有lsd的选项:当方差分析f检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。lsd即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关分析研究现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。主要有双变量相关分析、偏相关、距离相关几个方法。双变量相关分析是相关分析中最常使用的分析过程,主要用于分析两个变量之间的线性相关分析,可以根据不同的数据类型和条件,选用pearson积差相关、spearman等级相关和kendall的tau-b等级相关。当数据文件包括多个变量时,直接对两个变量进行相关分析往往不能真实反映二者之间的关系,此时就需要用到偏相关分析,从中剔除其他变量的线性影响。距离相关分析是对观测变量之间差异度或相似程度进行的测量,其中距离需要弄清楚,距离分析是对观测量之间相似或不相似程度的一种测度,是计算一对观测量之间的广义距离。这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。接着是回归分析。相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。回归分析的目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。应用回归分析时应首先确定变量之间是否存在相关关系,如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。正确应用回归分析预测时应注意:①用定性分析判断现象之间的依存关系;②避免回归预测的任意外推;③应用合适的数据资料; 接下来是因子分析。因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家c.e.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接
测量到的隐性变量。从显性的变量中得到因子的方法有两类。一类是探索性因子分析,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。而验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。这一部分不能用spss来操作,要用amos,用起来也很方便。
最后一部分学习的是结构方程模型。结构方程模型是一种融合了因素分析和路径分析的多元统计技术。它的强势在于对多变量间交互关系的定量研究。在近三十年内,其大量应用于社会科学及行为科学的领域里,并在近几年开始逐渐应用于市场研究中。结构方程模型是对顾客满意度的研究采用的模型方法之一。其目的在于探索事物间的因果关系,并将这种关系用因果模型、路径图等形式加以表述。结构方程模型与传统的回归分析不同,结构方程分析能同时处理多个因变量,并可比较及评价不同的理论模型。与传统的探索性因子分析不同,在结构方程模型中,我们可以提出一个特定的因子结构,并检验它是否吻合数据。通过结构方程多组分析,我们可以了解不同组别内各变量的关系是否保持不变,各因子的均值是否有显著差异。
这门课要学习完了,整个学习的过程是充满曲折和挑战的,我见证了自己从一无所知到困惑迷茫再到略懂再到会用的过程。甚至学完之后有些问题还没有彻底搞清楚,自己接下来还会不断的探索的。spss是个很神奇的工具,结合amos和excel更是如虎添翼,相信学习了spss在以后的论文和数据分析中很有用。这门课给我的感觉是看起来很难,但是实际学起来就好很多,因为当我结合具体实例和软件的时候,很多抽象的问题就豁然开朗了。但是想给老师一个建议,这门课需要很强的统计和概率论的基础,要不然就会很难听懂或者听得半懂。然后这门课的很多方法的相关资料都是用在医疗卫生、自然科学领域的,在管理中的应用的资料不怎么多。老师希望我们上课的时候结合在管理中的应用来学习,但是资料有限,希望老师在这个方面多给学生一些引导。篇二:spss心得体会
学习spss在教育统计中的应用心得体会
一、什么是spss?为什么要学习spss?
新学期开始时,在信息化教育测量与评价的课程中第一次接触
到spss这个软件,作为本科是计算机专业出身的我,当时只知道spss是一套统计软件,就是一套根据统计学原理所编写出来的统计分析软件,至于统计什么?分析什么?我一无所知,尤其是看到老师推荐的《spss在教育统计中的应用》这本书的时候,就简单的把它理解为用spss软件来统计、分析与教育相关的数据,最终得出想要的结论而已,而现在看来,我当初的想法未免有点简单与无知。下面就来让我们了解一下spss。spss软件是一组专业的、通用的统计软件包,同时它也是一个组合式软件包,兼有数据管理、统计分析、统计绘图和统计报表功能。它广泛用于教育、心理、医学、市场、人口、保险等研究领域,也用于产品质量控制、人事档案管理和日常统计报表等。spss软件对计算机硬件系统的要求较低;对运行的软件环境要求宽松,有各种版本可运行在windows xp、win7系统环境下,spss统计软件采用电子表格的方式输入与管理数据,能方便地从其他数据库中读入数据(如dbase,excel,lotus等)。
我为什么要学习spss呢?其实很简单,一方面,做为一名 研究生,要具备一定的科研能力,如今量化研究的方法大行其道,一切要以事实说话、要以数据说话,有了数据支持的研究才能更容易被认可、被推论。另一方面,根据对aect94定义的理解,教育技术
学研究的对象是学习过程和学习资源,包含大量的偶然现象和非精确现象。因此,要深入研究教育技术现象及其规律,必须运用统计描述、统计分析方法和模糊数学分析方法,才可能使这门学科达到真正完善的地步。教育技术学研究的现象多数是偶然的现象,其变化发展往往具有几种不同的可能性,究竟出现哪一种结果,那是带有偶然性的,是随机的。这类偶然现象是遵循统计规律的,当随机现象是由大量的成份组成,或者随机现象出现大量的次数时,就能体现统计平均规律。我们只有对数据资料作统计处理,才可能可以发现它们的内在规律,掌握现象的特征,检验研究的假设,才能得出准确的、可靠的研究结果。
二、对本spss各章节学习的心得
新课程老师带领下,采取一种新的学习方式,老师讲解了基础部分后,全班同学采取小组分工、协作学习,然后对全班同学进行讲解学习内容,教师进行当堂指导,这种方法改变了同学们的学习态度,同学们不再是课前不预习,课下不复习的状态,每组都有自己的任务,课前有一定的压力,同学间的讨论也明显的增多,例如:一次课下同学们在一起吃饭,有几位同学还在调侃说“两个菜之间用spss进行分析后得出的结果不接受h0假设,也就是两个菜之间不相关”,虽然这只是一个课下的玩笑,但是这也可以体现出对学习的态度的转变。下面就本学期的所学spss的各章节做一下归纳,这些归纳也是基于本人平时在课前预习,课上及课后的一些所思所想,也许会有一些理解上的偏颇在内,但这仅限于心得而已。本学期学习各个章节
及分工如下表: 章节名称
1.spss的认识
及数据文件的处理
2.数据清理与
基本统计及测
量质量分析 3.t检验 4.方差分析1、2人 3人 7.聚类分析 8.统计图形 2人 1人 2人 6.卡方检验 3人 2人 5.相关分析 3人 分工人数 章节名称 分工人数 spss的认识及数据文件的处理心得体会
可能是由于是同学们第一次讲,万事开头难,压力很大,在大家认为最为简单的内容讲解上,两位同学并没有完全展现出二人实际水平,大家在这一节课上都感觉到很压抑,总的感觉是这节内容很简单,但是内容又很松散,可讲的东西太多,讲的东西多就没有突出重点和难点,所以听过之后就有种无数的碎片漂浮在脑海中一样,很难将知识系统化,课后总结一下无非就是两块,一块是了解spss软件的历史及基本功能,还有一块就是spss软件当中一个模块叫做数据文件的处理,在认识spss软件当中了解到它是一组社会科学统计软件包,诞生于1968年,当时美国的3位大学生开发出了它,经过这么多年的后续开发,spss已经有了很多的版本,具有了更的兼容性、和更友好的操作界面,也在很多的学科领域得到了应用,而在教育中的应用
只是它的一个分支。此外它对硬件的要求也很低,当前一般的电脑都能安装它,安装的过程中也没有什么特殊的方法,傻瓜式的安装方式完全就可以满足。在数据文件的处理方面,主要是要学会定义变量、处理变量两方面;定义变量是要注意根据自己实际采集的数据来定义变量,例如是数值型的变量还是文本型的变量及变量的长度,小数点保留尾数等,总之就是一句话,根据实际调查的数据要求来定义相应变量。变量定义只有只要细心的将实际调查的数据录入到spss当中即可,当然也可以在spss软件之外进行数据编制,可以通过execel等编辑后可以直接导入到spss中。在处理变量模块当中,可以对变量进行添加、删除、拆分与合并等操作,只要根据实际调查数据,细心调整变量,使操作更加简便和明了。
2、数据清理与基本统计及测量质量分析的心得体会
数据的清理与基本统计及测量质量分析由两名同学进行讲解,由于吸取了上节课两名同学的经验,本节讲授的明显好于上节课,这里我也是把它分为两块进行学习,一块是数据的清理,另一块是相关统计理论的学习。在数据清理方面主要学习了奇异数据的检查与清理,在这里本人觉得非常有必要进行数据清理,在实际的调查数据时难免会出现错误或者碰到极为特殊的典型案例,所以这些数据很难符合大众规律,在统计、分析过程中可能会造成分析结果异常,从而直接影响最终的结论。所以觉得非常有必要进行数据检查与清理。而我认为本节的难点不是怎样熟练运用spss软件,而是在第二块中的,相关统计理论的学习,学习这些理论需要一定的数学基础,只有明确这些
理(论如均值、标准误差、中数、众数、全距、四分位等)原理,知其然,知其所以然,这才是关键,在spss中想要实现对数据进行以上分析只需要轻轻点击一下按钮就可以是轻松实现,但是如果不清楚到底用它们来做什么就无从谈起做数据分析了,所以本节内容知道分析原理的重要性要远远大用spss对数据做出相关分析的重要性。总结为一句话“知道它们是做什么的后才会让它们去做该做的工作”。
3、t检验的心得体会 t检验由两名同学讲解,在学习t检验时,首先要明确什么样的数据适合t检验,t检验的结果要说明什么问题?经过学习可以知道,t检验是对两组数据间的平均水平或均数的比较,通过比较可以得出两组数据间的显著性水平,而这两组数据都要符合正态分布,方差具有齐同性,t检验由两种情况,一种配对提检验,要求两组数据不可以独立颠倒顺序,如果颠倒顺序就会改变问题的性质,这种t检验称为配对t检验;另一种情况下的t检验是两组数据可以任意颠倒顺的检验称为独立样本的t检验。但是这两种情况都必须符合最先的要求,即都是符合正态分布,方差都具有齐同性。通过spss的相关操作可以轻松完成检验,但是在检验的过程中必须设置置信区间,一般设置为95%,在设置置信区间时必须要考虑到所做分析的数据,如果像要得到显著性差异的结果则可尽量将置信区间设置小些,如果想要得到不显著差异就要将置信区间甚至大些,本人的理解为若置信区间小,则可以理解为在小范围内是可以相信的,但如果将分析结果的置信区间值调大则说明在很大的范围内这个结果可信,反之则不可信,篇三:spss学习总结
学习spss感想
以前学统计学的时候就听老师讲过spss有非常强大的统计功能,对我们学习、工作有很大的帮助,所以我一直认为spss很神秘。通过这个学期周老师的课让我对此清楚了许多,也学到了spss强大的统计功能,更加让我明白了spss与excel的区别。spss是“社会科学统计软件包”(statistical package for the social science)的简称,是一种集成化的计算机数据处理应用软件。1968年,美国斯坦福大学h.nie等三位大学生开发了最早的spss统计软件,并于1975年在芝加哥成立了spss公司,已有30余年的成长历史,全球约有25万家产品用户,广泛分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。spss是世界上公认的三大数据分析软件之一(sas、spss和systat)。
在学习spss期间,我主要遇到的问题是后面几章,spss的参数检验、方差分析、相关分析、线性回归分析、聚类分析、因子分析等。在参数检验中我不知道原假设是什么,导致分析的时候不知道该拒绝原假设还是接受原假设,不能分析出统计结果。不会区分单样本t检验和两配对样本t检验的区别,现在懂得了它们都要服从正态分布,基本思想是小概率反证法,反证法思想是先提出假设(检验假设h0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。
在学习方差分析中,开始常常把观测变量和控制变量弄混淆,在分析的时候应分别送入哪个对应框中,如果反了的话会导致结果的不准确。其次,对lsd、bonferroni、tukey、scheffe等方法的使用不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用bonferroni(lsd)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用tukey法;其他情况宜用scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,post hoc键有lsd的选项:当方差分析f检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。lsd即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。
在学习相关分析的过程中,在绘制散点图时,不知道哪个该做横坐标,哪个该做纵坐标,明白了横坐标是解释变量,纵坐标是被解释变量,还有对相关系数的种类分析不熟练等。在学习回归分析的过程中,对dw可检验的含义不理解,不记得对应的dw表示的残差序列的相关性。对解释变量向前筛选、向后筛选、逐步帅选策略不能熟练掌握,特别是对向前向后筛选时到处的结果不会进行分析。
学习聚类分析中,变量的选择分不清,无关变量有时会引起严重的错分,应当只引入在不同类间有显著差别的变量,尽量只使用相同类型的变量进行分析。分类数不明确,从实用角度讲,2~8 类比较合适。掌握了k-means cluster 分析,样本量大于100时有必要考虑,只能使用连续性变量。
学习因子分析的过程中,对提取出来的因子的实际含义不清晰,不能使因子具有命名解释性。
学习了spss后,我不禁想到了spss与excel的区别,这一点是针对像我这样开始只懂得用excel的人来说。从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。但是spss又比excel更加强大:
一、图型的表现力是spss的主要优点之一
应该说,excel的图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现,spss就更为详细和准确,这一点据说在所有统计软件中都突出。
二、通过spss检验方差齐性和数据分布
假设检验中,采用的t检验和方差检验都需要满足二个要求,即 1.样本方差齐性
2.样本总体呈正态分布
在excel中,提供了f检验来检验方差齐性问题,也就是可以先通过f检验确定方差齐性与否来选择下一步用哪个t检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布实际工作中,只要分布单峰且近似对称分布,也可应用,但要具体确定样本的分布也有难度。这二个问题在spss就可以解决
最后,在感叹它的方便与快捷的同时,对软件开发人员的智慧到了肃然起敬的地步。一直觉得计算机语言是最难的一门外语。虽然本科时曾经对这种逻辑性很强的东西很感兴趣,并在编程课上取得不错的成绩,但一直觉得这似乎不是我能掌控的东西。spss的神奇之处在于,它省去了使用者巨大的计算量,并提高准确性。它开发了开发者的智慧,却弱化了使用者的大脑。篇四:spss学习心得
学院:传播学院 专业:10级广播电视新闻学 学号:129012010023 姓名:许咪咪
学习spss有感——与excel之比较
在学习spss软件的过程中,自己不敢有丝毫松懈,但同时感到学习压力很大,有一定的学习难度,软件的操作可以通过短时间内熟悉,但对数据的结果分析还需要很大很大的提高。在掌握了spss相关技能和熟知了spss之于excel的优越性之后,spss成了往后我进行数据分析、调查的首选软件,如若能自由地结合二者使用,便是更佳选择。excel的基本功能中包括了比较强大的数据处理功能,还提供了丰富的工作表函数,可以完成很多类型的数据处理和分析任务。除了工作表函数以外,excel还提供了一个称为“分析工具库”的加载宏。excel应用的普及性,许多人都把它作为最常用的统计软件来使用。excel提供的统计功能包括数据管理、描述统计、概率计算、假设检验、方差分析和回归分析等等,对于统计学原理所涉及的大部分内容已经足够了。然而,在学习excel的统计功能以前我们有必要先交待一下excel在统计分析方面的局限性。
1、就统计学原理所涉及的统计方法而言,excel没有直接提供的方法包括:箱线图(boxplot)、茎叶图、相关系数的p-值、无交互作用可重复的双因素方差分析、方差分析中的多重比较、非参数检验方法、质量控制图等。
2、按照优秀图形的标准,excel做出的很多图形都不合格。excel的有些图形可能适合于普通大众,但不适合用于科学报告中。例如二维图形的三维表示,圆柱图,圆锥图等等。excel提供的有些图形可能永远不应该使用。
3、excel不能很好的处理缺失值(missing data)问题。总体来说excel对缺失值的处理方式远不如专门的统计软件恰当。
4、虽然大部分情况下excel的计算结果都是可靠的,但在一些极端情况下excel的计算程序不够稳定和准确(特别是excel2003以前的版本中);有些自动功能可能会导致意想不到地结果。
总体来说,excel为我们输入和管理数据、描述数据特征、制作统计表和统计图都提供了强大的支持,但在处理复杂的计算时有时候误差相对较大,因而一些数据处理专家建议人们避免采用excel处理复杂的统计问题。spss能在简单操作基础上,解决excel存在的这些问题,甚至非统计学相关专业的人员也可以利用这个软件对复杂的统计问题进行处理、分析。平时我惯常使用的数据分析软件也是excel。虽然使用excel可以对数据进行透视、分类、筛选以及计算相关系数等,但是这些操作都需要自己每一步每一步的进行手动操作,而使用spss软件在对数据进行整理时,只需对软件某选项内设
置变量条件,系统便自动的进行整理。而且,在学习与应用spss过程中,我了解到应用spss软件只要了解统计分析的原理无需知晓统计方法的各种算法就能得到自己所需要的统计分析结果。另外对于常见的统计方法,spss的命令语句、子命令及选择项的选择绝大部分在软件内的对话框操作完成,我们无需花费大量的时间记忆大量的命令和选择项。在这方面,spss软件的应用可以使我们节省大量时间,而且软件操作比较容易上手,在当今这个时间就是金钱的社会上,我们掌握spss软件的应用,也就是为自己赚取了不少金钱。
另外在与spss的接触中,我逐渐了解到spss软件的强大与方便。spss提供了从简单的统计描述到复杂的多因素统计分析方法,其中有数据的统计分析、统计描述、交叉表分析、二维相关、方差分析、多元回归、因子分析、聚类分析、降维等分析方法。利用这些方法可以得出计算数据和统计图形,看出数据的离散程度、集中趋势和分散程度,单变量的比重,还有对数据进行标准化处理。利用这个软件对问卷数据进行分析是极好的。虽然,这些方法大部分我还是不会使用,能够让我利用并成功分析的方法只有寥寥几种,但是这种简单便捷的操作让我对spss的兴趣却是越来越浓。spss 像手枪,对于社会统计应用spss,足够精度了。exce对初级统计技术也差不多了,里面有很多类型的图,配之以数据透视表,模拟运算表,宏,高级筛选,窗体,而且方便的单元格和变量操作这些优点都使得excel 更利于小规模,低精度,逻辑关系简单的数据,但是简单的图和表,有时不需要通过假设检验,也能看出很多关系或结论,这些直观的现象有的时候比spss的假设检验更有说服力(spss的假设检验虽然精确,但是成本是很多模型假定)其统计思想易于被日常生活所接受,所以execl用得好,更能显出使用者谙熟研究背景和统计思想,这个修炼层次更高,就像武功最高深的人更最简单的工具,最简洁的招式,实而不华一样。
了解了excel和spss的这个比较后,可以看出spss的统计思想体现了更多数理统计的味道,而excel 则更多体现了描述统计的味道,所以了解spss更重要的是了解不同模型背后的统计想法,当然这些在使用spss的过程中会慢慢的积累的。一个和学习统计思想无关的,但是在学习spss中必须学会的是“数据组织方式和数据测度”,这个对于那些学习信息的人容易理解,对文科出身的人不容易理解。但是这个问题对于初学者很重要。在实际使用spss时,就得按部就班地按照先定义变量,调测度,在录入(导入数据),再分析。分析并不是整个流程。不注意数据的组织方式和数据测度会使很多统计模型误用(实际上不能用,但是软件输出了统计结果),这种误用不是统计模型用得好不好的问题,而是能不能用的问题!
现在,学期即将结束,同样的这门课程也到了尾期,在这学期学到了很多,并且还有很多没有学到。我们学习时所操作的软件是英文版,这对英语基础不好的我来说是个考验。同时,由于我们所学专业并非必须拥有计算机,导致我们平时能够练习的机会比较少,造成了掌握不牢固,前学后忘现象比较严重。现在呢,很是希望能够把spss的应用熟练操作,并且能把它变为自己的一种本能,使自己在今后的工作与学习中,可以轻松运用。篇五:spss学习总结
随着速度越来越快,计算机的功能越来越多,计算统计功能反而已经成为了计 算机的一个次要部分。不过,对于我们这些从事社会学学习和研究的人来说,快速 的计算和统计仍旧是我们使用计算机的主要功能,所以我们平日的工作总是离不开 spss(statistical package for the social science社会科学统计软件)。s pss虽然好用,但是学起来并不容易,特别是在目前高校的教育体制下,教材的过时 以及课程设置的不合理,使得spss的学习成为了社会学、统计学以及其他社会科学 学科学生极为头痛的一件事情。更为棘手的是:往往在学生还没有学会spss之前,一些调查研究任务却又强迫他们使用spss进行分析工作,使得他们十分苦恼。
本教程就是为那些已经学习过统计学,并且粗通计算机,但尚未学习过spss的 社会科学学科的学生准备的,运用面向问题的教学方法,通过一个调查问卷的具体 分析过程使学生们对spss有一个感性认识,并能够再没有完全掌握spss的前提下利 用spss完成一些分析任务。因此,本文不强调面面俱到只强调读者能够完成调查分 析的任务,所以会故意忽略spss一些十分重要但未必会用到的功能,还请读者 见谅。如果读者确实需要使用这些功能,建议参考一本好一点的辅导书。
相信大家知道:依次完整的利用计算机辅助的问卷调查包括问卷设计、问卷访 问、数据输入、数据分析、数据输出、调查报告的撰写六大部分。spss软件参与的 主要是数据输入、数据分析和数据输出这三个部分。接着,本文就将分成这三块,分别介绍spss的使用以及一些技巧、经验。
1、数据输入
在完成了问卷访问这个部分之后,我们手中便拥有了数百至上万份调查问卷,这些问卷计算机是无法直接识别处理的,我们必须将它们进行适当的编码。由于采 用计算机分析,问卷在设计阶段就应该考虑到今后的编码问题,所以应该将问卷设 计地以客观题为主,被访问者填写的应该只是注入数字、选项这些计算机能够处理 的信息。我们首先要为问卷的每一个填写项都起一个代号,并决定它的数据属性(主要是区分为字符串、逻辑串还是数字)。笔者的习惯是首先用英文字母表示填写 项的大题号,接着用阿拉伯数字表示填写项的小题号,然后再用英文字母表示填写 项是本小题的第几项,最后再加上表示数据属性的后缀,比如说第二大题第三小题 的第四个字符串填写项的代号便为b3d_s。在以后的所有分析过程中便利用这个代号 来表示数据的具体内容。接下来,便是具体的输入过程了。首先,我们要对spss的数据文件有一个大致的 了解,这对以后的学习十分关键。打开spss之后,我们便会看到一个类似excel电子 表格的东西,但如果你因此便把spss的数据文件理解为是类似于excel的东西那么就 错了,虽然spss数据的表现形式酷似excel,但就实质而言它更接近于一个数据库文 件,每一个数据列都有它的列名称(也就是我们刚刚起的代号)、列属性(也就是 刚刚我们决定的数据属性),这些都类似于数据库中的字段名称、字段属性,如果 读者以前学习过数据库的相关知识,那里理解起来就十分简单了。由于数据繁多,所以我们的输入过程往往不是由本人进行,而是请专业的数据 录入人员代劳,而那些人员往往是不会使用spss的,所以我们在实际使用过程中数
2、数据分析
对于外行人来说。spss最为难学的部分便是它analyze菜单下十多项子菜单以及 这之下四五十项孙菜单的统计功能,每一项统计功能的用法和功能对于外行人来说 就像是天书一般。但是对于学习过统计学的读者来说,这应该不是问题。再加上sp ss在操作的简易性上还是十分优秀的,每一项统计功能一般只需要在窗口下选择统 计用的变量,然后设置一下必要的选项,最后按下ok便可以了。所以在这里,具体 的操作就不再介绍了。在这里,笔者觉得有必要先介绍一下spss的viewer。在下面 的数据分析和数据输出过程中,我们调用spss的数据分析和制图模块所得到的结果 都会由spss自动输出到一个名为viewer的程序中,并且可以以spo为后缀名保存成为 专门的文件。这样做的好处是如果你的分析和制图工作一次没有完成,那么利用保 存的spo文件,就不必下一次重新作过了。同时,将所有的分析和制图的结果都保存 在一个spo文件中,并随调查报告作为电子附件一起陈送给客户,一来有利于客户检 验分析的可靠性,二来也适合于今后电子化、网络化的趋势。
根据笔者的经验,spss的学习者在这一阶段(数据分析阶段)最主要的问题在于以往 学习的统计指标总是中文的,而spss中的统计指标是英文的,指标的中文和英文往 往无法一一对应,因此,在这一部分中,笔者主要是附上一张统计指标的中英文对 照表,如下: summarize菜单项 数值分析过程
„„frequencies子菜单项 单变量的频数分布统计
„„descriptives子菜单项 单变量的描述统计
„„explore子菜单项 指定变量的综合描述统计
„„crosstabs子菜单项 双变量或多变量的各水平组合的频数分布统计
„„means子菜单项 单变量的综合描述统计
„„independent sample t test子菜单项 独立样本的t检验
„„paired sample t test子菜单项 配对样本的t检验
„„one-way anova子菜单项 一维方差分析(单变量方差分析)anova models菜单项 多元方差分析过程
„„simple factorial子菜单项 因子设计的方差分析
„„general factorial子菜单项 一般方差分析
„„multivariate子菜单项 双因变量或多因变量的方差分析
„„repeated factorial子菜单项 因变量均值校验 correlate菜单项 相关分析
„„bivariate子菜单项 pearson积矩相关矩阵
和kendall、spearman非参数相关分析
„„partial子菜单项 双变量相关分析
„„distance子菜单项 相似性、非相似性分析 regression菜单项 回归分析
„„liner子菜单项 线性回归分析
„„logistic子菜单项 二分变量回归分析(逻辑回归分析)
„„probit子菜单项 概率分析
„„nonlinear子菜单项 非线性回归分析
„„weight estimation子菜单项 不同权数的线性回归分析
„„2-stage least squares子菜单项 二阶最小平方回归分析 loglinear菜单项 对数线性回归分析
„„general子菜单项 一般对数线性回归分析
„„hierarchical子菜单项 多维交叉变量对数回归分析
„„logit子菜单项 单因变量多自变量回归分析 classify菜单项 聚类和判别分析
„„k-means cluster子菜单项 指定分类数聚类分析
„„hierarchical cluster子菜单项 未知分类数聚类分析 „„discriminent子菜单项 聚类判别函数分析 data reduction菜单项 降维、简化数据过程
„„factor子菜单项 因子分析
„„correspondence analysis子菜单项 对应表(交叉表)分析
„„homogeneity analysis子菜单项 多重对应分析
„„overals子菜单项 非线性典则相关分析 scale菜单项
„„reliability ananlysis子菜单项 加性等级的项目分析
„„multidimensional scaling子菜单项 多维等级分析 nonparametric tests菜单项
„„chi-square子菜单项 相对比例假设检验
„„binomial子菜单项 特定时间发生概率检验
„„run子菜单项 随即序列检验
„„1-sample kolmogorov smirnov子菜单项 样本分布检验
„„2-independent samples子菜单项 双不相关组分布分析(转载于:spss学习心得体会)„„k independent samples子菜单项 多不相关组分布分析
„„2 related samples子菜单项
双相关变量分布分析
„„mcnemar test子菜单项 相关样本比例变化分析
„„k related samples子菜单项 相关变量分布分析
„„cocharns q test子菜单项 二分变量均数检验
„„kendalls w子菜单项 一致性判定 time series菜单项
„„exponential smoothing子菜单项平衡序列的随机分量
„„curve estimation子菜单项 数据拟合„„autoregression子菜单项 一阶自回归误差线性方差检验
„„arima子菜单项 综合自回归移动平均分析
„„xii arima子菜单项 增倍和加性季节因子分析 survival菜单项
„„life tables 生命表分析
„„kaplan-meier 双事件分布检验
„„cox regression 事件与时间变量相互分析
„„cox w/time deep cov 时间函数cox分析
有了这一张表,相信读者便可以很容易的利用spss进行各类分析了。实际 上,数据分析这一阶段,就使用spss上没有什么难度,关键是在于究竟你能够怎样 最好的利用spss提供的分析模块从数据中挖掘出更多的东西来,这可就要依靠你的 不断摸索了。最后,还要介绍一个小技巧:
如果读者所在学校今后学习的spss软件为dos版本的话,那么今后你就必 须利用命令行来驾驭spss,所以你在利用spss的windows版本进行数据分析 的过程中,可以利用每一项统计功能窗口ok按钮下的paster按钮将本统计功能的命 令行复制到剪贴板,然后再仔细研究。
第五篇:SPSS学习感想范文
SPSS学习感想
在这学期以前我并没有学过统计学,甚至没有接触过它,因此对它的认识可谓是从零开始的,但经过这一段的学习,也算是受益良多,下面我就简单说下感想吧。
第一节课老师简单讲述了下这门课的概况,给了我们英文版和中文版教材便让我们开始分组讲授各个部分,当时只觉得毫无头绪,对于没接触过的事物人总有莫名的恐惧,这门课看似还很难,就比较担忧。但看了分到的关于方差分析部分的英文版书后,觉得老师推荐的这本书真的很好,虽然看英文比较痛苦,但胜在通俗对于我这种从未接触过的人来说也是读的懂得,这大概也是许多外国教材的优点,会有很实际的举例帮助理解,语言读起来也是简单易懂,不像许多中国教材那么晦涩。后期在看英文文献的时候看到不懂得SPSS模型便会再翻出这本书来看,许多的中文版的教材也看了但总是较难迅速找到想看的知识点,且理解起来也很困难。
说完对于教材的整体心得,就来说说讲课方面的心得吧,起初大家对于老师让学生讲授的方式不是很认同,觉得自己能力有限,问题太难,不一定能看得明白更勿论讲了。但经过后来自己看教材做PPT,发现其实做起来并没有看起来那么难,虽然花了不少时间但最后也算是基本了解大意及步骤,并且自己花了时间做出来的东西会特别记忆深刻,因此做完后对于方差分析这一块也算是有了整体的认识和了解,之后在看论文中这部分的模型来也轻松许多。所以这种讲课方式其实也确实能帮助同学们更积极的学习这门课程。
接着说说学习过后对SPSS的整体认识吧,我专门去百度了下它的全称,定义为SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。之前看论文的时候会经常看到各种表格图形,各种结果输出,当时并不明白,以前也没见过,因此总会跳过实验整个设计直接看结果。在学了这门课后总算对其有了初步的认识。它其实大致分为两个大部分,一是简要介绍描述性和推断性统计,包括描述性统计、推断性统计原理与推断性统计机制;二是统计分析方法,包括卡方检验、独立样本t检验、配对样本t检验、方差分析等检验差异的统计方法,和多元回归分析、因子分析和结构方程模型等检验联系的统计方法。利用这些方法可以得出计算数据和统计图形,看出数据的离散程度、集中趋势和分散程度,单变量的比重,还有对数据进行标准化处理。利用这个软件对问卷数据进行分析是极好的。统计分析也主要有两大类,一类是验证差异的,另一类是验证相关性的。验证差异的主要有t检验和方差分析,验证相关性的主要有回归分析、因子分析和结构方程模型。通过课程的学习我基本知道了他们的区别和应用场景,如t检验适合两个变量之间的差异比较,而方差分析则在变量较多时使用,从而达到便捷的效果。
在学习方差分析时,我刚开始常常把因变量和自变量弄混淆,在分析的时候应分别送入哪个对应框中,如果反了的话会导致结果的不准确。接着,对LSD、Bonferroni、Tukey、Scheffe等方法的使用不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较,宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。因为经常混淆,所以这些都被我记录在PPT中,好让自己以后方便查看。还有,当时对方差齐性检验、多重比较检验的理解也存在困难,但经过小组讨论对他们也基本有了了解。当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验,最灵敏,但会较易犯假阳性的错误。在听别的小组讲述相关分析时,对于在绘制散点图时的横坐标和纵坐标的区分刚开始不太明白,但经过同学的讲授明白了横坐标是解释变量,纵坐标是被解释变量。在学习回归分析的过程中,对解释变量向前筛选、向后筛选、逐步帅选策略不能熟练掌握,特别是对向前向后筛选时到处的结果不会进行分析。在学习因子分析的时,刚开始对提取出来的因子的实际含义不清晰,但这些问题都都一一在讲授和之后的讨论中得到了解析,从而对于他们都算是有了大致的了解。
虽然整个学习过程经历了很多困难,但小组成员在一起,大家一起克服困难,集思广益,最后的结果还算是成功的,每个人对于自己的部分都很认真在准备希望能给大家讲的清楚明晰,这个学习的过程对我们都意义非凡。现在这门课要结束了,但对于SPSS的学习却没有,现有的知识感觉只是对他有个初步的了解,离熟练运用还有些距离,论文中的模型分析的结果还不能很快的看出,因此还需要不断地看书看文献运用。但这门课显然给我们打下了很好的基础,在这结束的时刻,我希望谢谢这些陪我一起走过这个历程的人,我的老师,小组的成员以及其他组的成员们,感谢你们同我一起成长。