第一篇:个人总结SPSS
第一章 界面介绍
1、数据编辑窗口
2、结果浏览/输出窗口
3、程序编辑器窗口:语法 编写
4、脚本编写窗口
系统参数设置 编辑-选项
第二章 数据挖掘 省略
OLAP on-line analytical processing 在线分析处理
第三章 数据文件、变量与函数
数据的编辑(插入个案、插入变量)
SPSS函数 即生成新变量
算数函数(软件中的“算术”)当然还包括类似计算器的简单加减乘除
统计函数(软件中的“统计量”)变异系数 滞后变量 最大值平均值 最小值 缺失数量 标准差 方差 和累积和
我们发现主要是横向比较 对一个“个案”而言 所以函数式中的括号必须包含至少两个变量以上
逻辑函数(软件中的“检索”)
Any 判断
Range(变量名,下限、上限)数值型变量在下限和上限中为1 true 否则为0
时期和时间函数 数值型函数
定义时间格式(软件中的“日期创建”)
DMY 日/月/年 括号中(日、月、年)
XDATE.??难点
随机变量函数(软件中的“随机数字”)
RV.分布名(参数)
缺失值函数
第四章 预处理
数据编辑、整理几张在D数据和T转换两个菜单
D标题栏中 分组、合并、加权等
横向/纵向合并 一般是从外部加入 两者进行综合
第二篇:SPSS总结
SPSS的基本统计功能
1、数据的预处理
2、描述性统计和探索性统计
3、假设检验(包括参数检验、非参数检验等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相关分析
6、回归分析
7、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等
8、时间序列分析
9、信度分析
10、数据挖掘:决策树与神经网络
SPSS 统计分析的一般步骤
1、建立SPSS数据文件: 在【变量视图】定义SPSS数据文件的结构,在【数据视图】进行录入数据文件的录入。
2、SPSS数据的管理数据的预处理 :
集中于【数据】和【转换】两个菜单项。
3、SPSS数据的统计分析阶段
: 在【分析】菜单中选择正确的统计方法。
4、SPSS分析结果的阅读和解释
: 读懂SPSS输出窗口中的分析结果
5、明确其统计含义,并结合背景知识做出合理的解释。
第2章 SPSS统计分析前的准备
一、SPSS数据文件的特点
1、SPSS数据文件是一种有结构的数据文件(一般文本文件仅有纯数据部分,而没有关于结构的描述);
2、由数据的结构和内容两部分构成;
3、其中数据的结构记录数据类型、取值说明、数据缺失等必要信息(在【变量视图】,每一列大家都要明白你在定义什么,有什么用);
4、数据的内容是那些待分析的具体数据;
5、在【数据视图】每一列代表一个变量(variable),变量名显示在表格顶部;
6、在【数据视图】的每一行代表一个记录(case)(即一个案例,或称一个对象、一个观察、一个个体),记录序号显示在表格的左侧;
7、在【数据视图】可以输入和编辑数据,但是不能输入数学表达式和函数
二、定义变量
1、【数据视图】是进行数据输入、数据编辑的界面,对应的表格用于查看、录入和修改数据。
2、【变量视图】 是定义数据文件的变量的界面,对应的表格用于输入和修改变量的定义。
3、用SPSS读取其他格式的数据:
1)数据文件:*。sav
语法文件:*。sps 结果文件:*。spo
脚本文件: *。sbs 2)文件-打开-数据,可打开多种文件类型(。sav、。xls、。dbf、。txt、。dat等)
注:要想顺利打开txt文档,txt文档最好有固定的分隔符,如一个空格或一个逗号等。
三、数据的编辑
在SPSS中,数据文件的编辑、整理等功能被集中在了【数据】和【转换】两个菜单项中:
1、数据的增删、复制、剪切、粘贴;
2、数据的排序,Sort Cases排序便于数据的浏览,快捷找到最大值或最小值,迅速发现数据的异常值;
四、文件的拆分:文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分组。
五、数据选取 :
数据选取(个案选取)的基本方式
按指定条件选取(If condition is satisfied)
随机抽样(Random sample of cases)选取某一区域内(Based on time or case range)
六、个案加权:记录加权是对观测数据赋以权重,常用于频数表资料;
七、文件的合并:合并文件是指将外部数据中的记录或变量合并到当前的数据文件中去。合并数据文件包括两种方式:
从外部数据文件增加记录到当前数据文件中——纵向合并或称追加记录。从外部数据文件增加变量到当前数据文件中——横向合并或称追加变量。
八、变量的计算和变换:【转换】-【计算变量】
九、数据的重新编码recode 统计分组
将字符型变量转换为数值型变量 将几个小类别合为一个类别 将数值型变量转换为字符型
十、统计结果的保存为word文件:【文件】-【导出】
第3章
SPSS描述性统计
1.Frequencies(频率)过程的特色是产生频数表;功能 产生频数分布表;
绘制条形图、饼图、直方图;
计算集中趋势与离散程度、分布形状(峰度和偏度的意义)等统计量; 按要求给出分位数;
对数据的分布趋势进行初步分析
(注:对于定性变量来说,一般来说产生频数分布表,制作条形图,饼图即可);
2.描述分析(Descriptives过程)
适用的分析对象:定量变量,测度为scale。功能:
调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等; 并可将原始数据转换成Z分数((原始值-均值)/标准差)。
3.Explore(探索)过程用于对数据概况不清时的探索性分析,定量变量; 在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。提供茎叶图、箱线图、PP图、QQ图等;
指出异常值(Outliers),可检查数据是否有错误,剔除异常值和错误数据; 进行点估计和区间估计,计算均值的置信区间,; 检验一组数据是否呈正态分布; 4.列联表分析
(1)列联表分析的适用条件
对一个定量变量的描述和分析,一般用频数分析(频数分布表、饼图、直方图、条形图); 对两个定性变量的描述和分析,通常使用列联表、对应分析,或使用卡方检验; 对两个以上定性变量的描述和分析,通常使用高维列联表。(2)期望频数的分布
如果行变量和列变量是独立的,可以计算出列联表中每个格子里的频数应该是多少,称为期望频数;
(3)列联表分析的基本思路
检验列联表中的行变量与列变量之间是否独立(或是否相关)。原假设为行变量与列变量之间独立(或不相关)。比较观察频数与期望频数的差。
如果两者的差越大,表明实际情况与原假设相去甚远;如果差越小,表明实际情况与原假设越相近。
对于这个假设的检验,可以采用卡方分布,进行卡方检验。
(4)列联表分析的步骤
检验列联表中的行变量与列变量之间是否独立(是否相关)提出假设
H0:行变量与列变量独立(不相关)H1:行变量与列变量不独立(相关 计算检验的统计量 统计决策
进行决策:P值决策
P<0。05,则拒绝原假设H0,否则,接收原假设。(5)Pearson卡方检验的应用条件
所有单元的期望频数应该大于1,或不应有大量的期望频数小于5的单元格。
如果列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。Pearson卡方检验最普遍
第4章
SPSS的均值比较过程 1。Means过程
对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。(1)Means过程是专门计算各种平均数,并对平均数进行简单比较的;(2)虽然Descriptive Statistics(描述统计)菜单项中的几个过程也能计算均数,但Means过程的输出结果是将各组的描述指标放在一起的,便于相互比较;
(3)Means过程必须设置分组变量,若没有分组变量的话,可以使用Descriptive Statistics菜单项中的几个过程。
(4)适用于测度水平为SCALE的变量。
2。单样本T检验(1)目的
检验某变量的总体均值与指定的检验值之间是否存在显著差异。(2)适用条件
样本来自的总体服从正态分布(3)基本步骤
H0: μ=μ0 H1: μ≠μ0
构造检验统计量 统计决策
如果P值<α(α一般取值为0。05),拒绝原假设; 如果P值>α,接受原假设;
3。
独立样本T 检验(1)目的
通过比较两个样本均值差的大小来确定两个总体的均值是否相等。(2)适用条件
独立性:两个样本相互独立,且均为大样本;
正态性:如果两个样本相互独立但都是小样本,或有一个样本是小样本,则要求总体服从正态分布;
方差齐性
(3)基本步骤
a、方差齐性F检验
原假设:两个总体方差相等; 备则假设:两个总体方差不相等;
P值<0。05 时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。b、对两总体的均值提出假设 H0: μ1=μ2
H1: μ1≠μ2 c、统计决策
在SPSS中进行两独立样本t检验时,应首先对F检验作判断。如果方差相等,观察分析结果中Equal variances assumed列的t检验相伴概率值;如果方差不相等,观察Equal variances not assumed列的t检验相伴概率值。如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
4.配对样本的T 检验
配对样本是指对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。其差别在于抽样不是相互独立的,而是互相关联的。(1)配对样本通常有两个特征: 第一,两组样本的样本数相同;
第二,两个样本记录的先后顺序一一对应,不能随意更改。(2)适用条件
两样本数据必须两两配对 两总体服从正态分布
配对样本的录入方式是:每对数据在同一个case的两个配对的变量上(3)检验步骤 a、提出假设 H0: μ1=μ2
H1: μ1≠μ2 b、统计决策
如果P值<α,拒绝原假设; 如果P值>α,不能拒绝原假设;
第5章 方差分析
如何对一个或两个总体的均值进行检验,我们可以用均值比较,如果要讨论多个总体均值是否相等,我们所采用的方法是方差分析。
方差分析中有以下几个重要概念。(1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。
(2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。
(3)单元(Cell):指因素水平之间的组合。(4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。
(5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。
1.单因素方差分析
单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。(1)适用条件
在各个水平之下观察对象是独立随机抽样,即独立性;
各个水平的因变量服从正态分布,即正态性;
各个水平下的总体具有相同的方差,即方差齐性;(2)基本原理
SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)
如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。
SPSS将自动计算检验统计量和相伴概率P值,若P<α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。
另外,SPSS还提供了多重比较方法,多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异,最常用的多重比较方法是LSD。(3)检验步骤 a、提出假设
H0: 各个总体的均值无显著性差异。
H1: 各个总体的均值有显著性差异。b、统计决策
方差齐性检验结果,P值>0。05,方差齐,否则,方差不齐;
单因素方差分析表,P值>α,接受H0,都则,拒绝H0,接受H1。
2.多因素方差分析
多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。(2)基本原理
由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:
Q总=Q控1+Q控2+Q控1控2+Q随其中,Q表示各部分对应的离差平方和。多因素方差分析比较
Q
控
1、Q 控
2、Q 控 1 控
Q
随
占 Q
总 的比例,以此推断不同因素以及因素之间的交互作用
2、是否给观测变量带来显著影响。
(3)基本术语
a、Dependent Variable 观测变量或因变量 主要指研究中的定量变量
如:移动话费、学生成绩、销售量、亩产量等
b、Fixed Factor 固定效应因素,固定因素,控制因素
主要指研究中的定性变量
如:资费等级、客户类型、漫游类型、促销策略等 c、Random Factor 随机效应因素、随机因素
人为无法对其水平值进行准确控制,只是能够直观观测到
如:话费水平、收入水平、消费习惯等
d、Interaction 交互作用、交互效应
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。
当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。例如:饮食习惯、适量运动对减肥的作用; e、main effect 与交互效应相对应的
主效应就是每个因素对因变量的单独影响(main effect)f、Covariates 协变量
指对应变量可能有影响,需要在分析时对其作用加以控制的连续性定量变量 当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响(3)应用条件
等方差;
各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性);
正态性:即所有观察值系从正态总体中抽样得出;(4)基本步骤
提出假设
H0:因素A中的r个水平的均值相等(因素A 对因变量无显著性影响)H1:因素A中的r个水平的均值不全相等(因素A 对因变量有显著性影响)统计决断 P值检验法
依次查看各F值的P值,p-值<α,应拒绝原假设; 如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;
第6章
非参数检验
非参数检验(nonparametric test),又称为任意分布检验(distribution-free test); 不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(nonparametric test)
它不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断;
而是通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。特点
参数检验条件不满足时的处理方法
不对均数等参数检验,而是检验分布是否相同
在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。非参数检验的着眼点不是总体参数,而是总体的分布情况 非参数检验研究目标总体的分布是否与已知理论分布相同 非参数检验研究各样本所在总体的分布位置,形状是否相同 优点
第一,具有较好的稳健性;
第二,受限条件少:对数据要求不像参数检验那样严格
第三,适用范围广:可应用于各种不同的情况,不受总体分布形状的限制,适合处理无法精确数量化的定性数据和小样本数据 第四,计算通常较简单,且容易理解 缺点
第一,将定量数据转换为定性数据时,漏失了数据的一些信息
第二,检验的敏感度和效果,均不如参数检验好。检验效率低于参数检验,主要是犯第二类错误的可能性加大。
第三,参数检验适用的数据,非参数方法会降低检验效能;当数据满足参数检验条件时,效能低于参数法,不满足参数法条件时,处于“优势” 非参数检验的应用场合
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题; 定量数据,其分布类型无法获知,且为小样本; 定量数据,极度偏态,或个别数值偏离过大; 各组离散度相差悬殊
一端或两端存在不确定数值的定量数据
定序数据,比较各组间等级强度的差别; 非参数检验的主要方法 单个样本的非参数检验
卡方检验(Chi-Square过程)
二项检验(Binomial过程)
游程检验(Runs过程)
柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)两个独立样本的非参数检验 多个独立样本的非参数检验 两个配对样本的非参数检验 多个配对样本的非参数检验 顺序统计量
通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。
秩(Rank):排序号(排队号)在统计学上称为秩
结(ties):绝对值相等称为结,又称同秩,则取平均秩次。
一般来说,秩就是该组数据按照升序排列之后,每个数据的位置。
1.单个样本的非参数检验 卡方检验(Chi-Square过程)
用卡方检验来检验定性变量的几个取值(分类数据,或类别)所占比例是否和理论的比例没有统计学差异。检验分类变量的分布
适合于定性数据及频数资料的分析
要求样本足够大,要求样本容量一般大于50; 应用领域
如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同)成绩优、良、中、差的学生人数是否相同 赞同某种观点的人数是否达到80%,等等。
比如在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。Chi-Square检验的基本思路
先按照已知总体的构成比例分布,计算出样本中定性数据(即各类别)的期望频数然后求出观测频数和期望频数的差值,最后计算出卡方统计量 利用卡方分布求出P值,假设检验的H0是样本中某指标的比例与已知比例一致 得出检验结论
2.二项检验(Binomial过程)检验二项分类变量分布
用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
Binomial过程对二项分类变量的单个样本作检验,推断总体中两个分类数据的比例是否分别为π和(1-π)应用领域
射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与反面;人群性别,男和女;产品质量,合格和不合格 定量数据、符号检验(SING TEST)与Binomial过程
定量数据:大样本;或小样本,总体服从正态分布,总体方差已知; 参数检验:单个样本的均值检验
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
极度偏态,或个别数值偏离过大;
一端或两端存在不确定数值
3.游程检验(Runs过程)
Runs过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验 二分类数据和定量数据(连续数据)均可
对于一个取两个值的分类变量,游程检验方法是检验这两个值的出现是否是随机的。游程检验还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题 游程检验的作用
1、检验总体分布是否相同
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2、检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数,分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。应用范围
生产过程是否需要调整,即不合格产品是否随机产生; 奖券的购买是否随机;
期货价格的变化是否随机等等。
若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。
当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程 ;
4.(l-Sample K-S过程)
柯尔莫诺夫-斯米尔诺夫检验,考察某个连续性变量是否符合理论分布 利用样本数据推断总体是否服从某种分布
可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。数据要求:定量数据,Scale
5。
独立样本的非参数检
检验两个或多个独立样本所在总体是否相同
在不了解总体分布的情况下,通过分析样本数据均值或中位数的差异,推断样本来自的两/多个独立总体的分布存在的显著性差异。Independent Samples过程:主要用于检验两个独立样本所在总体分布是否相同 K Independent Samples过程:主要用于检验多个独立样本所在总体分布是否相同 界面上基本相同
(1)两个独立样本的非参数检验
含义:由样本数据,推断两个独立总体的分布是否存在显著差异(或两样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较 应用范围
两种训练方法中哪一种更出成绩 两种汽 油中哪一个污染更少 两种市场营销策略中那种更有效
与独立样本t检验的区别
对于定量数据,如果方差相等,且服从正态分布
两个独立样本的非参数检验的过程
定序数据;对于定量数据,不满足两个独立样本t检验的条件
曼-惠特尼U检验(Mann-Whitney U)
为检验两总体的中位数是否相等,常用Mann-Whitney U 检验,或称Wilcoxon秩和检验(Wilcoxon rank sum test);
这两种方法是独立提出的,检验结果完全等价的; 分析步骤
建立检验假设,确定显著性水平α :
H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同;
H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。或:
H0:M1=M2;
H1:M1>M2
2、编秩,将两组数据由小到大统一编秩,编秩时如遇有相同数据,取平均秩次。
3、求秩和,两组秩次分别相加。
4、确定统计量
若两组样本容量相等,则任取一组的秩和为统计量;
若两组样本容量不等,则以样本样本容量较小者对应的秩和为统计量。
5、查表确定P值,作出推断结论。若P>α,不能拒绝原假设。
若则P<α,拒绝原假设,认为两总体的分布不相同。
(2)多独立样本非参数检验
对三个或三个以上的总体的均值是否相等进行检验,使用的方法是单因素方差分析 ; 单因素方差分析过程需要假定条件,F检验才有效; 有时候所采集的数据常常不能满足这些条件,K Independent Samples过程 K Independent Samples过程
含义:由样本数据,推断多个独立总体的分布是否存在显著差异(或多个样本是否来自同一总体)分析对象:定量数据或定序数据 对分布的形状不加考虑
分布形状相同或类似的多个总体分布位置比较,可以简化地理解为多个总体中位数的比较。应用范围
各城市儿童身高分布一致吗?
不同收入的居民存(取)款金额分布一致吗?
电信公司人力资源部门比较3所大学雇员的管理业绩是否存在差异? 检验方法
Kruskal-Wallis H :克鲁斯卡尔-沃利斯单因素方差分析最常用,原理同Wilcoxon检验 多个样本间的两两比较 多组独立样本;
每组5个观察值,样本量小,分布类型未知;
考虑采用秩转换的非参数检验方法——Kruskal-Wallis秩和检验。
(3)两/多个配对样本非参数检验
检验两个或多个配对样本所在总体位置是否相同
在不了解总体分布的情况下,通过分析两/多个配对样本,推断样本来自的两/多个总体的分布是否存在显著性差异。Related Samples过程:主要用于检验两个配对样本所在总体分布是否相同 K Related Samples过程:主要用于检验多个配对样本所在总体分布是否相同 界面上基本相同
两个配对样本的非参数检验
含义:由样本数据推断两配对总体分布是否存在显著差异。数据要求
两组配对的样本数据;
两组数据的样本容量相同,先后次序不能任意改变,一一对应; 统计分析步骤
提出基本假设
H0:两配对总体分布无显著差异 H1:两配对总体分布有显著差异 统计决断
P值>α,不能拒绝原假设
P值<α,拒绝原假设
多个配对样本非参数检验
含义:由样本数据推断多个配对总体分布是否存在显著差异。
数据要求:多组配对的样本数据,多组数据的样本容量相同,先后次序不能任意改变,一一对应; 应用范围
三种促销形式的销售额分布一致吗? 收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异 评委打分一致吗? 三种检验方法
Friedman M检验:最常用
Kendall W检验 :和谐系数检验
Cochran Q:要求样本数据为二分类数据(1-满意
0-不满意)检验方法的选择
1)单个样本:若来自正态总体,可用t检验,若来自非正态总体或总体分布无法确定,可用二项检验(二项检验)2)配对样本:
二分类变量,可用McNemar检验;
连续型变量,若来自正态总体,可用配对t检验,否则可用Wilcoxon符号秩和检验。
3)两组独立样本:连续型变量,若来自正态总体,可用t检验,否则,可用 Wilcoxon秩和检验;
二分类变量或无序多分类变量,可用卡方检验;
有序多分类变量,宜用Wilcoxon秩和检验。4)多组独立样本
连续型变量值,来自正态总体且方差相等,可用方差分析;否则,进行数据变换使其满足正态性或方差齐的要求后,采用方差分析;数据变换仍不能满足条件时,可用Kruskal-Wallis秩和检验。
二分类变量或无序多分类变量,可用卡方检验。
有序多分类变量宜用Kruskal-Wallis秩和检验。
第7章 相关分析 概念
相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。相关关系的类型
1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。4)根据研究变量的多少,可分为单相关、复相关。相关分析的作用
1)判断变量之间有无联系
2)确定选择相关关系的表现形式及相关分析方法 3)把握相关关系的方向与密切程度
4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。5)相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等 相关系数
相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。相关系数的数值范围是介于–1与 +1之间(即–1≤ r ≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。
两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。
相关系数的注意事项
1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。2)相关系数r 受变量取值区间大小及样本数目多少的影响比较大。
3)来自于不同群体且不同质的事物的相关系数不能进行比较。4)对于不同类型的数据,计算相关系数的方法也不相同
1.简单相关分析的基本原理
简单相关分析是研究两个变量之间关联程度的统计方法。它主要是通过计算简单相关系数来反映变量之间关系的强弱。一般它有图形(散点图)和数值(一方面应观察相关系数的大小,另一方面,应观察概率P值,其原假设为**不相关)两种表示方式。简单相关系数
1)皮尔逊(Pearson)相关系数
常称为积差相关系数,适用于研究连续变量之间的相关程度。例如,收入和储蓄存款、身高和体重等变量间的线性相关关系。注意Pearson相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,系数的大小并不能代表其相关性的强弱。2)Spearman等级相关系
Spearman等级相关系数是用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性相关分析,适用条件为:
① 两个变量的变量值是以等级次序表示的资料;
②
一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量n不一定大于30。
从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围要比积差相关广泛,它的突出优点是对数据的总体分布、样本大小都不做要求。但缺点是计算精度不高。3)Kendall’s等级相关系数
它是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系。它利用变量的秩计算一致对数目和非一致对数目。
2.偏相关分析的基本原理
方法概述
简单相关分析计算两个变量之间的相互关系,分析两个变量间线性关系的程度。但是现实中,事物之间的联系可能存在于多个主体之间,因此往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度。基本原理
偏相关分析是在相关分析的基础上考虑了两个因素以外的各种作用,或者说在扣除了其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的就在于消除其他变量关联性的传递效应。3.距离分析的基本原理
简单相关分析和偏相关分析有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但在实际中有时会遇到一种情况,在分析前对数据所代表的专业背景知识尚不充分,本身就属于探索性的研究。这时就需要先对各个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步了解,然后再根据结果考虑如何进行深入分析。
距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的P值,而只能给出各变量/记录间的距离大小,以供用户自行判断相似性。
第8章 SPSS的回归分析 1。一元线性回归 方法概述
线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。
一般线性回归的基本步骤如下。
① 确定回归方程中的自变量和因变量。
② 从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。
③ 建立回归方程,在一定统计拟合准则下,估计出模型中的各个参数,得到一个确定的回归方程。
④ 对回归方程进行各种统计检验。
⑤ 利用回归方程进行预测。
注:一元线性回归的经验模型是:Y=β0+β1X 统计检验
在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。
1)输出结果的模型摘要
其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(R Square),校正后的可决系数(adjusted R Square)和回归系数的标准误(Std。Error of the Estimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数R Square的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。
2)输出结果中的方差分析表
它是回归模型显著性检验的结果,所用方法为F检验,其零假设为原方程无效,通过P值来判断原方程是否有效。3)输出结果中的回归系数表
应特别关注回归系数β1 的T检验,它的零假设为β1 =0,通过P值来判断β1 是否有实际意义。
2.多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
其基本步骤与一元回归几乎一致,只是在输出结果的模型摘要中通过观察调整R2 来判断方程的拟合情况,另外,同样可通过折线图来观察模型拟合效果。
3.曲线拟合
实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。
在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法将这些曲线方程转化为线性方程来估计参数。
在选择模型的时候可以结合专业知识多选几种,如同时选择“指数分布”、“逆模型”和“幂函数”,然后在模型汇总中比较R2 的大小,选择最大的一个,同时,注意观察各自的P值,其原假设为其模型无统计学意义。
4.非线性回归分析
非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。通过散点图观察,如果自变量和应变量不能通过线性回归或区县估计来实现,则可以在SPSS通过【分析】-【回归】-【非线性】来实现。
以下是SPSS处理问卷的总结
当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以SPSS为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存。下面将从这四个方面来对问卷的处理做详细的介绍。
SPSS处理:
第一步:定义变量
大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位)、label(变量标签)、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类)。
我们知道在SPSS中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值。现在我们以问卷第一个问题为例来说明变量的设置。为了便于说明,可假设此题为:
1。请问你的年龄属于下面哪一个年龄段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric,width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可。同样道理我们可做如下设置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定义变量缺失值,单击missing框右侧的省略号,会弹出缺失值对话框,界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明。
1。开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value、Missing两项不设置即可。
2。多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍。这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项,即选中该项和不选中该项。现在举例来说明在SPSS中的具体操作。比如如下一例:
请问您通常获取新闻的方式有哪些()1 报纸 2 杂志 3 电视 4 收音机 5 网络
在SPSS中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_
1、3_
2、3_
3、3_
4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可。
使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。到此,我们的定义变量的工作就基本上可以结束了。下面我们要作就是数据的录入了。首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了。
第二步:数据录入
SPSS数据录入有很多方式,大致有一下几种: 1。读取SPSS格式的数据 2。读取Excel等格式的数据
3。读取文本数据(Fixed和Delimiter)4。读取数据库格式数据(分如下两步)(1)配置ODBC(2)在SPSS中通过ODBC和数据库进行
但是对于问卷的数据录入其实很简单,只要在SPSS的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下。
1。在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案。
2。在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5„„。的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题。以次类推。我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入。比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的)。
3。我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据。在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了。
第三步:统计分析
有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择。SPSS有数值分析和作图分析两类方法。
1。作图分析:
在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::
(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。
(2)Interactive:交互式统计图。(3)Map:统计地图。
(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 散点图 线图 直方图 饼图 面积图 箱式图
正态Q-Q图 正态P-P图 质量控制图 Pareto图
自回归曲线图 高低图 交互相关图 序列图 频谱图 误差线图
作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好。
2。数值分析:
SPSS 数值统计分析过程均在Analyze菜单中,包括:
(1)、Reports和Descriptive Statistics:又称为基本统计分析。基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。
Descriptive Statistics包括的统计功能有:
Frequencies(频数分析):作用:了解变量的取值分布情况
Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值进行标准化处理
Explore(探索分析):功能:考察数据的奇异性和分布特征
Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系 Reports包括的统计功能有:
OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。
Case Summaries(观测量列表):察看或打印所需要的变量值 Report Summaries in Row:行形式输出报告 Report Summaries in Columns:列形式输出报告
(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。
以下是进行均值比较及检验的过程:
MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
T test 过程:对样本进行T检验的过程
单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)
配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)one-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。
(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决
(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远
(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic:二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling 最优编码回归;其中最常用的为前面三个。
(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
非参数检验的过程有以下几个: 1。Chi-Square test 卡方检验 2。Binomial test 二项分布检验 3。Runs test 游程检验
4。1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5。2 independent Samples Test 两个独立样本检验 6。K independent Samples Test K个独立样本检验 7。2 related Samples Test 两个相关样本检验 8。K related Samples Test 两个相关样本检验(7)、Data Reduction(因子分析)(8)、Classify(聚类与判别)等等
以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果。
第四步:结果保存
我们的SPSS软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于SPSS软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制﹑粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存。因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果。
总结:
以上便是SPSS处理问卷的四个步骤,四个步骤结束后,我们需要SPSS软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了。值得一提的是。SPSS是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用。
第三篇:实习总结spss
实习总结
这次实习使用的是spss17.0版本的软件,通过这次实习,我了解到SPSS具有完整的数据输入、编辑、统计分析、图形制作等功能。平日课下进行统计调查技能培训的时候,分析数据所用的软件是Excel。虽然使用Excel可以对数据进行透视、分类、筛选以及计算相关系数等,但是这些操作都需要自己每一步每一步的进行手动操作,而使用SPSS软件在对数据进行整理时,只需对软件某选项内设置变量条件,系统便自动的进行整理。通过这次spss实习,我又入门了一项非常实用的软件,会为以后统计分析提供多一种的选择。下面我会从以下四方面分别阐述这次实习的收获与总结。
做问卷调查
根据指导老师的安排,我需要独自完成6份 《广东高校在校大学生消费使用数码产 品情况》的调查问卷。去广工、广财听宣讲会并且在那里做了两份问卷调查,剩下的4份是以电子版的形式做的问卷调查。在做问卷调查的过程中,为了保证问卷的有效性和准确性,我会认真审核每一份问卷是否填写完整以及前后是否合逻辑。在我的六份问卷调查中,比较容易出现问题的主要在每天使用数码产品的时间,也是在做问卷调查中叮嘱最多的。这都是值得的,因为保证问卷的客观和有效是后面做统计分析的基础。这次实训是全班合作完成问卷,如果是一个人完成30几份的问卷,那么真是一项不容小觑的任务。
Spss入门操作
这一部分主要是根据老师编制的指导书展开。Spss入门操作主要涉及到数据的输入、描述统计分析、假设检验、相关与回归分析。针对每一项都有专门的案例以及相应的练习。个人认为最难的是假设检验这一块,因为《统计学原理》是在之前的学期学习的,统计分析的原理基本上都记不起来,对于输出假设检验结果对问题进行分析方面问题比较大。我自己也回去看了相应的统计学原理,有一定的了解后,进行实操也比较顺利。假设检验主要是
单样本T检验、独立样本T检验、配对样本T检验。独立样本与配对样本的区分很重要,这决定着我需要进行哪种检验以及得出什么样的结论。假设检验中通常都需要先进行方差齐性的F检验,F值小,相应的p值越大,就可以说方差齐性,再进行均值差异是否显著的T检验,T检验中,相应的p值小于显著性水平,就可以认为两个样本的均值存在显著差异。
问卷分析
这部分需要设置多个变量,输入至少30份数据,我选择跟舍友分工合作,我们的数据输入降低到20份左右,彼此共享一部分数据合起来达到30份以上的样本量。对于问卷的分析,主要从以下三方面进行: 大学生基本情况 运用描述性统计分析对大学生每月生活费支出做频率分析、计算均值及离散程度,发现大学生的月生活费支出主要集中在800—1200范围。
运用交叉表分析得出手机、电脑这两种数码产品样本中全部大学生都拥有,其他数码产品的拥有比率各有不同。在这学期当中更换意愿最强的数码产品是手机,并且主要是高年级的学生有更换的打算。
对大学生月生活费支出与月消费数码产品支出做相关与回归分析,发现这两个变量存在较为显著的相关性,一般情况下,大学生月生活费越高,每月在数码产品方面的消费相应也会越高。
数码产品的购买情况
对样本中大学生对数码产品的了解途径、购买方式、倾向性选择、感兴趣的促销手段、能否接受分期付款做频率分析,就目前来讲,大学生主要通过网络了解数码产品,倾向于大陆行货以及港澳台行货,对于打折促销比较感兴趣,大部分大学生还是会选择实体店购买较大宗数码产品,并且对分期付款方式较为能接受。
对所有在用数码产品购买支出、月生活费支出以及月消费数码产品支出做相关与回归分析,发现所有在用数码产品购买支出与月消费数码产品支出存在较强的正相关性,可以说,月消费数码产品支出越高,大学期间够买数码产品总支出越高的可能性就越大。
数码产品的使用情况
对样本中 使用数码产品对作息时间的影响、上课玩手机的频率、数码产品使用时间最长的用途 做描述统计频率分析,发现男生中有更大比例会因为使用数码产品而影响作息时间,数码产品使用时间最长的用途占比最大的是娱乐,基本上所有人都会在课堂上使用数码产品,经常使用的频率达到25.8%。
对使用数码产品对学习的影响利弊进行频率分析,并且对每天花在数码产品上的时间、学生绩点做相关回归分析,大部分学生认为数码产品对学习的影响利弊平衡或者利大于弊。相关性分析显示,大学生每天使用数码产品的时间与学生绩点相关性不强,两者之间没有必然的联系。
通过这次实习,对于spss软件有了一个基本的认识,会对样本进行一些简单的描述性统计分析、假设检验、相关与回归分析,能够将一些数据信息转换成可以直观理解并运用的实用信息,对于以后的学习和工作大有好处。数码产品带给我们极大的便利。基于调查问卷的分析,大学生每天都会花相当一部分时间使用电子产品。学习绩点与每天使用数码产品的时长没有必然联系,不过,的确有一部分同学承认因过度使用数码产品影响作息,同时也会在不同程度上受到他人使用数码产品的影响。大学生应该学会合理控制分配使用数码产品的时间,让自己最大程度地受益。
第四篇:SPSS学习总结
学习SPSS感想
以前学统计学的时候就听老师讲过SPSS有非常强大的统计功能,对我们学习、工作有很大的帮助,所以我一直认为SPSS很神秘。通过这个学期周老师的课让我对此清楚了许多,也学到了SPSS强大的统计功能,更加让我明白了SPSS与Excel的区别。
SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。1968年,美国斯坦福大学H.Nie等三位大学生开发了最早的SPSS统计软件,并于1975年在芝加哥成立了SPSS公司,已有30余年的成长历史,全球约有25万家产品用户,广泛分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。
在学习SPSS期间,我主要遇到的问题是后面几章,SPSS的参数检验、方差分析、相关分析、线性回归分析、聚类分析、因子分析等。
在参数检验中我不知道原假设是什么,导致分析的时候不知道该拒绝原假设还是接受原假设,不能分析出统计结果。不会区分单样本t检验和两配对样本t检验的区别,现在懂得了它们都要服从正态分布,基本思想是小概率反证法,反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。
在学习方差分析中,开始常常把观测变量和控制变量弄混淆,在分析的时候应分别送入哪个对应框中,如果反了的话会导致结果的不准确。其次,对LSD、Bonferroni、Tukey、Scheffe等方法的使用不清楚,现在基本掌握了多重比较方法选择:一般如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较。宜用Bonferroni(LSD)法;若需要进行多个均数间的两两比较,且各组个案数相等,适宜用Tukey法;其他情况宜用Scheffe法。最后,对方差齐性检验、多重比较检验、趋势检验理解不够透彻,在方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。
在学习相关分析的过程中,在绘制散点图时,不知道哪个该做横坐标,哪个该做纵坐标,明白了横坐标是解释变量,纵坐标是被解释变量,还有对相关系数的种类分析不熟练等。在学习回归分析的过程中,对DW可检验的含义不理解,不记得对应的DW表示的残差序列的相关性。对解释变量向前筛选、向后筛选、逐步帅选策略不能熟练掌握,特别是对向前向后筛选时到处的结果不会进行分析。
学习聚类分析中,变量的选择分不清,无关变量有时会引起严重的错分,应当只引入在不同类间有显著差别的变量,尽量只使用相同类型的变量进行分析。分类数不明确,从实用角度讲,2~8 类比较合适。掌握了K-means Cluster 分析,样本量大于100时有必要考虑,只能使用连续性变量。
学习因子分析的过程中,对提取出来的因子的实际含义不清晰,不能使因子具有命名解释性。
学习了SPSS后,我不禁想到了SPSS与Excel的区别,这一点是针对像我这样开始只懂得用EXCEL的人来说。从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。但是SPSS又比Excel更加强大:
一、图型的表现力是SPSS的主要优点之一
应该说,Excel的图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现,SPSS就更为详细和准确,这一点据说在所有统计软件中都突出。
二、通过SPSS检验方差齐性和数据分布
假设检验中,采用的t检验和方差检验都需要满足二个要求,即
1.样本方差齐性
2.样本总体呈正态分布
在Excel中,提供了F检验来检验方差齐性问题,也就是可以先通过F检验确定方差齐性与否来选择下一步用哪个T检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布实际工作中,只要分布单峰且近似对称分布,也可应用,但要具体确定样本的分布也有难度。这二个问题在SPSS就可以解决
最后,在感叹它的方便与快捷的同时,对软件开发人员的智慧到了肃然起敬的地步。一直觉得计算机语言是最难的一门外语。虽然本科时曾经对这种逻辑性很强的东西很感兴趣,并在编程课上取得不错的成绩,但一直觉得这似乎不是我能掌控的东西。SPSS的神奇之处在于,它省去了使用者巨大的计算量,并提高准确性。它开发了开发者的智慧,却弱化了使用者的大脑。
第五篇:SPSS时间序列一点总结
SPSS时间序列一点总结(一)SPSS中“Time Series”包括4个时间序列分析子菜单: 1.Exponential Smoothing指数平滑 2.Autoregression自回归 3.ARIMA自回归综合移动平均
4.Seasonal Decomposition季节分散法
(一)Exponential Smoothing指数平滑中的Model有四种:Simple、Holt、Winters、Custom.Simple法是在移动平均法基础上发展而来的一次指数平滑法,它假定所研究的时间序列数据集无趋势和季节变化.Simple法基本过程: 1.首先定义变量、输入数据,至少要有一个变量,点出Data菜单中的Define Dates对话框,定义时间序列的周期.Define Dates可用来建立时间序列的周期性.共有20种可用来定义时间日期的变量.2.指定需要进行指数平滑处理的变量.从左侧变量名列表中选中需要进行指数平滑处理的变量,单击右面一个右箭头按钮,使变量名移到Variables框中.如果变量为多个,则计算完一个后,再输入另一个变量.3.“Parameters”参数设定,选定指数平滑中的参数,误差修正权数 a(General(Alpha))的取值在默认状态下为0.1,其取值大小依赖于已知时间序列的性质,通常都使用在0.1至0.3之间的数值并产生一个依赖于大量的过去观测资料的预测.接近于1的值较少用,它将给出更加依赖于新近观察资料的预测.当a=1时,预测值等于最新的观测值.单击Grid Search选项,如不加改动,可让程序自动计算a从0.1到1的10个指数平滑结果,并将误差平方和最小的平滑结果暂时存放在数据库中,当然,在这里可重新设置a的开始值,以后每次的增加值及终止值.在本程序中,确定Initial Values初始值栏中的选择有两种方式,选择Automatic项,初始值用自动方式生成,程序自动取时间序列的总平均值为初始值:选择Custom项,可手工输入初始值及趋势值.单击“Save”,最后单击“OK”并执行.Holt双参数线性指数平滑法适用于有线性趋势及无季节变化的时间序列的趋势.它可以用不同的参数对原时间序列的趋势进行平滑,具有很大的灵活性.在此法中要用到两个参数a、g(从0到1之间取值)和三个方程(略).Holt法基本过程
1、首先按定义变量、输入数据,至少要有一个变量,在Data菜单的Define Dates设置;指定需要Holt指数平滑法处理的变量.从左侧变量名列表中选中需要进行指数平滑处理的变量,如果变量为多个,则计算完一个后,再输入另一个变量.选定Holt选项.设置Parameters即指数平滑中的参数,参数a、g的取值在默认状态下都为0.1,它们都在0到1之间取值.其取值大小依赖于已知时间序列的性质,通常使用0.1至0.3之间的数值,并产生一个依赖于大量的过去观测资料的预测.接近于1的值较少用,它将给出更加依赖于新近观测资料的预测.不使用默认值,可通过单击Grid Search选项来自定义,如不加改动,可让程序自动计算a从0.1到1每次增加0.1、g从0.1到1每次增加0.2的10个指数平滑结果,并将误差平方和最小的平滑结果暂时存放在数据库中.当然,可以重新设置a、g的初始值、以后每次的增加值及终止值.在本程序中,确定初始值的选中有两种方式,选中Automatic项,初始值用自动方式生成,程序自动取时间序列的总平均值为初始值St并自动给出趋势值bt.选中Custom项,可手工输入初始值及趋势值.Winters线性和季节性指数平滑法适用于数据的变化含有季节性因素的时间序列的预测.选定指数平滑中的参数“Patameters”,参数a、b、g的取值在默认状态下都为0.1,它们都在0到1之间取值,但都不包括0和1.采用Winters法的关键是如何确定a、b、g的值,以使均方差达到最小.最佳方法是反复试验法.如不使用默认值,除直接修改a、b、g的值外,还可通过单击Grid Search来自定义.可让程序自动计算a从0.1到1每次增加0.1,b、g从0.1到1每次增加0.2的10个指数平滑结果,并将误差平方和最小的平滑结果暂时存放在数据库中,SPSS在商务管理中的应用,当然,在这里可重新设置a、b、g的开始只,以后每次的增加值及终止值.在本程序中,确定初始值的选择有两种方式,选择Automatic,初始值用自动方式生成,程序自动取时间序列的总平均值为初始值St并自动给出趋势值bt;选择Custom,可手工输入初始值及趋势值.