第一篇:统计学概念总结
1、主要术语
1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2.描述统计:研究数据收集、处理和描述的统计学分支。
3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4.分类数据:只能归于某一类别的非数字型数据。
5.顺序数据:只能归于某一有序类别的非数字型数据。
6.数值型数据:按数字尺度测量的观察值。
7.观测数据:通过调查或观测而收集到的数据。
8.实验数据:在实验中控制实验对象而收集到的数据。
9.截面数据:在相同或近似相同的时间点上收集的数据。
10.时间序列数据:在不同时间上收集到的数据。
11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推
断总体特征的数据收集方法。
12.普查:为特定目的而专门组织的全面调查。
13.总体:包含所研究的全部个体(数据)的集合。
14.样本:从总体中抽取的一部分元素的集合。
15.样本容量:也称样本量,是构成样本的元素数目。
16.参数:用来描述总体特征的概括性数字度量。
17.统计量:用来描述样本特征的概括性数字度量。
18.变量:说明现象某种特征的概念。
19.分类变量:说明事物类别的一个名称。
20.顺序变量:说明事物有序类别的一个名称。
21.数值型变量:说明事物数字特征的一个名称。
22.离散型变量:只能取可数值的变量。
23.连续型变量:可以在一个或多个区间中取任何值的变量。
24.简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个元素作为
样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。
25.简单随机样本:从含有N个元素的总体中,抽取n个元素作为样本,使得总体中每一
个样本量为n的样本都有相同的机会(概率)被抽中。
26.重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直
至抽取n个元素为止。
27.不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二个元素,直
到抽取n个元素为止。
28.分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层(类),然后
从各个层中抽取一定数量的元素组成一个样本。
29.系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序排列,并按
某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。
30.整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,随后再对
抽中的各个群中所包含的所有元素进行观察。
2、主要术语
31.频数:落在某一特定类别(或组)中的数据个数。
32.频数分布:数据在各类别(或组)中的分配。
33.比例:一个样本(或总体)中各个部分的数据与全部数据之比。
34.比率:样本(或总体)中各不同类别数值之间的比值。
35.累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
36.数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。
37.组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
38.组距:一个组的上限与下限的差。
39.组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。
40.直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。
41.茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。
42.箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。
3、主要术语和公式
(一)主要术语
1.众数:一组数据中出现频数最多的变量值,用Mo表示。
2.中位数:一组数据排序后处于中间位置上的变量值,用Me表示。
3.四分位数:一组数据排序后处于25%和75%位置上的值。
4.平均数:一组数据相加后除以数据的个数而得到的结果。
5.几何平均数:n个变量值乘积的n次方根,用Gm表示。
6.异众比率:非众数组的频数占总频数的比率。
7.四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。
8.9.10.11.13.14.15.16.极差:也称全距,一组数据的最大值与最小值之差。平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。方差:各变量值与其平均数离差平方的平均数。标准差:方差的平方根。离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。偏态:数据分布的不对称性。偏态系数:对数据分布不对称性的度量值。峰态:数据分布的平峰或尖峰程度。12.标准分数:变量值与其平均数的离差除以标准差后的值。
17.峰态系数:对数据分布峰态的度量值。
4、主要术语和公式
(一)主要术语
43.抽样分布:在重复选取样本量为n的样本时,由样本统计量的所有可能取值形成的相对
频数分布。
44.样本均值的抽样分布:在重复选取样本量为n的样本时,由样本均值的所有可能取值形
成的相对频数分布。
45.样本比例抽样分布:在重复选取样本量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。
46.标准误差:也称为标准误,它是样本统计量的抽样分布的标准差。
47.估计标准误差:若计算标准误时所涉及的总体参数未知,可用样本统计量代替计算的标
准误。
48.估计量:用来估计总体参数的统计量的名称,用符号ˆ表示。
49.估计值:用来估计总体参数时计算出来的估计量的具体数值。
50.点估计:用样本统计量ˆ的某个取值直接作为总体参数的估计值。
51.区间估计:在点估计的基础上,给出总体参数估计的一个范围。
52.置信区间:由样本统计量所构造的总体参数的估计区间。
53.置信水平:也称为置信系数,它是将构造置信区间的步骤重复多次后,置信区间中包含
总体参数真值的次数所占的比率。
5、主要术语和公式
(一)主要术语
18.假设:对总体参数的具体数值所做的陈述。
19.假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。
20.备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用H1或Ha表示。
21.原假设:也称零假设,是研究者想收集证据予以反对的假设,用H0表示。
22.单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验。
23.双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“”的假设
检验。
24.第Ⅰ类错误:当原假设为正确时拒绝原假设,犯第Ⅰ类错误的概率记为。
25.第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为。
26.显著性水平:假设检验中发生第Ⅰ类错误的概率,记为。
27.检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某
个样本统计量。
28.拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。
29.临界值:根据给定的显著性水平确定的拒绝域的边界值。
30.P值:也称观察到的显著性水平,如果原假设H0是正确的,那么所得的样本结果出现
实际观测结果那么极端的概率。
6、主要术语和公式
(一)主要术语
31.方差分析(ANOVA):检验多个总体均值是否相等的统计方法。
32.33.34.35.因素:也称因子,是方差分析中所要检验的对象。水平:也称处理,是因素的不同表现。组内误差:来自水平内部的数据误差。组间误差:来自不同水平之间的数据误差。
36.总平方和:反映全部数据误差大小的平方和,记为SST。
37.组内平方和:反映组内误差大小的平方和,记为SSE。
38.组间平方和:反映组间误差大小的平方和,记为SSA。
39.单因素方差分析:只涉及一个分类型自变量的方差分析。
40.组内方差:组内平方和除以相应的自由度。
41.组间方差:组间平方和除以相应的自由度。
7、主要术语和公式
(一)主要术语
42.相关关系:变量之间存在的不确定的数量关系。
43.相关系数:也称Pearson相关系数,是根据样本数据计算的度量两个变量之间线性关系
强度的统计量。
44.因变量:被预测或被解释的变量,用y表示。
45.自变量:用来预测或用来解释因变量的一个或多个变量,用x表示。
46.回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
47.回归方程:描述因变量y的期望值如何依赖于自变量x的方程。
48.估计的回归方程:根据样本数据求出的回归方程的估计。
ˆi之间的离差平方和达49.最小二乘法:也称最小平方法,使因变量的观察值yi与估计值y
ˆ和ˆ的方法。到最小来求得10
50.判定系数:回归平方和占总平方和的比例,记为R2。
51.估计量的标准误差:均方残差(MSE)的平方根,用se来表示。
52.y的平均值的点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的平均
值的一个估计值E(y0)。
53.y的个别值的估计值:利用估计的回归方程,对于x的一个特定值x0,求出y的一个
ˆ0。个别值的估计值y
54.y的平均值的置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计。55.y的个别值的预测区间估计:对x的一个给定值x0,求出y的一个个别值的区间估计。
,xk和误差项的方56.多元线性回归模型:描述因变量y如何依赖于自变量x1,x2,程。
57.多元线性回归方程:描述y的期望值如何依赖于x1,x2,,xk的方程。
58.估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。
59.多重判定系数:在多元回归中,回归平方和占总平方和的比例。
60.修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为
Ra。28、主要术语和公式
(一)主要术语
61.时间序列:同一现象在不同时间上的相继观察值排列而成的序列。
62.平稳序列:基本上不存在趋势的序列。
63.非平稳序列:包含趋势性、季节性或周期性的序列。
64.趋势:也称长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的变动。
65.季节性:也称季节变动,是指时间序列在一年内重复出现的周期性波动。
66.周期性:也称循环波动,是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡
式变动。
67.随机性:也称不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波
动。
68.增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。
69.平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)的几何平均数减1后的结果。
70.增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。
71.简单平均法预测:根据过去已有的t期观察值通过简单平均来预测下一期的数值。
72.移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。
73.指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第t+1
期的预测值等于t期的实际观察值与第t期指数预测值的加权平均值。
9、主要术语和公式
(一)主要术语
74.指数:测定多个项目在不同场合下综合变动的相对数。
75.加权综合指数:通过加权来测定一组项目的综合变动状况的指数。
76.加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。77.78.79.80.价值指数:由两个不同时期的价值总量对比形成的指数。指数体系:由价值指数及其若干个因素指数构成的数量关系式。零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。居民消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。
81.生产价格指数:测量在初级市场上所售货物(即在非零售市场上首次购买某种商品时)
价格变动的一种价格指数。
82.股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。
第二篇:统计学主要概念
对于计算题,一定要把课本上的例题要弄明白。如主要集中指标和离散程度的计算、中心极限定理的应用、区间估计、假设检验、方差分析、相关系数的计算和检验、一元回归分析(包括模型的估计、回归系数的检验、随机误差项方差的估计、拟合优度的计算、一元回归模型的点预测和区间预测)等。
主要概念
1.什么是统计学?为什么统计学可以通过对数据的分析达到对事物性质的认识?
2.解释总体与样本、参数和统计量的含义。
3.解释总体分布、样本分布和抽样分布的含义。
4.简述描述统计学和推断统计学的概念及其联系。
5.简述中心极限定理。
6. 解释置信水平、置信区间、显著性水平的含义,它们有什么联系。
7.几何平均数的适用条件分别是什么?
8.抽样推断时为什么必须遵循随机原则抽取样本?
9.简述假设检验的一般步骤。
10.相关系数(r)绝对值的大小是如何来反映两个变量之间线性关系显著性的?
11.简述众数、中位数和均值的特点和应用场合。
12.为什么要计算离散系数?
13.标准差是如何来反映一组数的离散程度的?
14.方差分析的基本假设有那些?
15.简述相关分析和回归分析的区别与联系。
16.一组数据的分布特征可以从那几个方面进行测定?
17.简述样本容量与置信水平、总体方差、允许误差的关系。
18.比较单侧检验和双侧检验的区别。
19.甲企业近四年产品销售量分别增长了9%、7%、8%、6%;乙企业这四年产品的次品率也正好是9%、7%、8%、6%。这两个企业这四年的平均增长率和平均次品率的计算是否一样?为什么?
第三篇:统计学主要概念
简答题(本专科):15分
1、时期指标和时点指标有哪些不同的特点
(1)时期指标具有连续统计的特点;时点指标不具有连续统计的特点。
(2)时期指标值可以相加;时点指标数值不具有可加性。
(3)时期指标值大小与所包括时期长短有直接关系;时点指标值的大小与其时间间隔长短没有直接关系。
2、抽样调查、重点调查和典型调查有哪些相同点和不同点?
区别:(1)选取调查单位的方式不同。抽样调查是按照随机原则从总体中抽取部分调查单位进行观察用以推断总体数量特征的一种调查方式;重点调查是在所要调查的现象总体的全部单位中选择部分重点单位进行调查,要求选取的重点单位的某一主要标志的标志总量在总体标志总量中占有很大比重;典型调查是根据调查的目的任务,在对所研究的现象总体进行初步分析的基础上,有意识的选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。根据三者的定义可以看出抽样调查序曲调查单位是按照随机原则而重点调查和典型调查不是按照随机原则,而重点调查和典型调查在选取调查单位上前者着重于数量特征,所选单位是在所要调查的数量特征上占较大比重的单位,而典型调查主要是定性的,着眼点在代表性上。
(2)调查目的的不同。重点调查的目的是通过对重点单位的调查,掌握总体的基本情况;抽样调查的目的则是通过对部分单位的调查结果来推算总体的数量特征;作为统计意义的典型调查,其目的类似于抽样调查。
(3)推算总体指法标的准确性和可靠程度不同。抽样调查和典型调查都要以部分单位调查的结果推算总体指法标,由于二者调查单位选择的方法不同,其推算结果的准确性、可靠性也不同。抽样调查按随机原则抽选调查单位,因而在给定概率和误差范围条件下,可保证推断的准确性和可靠性;而典型调查单位的选择完全由人们有意识的选择,因而难以保证推断结果的准确性和可靠性,推断误差既无法计算也不能控制.相同点:(1)三者都是非全面调查,都是选取总体中的一部分单位进行观察和研究;
(2)都是专门组织的一次性调查。
3.什么是抽样误差,影响抽样误差大小的因素主要有哪些?
抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和总体参数之间的绝对离差
(1)总体各单位标志值的差异程度。差异程度愈大则抽样误差也愈大,反之则小。
(2)样本的单位数。在其他条件相同的情况下,样本的单位数愈多,则抽样误差愈小。(3)抽样方法。抽样方法不同,抽样误差也不同。一般地说重复抽样的抽样误差比不重复抽样的抽样误差要大些。(4)抽样调查的组织形式。不同的抽样组织形式就有不同的抽样误差。而且同一种组织形式的合理程度也影响抽样误差。
4.相关分析和回归分析的区别和联系有哪些?
联系:(1)相关分析是回归分析的基础;(2)回归分析是相关分析的发展或深入。
区别:(1)相关分析与回归分析在研究目的和方法上是有明显区别的。相关分析研究变量之间相关的方向和相关的程度。但是,相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供了一个重要的方法。
(2)相关分析可以不必确定变量中哪个是自变量,哪个是因变量,而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。
(3)相关分析所涉及的变量可以都是随机变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。(4)对于互为因果关系的变量,相关分析只要计算一个相关系数即可,而回归分析需要计算两个不同的回归方程分别用来根据 x预测y,或根据y预测x。
7.什么是变异指标?它具有哪些作用?
答案:反应统计数列中以平均数为中心总体各单位标志值的差异大小或离散程度。
作用:①衡量平均指标的代表性
②反应经济现象活动过程均衡性、稳定性。
③研究总体标志值分布偏离的情况。
④是进行抽样推断等统计分析的一个基本指标。
7、简述指标和标志的区别和联系。
区别:(1)标志是说明总体单位特征的,指标是说明总体特征的;(2)标志有能用数字表示的数量标志和不能用数字表示的品质标志,而指标都能用数字表示。
联系:(1)指标的数值是由各数量标志值汇总得来的;(2)在一定条件下,指标和数量标志可以相互转化。
8、什么是时期数列,什么是时点数列,两者的区别是什么?
时期数列是现象在不同时期内的活动总量,在总量指标时间数列中,如果每一指标值是反映某现象在一段时间内发展过程的总量,则这种数列称为时期数列;时点数列是现象在不同瞬间时点上的总量,在总量指标时间数列中,如果每一指标值是反映某现象在某一时刻上的总量,则这种数列称为时点数列。
它们分别有以下三个特点(1)时期数列具有连续统计的特点;时点数列指标不具有连续统计的特点。((2)时期数列中各个时期指标值可以相加;时点数列中各个指标数值不具有可加性。(3)时期数列中各个指标值大小与所包括时期长短有直接关系;时点数列中每个指标值的大小与其时间间隔长短没有直接关系。
10.抽样推断方法具有哪些特点?()
(1)抽样推断是由部分推断整体的一种研究方法
(2)抽样推断是建立在随机取样的基础上
(3)抽样推断是运用概率估计的方法
(4)抽样推断的误差可以事先计算并加以控制
11.统计调查方案包括哪些内容?
(1)确定调查目标(2)确定调查对象和调查单位
(3)确定调查项目(4)确定调查表
(5)确定调查时间和调查时限(6)确定调查的组织工作
12.什么是时期数列?它有哪些特点?
在动态数列中,每一指标反映的是某现象在一段时间内发展过程的总量,则该动态数列称时期数列;(3分)
第四篇:心理统计学常用概念总结
1. 描述统计:是对成组数据概括的描述。描述统计的指标有三类:数据的集中趋势,数据的离中趋势,数据间的相关。
2. 推论统计:方法包括从样本的数量特性推测总体数量特性的一系列问题:推论假设,推论的各种方法和步骤,以及检验推测可靠性的各种方法。
3. 组距:每一组上限和下限的差。(组距习惯上常用2,3,5,10,20)
4. 中点:在某一组的下限和上限当中的那一点。
5. 集中趋势:是代表一系列数据的典型水平的数字指标,代表集中趋势的指标有平均数,中数和众数。
6. 平均数(x):是一组数据总和的平均值。
7. 中数(mdn):一系列按大小顺序排列的数据中的一个点,在这个系列中有一半数据在这个点以上,有一半数据在这个点以下。
8. 众数(mo):在一系列数据中出现次数最多的那个数。
9. 全距:一个分布中最大的数值的上限减去最小数值的下限,就得到全距。(全距大,说明这组数据分散;全距小,则较集中。使用时注意:1、无极端值;2、比较两个分布的全距时,当两个分布所包含数据的数目相等或差不多时才能使用)
10. 离中趋势:是表示一组数据分散程度的指标,常用的指标有:全距,四分差,平均差和标准差。(如果离中趋势很小,说明数据分布都在平均数附近变动,因此平均数的代表性很大;如果离中趋势太大,说明数据分布太分散)
11. 四分差(q):是数据的离中趋势的指标之一,四分差说明按大小顺序排列的一系列数据中间50%个数据的分散程度。(如果一个分布中间部分的数据比较集中,则两个四分点q3与q1就离得近些,q的值就小些。)
12. 百分点:某次数分布中处于某百分等级的数值。
13. 百分等级:某数值在某次数分布中所处的位置。
14. 平均差(ad):一个分布中每个变量和平均数的差的绝对值的平均值。
15. 标准差:s2开方后的正值就叫标准差,是数据的离中趋势的指标之一。
16. 离中系数(cv):用相对量来表示数据分散程度的数字指标。
17. 相关程度:指相关是否密切,可分为无相关;部分相关;完全相关。
18. 相关:是描述两种数量关系的一个指标,如果一个变量随另一个变量的增加(减小)而增加(减小),则两个变量之间存在着相关。
19. z分数(标准分数):是以标准差为单位所表示的原始分数(x)与平均数的偏离,也可以说是一个以标准差为单位来表示的偏离分数。
20. 总体;某类事物的全部称为总体。
21. 样本:从全部抽出的部分叫样本。
22. 推论统计:从局部推测全部,从样本推测总体的统计程序。
23. 随机抽选样本:指总体中每个成分都有同等的机会被抽选。
24. 分层抽样:用分层抽样的方法,必须对总体有一定的了解,事先对于影响所研究问题的诸因素做适当安排。
25. 样本分布:从很多个样本中算出的很多个平均数的次数分配叫样本分布。
26. 正态分布:是一个中间高,两侧逐渐下降,两端永远不与横轴相交,两侧完全对称的钟形曲线。
27. 平均数的标准误(sx):为了和单个样本的标准差有所区别,把样本分布的标准差称做平均数的标准误。
28. 自由度(df):能够独立变化的数据的数目。
29. 平均数差的标准误(sxd):分别从两个总体中抽取出的多个样本平均数的差(xd)的分布,这个分布的标准差叫做平均数差的标准误。
30. 虚无假设(ho):除概率以外不加任何其它假定,即假设二总体的平均数差异为0。
31. 备则假设(ha):假设两个总体平均数之间差异中除了抽样误差外,还包括有两个总体平均数之间的差异,即备则假设是个总体平均数之间差异不为0。
32. 显著性水平(p):我们所选择的推翻虚无假设的概率叫做检验的显著性水平。
33. 第一类错误:当虚无假设不应推翻时而被推翻了,这意味着把样本的平均数差别认为是代表了总体平均数的差异。
34. 第二类错误:当应该推翻虚无假设时而不推翻,这意味着把样本的平均数差别是代表总体平均数的差别这一事实给否认了。
35. 显著性检验:通过样本平均数的差别来推论总体平均数是否真正存在差别,并确定存在何种水平。
36. 回归:当两种变量间存在着一定程度的相关时,一种变量有向另一种变量的平均数趋近的现象,这种现象叫回归。
37. 回归方程式:从一变量的数值预测另一变量的相应数值的直线方程式,当两个变量部分相关时,有两个回归方程式。
38. 回归系数(byx):由x变量预测y变量的回归方程式的斜率。
39. c2检验:是实际观察次数与假设次数偏离程度的指标。
40. 方差分析:根据组间和组内方差的比值,来比较两组或多组数据的差异是否达到显著。
41. 组间变异:在两组之间所产生的因变量的变异,就是系统变异,也就是由自变量引起的变异。因为这种变异发生在两组之间,所以又叫组间变异。
42. 组内变异:同一组内的因变量的变异,就不是由于自变量的情况不同引起的,而只是由于未加控制的变量引起的。因为这种变异发生在同一组内,所以叫做组内变异。
43. 组间设计:每个被试只参加1个水平的实验。
44. 组内实际:每个被试参加所有水平的实验。
45. 主效应:自变量所引起的平均数差异。
46. 交互作用:一个自变量对反应变量的影响因另一个自变量的变化而发。
第五篇:统计学总结
统计学(Statistics):应用统计学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。
医学统计学(Medical Statistics):应用统计学的原理与方法,研究医学科研中有关数据的搜集、整理和分析的应用科学。
统计学方法的特点: 1.用数量反映质量
2.统计逻辑:用群体规律估算/推测个体 3.手段:常通过部分个体估计总体
同质和变异(考试重点)
同质(homogeneity):据研究目的所确定的所有研究对象的相同属性。例子:身高、体重、年龄、容貌…… 变异(variation):同质研究单位中变量值间的差异,整个统计学甚至是整个科学研究存在的基础。
总体、样本和研究单位(考试重点)
总体(population):是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合,包括有限总体和无限总体。 样本(sample):是总体中抽取的一部分个体。包括随机抽样和非随机样本。 样本含量(sample size):样本中包含的研究单位数。 观察单位(observed unit):也叫个体或研究单位,它是研究中的个体(individual),完全由研究目的确定。它可以是一个(群)人、一只动物和一个细胞。
变量、变量值和资料(考试重点)
变量(variable):按特定目的确定的研究单位的某种特征或属性。
变量值(value of variable):变量的观察或检测结果,也叫变量的观测值。 资料(data):在特定目的指引下而确定的变量及其变量值。 计量资料(measurement/quantitative/numerical data):其特征是能够用数量衡量,通常具体计量单位。按照变量值是否连续又可分为连续型(continuous/interval)和离散型(discrete)两类按特定目的确定的研究单位的某种特征或属性(请举例)。要特别注意比值资料,如细胞凋亡率。
计数资料(enumeration/qualitative/categorical/ nominal data):是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型(举例)。
等级资料(ordinal categorical/rank/semi-quantitative data):是将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而得到的资料,其变量值具有半定量性质。(举例,如血清反应强度、疗效)
参数和统计量(考试重点)
参数(parameter):根据总体中所有个体值计算出来的特征量/指标,一般用希腊字母表示。 统计量(statistic):根据样本个体值计算出来的描述的特征量/指标,一般用拉丁字母表示。
总体参数一般是不知道的,统计工作的目的是:通过样本统计量估计推测总体参数。
误差、随机误差、系统误差和非系统误差(考试重点) 误差(error):泛指实际观测值与真值之差,也即样本指标/统计量与总体指标/参数之差。
按误差产生的原因分为:系统误差、非系统误差和随机误差。
系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。
非系统误差(nonsystematic error):由于研究者偶然 失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error) 测量值 = 真值 + 随机误差 + 非随机误差
随机误差:是一类不恒定的、随机变化的误差,由于多种目前尚无法控制的因素引起。如:在同一条件下对某一实验进行多次重复,虽极力对其进行控制或消除系统误差后,但实验结果却不尽相同。 抽样误差(sampling error):由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免,具有统计规律性,主要由个体差异(变异)
频率、概率和小概率事件(考试重点)
频率(relative frequency): 一次随机试验有几种可能结果,在重复进行试验时,各种结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种
概率(probability)概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现 f 次,f/n 则称为随机事件A出现的频率。当 n 逐渐增大时,频率 f/n 趋向于一个常数,则称该常数为随机事件A的概率,可记为 P(A),简记为P。概率的取值范围: 0≤ P(A)≤1。
频率是就样本而言的,而概率从总体的意义上说的,频率是概率的估计值。试验次数(样本含量)越多(越大),估计就越可靠。
小概率事件: 统计分析中的很多结论都基于一定置信程度下的概率推断,小概率是研究人员确定的统计判断或决策标准,习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生,这即是统计决策必须付出的代价。
医学统计工作的基本步骤 1.设计(design)
设计阶段主要涉及实验的三要素(对象对象、研究因素、实验效应)、四原则(对照、随机、重复和均衡)和设计方法。
包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为:实验设计、调查设计 和 临床实验设计。
2.收集资料(collection of data)(1)资料来源
第一手资料:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等);经常性工作记录(卫生监督记录、健康检查记录、病历等);专题调查、实验或临床试验。
第二手资料:已公布的资料,特别是官方出版物,以及其他各种类型的数据。
(2)对资料要求
完整:观察单位及观察指标应尽可能地完整 准确:即真实、可靠。真实是统计学的灵魂 及时:即时限性
3.整理资料(sorting data)
目的:通过对原始数据的条理化、系统化和数量化的处理,使得其能够满足统计分析的需要,特别是要满足统计软件的要求。因此,国外有些教材也把该阶段称作数据筛查(data screening)
评估数据质量,弥补缺失值或补做调查或实验,确保数据准确、可信。
4.分析资料(analysis of data)(考试重点)
目的:揭示样本数据中潜藏的内在联系和规律,借以估计总体的特征,从而达到支持决策的目的。
包括统计描述(统计图、表、统计指标)和统计推断(假设检验和置信区间)。
资料的类型
定量资料: 可直接利用原始测量值进行分析,也可将其分为几类,完全取决于研究目的。
无序资料: 二项分类资料(赋值进行量化)和多项分类资料(必须采用哑变量)举行分析。
有序数据:可直接进行量化处理。
统计描述:采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。极差(range)也称全距,即最大值和最小值之差,记作R。(考试重点)
编制频数表的步骤 1.求极差 2.确定组距(i)
3.写组段(分为12个组段)组下限(L):每个组段的起点 组上限(U):每个组段的终点
4.分组段划记并统计频数
(1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。
(2)偏态分布 :
右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。(考试重点)
左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。(考试重点)频数表和频数分布图用途 1.描述数据分布类型
2.描述频数分布的特征
3.便于发现一些特大或特小的可疑值; 4.便于进一步做统计分析和处理。
集中趋势:遴选最合适的代表值。
离散趋势:评判代表值对总体代表的程度。
集中趋势的描述(考试重点)统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。(考试重点)常用的平均数有:算术均数、几何均数、中位数
算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。(考试重点)适用于对称分布,特别是正态分布或近似正态分布的资料。
几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料,特别是对数正态分布资料。 中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。各种分布类 型的资料,特别是偏态分布资料和含有不确定数值的资料。
百分位数(percentile)是一种位置指标,用
来表示,读作第X 百分位分数。
离散趋势的描述(考试重点)
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。
极差或全距(Range),用R表示:即一组变量值最大值与最小值之差。
四分位数间距,用QR表示:QR=p75-p25 下四分位数:QL=P25 上四分位数;QU=P75 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。
标准差:方差的开方
变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。(考试重点)
正态分布的概念:如果随机变量X的分布服从概率密度函数
(X)2221f(X)e2
X则称服从正态分布,记作
N
(, )μ为X的总体均数,
2为总体方差。X
百分位数法:公式:双侧1-α参考范围 P100α/2~ P100-100α/2 单侧1-α参考范围 >P100或
医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。
双侧 :即指标过高和过低都不正常,如:血清总胆固醇、血压、体重等等。
单侧: 即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。
计算医学参考值范围的常用方法:
正态分布法(当资料服从正态分布)
百分位数法(当资料不服从正态分布)
抽样误差:由于存在个体差异,抽得样本的均数不太可能恰好等于总体均数,因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异,称为抽样误差。(常考内容)
标准误(standard error, SE):表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式
X n
t 分布: 若某一随机变量X服从总体均数为X、总体标准差为2N(, ),的正态分布则可通过u变换()将一般正态分布转化为标准正态分布N(0,12),即u分布.t 分布特征
1.单峰分布,以0为中心,左右对称; 2.自由度3.当越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;
X逼近, SX逼近, t分布逼近u分布,故标准正态分布是t分布的特例
参数估计 :用样本统计量推断总体参数。总体均数估计:用样本均数推推断总体均数
点估计:就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ,S估计σ等。其方法虽简单,但未考虑抽样误差的大小。
区间估计:是按预先给定的概率(1-α)所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间(confidence bound/confidence interval, CI);预先给定的概率1-α称为可信度或置信度(confidence level),常取95﹪或99﹪,如果没有特别说明,一般取双侧95﹪。
可信区间的两个要素
(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。它愈接近1愈好,如99%的可信区间比95%的可信区间要好。
(2)精确度:即区间的宽度。区间愈窄愈精确,如95%的可信区间比99%的可信区间要好。
假设检验的步骤
1.建立检验假设,确定检验水准
① =0:即检验假设,常称无效假设或零/原假设,用H0表示。
② 0:即备择假设,常称对立假设,用H1表示。③ :即检验水准,也称显著性水准。是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。2.计算检验统计量
应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。3.确定P值
按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。
4.下结论
将上述计算所得概率P与检验水准进行比较,判断其是否为小概率事件,从而得出结论。一般来说,结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。必须将二者结合起来,才能得出符合客观实际的结论。
若P≤,则结论为按所取的检验水准,拒绝H0,接受H1,有统计学意义(统计结论),可认为……不等或不同(专业结论)。;
若P>,则结论为按检验水准,不拒绝H0,无统计学意义(统计结论),还不能认为……不等或不同(专业结论)。
t检验和u检验的应用条件
1.t检验应用条件
样本含量n较小时(如n<60)(1)正态分布
(2)方差齐性
2.u 检验应用条件
样本含量n较大,或n虽小但总体标准差已知(1)方差齐性(homogeneity of variance)总变异:全部测量值大小不同,这种变异称为总变异。
离均差平方和:总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。
组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。
均方差,均方(mean square,MS)。
MS组间MS组内SS组间组间SS组内组内完全随机设计:(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。
率:说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:某时期内发生某现象的观察单位数率比例基数 同期可能发生某现象的观察单位总数
构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。
相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,通常以倍数或百分数(%)表示。
应用相对数的注意事项
1、计算相对数应有足够数量即分母不宜太小。
2、不能以构成比代替率 3.正确计算合计率 4.注意资料的可比性
动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。
二项分布的适用条件
1.每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和
恒等于1;
2.每次试验产生某种结果(如“阳性”)的概率π固定不变;
3.重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出
现的概率。
Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
Poisson分布的适用条件
假定在规定的观测单位内某事件(如“阳性”)平均发生次数为λ,而其样本计数为X(X=0,1,2,„)。则在满足下面三个条件时,有X~P(λ)。
1.普通性
在充分小的观测单位上X的取值只能为1个,不能同时取多个值。2.平稳性
X的取值只与观测单位的大小有关,而与观测单位的位置无关。
3.独立增量性
在某个观测单位上X的取值与其他各观测单位上X的取值无关。
卡方检验目的:推断两个总体率或构成比之间有无差别
多个总体率或构成比之间有无差别
多个样本率的多重比较
两个分类变量之间有无关联性
频数分布拟合优度的检验。检验统计量:X2 应用:计数资料
X2分布的一个基本性质是可加性
参数检验
如果总体分布为已知的数学形式,对其总体参数作假设检验。如: t 检验和 F 检验。
非参数检验:对总体分布不作严格假定,又称任意分布检验(distribution-free test),它直接对总体分布作假设检验。
秩转换的非参数检验应用范围: 对于计量资料:
1.不满足正态和方差齐性条件的小样本资料;
2.分布不明的小样本资料;
3.一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选); 对于等级资料: 若选行×列表资料的 x2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。
wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。
直线回归
目的:研究应变量Y对自变量X的数量依存关系。
特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系。
回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equal variance)
ˆabX(91)直线回归方程的一般表达式为
Ya 为回归直线在 Y 轴上的截距,b为回归系数,即直线的斜率.残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。
直线回归方程的求法:原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小.22SSlll2回决定系数(coefficient of determination)RXYXXXYSS总lYYlXXlYY
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
(YY)SSSS总=SS回+SS残,总即,为Y的离均差平方和,表示未考虑X与Y的回归关
2系时Y的总变异。
直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系
相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
相关系数没有单位,其值为-1≥ r≥ 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
(XX)(YY)l样本相关系数的计算公式为
rXY lXXlYY(XX)2(YY)2
秩相关适用条件:双变量计量资料: ①资料不服从双变量态分布; ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。
曲线拟合: 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。
几种曲线拟合:对数曲线、指数曲线、抛物线、S型曲线
统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;
统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。
制表的基本要求
(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
常用统计图
1.直条图(bar chart)2.圆图(pie chart)和百分比条图(percent bar chart)3.线图(line graph)4.直方图(histogram)5.统计地图(statistical map)6.其他特殊分析图
箱式图(box plot)茎叶图(stem-leaf plot)误差条图(error bar chart)
线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。
箱式图(box plot)使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。
多因素试验资料的方差分析设计类型:析因设计 各因素各水平的全面组合 处理组合数 g = 各因素水平数之积。
正交试验:非全面组合,g个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。
嵌套试验:非各处理因素各水平的全面组合,而是各因素按隶属关系系统分组,各因素水平没有交叉。
裂区设计:两因素析因设计的特殊形式。
单独效应 指其他因素的水平固定时,同一因素不同水平间的差别。主效应 指某一因素各水平间的平均差别/不考虑其他因素下的效应。
交互作用 当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。
析因设计变异分解 SS总SS处理SS误差 SSASSBSSABSS误差
重复测量资料
目的:推断处理、时间、处理×时间作用于试验对象的试验指标的作用。
资料特征:处理因素 g(≥1)个水平,每个水平有n个试验对象,共计 gn个试验对象。时间因素 同一试验对象在m(≥2)个时点获得m个测量值,共计gnm个测量值。方法:方差分析
单组前后测量设计与配对设计的区别区别
区别点 配对设计 单组前后测量设计
N 两实验单位 可随机分配
观测时间 同期 两时间点 N 试验数据与差值关系 独立
分析指标平均差值平均差值、相关回归
推断 组间差别 前后差别
logistic回归 分析目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。
用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。
logistic回归种类: 1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。
优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:
P/(1P 1)ORj1 P0/(1P0)
logistic回归的应用及注意事项 1.流行病学危险因素分析 2.便于控制混杂因素效应 3.预测与判别
等级变量和无序分类变量的数量化 样本含量的计算(经验标准和科学计算)
模型拟合优度(偏差、显著性检验、假决定系数、AIC、BIC和预测准确率)二分类logistic回归、有序logistic回归和多分类logistic回归的选择