第一篇:统计学复习总结
3.样本:从总体中抽样部分个体的过程称为抽样,所抽得的部分为样本。(从样本中随机抽取的有代表性的一部分)
4.统计量:是统计理论中用来对数据进行分析、检验的变量。
5.频率:是指单位时间内完成振动的次数,是描述振动物体往复运动频繁程度的量。
6.概率:是描写某一事件发生的可能性大小的一个量度。
8.系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小。
9.随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂以校正,但是由于各种偶然因素的影响也会造成同一对象多次测定的结果完全不一致。这种误差往往没有固定的倾向,有时高有时低。
12.标准误:也称标准误差,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。
13.标准差:是一种表示分散程度的统计观念。
14.指标:指预期中打算达到的指数、规格、标准。
15.相对数:是两个相关的绝对数之比,也可以是两个统计指标之比。
16.率:表示在一定范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度活频率。
17.构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分比表示。
18.相对比:是A、B两个关联指标之比,用以描述两者的对比水平。19 统计学是一门用于观察资料的应用科学它具有严密的科学逻辑无限的应用性和以高等数学为基础的计算性它广泛的涉及到自然科学人文科学和管理科学的各个领域
20医学统计研究对象及特征同质性 大量性变异性平均数是描述一组同质的计量资料集中趋势(平均水平)的指标 22 算术均数 是描述一组同质的计量资料集中趋势(平均水平)的指标
23几何均数是描述一组同质的呈对数整台分布的计量资料变异系数的指标 1极差即最大值与最小值之差。四分位数间距2离均差平方和 方差 标准差 变异系数 3方差4标准差5变异系数 25参数估计包括点估计和区间估计搜集资料
一资料来源
1统计报表
2报告卡如报出生率换染率
3日常工作记录如 住院病历
4专题研究或实验研究
5学术专题研究会讨论会经验交流会
6图书资料
7国际互联网
二资料要求
(一)三性及时性 正确性完整性
(二)四原则对照原则均衡原则随机化原则重复原则
三 整理资料核对 2 分组按质量等级分组3 归纳 手工法 机械法 4 列表
1.什么叫医学统计学?医学统计学与统计学、卫生统计学、生物统计学有何联系与区别?
医学统计学:是统计学的重要应用领域,它运用概率论、数理统计的原理和方法,结合医学实践,阐述统计设计的基本原理和步骤,研究资料和信息收集、整理和分析,进行科学推断的一门应用统计学。医学统计学与生物统计学、卫生统计学是统计学原理和方法在互有联系的不同学科领域的应用,三者间既有区别,又有交叉,故难以截然划定界限。生物统计学应用于生物学研究,从生物范畴的角度来看,显然比医学统计学的范围更广,其原理和方法一般均可应用于医学研究。医学统计学和卫生统计学均应用于医学研究,而前者侧重于医学的生物性方面,后者侧重于公共卫生学的社会性方面。
2.标准差和标准误有何区别和联系?
区别:标准差与标准误的意义、作用和使用范围均不同。
(1)标准差一般用s 表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标。
标准误一般用sx 表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。
(2)随着样本数(或测量次数)n 的增大, 标准差趋向某个稳定值,即样本标准差s 越接近总体标准差σ。
标准误则随着样本数(或测量次数)n 的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)n 减小sx 的方法来减小实验误差,但样本数太大意义也不大。
(3)标准差是最常用的统计量, 一般用于表示一组样本变量的分散程度,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等
标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。
联系:标准差与标准误尽管都是反映变异程度的指标。标准误是标准差的1/ n;二者都是衡量样本变量(观测值)随机性的指标,只是从不同角度来反映误差;二者在统计推断和误差分析中都有重要的应用。
3.方差分析的基本思想是什么?
通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。将总变异及自由度按其来源分解
4.常用相对数指标有哪些?它们在计算和意义上有何不同? 常用的有率、构成比和相对比,5.x2检验的适用范围和各个公式的适用条件是什么?
6.简述非参数统计方法的概念及适用范围?
在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法
称为“非参数统计”。适用范围:(1)待分析数据不满足参数检验所要求的假定,因而无法应用参数检验。(2)仅由一些等级构成的数据,不能应用参数检验。(3)所提的问题中并不包含参数,也不能用参数检验。(4)当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统计方法来达到目的。
7.非参数统计方法有何优缺点?
优点 1等级资料2对资料没有特殊要求总体为偏态总体分布未知计量资料(N《30)有过大或过小的数值 3总体方差不齐
缺点检验效率低容易犯第二类错误
8.相关与回归的区别与联系?
回归分与相关分的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。从资料所具备的条件来说,作相关分析时要求两变量都是随机变量;作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量。差别主要是:(1)在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;(2)相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;(3)相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制。
9.直线相关与等级相关有何区别?
直线相关又称为简单相关,是探讨服从正态分布的两个随机变量X和Y有无线性相关关系的一种统计分析方法。直线相关的性质可由散点图直观地说明。等级相关又称秩相关,方法简单,易学易用,适用范围较广;两事物或现象间是否存在直线相关关系,也可用等级相关来检验。尤其适用于某些指标不便准确地测量,而只能以严重程度、成效大小、名次先后或综合判断等方式定出等级或次序的资统计工作的基本步骤 1 统计设计2资料搜集3资料整理4资料分析
第二篇:统计学复习总结
第二章 统计数据的搜集
1、四种统计测量尺度(定类、定序、定距、定比)的含义
2、四种专门调查(普查、重点调查、典型调查、抽样调查)的适用条件 第三章 统计数据的整理与显示
1、单值数列的编制程序
2、组距数列的编制程序
3、向上(下)累计次数的计算 第四章 统计资料的描述
1、时期指标、时点指标的含义
2、结构、比例、比较、动态、强度相对数的含义
3、计划任务数为计划期内各年的总和时计划完成程度和提前计划完成时间的计算
4、计划任务数为计划末期应达到的水平时计划完成程度和提前计划完成时间的计算
5、计划任务数为相对数时计划完成程度的计算
6、算术平均数的计算(数学性质的内容)
7、几何平均数的计算
8、未分组资料中位数的计算
9、单值数列中位数的计算
10、组距数列中位数的计算
11、单值数列众数的计算
12、组距数列众数的计算
13、众数、中位数和平均数的关系公式
14、未分组资料四分位差的计算
15、组距数列四分位差的计算
16、标准差的计算(简捷公式)
17、离散系数的计算(比较不同均值总体的离散程度)
18、偏态系数的说明
19、峰度系数的说明 第五章 统计资料的推断
1、总体、样本的含义
2、是非标志总体指标(均值、标准差、离散系数)的计算
3、样本方差的计算
4、重复抽样和不重复抽样下样本均值和样本成数抽样平均误差的理论公式计算
5、重复抽样和不重复抽样下样本均值和样本成数抽样平均误差的实际公式计算(不重复抽样下修正系数的两点说明)
6、大样本下样本均值和样本成数抽样极限误差的计算
9、总体均值的区间估计步骤
10、大样本下总体比例的区间估计步骤
11、总体均值的假设检验步骤(单侧检验和双侧检验)
12、大样本下总体比例的假设检验步骤(单侧检验和双侧检验)
13、常见Z值(注意:如假设检验需区分单侧和双侧的情况)第六章 方差分析
1、单因素方差分析的步骤
2、双因素方差分析的步骤 第七章 相关与回归
1、常见散点图的形式
2、相关系数的公式及含义
3、相关与回归的关系(胡说相关)
4、一元线性回归直线方程系数a和b的计算
5、系数b和相关系数r的关系
6、可决系数的计算及直观含义和经济含义 第八章 时间数列分析
1、绝对数时期数列序时平均数的计算
2、绝对数连续时点数列序时平均数的计算
3、绝对数间断时点数列序时平均数的计算
4、三种情况下相对数时间数列序时平均数的计算
5、平均增长量的计算
6、发展速度与增长速度的计算
7、增长1%的绝对值
8、平均发展速度和平均增长速度及相关指标的计算
9、偶数项移动平均需作移正平均
10、移动平均的几点说明
11、最小二乘法测定长期趋势时简捷公式如何令
12、三种趋势方程的数据特征 第九章 统计指数
1、数量指标综合指数的计算
2、质量指标综合指数的计算
3、数量指标加权算术平均指数的计算
4、质量指标加权调和平均指数的计算
5、总量指标变动两因素分析绝对数、相对数形式的计算
6、平均指标变动两因素分析绝对数、相对数形式的计算
t0
第三篇:大学统计学考点复习总结
统计学考点小结
一、名词解释
统计学:是研究大量社会现象(主要是经济现象)的总体数量方面的方法论科学。总体:亦称统计总体,是指客观存在的,在同一性质基础上结合起来的许多个别单位的整体。指标:亦称统计指标,是说明总体的综合数量特征
标志:是用来说明总体单位特征的名称,标志分为品质标志和数量标志。变异:严格的说,变异仅指品质标志的不同具体表现。
变量值:亦称标志值,指数量标志的不同表现。
数量指标:说明总体规模和水平的各种总量指标
质量指标:反映现象总体的社会经济效益和工作质量的各种相对指标和平均指标 流量:指一定时期测算的量,对于流量必须指明时期,具有时间量纲。存量:一定时点上测算的量,对于存量必须指明时间,不具有时间量纲。调查时间:指调查资料所属的时点或时期。
调查期限:指调查工作的起止时间(从开始到结束的时间)包括收集资料报送资料的整个过程所需的时间
直接观察法:有调查人员直接到现场对被调查对象进行直接的点数和计量。全面调查:指对构成调查对象总体的所有单位一一进行调查。
非全面调查:指取被研究对象的一部分单位进行调查。
普查:指专门组织的一次性的全面调查。
统计报表制度:是按照国家或部门统一规定的表式,统一的指标项目,统一的报送程序和报送时间自下而上逐级提供统计资料的一种调查方式。
抽样调查:在全部调查单位中按照随机原则抽取一部分单位进行调查,根据调查结果推断总体的一种非全面调查。
重点调查:在调查对象范围内选择部分重点调查单位搜集统计资料的一种非全面调查。所谓重点单位是指这些单位在全部总体中虽然数目不多,所占比重不大,但就调查的指标值来说却在总量中占很大的比重。
典型调查:指在调查对象中有意识的选取若干具有典型意义的或具有代表意义的单位进行非全面调查。
统计整理:是统计工作的第二阶段,它是根据统计研究的任务,对统计调查的阶段所搜集的大量原始资料进行加工会汇总,使具系统化、条理化、科学化,以得出反映事物总体综合特征的资料的工作过程。
分配数列:亦称次数分配,指在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中,各个单位在各组间的分布。
组距:每个组上限和下限之间的距离。
全距:全部变量中的最大值和最小值之间的距离。
组限:组距两端的数值称为组限。
向上累计:又称以下累计或较小制累计,是将各组次数和比率,由变量值低的组向变量值高的组逐组累计。
向下累计:又称以上累计或较大制累计,是将各组次数和比率,由变量值高的组向变量值低的组逐组累计。
钟形分布:“两头小、中间大”,即靠近中间的变量值分布的次数较多,靠近两端的变量值分布的次数较少。
U型分布:“两头大、中间小”,即靠近中间的变量值分布的次数较少,靠近两端的变量值分布的次数较多。
J型分布:“一边小、一边大”即大部分变量值集中在某一段分布,分布曲线图形像英文字母“J”字。
主词:是统计表中所要说明的总体及其分组。
宾词:用来说明总体的统计指标。
总量指标:反映社会经济现象在一定的时间、地点、条件下的总体规模和总体水平的统计指标,也称绝对指标或绝对数。
总体单位总量:表示一个总体内所包含的总体单位的总数,即总体本身规模的大小。如企业数,学校数。
总体标志总量:是总体各单位某种标志值的总和,是说明总体特征的总数量。如总产量、总产值。
时期指标:指反映现象在某一时期发展过程的总数量。
时点指标:反映现象在某一时刻(瞬间)上状况的总量。
相对指标:又称相对数,是两个有联系的指标数值对比的结果,用来对比的两个数,可以是绝对数、平均数、相对数。
平均数:在同质总体内将各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平。
众数:总体中出现最多的标志值,它能直观的说明客观现象分配中的集中趋势。中位数:现象总体中各单位标志值安大小顺序排列居于中间位置的那个标志值。
标志变动度:即标志变异指标,指总体中各单位标志值差别大小的程度,又称离散程度。时期数列:在绝对数动态数列中,如果各项指标都是反映某种现象在一段时期内发展过程的总量,这种数列就为时期数列。
时点数列:在绝对数动态数列中,如果各项指标都是反映某种现象在某一时点上所处的数量水平,这种数列为时点数列。
平均发展水平:将不同时期的发展水平加以平均而得到的平均数,在统计上又叫序时平均数或动态平均数。
商品流转次数:即资金周转次数,是商品流转额与平均商品储存额的比值。
增长量:说明社会经济现象在一定时期内所增长的绝对数量,它是报告期水平与基期水平之差。
逐期增长量:指报告期水平与前一期水平之差,表明本期比上一期增长的绝对数量。
累计增长量:指报告期水平与某一固定时期(基期)水平之差,表明本期比某一固定时期增长的绝对数量。
平均增长量:说明社会经济想象在一定时期内平均每期增长的数量,即 逐期增长量之和与逐期增长量个数之比。
定基发展速度:指以报告期水平与某一固定时期水平之比计算的发展速度。
环比发展速度:指以报告期水平与前一期水平之比计算的发展速度。
长期趋势;指在研究某种现象在一个相当长的期间内向上或向下发展变动的趋势。
指数:广义指一切说明社会现象数量变动或差异程度的相对数,狭义指一种特殊的相对数,即专指不能直接相加和对比的复杂社会现象综合变动程度的相对数。
同度量因数:把不能直接相加的指标过渡为可以相加的因素或媒介。
全及总体:指所要认识对象的全体,总体是由具有某种共同性质的许多单位组成的。抽样总体:是从全及总体中随机抽取出来,代表全及总体部分单位的集合体。
抽样误差:指样本指标与总体指标之间数量上的差别。
二、填空题
1、统计指标按其所反映的总体内容的不同可以分为质量指标和数量指标。
2、调查表一般分为一览表和单一表两种形式
3、统计调查按其调查对象所包括的范围的不同可分为全面调查和非全面调查
4、分配数列可以根据分组标志的不同分为品质数列和变量数列
5、组距数列可以根据组距是否相等分为等距数列和异距数列。
6、组数的确定与组距有密切的关系,组距大则组数少,组距小则组数多。
7、从内容上看,统计表由主词和宾词两部分组成。
8、总量指标按其所反映的内容不同可以分为总体单位总量和总体标志总量。
9、标志变动度愈大,平均数代表性愈小,标志变动度愈小,平均数代表性愈大。
10、全距数值愈小,表示标志变动度愈小,变量值愈集中。
11、平均差愈大,表示标志变动度愈大,平均数代表性愈小。
12、离散系数值愈小,说明平均数代表性愈好。
13、动态数列由两个基本要素构成,一个是资料的所属时间,一个是各时间上的统计指标数值。
14、统计指数按其说明现象范围的不同分为个体指数和总指数。
15、统计指数按所说明的因素的多少分为两因素指数和多因素指数。
16、统计指数按其表现形式的不同,分为综合指数平均指数和平均指标对比指数。
17、在综合指数中,编制数量指标综合指数往往用基期质量指标作为同度量因素
18、在综合指数中,编制质量指标综合指数往往用报告期数量指标作为同度量因素。
19、在一个指数体系中的数量指标综合指数用基期指标作为同度量因素时,质量指标综合指数要用报告期指标作为同度量因素,反之亦然
20、总量指标按其反应的时间状况的不同分为时期指标和时点指标。
三、简答题
1、统计分组的基本作用有哪些?
答:划分现象的类型。揭示现象内部结构。分析现象之间的依存关系。
2、编制统计表应注意的问题
答:统计表的标题应十分的简明地概括所要放映的内容;表中主词各行和宾词各栏,一般应按照先局部后整体的原则排列,即先列各个项目再列总体;表中必须注明数字资料的计量单位,当全表只有一种计量单位时就写在表的右上方;表中的数字上下位置要对齐,无数字的空格,用符号“—”表示,当缺乏某种资料时,用符号“……”表示;统计表的表式一般是开口式,即表的左右两端不画纵线,表的上下常用粗线封口;必要时,统计表应加以注解,连同数字资料的来源等一般都写在表的下端。
3、时期指标与时点指标的区别和联系
答:a、时期指标反映现象在某一时期内的发展过程的总数量,时点指标反映现象在某一时刻或瞬间上状况的总量。
b、时期指标的数值是连续计数的,他的每一个数值都表示现象在一定时期内发生的总量,而时点指标的数值是间断计数的,他的每一个数值都表示发展到一定时点上所处的水平。c、时期指标具有累加性,即各期数值相加可以说明现象在较长时期内所发生的总量,而时
点指标不具有累加性
d、时期指标数值的大小受时期的长短的制约,而时点指标数值的大小与时点的间隔长短无直接关系。
4、正确运用相对指标的原则:
注意两个对比指标的可比性;相对指标要与总量指标结合起来运用;多种相对指标结合运用;在比较两个相对指标时,是否适宜相除再求一个相对指标,应视情况而定。
5、动态数列的编制原则
时期长短应该统一,但这个原则也不能绝对化,又是为了特殊的研究目的,也可将时期不等的指标编制成时期数列;
总体范围应一致;
指标的经济内容应相同; 计算口径应该统一。
6、时期数列与时点数列的区别
A时期数列中各个指标的数值是可以相加的,即相加具有一定的经济意义,而时点数列中的各个指标的数值是不可以相加的,相加不具有实际经济意义;
B时期数列中每一个指标数值的大小与所属的时期长短存有直接的关系,而时点数列中每一个指标数值的大小与其时间间隔长短没有直接的关系;
C时期数列中每一个指标的数值通常是通过连续不断地等记而取得的,而时点数列中每一个指标的数值通常是通过一定的时期登记一次而取得的。
7、序时平均数与一般平均数的区别与联系
相同点:序时平均数与一般平均数都是将现象的个别数量差异抽象化,概括的反映现象的一般水平;
不同点:A平均发展水平是同一现象在不同时期上发展水平的平均;从动态上说明其在某一段时间内发展的一般水平,他是根据动态数列来计算的,而一般平均数是同质总体内各单位标志值得平均,从静态上说明其在具体历史条件下的一般水平,他是根据变量数列计算的; B平均发展水平是对同一现象不同时间上数值差异的抽象化,而一般平均数是对同一时间总体某一数量标志值差异的抽象化; C平均发展水平还可以解决动态数列中某些可比性问题。
8、影响抽样平均误差的因素
A全及总体标志的变动度。(全及总体标志变动度越大,抽样平均误差就越大)
B抽样单位数的多少,在其他条件不变的情况下,抽样单位数越多,抽样平均误差越小; C抽样方法的选择。重复抽样平均误差大于不重复抽样平均误差;
D抽样的组织方式
计算平均流转次数、平均流通费用率
试从相对数和绝对数两个方面分析对销售额的影响程度及大小
标准差计算表
2011/11/15考前
————CYY
第四篇:统计学复习要点
第1章统计和统计数据
数据类别;总体、样本;几种概率抽样(简单随机抽样,分层抽样,系统抽样,整群抽样)第2章用图表展示数据 定性数据
表:频数分布表,列联表 图:条形图(复式),帕累托图,饼图,环形图 定量数据
表:频数分布表(分组)
图:直方图、茎叶图、箱线图;垂线图、误差图;散点图;雷达图,轮廓图 第3章 用统计量描述数据
水平:均值,中位数,分位数,众数(选择原则)
差异:极差,四分位差;方差,标准差,标准分数(经验法则);离散系数 分布:偏态,峰态(解读)第4章概率分布
重要分布:二项分布,泊松分布,超几何分布,正态分布(判断);t分布,卡方分布,F分布
统计量分布:参数,统计量,抽样分布,中心极限定理,标准误 第5章 参数估计 点估计:原理,缺陷
区间估计:置信区间,置信度 评价标准:无偏,有效,一致性 单个总体参数估计待估参数
均值比例方差
大样本小样本大样本
2分布
2已知2已知Z分布
Z分布Z分布
2未知2未知
Z分布t分布
两个总体参数估计
待估参数
均值差
独立大样
本
12、22已Z分布
独立小样
本
正态总体
12、22已
知Z分布
12=2
2t分布
比例差独立大样
本Z分布
方差比
匹配样本F分布
t分布
12、22未
知
12、22未Z分布
12≠22t分布
第6章假设检验
原假设,备择假设;如何提假设
显著性水平,P值,第一、二类错误
结果表述(拒绝,不拒绝)
参数检验(对照参数估计)
第7章分类变量的推断
卡方拟合优度检验,卡方独立性检验,相关性度量(3种系数)
第8章方差分析与实验设计
方差分析
研究的问题,基本原理,基本假设
方差分析表,参数估计表
实验设计
3种设计以及与方差分析的对应
第9、10章回归分析
回归的基本流程:判断有无关系、建模、检验、预测
模型好坏的评判标准:判定系数,估计标准误差
多元回归特有问题:调整判定系数,多重共线性(产生的问题,识别,处理),哑变量回归(系数解读)
第11章时间序列
时间序列的几种成分
不同类型时间序列对应的预测方法:基本原理
第五篇:统计学总结
统计学(Statistics):应用统计学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。
医学统计学(Medical Statistics):应用统计学的原理与方法,研究医学科研中有关数据的搜集、整理和分析的应用科学。
统计学方法的特点: 1.用数量反映质量
2.统计逻辑:用群体规律估算/推测个体 3.手段:常通过部分个体估计总体
同质和变异(考试重点)
同质(homogeneity):据研究目的所确定的所有研究对象的相同属性。例子:身高、体重、年龄、容貌…… 变异(variation):同质研究单位中变量值间的差异,整个统计学甚至是整个科学研究存在的基础。
总体、样本和研究单位(考试重点)
总体(population):是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合,包括有限总体和无限总体。 样本(sample):是总体中抽取的一部分个体。包括随机抽样和非随机样本。 样本含量(sample size):样本中包含的研究单位数。 观察单位(observed unit):也叫个体或研究单位,它是研究中的个体(individual),完全由研究目的确定。它可以是一个(群)人、一只动物和一个细胞。
变量、变量值和资料(考试重点)
变量(variable):按特定目的确定的研究单位的某种特征或属性。
变量值(value of variable):变量的观察或检测结果,也叫变量的观测值。 资料(data):在特定目的指引下而确定的变量及其变量值。 计量资料(measurement/quantitative/numerical data):其特征是能够用数量衡量,通常具体计量单位。按照变量值是否连续又可分为连续型(continuous/interval)和离散型(discrete)两类按特定目的确定的研究单位的某种特征或属性(请举例)。要特别注意比值资料,如细胞凋亡率。
计数资料(enumeration/qualitative/categorical/ nominal data):是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型(举例)。
等级资料(ordinal categorical/rank/semi-quantitative data):是将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而得到的资料,其变量值具有半定量性质。(举例,如血清反应强度、疗效)
参数和统计量(考试重点)
参数(parameter):根据总体中所有个体值计算出来的特征量/指标,一般用希腊字母表示。 统计量(statistic):根据样本个体值计算出来的描述的特征量/指标,一般用拉丁字母表示。
总体参数一般是不知道的,统计工作的目的是:通过样本统计量估计推测总体参数。
误差、随机误差、系统误差和非系统误差(考试重点) 误差(error):泛指实际观测值与真值之差,也即样本指标/统计量与总体指标/参数之差。
按误差产生的原因分为:系统误差、非系统误差和随机误差。
系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。
非系统误差(nonsystematic error):由于研究者偶然 失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error) 测量值 = 真值 + 随机误差 + 非随机误差
随机误差:是一类不恒定的、随机变化的误差,由于多种目前尚无法控制的因素引起。如:在同一条件下对某一实验进行多次重复,虽极力对其进行控制或消除系统误差后,但实验结果却不尽相同。 抽样误差(sampling error):由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免,具有统计规律性,主要由个体差异(变异)
频率、概率和小概率事件(考试重点)
频率(relative frequency): 一次随机试验有几种可能结果,在重复进行试验时,各种结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种
概率(probability)概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现 f 次,f/n 则称为随机事件A出现的频率。当 n 逐渐增大时,频率 f/n 趋向于一个常数,则称该常数为随机事件A的概率,可记为 P(A),简记为P。概率的取值范围: 0≤ P(A)≤1。
频率是就样本而言的,而概率从总体的意义上说的,频率是概率的估计值。试验次数(样本含量)越多(越大),估计就越可靠。
小概率事件: 统计分析中的很多结论都基于一定置信程度下的概率推断,小概率是研究人员确定的统计判断或决策标准,习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生,这即是统计决策必须付出的代价。
医学统计工作的基本步骤 1.设计(design)
设计阶段主要涉及实验的三要素(对象对象、研究因素、实验效应)、四原则(对照、随机、重复和均衡)和设计方法。
包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为:实验设计、调查设计 和 临床实验设计。
2.收集资料(collection of data)(1)资料来源
第一手资料:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等);经常性工作记录(卫生监督记录、健康检查记录、病历等);专题调查、实验或临床试验。
第二手资料:已公布的资料,特别是官方出版物,以及其他各种类型的数据。
(2)对资料要求
完整:观察单位及观察指标应尽可能地完整 准确:即真实、可靠。真实是统计学的灵魂 及时:即时限性
3.整理资料(sorting data)
目的:通过对原始数据的条理化、系统化和数量化的处理,使得其能够满足统计分析的需要,特别是要满足统计软件的要求。因此,国外有些教材也把该阶段称作数据筛查(data screening)
评估数据质量,弥补缺失值或补做调查或实验,确保数据准确、可信。
4.分析资料(analysis of data)(考试重点)
目的:揭示样本数据中潜藏的内在联系和规律,借以估计总体的特征,从而达到支持决策的目的。
包括统计描述(统计图、表、统计指标)和统计推断(假设检验和置信区间)。
资料的类型
定量资料: 可直接利用原始测量值进行分析,也可将其分为几类,完全取决于研究目的。
无序资料: 二项分类资料(赋值进行量化)和多项分类资料(必须采用哑变量)举行分析。
有序数据:可直接进行量化处理。
统计描述:采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。极差(range)也称全距,即最大值和最小值之差,记作R。(考试重点)
编制频数表的步骤 1.求极差 2.确定组距(i)
3.写组段(分为12个组段)组下限(L):每个组段的起点 组上限(U):每个组段的终点
4.分组段划记并统计频数
(1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。
(2)偏态分布 :
右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。(考试重点)
左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。(考试重点)频数表和频数分布图用途 1.描述数据分布类型
2.描述频数分布的特征
3.便于发现一些特大或特小的可疑值; 4.便于进一步做统计分析和处理。
集中趋势:遴选最合适的代表值。
离散趋势:评判代表值对总体代表的程度。
集中趋势的描述(考试重点)统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。(考试重点)常用的平均数有:算术均数、几何均数、中位数
算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。(考试重点)适用于对称分布,特别是正态分布或近似正态分布的资料。
几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料,特别是对数正态分布资料。 中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。各种分布类 型的资料,特别是偏态分布资料和含有不确定数值的资料。
百分位数(percentile)是一种位置指标,用
来表示,读作第X 百分位分数。
离散趋势的描述(考试重点)
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。
极差或全距(Range),用R表示:即一组变量值最大值与最小值之差。
四分位数间距,用QR表示:QR=p75-p25 下四分位数:QL=P25 上四分位数;QU=P75 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。
标准差:方差的开方
变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。(考试重点)
正态分布的概念:如果随机变量X的分布服从概率密度函数
(X)2221f(X)e2
X则称服从正态分布,记作
N
(, )μ为X的总体均数,
2为总体方差。X
百分位数法:公式:双侧1-α参考范围 P100α/2~ P100-100α/2 单侧1-α参考范围 >P100或
医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。
双侧 :即指标过高和过低都不正常,如:血清总胆固醇、血压、体重等等。
单侧: 即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。
计算医学参考值范围的常用方法:
正态分布法(当资料服从正态分布)
百分位数法(当资料不服从正态分布)
抽样误差:由于存在个体差异,抽得样本的均数不太可能恰好等于总体均数,因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异,称为抽样误差。(常考内容)
标准误(standard error, SE):表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式
X n
t 分布: 若某一随机变量X服从总体均数为X、总体标准差为2N(, ),的正态分布则可通过u变换()将一般正态分布转化为标准正态分布N(0,12),即u分布.t 分布特征
1.单峰分布,以0为中心,左右对称; 2.自由度3.当越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;
X逼近, SX逼近, t分布逼近u分布,故标准正态分布是t分布的特例
参数估计 :用样本统计量推断总体参数。总体均数估计:用样本均数推推断总体均数
点估计:就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ,S估计σ等。其方法虽简单,但未考虑抽样误差的大小。
区间估计:是按预先给定的概率(1-α)所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间(confidence bound/confidence interval, CI);预先给定的概率1-α称为可信度或置信度(confidence level),常取95﹪或99﹪,如果没有特别说明,一般取双侧95﹪。
可信区间的两个要素
(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。它愈接近1愈好,如99%的可信区间比95%的可信区间要好。
(2)精确度:即区间的宽度。区间愈窄愈精确,如95%的可信区间比99%的可信区间要好。
假设检验的步骤
1.建立检验假设,确定检验水准
① =0:即检验假设,常称无效假设或零/原假设,用H0表示。
② 0:即备择假设,常称对立假设,用H1表示。③ :即检验水准,也称显著性水准。是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。2.计算检验统计量
应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。3.确定P值
按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。
4.下结论
将上述计算所得概率P与检验水准进行比较,判断其是否为小概率事件,从而得出结论。一般来说,结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。必须将二者结合起来,才能得出符合客观实际的结论。
若P≤,则结论为按所取的检验水准,拒绝H0,接受H1,有统计学意义(统计结论),可认为……不等或不同(专业结论)。;
若P>,则结论为按检验水准,不拒绝H0,无统计学意义(统计结论),还不能认为……不等或不同(专业结论)。
t检验和u检验的应用条件
1.t检验应用条件
样本含量n较小时(如n<60)(1)正态分布
(2)方差齐性
2.u 检验应用条件
样本含量n较大,或n虽小但总体标准差已知(1)方差齐性(homogeneity of variance)总变异:全部测量值大小不同,这种变异称为总变异。
离均差平方和:总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。
组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。
均方差,均方(mean square,MS)。
MS组间MS组内SS组间组间SS组内组内完全随机设计:(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。
率:说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:某时期内发生某现象的观察单位数率比例基数 同期可能发生某现象的观察单位总数
构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。
相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,通常以倍数或百分数(%)表示。
应用相对数的注意事项
1、计算相对数应有足够数量即分母不宜太小。
2、不能以构成比代替率 3.正确计算合计率 4.注意资料的可比性
动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。
二项分布的适用条件
1.每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和
恒等于1;
2.每次试验产生某种结果(如“阳性”)的概率π固定不变;
3.重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出
现的概率。
Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
Poisson分布的适用条件
假定在规定的观测单位内某事件(如“阳性”)平均发生次数为λ,而其样本计数为X(X=0,1,2,„)。则在满足下面三个条件时,有X~P(λ)。
1.普通性
在充分小的观测单位上X的取值只能为1个,不能同时取多个值。2.平稳性
X的取值只与观测单位的大小有关,而与观测单位的位置无关。
3.独立增量性
在某个观测单位上X的取值与其他各观测单位上X的取值无关。
卡方检验目的:推断两个总体率或构成比之间有无差别
多个总体率或构成比之间有无差别
多个样本率的多重比较
两个分类变量之间有无关联性
频数分布拟合优度的检验。检验统计量:X2 应用:计数资料
X2分布的一个基本性质是可加性
参数检验
如果总体分布为已知的数学形式,对其总体参数作假设检验。如: t 检验和 F 检验。
非参数检验:对总体分布不作严格假定,又称任意分布检验(distribution-free test),它直接对总体分布作假设检验。
秩转换的非参数检验应用范围: 对于计量资料:
1.不满足正态和方差齐性条件的小样本资料;
2.分布不明的小样本资料;
3.一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选); 对于等级资料: 若选行×列表资料的 x2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。
wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。
直线回归
目的:研究应变量Y对自变量X的数量依存关系。
特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系。
回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equal variance)
ˆabX(91)直线回归方程的一般表达式为
Ya 为回归直线在 Y 轴上的截距,b为回归系数,即直线的斜率.残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。
直线回归方程的求法:原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小.22SSlll2回决定系数(coefficient of determination)RXYXXXYSS总lYYlXXlYY
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
(YY)SSSS总=SS回+SS残,总即,为Y的离均差平方和,表示未考虑X与Y的回归关
2系时Y的总变异。
直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系
相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
相关系数没有单位,其值为-1≥ r≥ 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
(XX)(YY)l样本相关系数的计算公式为
rXY lXXlYY(XX)2(YY)2
秩相关适用条件:双变量计量资料: ①资料不服从双变量态分布; ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。
曲线拟合: 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。
几种曲线拟合:对数曲线、指数曲线、抛物线、S型曲线
统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;
统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。
制表的基本要求
(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
常用统计图
1.直条图(bar chart)2.圆图(pie chart)和百分比条图(percent bar chart)3.线图(line graph)4.直方图(histogram)5.统计地图(statistical map)6.其他特殊分析图
箱式图(box plot)茎叶图(stem-leaf plot)误差条图(error bar chart)
线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。
箱式图(box plot)使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。
多因素试验资料的方差分析设计类型:析因设计 各因素各水平的全面组合 处理组合数 g = 各因素水平数之积。
正交试验:非全面组合,g个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。
嵌套试验:非各处理因素各水平的全面组合,而是各因素按隶属关系系统分组,各因素水平没有交叉。
裂区设计:两因素析因设计的特殊形式。
单独效应 指其他因素的水平固定时,同一因素不同水平间的差别。主效应 指某一因素各水平间的平均差别/不考虑其他因素下的效应。
交互作用 当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。
析因设计变异分解 SS总SS处理SS误差 SSASSBSSABSS误差
重复测量资料
目的:推断处理、时间、处理×时间作用于试验对象的试验指标的作用。
资料特征:处理因素 g(≥1)个水平,每个水平有n个试验对象,共计 gn个试验对象。时间因素 同一试验对象在m(≥2)个时点获得m个测量值,共计gnm个测量值。方法:方差分析
单组前后测量设计与配对设计的区别区别
区别点 配对设计 单组前后测量设计
N 两实验单位 可随机分配
观测时间 同期 两时间点 N 试验数据与差值关系 独立
分析指标平均差值平均差值、相关回归
推断 组间差别 前后差别
logistic回归 分析目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。
用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。
logistic回归种类: 1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。
优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:
P/(1P 1)ORj1 P0/(1P0)
logistic回归的应用及注意事项 1.流行病学危险因素分析 2.便于控制混杂因素效应 3.预测与判别
等级变量和无序分类变量的数量化 样本含量的计算(经验标准和科学计算)
模型拟合优度(偏差、显著性检验、假决定系数、AIC、BIC和预测准确率)二分类logistic回归、有序logistic回归和多分类logistic回归的选择