第一篇:旅游统计学名词解释
1,旅游统计学,是应用统计理论与方法,对旅游经济现象进行集中深入的研究而产生的一门分支统计学科。
2,总体,总体单位,总体,统计所要求的具有某种共同特征事物的全体,总体单位指组成总体的基本单位,即具有某种共同特征事物的基本单位。
3,标志,表明总体单位属性或特征的名称,按性质分,a品质标志,b数量标志,按变异性分a不变标志,b可变标志。
4,变异,标志在总体各单位之间存在具体表现的差异性,变异中,有属性变异与数量变异。
5,变量,把数量变异的名称称为变量,按是否连续,分为连续变量离散变量。
6,指标,表明总体数量特征的社会经济概念或范畴,1,特征2,可量性3,综合性,7,指标分类,安表现形式分为,总体指标,相对指标,平均指标,安总体特征,数量指标,质量指标.8,总量指标,在一定时间地点条件下表明某种旅游经济活动的总规模或总水平的指标。其表现形式为绝对数,按其所反映的时间状况不同,分为时点指标与时期指标。
9,相对指标,将两个性质相同或相互联系的指标总值进行对比求得的比率或商数就构成相对指标。
表现形式,无名数与有名数
计算方法,结构相对数=总体部分数值/总体全部数值
10,环比发展速度,以报告期的前一期为基期的发展过程比较。11,定期发展速度,以定期为基期的反展过程比较。12,动态数列将某种旅游经济现象指标,在不同时间让其按先后顺序排列得到的数列,又称时间数列。
13学列平均数,动态数列各时期或时点发展水平的平均数,是根据动态数列计算而得,塌缩平均的是现象在不容时期发展水平的差异。
14,统计指数,综合反映所研究社会经济现象复杂总体数量变动状况的相对数。
15,因素分析内容,a,相对数分析,b绝对数分析,16,普查,根据经济旅游工作特定目的与任务而专门组织的一次全面调查。
17,统计分组概念,根据被研究对象总体的内在特征,与旅游统计学研究目的,将统计总体按一定标志划分为若干相异的组成部分的一种方法。
18,逐级汇总,按照一定旅游管理机制,由上而下逐级汇总,上级统计资料的一种形式。
19,手工汇总,划分法,过录法,折叠法,卡片法。20,旅游换汇率,我国提供单位本国货币的旅游产品换取的外汇数量。
21,旅游对象物资源,指供旅游者参观游览娱乐修养的地区。条件,a具有旅游价值b经专家坚定,世人公认。C可进入性,d对国际旅游者须经政府批准开放。
22旅游交通,指旅游者利用某种手段途径从一个地点到另一个地点的空间转移过程,类型,水上陆地,空中。
23,交通统计,a车船数量构成,b车船变动量,c利用维修状况。
24,统计报表制度,按照国家统一规定调查要求,和表格形式等,自下而上提供统计资料的一种报表制度。
第二篇:统计学名词解释
中位数:被研究对象各单位的标志值依其大小顺序排列,位于标志值数列中间位置的标志值发展速度:两个不同时期发展水平对比而计算的动态相对数/标志:是说明总体单位特征或属性的名称//统计指标;是指表明总体某种数量特征的概念及其数量表现//统计设计;在进行某项具体工作之前,根据统计对象的性质和统计研究的目的要求,对整个统计工作预先制定的实施方案和程序//专门调查:是指为了解决某个专门问题而单独组织的调查//分配数列:是指在统计分组的基础上把分配到各组的总体单位数按顺序排列起来得到的数列//总量指标:是用来反映社会经济现象在一定条件下的总规模、总水平或工作总量的统计指标//平均指标:是指代表同质总体各单位某一数量标志值一般水平的统计指标//随机变量:指的是影响变量值变动的因素很多,作用不同,因而变量值变动无确定方向,有偶然性//统计指标体系:在统计上,由多种相互联系、相互依存的统计指标结合而成的,具有特定功能的有机整体就称统计指标体系//统计整理:是指根据统计研究任务的要求,对统计调查所取得的各项资料进行科学的分类、汇总,为统计分析提供准确、系统、条理得综合资料的工作过程//变量:就是可以取不同的值得量,在社会经济统计中,各种数量标志和全部统计指标都是标量//统计调查:按照统计设计的要求和统计研究的目的,运用科学的方法,搜集资料的统计活动过程//相对指标:用对比的方法来反映某些社会经济现象总体内部的结构,比例,发展状况以及彼此之间的联系程度的综合指标
移动平均法:是采用逐项递项递移的办法计算出一系列扩大时距的序时平均数,并以这一系列序时平均数作为对应的时期的趋势值//发展速度:是两个不同时期发展水平对比而计算的动态相对数//增长速度:是各期增长量与基期水平之比,用以说明各期现象增长变化的相对程度//时点指标:是反应事物在某一时点上的状况//总体变异性:是指总体所有单位至少有一个以上的可变品质标志或数量标志//同质性:单位在某些标志上有共同性//发展水平:是指动态数列中各项具体的指标数值//全面调查:就是对调查对象中全部单位进行的调查//数量标志:表明总体单位数量的方面特征的名称//无限总体:总体所包括的单位数可以使无限的,叫无限总体//变量值:变量的数值表现称为变量值//问卷调查:是以问题的形式系统的地记载所要调查内容与质询问表,向调查对象搜集资料的调查方法
平均指标:是指同类社会经济现象在一定时间、地点、条件下所达到的一般水平//回归分析:是测定现象之间联系的具体形式的统计分析方法//估计标准误差:用来说明回归方程推算结果的准确程度的统计分析指标,或者是反映回归直线代表性大小的统计分析指标//置信度:总体参数落在置信区间内的概率保证程度////抽样调查:是按照随机原则从被研究总体中抽选一部分调查单位作为样本进行调查的,并计算出样本指标数值,而后用以推算总体指标数值的一种方法//频数分布:在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各个单位在各组间的分布//抽样推断:是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体分布或总体参数的一种统计分析方法/
第三篇:卫生统计学名词解释
1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。
2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。
3.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等
计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。
等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。
等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。
5.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。频率:在相同的条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。
2.概率是描述随机事件发生可能性大小的数值,常用P表示。随机事件概率的大小在0与1之间,P越接近1,表示某事件发生的可能性越大;P越接近0,表示某事件发生的可能性越小。习惯上将P≤0.05的事件,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为不发生。6.随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。
抽样误差(sampling error)是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
7.系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。
8.随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。随机量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。
9.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。10.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
11.频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某一日内死亡0,1,2„个病人的天数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
12.算术均数(arithmetic mean)描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X 表示。
13.几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。
14.中位数(median)Md将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。
15.极差(range)亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。
16.百分位数(percentile)是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。
17.四分位数间距(inter-quartile range)是由第3 四分位数和第1 四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。
18.方差(variance):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
19.标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
20.变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示。计算:标准差/均数*100%
21.统计推断:通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statistical inference)。
22.抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(sampling error)。
23.标准误及X s :通常将样本统计量的标准差称为标准误。许多样本均数的标准差X s称为均数的标准误(standard error of mean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
24.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1-α,而不是总体参数落在该范围的可能性为1-α。
25.参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。
26.假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
27.I 型和II 型错误:I 型错误(type I error),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用α表示;II 型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用β表示。
28.检验效能:1-β称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
29.检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level of a test),记为α。
30..率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:发生某现象的观察单位数/可能发生某现象的观察单位总数*100%,表示方式有:百分率(%)、千分率(‟)等。
31.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计算公式为:某一组成部分的观察单位数/同一事物各组成部分的观察单位总数*100%,表示方式有:百分数等。
32.比(ratio)又称相对比,是A、B 两个有关指标之比,说明A 是B 的若干倍或百分之几。计算公式为:A/B,表示方式有:倍数或分数等。
33.非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assumption free statistics)的统计分析方法。
34.参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametric statistics)
35.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank)。36.秩和:各组秩次的合计称为秩和(rank sum),是非参数检验的基本统计量。
37.直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。
38.回归系数(regression coefficient)即直线的斜率(slope),在直线回归方程中用b 表示,b 的统计意义为X每增(减)一个单位时,Y平均改变b 个单位。
39.相关系数r:用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。卫生统计学中的概念资料的类型、总体和样本、参数和统计量、概率和频率。
(一)资料的类型
1.定量资料亦称计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位,如调查某年某地7岁女童的生长发育状况,以人为观察单位,女童的身高(cm)、体重(kg)、血红蛋白(g/L)等均属定量资料。
2.定性资料亦称分类资料,其观察值是定性的,表现为互不相容的类别或属性,分为两种情况:
(1)无序分类资料:包括:①二项分类。如调查吸毒者的HIV感染情况,结果分为阳性与阴性两类,表现为互不相容的两类属性。②多项分类。如人类的AB0血型,以人为观察单位,结果分为A型、B型、AB型与O型,表现为互不相容的多个类别。
(2)有序分类资料:各类之间有程度的差别,给人以“半定量”的概念,亦称等级资料。如测定某人群某血清学反应,以人为观察单位,结果可分“-”、“±”、“+”、“++”4级;又如观察某药治疗十二指肠溃疡的疗效,以每个患者为观察单位,治疗效果分为痊愈、显效、好转、无效4级。
(二)总体和样本
总体就是所有同质观察单位某种观察值(即变量值)的集合。样本是总体中随机抽取部分观察单位的观测值的集合。
(三)参数和统计量
总体的数值特征称为参数,用希腊字母表示。根据样本算得的某些数值特征称为统计量,用英文字母表示。在抽样研究中,由个体变异产生,随机抽样引起的样本统计量与总体参数之间的差别称为抽样误差。
(四)概率和频率
概率是描述随机事件发生可能性大小的数值,常用P表示。随机事件概率的大小在0与1之间,P越接近1,表示某事件发生的可能性越大;P越接近0,表示某事件发生的可能性越小。习惯上将P≤0.05的事件,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为不发生。
在现实中,随机事件的概率往往是未知的,因此,当观测单位足够多时,常用样本中事件的实际发生率来估计总体概率,这种实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现t次,则事件A出现的频率为t/n.如治疗200例患者,120名患者治愈,治愈率为60%,这就是一个频率。当观测单位较少时,用频率估计概率是不可靠的。
第四篇:医学统计学名词解释、简答、问答
名词解释
1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。3.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。5.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。频率:在相同的条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。6.随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。抽样误差(sampling error)是指样本统计量与总体参数的差别。在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。7.系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。8.随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。随机量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布9.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数10.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。11.频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某一日内死亡0,1,2„个病人的天数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。12.算术均数(arithmetic mean)描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X 表示。13.几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。14.中位数(median)Md将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。15.极差(range)亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。16.百分位数(percentile)是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。17.四分位数间距(inter-quartile range)是由第3 四分位数和第1 四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。18.方差(variance):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。19.标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。20.变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示。计算:标准差/均数*100% 21.统计推断:通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断(statistical inference)。22.抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数的差异,称为抽样误差(sampling error)。23.标准误及X s :通常将样本统计量的标准差称为标准误。许多样本均数的标准差X s称为均数的标准误(standard error of mean,SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。24.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1-α,而不是总体参数落在该范围的可能性为1-α。25.参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。26.假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。27.I 型和II 型错误:I 型错误(type I error),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用α表示;II 型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用β表示。28.检验效能:1-β称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。29.检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level of a test),记为α。30..率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:发生某现象的观察单位数/可能发生某现象的观察单位总数*100%,表示方式有:百分率(%)、千分率(‟)等。31.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计算公式为:某一组 1
成部分的观察单位数/同一事物各组成部分的观察单位总数*100%,表示方式有:百分数等。32.比(ratio)又称相对比,是A、B 两个有关指标之比,说明A 是B 的若干倍或百分之几。计算公式为:A/B,表示方式有:倍数或分数等。
33.非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assumption free statistics)的统计分析方法。34.参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计(parametric statistics)35.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank)。
36.秩和:各组秩次的合计称为秩和(rank sum),是非参数检验的基本统计量。37.直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。38.回归系数(regression coefficient)即直线的斜率(slope),在直线回归方程中用b 表示,b 的统计意义为X每增(减)一个单位时,Y平均改变b 个单位。
39.相关系数r:用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。
简答题
1.医学统计工作的内容:1)实验设计2)收集资料3)整理资料4)分析资料2.资料的类型:1)计量资料2)计数资料3)等级分组资料。3.抽样包括四种特征:1)代表性2)随机性3)可靠性4)可比性。4.频数表的编制方法和应注意的问题:1)确定组数2)确定组距3)确定组限4)用手工编制划计表.5.正态分布的几个主要特征:1)正态分布以均值u为中心,左右对称。2)正态分布中曲线下面积集中以均值u为中心的中心部分,越远离中心曲线越接近X轴曲线下面积越小,超过一定范围以外的面积可以忽略。3)正态分布曲线下的面积分布有一定的规律。4)正态分布完全由参数u和6决定,当6一定后u增大,曲线沿横轴向右移动,反之u减小曲线沿横轴向左移动。6.总体均数的估计方法有两种:
1)点估计2)区间估计7.T分布的特点:分布曲线的形态变化与自由度V(V=N—1)有关,当自由度V逼近OO时,T分布趋向于标准正态分布。8.配对设计主要有三种情况:1)两种同质受试对象分别接受两种处理,如:把同窝同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病人配成一对。2)同一受试对象或同一样本的两个部分,分别接受两种不同处理。3)自身对比,即将同一受试对象处理前后的结果进行比较。9.总体方差具有齐性时的两独立样本T检验:两独立样本T检验的检验统计量在H0:即=0的条件下为:。10.假设检验中的两类错误:1)型错误:指拒绝了实际上成立的H0即”弃真”的错误,其概率用 表示。2)型错误:指接受了实际上不成立的H0即“存伪”的错误,其概率用 表示。11.相对数常用的种类有:率构成比 相对比12.相对数使用应注意的问题:1)不要把构成比与率相混淆。2)使用相对数时,分母不宜过小。3)要注意资料的可比性。4)要注意使用率的标准化。5)要考虑存在抽样误差。13.T分布图形特征:1)单峰分布:以0为中心,左右对称,类似于标准正态分布的单峰分布。2)T分布图形不是一条曲线,而是一族曲线其形态变化与自由度大小有关,自由度越小,则SX越大。T值越分散,曲线的峰部越矮尾部越粗,则T分布曲线越低。3)自由度V越大,T分布越接近于正态分布。14.方差分析的三种变异:1)总变异
2)组间变异3)组内变异自由度V=N-1(例数)V=K-1(组数)V=N-K(例数-组数)15.标准化的意义:是为了在比较两个不同人群的患病率发病率死亡率等资料时,消除其内部构成(如:年龄性别工龄病情长短等)的影响。16.常用疾病统计的指标:1)发病率:表示某一时期内某人群中患某病新病例的频率。2)患病率:表示某一时点某人群中患某病的频率。3)病死率:表示某期间内某病患者中因某病死亡的频率。4)治愈率:表示接受治疗的病人中治愈的频率。17.X的适用条件:1)当N 40有理论频数1 T 5时,须对X值进行连续性校正。2)若遇到总倒数N 40或有理论频数T 1,即使采用校正公式计算的X值也会有偏差。因此,直接计算有利于拒绝H0的概率,以作出检验判断的方法。18.非参数检验方法适用于:1)总体分布为偏态或分布形态未知的计量资料2)等级资料3)个别数据偏大或数据的某一端无确定数值4)各组离散程度相差悬殊,即各总体方差不齐。如:有一题需列出:不满意 满意 很满意 非常满意等,则选用非参数检验方法。19.非参数检验的优点为:适应性强缺点为:非参数检验方法犯第二类错误的可能性大于参数检验法,对于适合参数检验的资料最好还是用参数检验20.统计图通常由五部分组成:1)标题2)图域3)标目4)图例5)刻度21.统计图和统计表的作用:代替文字,以表或图的形式进行了阐述。22.怎样确定P值:
(1)当N 25时,可查T界值表,T越小P越小。当N 25时,无法查T界值表,可按近似正态分布用u检验(2)如果T值在查表界值内 0.05;如果T值在查表界值外 0.05.23.常用的统计图有:直系图 百分系图 圆图 直方图 构成图。
24.样本均数的抽样分布具有以下特点:1)各样本均数未必等于总体均数2)样本之间存在差异3)样本均数的分布很有规律,围绕着总体均数中间多两边少左右基本对称,也服从对称分布4)样本均数变异较原变量的差异大大缩小。25.直方图与直条图区别:1)直方图:适用于表示连续变量频数分布情况。2)直条图:适用于无连续关系,各自独立的统计指标。26.圆图与百分条图:1)圆图:是一种构成图,适用于构成比资料,在圆图中圆的总面积表示事物的全部,而圆内的各扇形面积用来表示全体中各部分所占的比。2)百分条图:也是一种构成图,用矩形条子的面积表示事物全部,而用其中各段表示各构成部分。27.方差分析的应用条件:各样本相互独立且均来自总体方差具有齐性的正态分布。问答题
1、标准正态分布(u分布)与t分布有何异同?
相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)
不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。
3、简述直线回归与直线相关的区别。
1资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变
量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。
4、抽样中要求每一个样本应该具有哪三性?
从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。需要作“样本例数估计”。
5、什么是两个样本之间的可比性?
可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。
6、什么叫医学统计学?医学统计学与统计学、卫生统计学、生物统计学有何联系与区别? 医学统计学:是运用统计学原理和方法研究生物医学资料的搜索、整理、分析和推断的一门学科 统计学:是研究数据的收集、整理、分析与推断的科学。卫生统计学:是把统计理论、方法应用于居民健康状况研究、医疗卫生实践、卫生事业管理和医学科研的一门应用学科。生物统计学:是一门探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计,取样,分析,资料整理与推论的科学。
7、医学统计的资料主要来源于那些方面?有何要求?
医学统计资料主要有实验数据和现场调查资料、医疗卫生工作记录、报表和报告卡等。实验数据是指在试验过程中活的的数据;现场调查资料主要来源于大规模的流行病调查获取的资料;医疗卫生工作记录有门诊病历卡、住院病历卡、化验报告等;报表有卫生工作基本情况年报表、传染年(月、日)报表、疫情旬(年、月、日)报表等;报表卡有传染病发病报告卡、出生报告卡、死亡报告卡等等。这些资料的手机过程中,必须进行质量抗旨,包括它的统一性、确切性、可重复性。这些原始数据的精读和偏性应有明确的范围。
8、医学统计学的资料类型有哪些?
(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、12体重(kg)、红细胞计数(10/L)、脉搏(次/分)、血压(KPa)等。
(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。
9、常见的三类误差是什么?应采取什么措施和方法加以控制?
常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。
10、试述频数表的要素及用途。
要素:组段,频距。用途:① 描述资料的分布特征和分布类型。频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。② 便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。③ 发现特大、特小的可疑值。如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。④ 当样本含量比较大时,可用各组段的平率作为概率的估计值。
11、描述单变量资料的统计指标分哪两大类,分别是什么指标? 分类:①描述数据分布集中趋势的指标:算术均数、几何均数、中位数。②描述数据分布离散程度的指标:极差、四分位数间距、方差、标准差、变异系数。
12、试述平均数、标准差、变异系数的含义及用途?
13、标准正态分布曲线下面积有何分布规律?
所有的正态分布曲线,在υ左右的相同倍数的标准差范围内的面积相同。并且,在υ±σ范围内的面积约为68.3%;在υ±1.96σ范围内的面积约为95%;在υ±2.58σ范围内面积约为99%。
14、同一资料的标准差是否一定小于均数?
均数和标准差是两类不同性质的统计指标.标准差用于描述数据的变异程度,变异程度大,则该值大,变异程度小,则该值小.标准差可大于均数,也可小于均数。
15、标准差与标准误有何区别和联系?
•区别:1.含义不同:⑴sx)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。⑵标准误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。2.与n的关系不同: n增大时,⑴sσ(恒定)。⑵标准误减少并趋于0(不存在抽样误差)。3.用途不同: ⑴s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等 ⑵ :参数估计和假设检验。•联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
16、简述Ⅰ型错误和Ⅱ型错误的区别和联系。
·区别:Ⅰ型错误(弃真):拒绝实际成立的H0,型错误的概率记为α。(1-a)即置信度:重复抽样时,样本区间包含总体参数(μ)的百分数。当p≤α而拒绝H0时,只能犯Ⅰ型错误,不可能犯Ⅱ型错误。
Ⅱ型错误(存伪):不拒绝实际不成立的H0,Ⅱ型错误的概率记为β。(1-β)即把握度(或检验效能:两总体确有差别,被检出有差别的能力。当p≥α而拒绝H0时,只能犯Ⅱ型错误,不可能犯Ⅰ型错误。
·联系:对同一资料,α与β反方向变化,若要同时减小α与β,唯一的办法是增加样本含量。
17、可信区间与参考值范围的不同点。
应注意:可信区间与参考值范围的意义、计算公式和用途均不同。1.从意义和用途来看95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。2.从计算公式看:若指标服从正态分布,95%参考值范围的公式是:±1.96s。总体均数95%可信区间的公式是:
。前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。
18、在统计推断中,如何区别单侧检验和双侧检验?
如果将拒绝性概率平分于理论抽样分布的两侧,称为双侧检验。例如选定显著性水平α= 0.05,双侧检验就是将α概率所规定的拒绝区域平分为两部分而置于概率分布的两边,每边占有 =0.025。双侧检验只强调差异是否显著而不强调方向性。如果将拒绝性概率置于理论抽样分布的一侧(左侧或右侧),称为单侧检验(右侧检验或左侧检验)。单侧检验强调差异的方向性。在具体的假设检验中,选择双侧检验或单侧检验可分为以下三种情况: 第一种:H0:μ=μ0 :μ≠μ0双侧 第二种:H0:μ≥μ0 :μ<μ0单侧(左侧)第三种:H0:μ≤μ0 :μ>μ0单侧(右侧)
19、t检验、z检验的公式有那些类型,在应用上有何异同?
t检验:当样本例数n较小时,要求样本取自正态总体。t检验的类型:单样本t检验,独立t检验,配对t检验z检验:样本例数较大,或n虽小而总体标准差已知。
20、假设检验和总体均数区间估计有何联系?
假设检验:是对总体做出某种假定,然后根据样本信息推断总体是否成立的一类统计学方法总称。假设检验有三个基本步骤:①建立假设和确定检验水准;②选择检验方法和计算检验统计量;③确定P值和做出统计推断结论。总体均数的估计:
1、点估计:样本统计量直接作为总体指标的估计值。它未考虑抽样误差的大小。
2、区间估计:按预先给定的概率(1-α)确定的包含未知总体参数的可能范围。
21、方差分析的基本思想是什么?
方差分析(analysis of variance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sum of squares of deviations from mean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数有无影响。
22、t检验和F检验的使用条件和应用范围有何异同?
t检验适用于两个样本均数的比较,F检验适用于多个样本的比较。t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。方差分析的应用条件(1)各样本是相互独立的随机样本,且来自正态分布总体。(2)各样本的总体方差相等,即方差齐性。
23率的标准化的意义及基本思想。
当比较的两组资料内部各小组率明显不同,且各小组观测例数的构成比也明显不同时,直接比较两个合计率是不合理的。因为期内部构成比不同,往往影响合计率的大小,需要统一的内部构成进行调整后计算标准化率,使其具有可比性,这种方法称为率的标准化。率的标准化的基本思想:要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。
24常用相对数指标有哪些?它们在计算和意义上有何不同?
率(强度相对数,频率相对数)、构成比、相对比应用相对数时应注意的问题:⑴ 计算相对数的分母一般不宜过小。⑵ 分析时不能以构成比代替率。⑶ 不能用构成比的动态分析代替率的动态分析。⑷ 对观察单位数不等的几个率,不能直接相加求其总率。⑸ 在比较相对数时应注意可比性。⑹ 对样本率(或构成比)的比较应随机抽样,并做假设检验。
25卡方检验的使用范围和各个公式的适用条件是什么?
卡方检验用于:推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。此外,也用于频数分布的拟合优度检验。
对不同的设计类型的资料,检验的应用条件不同:(1)完全随机设计两样本率的比较1)当n>40,且T≥5时,用非连续性校正值;若所得P≈α,则改用四格表的确切概率法。2)当n≥40,且有1≤T<5时,用连续性校正值。3)n<40,或有T<1时,不能用检验,应当用四格表的确切概率法。(2)配对设计四格表1)当b+c≥40,2)当b+c<40,需作连续性校正,(3)行列表资料1)不宜有1/5以上格子的理论频数小于5,或有1个格子的理论频数小于1;2)单向有序行列表,在比较各处理组的效应有无差别时,应该用秩和检验或Ridit检验;3)多个样本率(或构成比)比较的检验时,结论为拒绝无效假设时,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。若想进一步了解哪两者的差别有统计学意义,可用分割法。26率的标准误的意义和用途。
意义:由于抽样的原因所造成的样本率与总体率的不一致就是率的抽样误差。率的抽样误差的大小是用率的标准误来表示。用途:①表示抽样误差的大小,说明样本率的代表性、可靠性。②对总体率的可信区间进行估计
27、非参数统计方法的概念及适用范围。
概念:样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法,或称为不拘分布的统计分析方法,又称为无分布型式假定的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。适用范围:(1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
28、非参数检验的优缺点。优点:①非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。②多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。③大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。④大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。⑤当推论多达3个以上时,非参数统计方法尤具优越性。缺点:①由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。②对于大样本,如不采用适当的近似,计算可能变得十分复杂。注意: 凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。当资料不具备参数检验的条件时,非参数检验是一种有效的分析方法。
29、相关与回归的联系和区别。区别:
意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。联系:
2r与b值可相互换算;r与b正负号一致;r与b的假设检验等价;回归可解释相关。相关系数的平方r(又称决定系数)是回
归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
30、直线相关、秩相关的区别与联系。
区别:(1)资料要求不同:直线相关要求x、y是来自双变量正态总体的随机变量;秩相关适用于不服从双变量正态分布或总体分布类型未知以及用等级表示的原始数据。(2)相关意义不同:直线相关表示两变量的直线相关关系存在,秩相关表示两变量的相关关系。联系:相关系数的取值范围相同;秩相关将原始数据进行秩变换,以秩次计算直线相关系数。
31、统计表及统计图的制表原则和要求。
统计表:(1)统计表的制表原则1)应重点突出,即一张表一般只包括一个中心内容,内容较多时可以用多个表格表达不同指标和内容。2)统计表要层次清楚,即标目的安排及分组符合逻辑,便于分析比较。主谓分明,通常主语放在表的左边,作为横标目;谓语放在右边,作为纵标目。由左向右读,构成完整的一句话。但若统计表的主语项目少而谓语项目多或主语项目多而谓语只有一项,亦可将纵标目作主语、横标目作谓语,阅读时从上至下。3)统计表应简单明了,一切文字、数字和线条都应尽量从简。
(2)制表要求:统计表通常由标题、标目、线条、数字4部分组成。表中数字区不插入文字,也不列备注项。必须说明者标“*”号等,在表下方说明。1)标题:应高度概括表的主要内容,一般包括研究的时间、地点和研究内容,左侧加表号,置于表的上方。2)标目:有横标目和纵标目,分别说明表格每行和每列数字的意义。横标目位于表头的左侧,代表研究的对象;纵标目位于表头右侧,表达研究对象的指标。注意标明指标的单位。3)线条:力求简洁,多采用三条线,即顶线、底线、纵标目下横线。部分表格可再用短横线将“合计”分隔开,或用短横线将两重纵标目分割开。其它竖线和斜线一概省去。4)数字:用阿拉伯数字表示。同一指标小数点位数一致,位次对齐。表内不留空项,无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”。统计图:①根据资料性质和分析目的正确选用适当的统计图。②除圆图外,一般用直角坐标系的第一象限的位置表示图域(制图空间),或者用长方形的框架表示。③
绘制图形应注意准确、美观,给人以清晰的印象。
32、常见的统计图有哪几种?它们的使用条件各是什么?
常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图、统计地图、箱式图等。·直条图:适用于比较、分析独立的或离散变量的多个组或多个类别的统计指标。指标既可以是绝对数,也可以是相对数。·直方图:主要应用于频数分布资料,描述连续变量的频数分布。百分比条图和圆图:表示事物内部各构成部分所占的比重,适合描述分类变量的各类别所占的构成比。其中,百分比条图特别适合作多个构成比的比较。·线图:适合于描述某统计量随另一连续性数值变量的变化而变化的趋势,常用于描述统计量随时间变化而变化的趋势。普通线图描述的是绝对变化趋势,半对数线图描述的是相对变化趋势,特别适宜作不同指标或相同指标不同组别的变化速度的比较。·散点图:以直角坐标上点的密集程度和趋势来表示两个变量间的相关关系。·统计地图:以不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。·箱式图:通过使用5个统计量(数据分布的中心位置、分布、偏度、变异范围和异常值)来反映原始数据的分布特征。特别适合多组数据分布的比较。
33普通线图和半对数线图的主要区别是什么?
从形式上看,二者的不同点在于纵坐标的尺度不同,普通线图的纵坐标为算术尺度,而半对数线图的纵坐标为对数尺度。从用途上看,普通线图描述的是统计量的绝对变化趋势,半对数线图描述的是相对变化趋势,特别适宜作不同指标或相同指标不同组别的变化速度的比较。
34四种基本抽样方法的概念、优缺点和应用条件是什么?
(1)单纯随机抽样:是在总体中以完全随机的方法抽取一部分观察单位组成样本,其整个抽样过程,都体现了随机化的原则。单纯随机抽样的优点:简单直观,是最基本的概率抽样方法,也是其他概率抽样方法的基础。单纯随机抽样的缺点:当总体例数较多时,编号麻烦,实际工作中难以实施;样本分散,组织困难。单纯随机抽样方法多用于总体例数较少的情况。(2)系统抽样:是将总体的观察单位,按一定顺序号平均分成n个部分,每一部分抽取第k号观察单位组成样本,这里的k是随机确定的,其体现了系统抽样中的随机性。系统抽样的优点是:1)易于理解,简便易行;
2)容易得到一个按比例分配的样本;3)一般情况下样本的观察单位在总体中分布均匀,其抽样误差小于单纯随机抽样。系统抽样的缺点是如果总体中观察单位按顺序有周期趋势或单调递增(减)趋势时,采用系统抽样可能产生明显的系统误差。系统抽样方法多用于观察单位具有现成且与试验无关的自然编号,同时观察单位在总体中分布均匀。(3)整群抽样:是先将总体按照某种与主要研究指标无关的特征划分为K个“群”,每个群包含若干观察单位,然后再随机抽取k个“群”,由抽取的各个群的全部观察单位组成样本。其随机性主要体现在“群”的抽取过程。整群抽样的优点是便于组织调查、易于质量控制和节省调查成本。整群抽样的缺点是当样本含量一定时,因为样本观察单位并非广泛散布于总体中,整群抽样的抽样误差一般大于单纯随机抽样。整群抽样较为常用,尤其当“群”间的个体变异较小时。
(4)分层抽样:是先按对主要研究指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。其随机性体现在层内的抽样过程。分层抽样的优点是:1)由于分层后增加了层内的同质性,观察指标变异减小,各层的抽样误差减小。2)分层抽样便于对不同层采用不同的抽样方法。3)分层抽样便于对各层独立进行分析。分层抽样的缺点是:层间变异较大,抽样误差较小;如果分层特征选择不当,层内变异较大,层间变异较小,抽样误差仍然较大,分层抽样就失去了意义。一般情况下,当样本含量一定,几种方法抽样误差大小的排序为:分层抽样≤系统抽样≤单纯随机抽样≤整群抽样。
35何谓调查研究和实验研究?各自的特点是什么?
调查研究:是指研究者通过客观地观察、描述调查对象来搜集资料,未加任何的干预措施。实验研究:是指研究者根据研究假设主动地对研究对象加以干预措施,并观察总结其结果,回答研究假设所提出的问题。
36何谓实验效应,对实验效应指标的要求是什么?
实验效应:指处理作用于实验对象的反应,一般是通过某些观察指标,定量或定性地反映实验效应。选择观察指标的基本原则: 指标的选择必须与研究目的密切关联客观性尽可能选择客观指标,避免一些笼统的、不确切的指标。准确性选用的指标应尽量精确。灵敏性和特异性 实验效应指标应当同时兼顾其灵敏性和特异性,尽量使灵敏性和特异性都高。
37实验研究中为什么要设立对照,常见的对照有几种,各自有何特点?
设立对照组的目的是衬托处理因素的效应。对照原则:所设立的对照组必须与实验组达到均衡可比。除干预措施外,组间其他影响结果的非处理因素等尽可能相同。对所研究疾病的易感度及发病机会相等。检测和观察方法及诊断标准必须一致。自身对照对照与实验在同一受试者身上进行,如用药前后作为对比。
空白对照对照组不施加任何处理因素。安慰剂对照主要目的是为了平衡对照组病人心理因素的影响。实验对照(阳性对照)对照组不施加处理因素,但施加某种实验因素。标准对照不设立专门的对照组,而是用现有标准值或正常值做对照。历史对照
38实验设计为什么要遵循重复原则,影响重复性的因素有哪些?
重复原则包含重现性和观察单位数量两方面的含义。可靠的实验结果应能在相同的条件下重现;可靠的实验结论也不能凭一次实验或3~5例结果获得,一定要有足够量的观察单位数。
第五篇:【临床】医学统计学名词解释+问答题
医学统计学
1、应用相对数时应注意的事项
①计算相对数时分母不能太小;
②分析时不能以构成比代替率;
③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均;④对比时应注意资料的可比性:两个率要在相同的条件下进行,即要求研究方法相同、研究对象同质、观察时间相等以及地区、民族、年龄、性别等客观条件一致,其他影响因素在各组的内部构成应相近;⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。
2、正态分布的特点及其应用
性质:①两头低中间高,略呈钟形;
②只有一个高峰,在X=μ,总体中位数亦为μ;
③以均数为中心,左右对称;
④μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动;
σ为变异度参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高;⑤对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u服从于均数为0,方差为1的正态分布,即标准正态分布。
应用:①概括估计变量值的频数分布;
②制定参考值范围;
③质量控制;
④是许多统计方法的理论基础。
3、确定参考值范围的一般原则和步骤、方法
一般原则和步骤:①抽取足够例数的正常人样本作为观察对象;
②对选定的正常人进行准确而统一的测定,以控制系统误差;
③判断是否需要分组测定;
④决定取单侧范围值还是双侧范围值;
⑤选定适当的百分范围;
⑥选用适当的计算方法来确定或估计界值。
方法:①正态分布法:②百分位数法(偏态分布)
4、总体均数的可信区间与参考值范围的区别
概念:可信区间是按预先给定的概率来确定的未知参数μ的可能范围。
参考值范围是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。
计算公式:可信区间①
②
③
参考值范围①正态分布
②偏态分布
用途:可信区间用于总体均数的区间估计
参考值范围用于表示绝大多数观察对象某项指标的分布范围
5、标准差与标准误的区别与联系
区别:
含义:标准差反映观察值在个体中的变异大小,标准差越大,变量值越分散;
标准误是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计量与总体参数的差异程度,即抽样误差的大小。
计算方法:标准差:总体标准差:样本标准差:
标准误:均数的标准误:率的标准误:
用途:标准差①用于对称分布,特别是正态分布资料,表示观察值分布的离散程度
②结合均数,描述正态分布的特征、估计参考值范围
③结合样本统计量,计算均数标准误
④计算变异系数
⑤反映均数的代表性
标准误①衡量样本均数的可靠性
②估计总体均数的可信区间
③用于均数的假设检验
与样本例数的关系:随着样本量的增加,样本标准差稳定于总体标准差;
随着样本量的增加,样本标准误减少并趋于0。
联系:二者均为变异度指标,样本均数的标准差即为标准误,标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。
6、假设检验的步骤
①建立假设与确定检验水准(α)(反证法思想)
H0:μ1=μ2 无效假设
H1:μ1≠μ2 备择假设
检验水准:α=0.05(双侧或单侧)
②选定方法和计算检验统计量:
根据资料的性质(变量类型、设计类型、资料组数、样本含量等)和分析目的选择检验统计量。所有检验统计量均在无效假设成立的前提下,可以证明其分布。
③确定P值,作出判断(利用小概率原理)
P值是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。P≤α(0.05),拒绝H0,接受H1,认为差别有统计学意义,可以认为......不同或不等;
P >α(0.05),接受H0,拒绝H1,认为差别无统计学意义,还不能认为......不同或不等。
④结合专业知识下结论。
7、假设检验时应注意的问题
①样本具有代表性且可比;
②正确选用假设检验方法;
③差别的统计学意义不等于实际意义;
④判断结论时不能绝对化;
⑤单侧检验与双侧检验的选择;
⑥报告结果应注明样本含量、统计量值、P值,单侧检验也应注明;
95%CI既能说明差别的大小,也具有检验的作用,建议使用。
8、方差分析的基本思想、基本条件
基本思想:
①首先将总变异分解为组间变异和误差(组内)变异,然后比较两者的均方,即计算F值。
②若F值大于某个临界值,表示处理组间的效应不同;若F值接近甚至小于某个临界值,表示处理组间效应相同(差异仅仅由随机原因所致)。
③对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。④不同之处在于变异分解的项目因设计不同而异。
基本条件:
①资料无偏性,各样本是相互独立的随机样本(独立性);
②各样本来自正态分布总体(正态性);
③各样本组的总体方差相等(方差齐性)。
9、R×C表χ2检验的应用注意事项
1.采用专用公式计算χ2值,无须计算理论频数,但也必须求出最小理论频数。
2.对R×C表,若T<5的个数超过所有理论频数个数的1/5或有T<1的格子出现,则易犯第一类错误。此时应:①增大样本含量
②根据专业知识将相邻的行或列进行合理合并,一般仅对有序分类合并
③精确概率法
④似然比χ2检验
⑤删去T过小的行或列,但会丢失相应信息
3.多组样本率或构成比比较时,若效应有强弱的等级时,χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。
4.当结果变量为无序分类时,可采用χ2检验;
当结果变量为有序分类时,可考虑趋势检验或等级相关分析。
10、简述直线相关与回归的区别与联系
区别:
资料:相关分析要求X、Y服从双变量正态分布
回归分析要求应变量Y服从正态分布,x无特定要求
应用:相关分析用于说明两变量间的相关关系,描述两变量X、Y之间呈线性关系的密切程度和方向回归分析用于说明两变量间的依存关系,可以用一个变量的数值推算另一个变量的数值 联系:
正负符号:对同一资料中,r与b的符号相同
假设检验:对同一资料中,r与b的假设检验是等价的,二者的t值相等,tb=tr
r与b可相互转换回归可解释相关:相关系数r的平方称决定系数,表示Y的变异中可由X解释的部分占总变异的比例
11、应用直线相关与回归的注意事项
①作相关与回归分析要有实际意义。
②对相关关系的作用要正确理解。
③作相关与回归分析前必须先作散点图。
④积差法计算相关系数r适用于正态资料;
资料明显偏态或原始资料只能用等级划分或难以判定资料属何种分布时,才宜按等级相关处理。⑤相关、回归若无统计学意义,不等于无任何关系。
⑥回归方程的适用范围仅适用于自变量X的实测范围内。
12、相关系数的意义、应用直线相关的注意事项
相关系数是用以说明在两个变量之间存在线性相关关系以及相关关系的密切程度与方向的统计指标。样本相关系数用r表示,总体相关系数用ρ表示。相关系数没有单位,其值为-1≦r≦1。
r值为正表示正相关,r值为负表示负相关,r值为0表示X与Y无线性关系。
r的绝对值越大表示相关越密切。
①线性相关表示两变量之间的关系是双向的分析变量之间的关系;
须首先绘制散点图,散点图呈直线趋势时再做分析;
②r表示服从双变量正态分布的两变量间的相关关系,描述两变量之间呈线性关系的密切程度和方向;r=0只能说明X与Y之间无线性关系,并不表示X与Y之间无任何相关;
③计算出相关系数是样本相关系数,是总体相关系数的估计值,因此判断总体相关时需做假设检验;
④相关关系不一定是因果关系。
**
13、频数表的编制步骤
①找出观察值中的最大值和最小值,并求出极差
②按极差大小决定组段数、组段和组距
③列出组段
④划记计数
**
14、统计图的制图通则
①据资料的性质和分析目的选择合适的图形
②确切的标题与编号(在图的下方正中央位置)
③纵、横轴之比为5:7,必要时注明度量单位
④必要时辅以图例
**
15、t 分布有如下性质:
①单峰分布,曲线在t=0 处最高,并以t=0为中心左右对称
②与正态分布相比,曲线最高处较矮,两尾部翘得高
③随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。
**
16、非参数统计的优缺点
优点:①适用范围广,是对有序分类资料最有效的统计方法
②对不满足参数统计的资料,非参数统计的效率高
③搜集资料方便
缺点:对适用参数统计的资料,应用非参数统计的效率低,即犯第II类错误的概率比参数统计大
1、医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
2、变量:是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示。
3、数值变量/定量变量/计量资料/定量资料:是以定量的方式来表示观察单位某项观察指标的大小,所得的资料称之为~,有度量单位。
4、分类变量/定性变量/计数资料/定性资料:是以定性的方式来表示观察单位某项观察指标,所得的资料称之为~,无固有度量单位。
5、有序分类/等级资料:是以等级的方式来表示观察单位某项观察指标,所得的资料称之为~,为半定量的观察结果,有大小顺序。
6、同质:是指事物的性质、影响条件或背景相同或相近。
7、变异:是指同质的个体之间的差异。
8、总体:是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。
9、样本:是从总体中随机抽取的一部分观察单位所组成的集合。
10、随机变量:是指取值不能事先确定的观察结果。
11、统计量:是样本的统计指标,采用拉丁字母表示,是参数附近波动的随机变量。
12、参数:是总体的统计指标,采用小写的希腊字母,为固定的常数。
13、随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体中每个个体均有相同的机会被抽到。
14、抽样误差:是由于个体差异导致在抽样研究中产生的样本统计量与相应的总体参数之间的差异以及统计量间的差异。
15、确定性现象:在一定条件下,一定会发生或一定不会发生的现象。
16、随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。
17、频率:样本的实际发生率称为~,0≦f≦1。
18、概率:随机事件发生的可能性大小,0≦P≦1。
19、小概率事件:概率小于等于0.05或0.01的事件称为小概率事件,习惯上以0.05为标准,统计学上认为小概率事件在一次实验中是不大可能发生的。
20、平均数:是反应一组观察值的集中趋势、中心位置或平均水平的指标体系,常用的指标有均数、几何均数、中位数。
21、中位数:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,适用于任何分布、开口资料、偏态分布。
22、百分位数:是指一种位置指标,用Px表示,一个百分位数将按大小顺序排列的变量值分为100份,旦论上有x%的变量值比它小,有(100-x)%的变量值比它大,对应x%位次的数值。
23、标准差:方差是指样本观察值的离均差平方和的均值,方差的正平方根为标准差,表示一组数据的平均偏离程度。
24、变异系数:是指标准差与均数之比,常用百分数表示,没有单位,主要用于度量衡单位不同或均数相差悬殊的几组资料间的比较。
25、相对比:是指A、B两个有联系的指标之比,用于说明A为B的若干倍或百分之几,是对比的最简单形式。
26、构成比:是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布。
27、率:是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,用以说明某种现象发生的频率大小或强度。
28、率的标准化/标化率:即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法,调整后的率为标准化率/标化率/调整率。
29、统计表:是以表格的形式列出统计分析的事物及其指标,它可避免长篇文字叙述,并具体列出数据。
30、统计图:是用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资料,它可直观醒目地反映出事物间的数量关系。
31、正态分布:靠近均数分布的频数最多,两边频数逐渐减少并且近似对称,这种两头低中间高、略呈钟形、左右近似对称的连续性分布称为~。
32、参考值范围:是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。
33、标准误:是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计量与总体参数的差异程度,即抽样误差的大小。
34、均数标准误:是指样本均数的标准差,反映来自同一总体的样本均数的离散程度以及样本均数与总体均数的差异程度,即抽样误差的大小。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。
35、区间估计:以一定概率估计总体参数在哪个范围内的估计方法。
36、95%可信区间:是指从理论而言,在100次随机抽样所得的100个可信区间中,平均有95个可信区间包括总体均数。
37、P值:是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。
38、第一类错误ɑ:检验假设H0实际上成立的,但拒绝了H0,误判为有差别,也就是犯了假阳性错误,称为~。其发生的概率用 表示。在假设检验中作为检验水准。一般取0.05或0.01。按实验要求,重点要控制第一类错误,应采用Duncan法。
39、第二类错误β:假设检验H0实际上不成立,但却不拒绝H0,误判为无差别,也就是犯了假阴性错误,称~。其发生的概率用 表示。由于其取值取决于H1,因此在假设检验中无法确定。按实验要求,重点要求控制第二类错误,应采用LSD-t法。
40、检验效能/把握度:统计学上将1-β称为~,即当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
41、相关分析:研究变量间相互关系的密切程度、变化趋势,并用适当的统计指标显示出来的分析方法。
42、回归分析:将变量间数量上的依存关系用函数形式表示出来,用一个或多个变量来推测另一个变量的估计值及波动范围的分析方法。
43、相关系数:用以说明在两个变量之间存在线性相关关系以及相关关系的密切程度与方向的统计指标。
44、回归系数:即直线的斜率,在直线回归方程中用b 表示,b 的统计意义为X每增(减)一个单位时,Y平均改变b 个单位。
45、决定系数:相关系数r的平方称为~,表示Y的变异中可由X解释的部分占总变异的比例。
46、参数检验:假设样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知参数进行估计或检验。这类方法称为参数统计,所用的检验称为
47、非参数检验:不依赖总体分布的具体形式,也不对参数进行估计或检验的统计方法称为非参数统计,所用的检验方法称为~。其目的是检验所比较的分布或分布位置是否相同。