第一篇:医学统计学书籍总结
医学统计学书籍总结
第三章:总体均数的估计与假设检验 异常值监测
1.boxplot.stats()intersect()交集 2.lofactor()数值数据 T检验
要求:n<60时,要求总体方差相同且服从正太总体 正态性检验:shapiro.test()p>0.05,服从正态分布 方差齐性检验:bartlett.test()方差齐性检验 满足以上条件:
T.test(x,mu)单样本t检验 T.test(x,y)两独立样本T检验 T.test(x,y,paired=T)配对T检验
T.test(x,y=NULL,alternative=c(‘two.sided’,’less’,’greater’),mu=0,paired=F,var.equal=F)不满足以上条件时,Wilcox.test()
Kruskal.test()非配对
Friedman.test()or kruskal.test()配对
第二篇:医学统计学总结
医学统计学总结
一、两组或多组计量资料的比较1.两组资料: 1)大样本资料或服从正态分布的小样本资料(1)若方差齐性,则作成组t检验(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验 2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验 2.多组资料: 1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类资料的统计分析1.单样本资料与总体比较 1)二分类资料:(1)小样本时:用二项分布进行确切概率法检验;(2)大样本时:用U检验。2)多分类资料:用Pearson c2检验(又称拟合优度检验)。2.四格表资料 1)n>40并且所以理论数大于5,则用Pearson c2 2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验 3)n£40或存在理论数<1,则用Fisher’s 检验 3.2×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验 2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验 3)行变量和列变量均为无序分类变量(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验 4.R×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验 2)列变量为效应指标,并且为无序多分类变量,行变
量为有序多分类变量,作none zero correlation analysis的CMH c
23)列变量和行变量均为有序多分类变量,可以作Spearman相关分析 4)列变量和行变量均为无序多分类变量,(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
三、Poisson分布资料1.单样本资料与总体比较: 1)观察值较小时:用确切概率法进行检验。2)观察值较大时:用正态近似的U检验。2.两个样本比较:用正态近似的U检验。配对设计或随机区组设计
四、两组或多组计量资料的比较 1.两组资料: 1)大样本资料或配对差值服从正态分布的小样本资料,作配对t检验 2)小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验 2.多组资料: 1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。如果Fredman的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。
五、分类资料的统计分析1.四格表资料 1)b+c>40,则用McNemar配对c2检验或配对边际c2检验 2)b+c<40,则用二项分布确切概率法检验 2.C×C表资料: 1)配对比较:用McNemar配对c2检验或配对边际c2检验 2)一致性问题(Agreement):用Kap检验 变量之间的关联性分析
六、两个变量之间的关联性分析 1.两个变量均为连续型变量 1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析 2)大样本或两个变量不服
第三篇:医学统计学总结
1、同一资料的标准差是否一定小于均数?
答:均数是描述定量资料集中趋势的指标,而标准差是描述定量资料离散程度的指标,二者反映的是资料分布特征的两个不同方面。
2、极差、四分位间距、标准差、变异系数的适用范围有何异同?
答:这四个指标的相同点在于均用于描述计量资料的离散程度。不同点为:极差可用于各种分布的资料,一般常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。若样本含量相差较大,则不宜用极差来比较资料的离散程度。四分位间距:适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。标准差常用于描述对称分布,特别是正态分布或近似分布资料的离散程度。变异系数适用于比较计量单位不同或均数相差悬殊的几组资料的离散程度。
3、x2检验用于什么?
答:x检验用于:推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。此外,也用于频数分布的拟合优度检验。
4、四格表的U检验和x2检验有何联系?
答:(1)相同点:四格表的u检验的根据是正态近似原理(n足够大,∏和1-∏均不太小)。能用四格表的u检验进行两个率比较检验的资料,都可以用x检验。四格表的双侧u检验与x检验是完全等价的,两个统计量的关系为u= x,u20.05/2= u20.05/1.u检验和卡方检验都存在连续性矫正问题(2)不同点:①正态分布可以确定单、双侧检验界值,满足正态近似条件时,可以使用四格表的单侧u检验。②满足四格表u检验的资料,计算两率之间的95%可信区间,尚可分析两率之差有无实际意义。③x2检验还可以用于配对设计四格表,但这时推断∏1,∏2是否有差别的x2公式不同。5.参数检验和非参数检验的区别何在?各有何优缺点? 答:区别:参数检验,其应用条件是已知总体的分布类型,对总体参数进行估计或检验。非参数检验,不依赖总体分布的具体形式,目的在于检验总体分布是否不同。(2)参数检验优点是符合应用条件时,检验效能较高。缺点是对资料要求严格,不能用于等级数据、一端或两端有不确切数据,此外,还要求资料的分布类型已知和总体方差齐等条件。非参数检验优点是应用范围广,计算简便,对资料的要求不高;缺点是若对符合参数检验条件的资料用非参数检验,则会降低检验效能。如需检验出同样大小的差异,非参数检验往往需要更大的样本含量。
6.对同一资料,又出自同一研究目的,用参数检验和非参数检验所得不一致时,宜以何者为准?答:两者各有使用条件,究竟取哪种结论,要根据资料是否满足该种检验方法的应用条件进行选择。在符合参数检验的条件时,可接受参数检验的结论,而资料不符合参数检验的条件时,应以非参数检验的结论为佳。如总体分布为极度偏态或其他非正态分布,或者两总体方差不齐时,此时宜采用秩和检验的结果。7.非参数检验适用于哪些情况?
答:①等级资料②偏态资料。当观察资料成偏态或极度偏态而又未经任何变量变换,或虽经变量变换但仍未达到正态或近似正态分布时③总体分布类型未知的资料④要比较的各组资料方差不齐⑤一端或两端有不确定数据。
8.两样本比较的秩和检验,当n1>n2>10时采用u检验,这时检验是属于参数检验还是非参数检验?为什么?答:两组比较的秩和检验,当n很大时,可利用秩和T的分布随n增大渐进正态分布的性质,进行u检验,此时利用的并非原始数据,而是经秩变换后的数据,故仍属非参数检验。9.直线回归分析中应注意哪些问题?
答:做回归分析一定要有专业意义,不能将毫无联系的两个变量作直线回归分析;回归分析之前首先应绘制散点图,考查x与y之间有无直线趋势以及是否存在异常点;考虑是否满足建立线性回归模型的基本假定;直线回归方程的应用与图示一般以自变量x的取值范围为限;两变量的直线关系不一定是因果关系,也可能是伴随关系。
10.简述直线回归与直线相关的区别与联系。
答:区别:①资料要求不同:直线回归中因变量y是来自正态总体的随机变量,而r既可以是来自正态总体中的随机变量,也可以是严密控制、精确测量的变量;相关分析则要求x,y是来自双变量正态分布总体的随机变量,②分析目的不同:直线回归用于说明两变量间依存变化的数量关系;直线相关用于说明变量间的直线相关关系。联系:①方向一致:对一组数据计算,r与b,它们的正负号是一致的。②假设检验等价:对同一样本r和b的假设检验得到的t值相等。③用回归解释相关:由r2=SS回/SS总可知,若回归平方和越接近总平方和,则r越接近于1。
11.简述直线相关、秩相关的区别与联系。
答:区别:①资料要求不同:直线相关要求x、y是来自双变量正态总体的随机变量;秩相关适用于不服从双变量正态分布或总体分布类型未知以及用等级表示的原始数据。②相关意义不同:直线相关表示两变量的直线相关关系存在,秩相关表示两变量的相关关系。联系:相关系数的取值范围相同;秩相关是将原始数据进行秩变换,以秩次计算直线相关系数。
12.均数的可信区间和参考值范围有何不同?
222
22答:均数的可信区间:按一定的概率100(1-α)%(即可信度)估计总体均数所在的范围,得到的范围亦称可信区间。参考值范围:医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在着个体差异,生物医学数据并非常数,而是一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。
13秩和检验的优缺点是什么? 答:①不受总体分布限制,适用面广②适用于等级资料及两端无确定值的资料③易于理解,易于计算。缺点:是对分布类型的广泛适应性,使其很难充分利用资料提供的信息,有时会导致检验效能降低。14在t检验和u检验时,何种情况下采用单侧检验?
答:单侧检验的备择假设带有方向性,如:m>m0,实际中只可能出现一种情况。双侧检验的备择假设中包含不等号(如:m≠m0),实际上包括两种情况:m>m0或m<m0,无方向性。15.均数、几何均数和中位数的适用范围是什么?
答:均数适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。(由于均数易受到极端值的影响,故不适用于描述偏态分布资料的集中趋势,只是需采用几何均数或中位数。)几何均数对于原始观察值呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的资料,易用几何均数描述其集中趋势。常用于等比级资料或对数正态分布资料。中位数可用于各种分布的资料。对于正态分布资料,中位数等于均数;对于对数正态分布资料,中位数等于几何均数。由于中位数不受极端值的影响,主要用于偏态分布资料,两端无确切值或分布不明确的资料。16.标准差和标准误有何区别与联系,他们的用途是什么?
答:标准差:是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。总体标准差用δ表示,样本标准差用s表示。标准误:样本均数的标准差称为标准误。样本均数⊙的总体均数为H,各⊙围绕H的离散程度,可以用样本均数的标准差来描述。用途:标准差用途:①表示变量分布的离散程度②结合均数计算变异系数③结合样本含量计算标准误④结合均数描述分布特征。标准误用途:表示每个样本均数间的变异程度,描述样本均数的抽样误差,即样本均数与总体均数的接近程度,也可称为样本均数的标准差。17.统计图制作的一般原则?
答:首先,根据资料性质和分析目的正确选用适当的统计图。其次,除圆图外,一般用直角坐标系的第一象限的位置表示。最后,绘制图形应注意准确、美观,给人以清晰的印象。18.各种统计图适合于何种资料? 答:描述某连续变量的频数分布宜选用直方图;分析、比较独立的或不连续的多个组或多个类别的统计量宜选用条图,分析某指标随时间或其它连续变量变化而变化的趋势宜选用线图,描述或比较不同事物内部构成时用圆图或百分比条图等。
19.为什么要做r和b的假设检验?
答:b:即使从总体回归系数β等于零的总体中作随机抽样,由于抽样误差的存在,其样本回归系数b也不一定全为零。因此,求得一个样本回归系数时,首先,需考虑线性方程是否成立?并进行回归系数β是否为零的检验。以推断自变量x与应变量y见是否有直线关系存在。
r:假定从总体相关系数þ=0的总体中随机抽样,由于存在抽样误差,所得样本相关系数r不一定全为零。故此,求得一个样本相关系数r值后,仍需进行总体相关系数þ是否为零的假设检验。
20.服从二项分布的条件是什么?
答:凡具有贝努力试验序列3个特点的变量,一般可认为服从二项分布①每次试验的结果只能是两种互斥的结果中的一种(A或者非A)②各次试验的结果互不影响,即各次试验独立③在相同试验条件下,各次试验中出现某一结果A具有相同的概率∏(非A的概率1-∏)。
21.相关系数和回归系数有什么区别和联系?
答:直线的斜率称为回归系数,直线相关系数也称积距相关系数,说明具有直线关系的两变量间的相关方向与密切程度。它们的联系——方向一致即r与b正负一致,假设检验等价。区别:资料要求不同,回归系数方程要求服从正态分布,x精确测量严格控制Ⅰ型回归,相关方程要求x,y双重复正态Ⅱ型回归。22多个样本均数间的比较为什么不能用t检验?
答:多个样本均数的两两比较又称多重比较,其目的是推断究竟哪些总体均数之间存在差别,由于涉及的对比组数大于2,若仍用前述的t检验对两个对比组做比较,会使犯第Ⅰ类错误的概率增大,即可能吧本来无差别的两个总体均数判为有差别,因此,多重比较不宜用t检验分别作两两比较。
23对同一资料,有出自同一研究目的,用参数检验和非参数检验所得结果不一致时,宜以何者为准?答:参数检验要求其总体分布为正态分布,总体方差齐性,非参数检验常用解决那些总体分布未知的统计问题,对于同一资料,又出自同一研究目的,采用参数研究还是非参数检验取决于资料的类型。24.为什么要进行抽样研究?抽样时为什么会产生抽样误差?
答:计量资料的总体中所含的样本数量巨大,要获取资料的总体均数、标准差等数据十分困难,因此医学科学研究中通常采用的抽样研究方法,是指从总体中随机抽取一个样本,用样本信息推断总体特征,这种分析方法称为统计推断。但通常情况下,样本均数(x拔)不可能与总体均数μ正好相等,这种由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异称为抽样误差。25.相关系数的意义?
答:相关系数r没有单位,取值范围为-1≤r≤1。两变量相关的方向用r的正负号表示,即r>0表示正相关;r<0表示负相关。相关系数r的大小表示密切程度,r绝对值越接近1,表示两变量间相关关系密切程度越高。∣r∣=1表示完全相关,∣r∣=0表示无直线相关。26.方差分析的应用条件?
答:①各样本是相互独立的随机样本②各样本来自正态分布③各样本方差相等,即方差齐。
27.χ2检验要注意的问题(注意事项)?
答:① 计算χ2 值时必须用绝对数。而不能用相对数,因为χ2 值的大小与频数大小有关。②χ2 检验要求理论频数不宜太小,一般认为不宜有1/5以上格子理论频数小于5,或一个格子的理论频数小于1。对理论频数太小有三种处理方法:A 增大样本例数 B 删除理论数太小的行或列 C 合并③当多个样本率(或构成比)比较的χ2 检验结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说它们彼此间都有差别。或某两者间有差别。
28.非参数检验适用哪些情况?
答:①等级顺序资料。②偏态资料。当观察资料成偏态或极度偏态分布而又未经变量变换未达到正态或近似正态分布时,宜用非参数检验。③未知分布类型资料④要比较的各组资料变异度相差较大,方差不齐,且不能变换达到齐性。⑤初步分析。有些医学资料由于统计工作量过大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析⑥对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
29.为什么秩和检验的编秩在不同对比组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”?
答:因为在不同对比组,不取平均秩次会加大或减小某一组的秩和;而在同一组内,出现相同数据不编平均秩次,该组秩和不受影响。
30.怎样正确使用单侧检验和双侧检验?
答:根据专业知识推断两个总体是否有差别时,是甲高于乙,还是以高于甲,当两种可能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或研究者仅关心其中一种可能时,可选用单侧。一般来讲,双侧检验较稳妥故较多用,在预实验有探索性质时,对结果的考虑以思路较宽为好,也用双侧检验。单侧检验,应以专业知识为依据,他充分利用了另一侧的不可能性,故检出效率高,但应慎用。
31.回归系数:直线的斜率b,也称回归系数。统计学意义是自变量x改变一个单位时,应变量y平均变化b个单位。32.相关系数:也称pearson积距相关系数,说明具有直线相关的两变量间相关方向与密切程度。33.直线回归分析中应注意的问题?
答:①做直线回归一定要有实际意义②回归分析之前首先应绘制散点图。③考虑建立线性模型的基本假定④取值范围,避免外延。⑤两变量间有直线关系不一定是因果关系。34.相关分析应用中应注意的问题?
答:①资料要求x、y都应来自双变量正态总体的随机变量。②进行相关分析前,应先绘制散点图,有线性趋势时,才可进行相关分析。③满足应用条件的同一份双变量资料,回归系数b与相关系数r的正负号一致,假设检验等价。④相关分析时,小样本资料经t检验只能推断两变量间有无直线关系,而不能推断其相关的密切程度。要推断两样本间相关的程度,样本含量必须足够大,当r有统计学意义时,但r2较小时,下结论要慎重。35.方差分析的应用条件? 答:①各样本是相互独立的随机样本②各样本来自正态分布③各样本方差相等,即方差齐。
36.二项分布:贝努力试验序列中结果A出现次数的概率分布就是~。
37.率的标准化法:为解决因内部构成不同而导致分组率比较的结果与和纪律比较结果的矛盾,选定一个共同的标准人口或标准人口构成,分别计算两组的标准化率,这种方法称~。
38.抽样误差:由个体变异产生的,随机抽样引起的样本统计量与总体参考数间的差异称~
第四篇:医学统计学知识点总结
知识点
1.统计学是应用概率论和数理统计的基本原理和方法,研究数据的搜集、整理、分析、表达和解释的一门学科。
2.医学统计学是应用统计学的基本原理和方法,研究医学及其有关领域数据信息的搜集、整理、分析、表达和解释的一门学科。
3.统计软件包是对资料进行各种统计处理分析的一系列程序的组合。4.统计工作的基本步骤:研究设计、搜集资料、整理资料和分析资料。
5.科研结果的好坏取决于研究设计的好坏,研究设计是统计工作中的基础和关键,决定着整个统计工作的成败。
6.统计分析包括统计描述和统计推断。统计描述是对已知的样本(或总体)的分布情况或特征值进行分析表述;统计推断是根据已知的样本信息来推断未知的总体。7.医学原始资料的类型有:计量资料、计数资料、等级资料。
8.计量资料是用定量的方法对每一个观察单位的某项指标进行测定所得的资料。
9.计数资料是把观察单位按某种属性(性质)或类别进行分组,清点各组观察单位数所得资料。
10.等级资料是把观察单位按属性程度或等级顺序分组,清点各组观察单位数所得资料。各属性之间有程度的差别。等级资料的等级顺序不能任意颠倒。11.同质:是指所研究的观察对象具有某些相同的性质或特征。
12.变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。13.总体是根据研究目的确定的同质研究对象的总体。样本是总体中具有代表性的一部分个体。
14.抽样研究是通过从总体中随机抽取样本,对样本信息进行分析,从而推断总体的研究方法。抽样误差是由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异,其根源在于总体中的个体存在变异性,只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
15.统计学的主要任务是进行统计推断,包括参数估计和假设检验。16.概率是某随机事件发生可能性大小(或机会大小)的数值度量。概率的取值为0≤P≤1。小概率事件是指P≤0.05的随机事件。
17.频数表和频数分布图的用途:(1)揭示计量资料的分布类型。(2)揭示计量资料分布的重要特征—集中趋势与离散趋势。(3)便于发现特大或特小的可疑值。(4)作为陈述资料的形式。例数大时,可以频率估计概率。(5)便于资料的进一步统计分析。18.均数应用于计量资料的正态分布或近似正态分布资料。19.当资料呈正态分布时,均数位于分布的中心。
20.每个观察值都加一个常数a,则均数为原均数加常数a;每个观察值都乘以一个常数b,则均数为原均数的b倍。
21.几何均数应用于对数正态分布或近似正态分布资料,也可用于呈倍数关系的等比资料。在医院中主要用于抗原(体)滴度资料。
22.计算几何均数的资料一般不能有观察值为0,也不能同时包含正负观察值。
23.中位数可用于描述任何分布类型计量资料的集中趋势,但对于正态分布或近似正态分布的资料,中位数不利于进一步的统计分析,故对正态分布或近似正态分布资料应首选均数描述其集中趋势。
24.中位数适用于描述偏态分布资料、一端或两端无确定数据的资料和分布不明资料的集中趋势。
25.极差与四分位数间距可用于描述计量资料的离散程度,但都比较粗略,而四分位数间距较极差稳定,他们用于描述偏态分布资料。
26.中位数M是一个特殊的百分位数,即第50百分位数P50,。百分位数是一种位置指标,样本的第X百分位数记为Px,它表示将全部观测值X1、X2,„,Xn由小到大依次排列后位于第X百分位置的数值。
27.方差和标准差用于描述正态分布计量资料的离散程度。
28.均数与标准差结合用于全面描述正态分布计量资料的集中趋势与离散趋势。
29.变异系数描述的是相对离散程度,无度量衡单位。用于单位不同,或虽单位相同,但均数相差较大的资料间变异程度的比较。
30.正态分布是横轴上方以均数处最高的单峰对称分布,以均数为中心,左右两侧对称。正态分布N(μ,σ²)中有两个参数:总体均数μ和总体标准差σ。μ是位置参数,σ是变异度参数。
31.正态分布曲线下的面积是1,其分布有一定的规律,x±1.64s内的面积为90%,x±1.96s内的面积为95%,x±2.58s内的面积为99%。32.常用相对数有:率、构成比、相对比。
33.率是说明某现象发生的频率或强度。某一分率的改变不影响其他分率变化。
34.构成比是表示某事物内部各组成部分所占的比重或分布。某一部分构成比的改变将影响其他构成比的变化。
35.相对比表示两个有关事物指标,用以说明一个指标是另一个指标的几倍或几分之几。两个指标可以是绝对比、相对数或平均数。
36.应用相对数注意事项:(1)计算相对数时分母应该有足够数量即例数不能太小。(2)计算合计率或平均率时,不能把n个率相加后除以n,应该绝对数相加后再计算相对数。(3)正确区分构成比与率,分析时不能以构成比代替率。(4)相对数的比较应注意其可比性。对比组之间除了被研究的因素不同以外,其他相对数造成影响的因素应可能在构成比代替率。(5)样本率或样本构成比在比较时应做假设检验。
37.常用的标准化方法有直接标准化法、间接标准化法和反推标准法,简称直接法、间接法和反推法。
38.一般选择“标准”的方法有两种:(1)选择具有代表性的,较稳定的、数量较大的人群作为“标准”;(2)互相比较资料中任选一组数据作“标准”。
39.标准化死亡比(SMR)是被标化组的实际死亡数与预期死亡数之比,若SMR>1,表示被标化组死亡率高于标准组;若SMR<1,表示被标化组死亡率低于标准组; 40.计算标准化率的步骤:⑴根据资料所具备的条件选用直接法或间接法;⑵选定标准构成;⑶选择公式计算标准化率。
41.应用标准化法的注意事项:(1)标准化法只适用于内部构成不同影响到总率比较的情况;
(2)由于选择的标准不同,算出的标准化率也不同,但比较的结论一致;(3)标准化后的标准化率,已经不再反映当时当地的实际水平,它只表示相互比较的资料间的相对水平;(4)样本标准化率也存在抽样误差,也需要进行假设检验。
42.发病率是计算一定期间内某人群中的新发病例数,而患病率是计算调查时点被调查人群中的现患病例数。
43.在一定期间内某人可能发病一次以上而成为多个病例,所以发病率可能会大于100%;;而患病率不会出现大于100%的情况。
44.发病率高的疾病称为多发病;患病率高的疾病称为常见病。患病率高,发病率也高的疾病称为常见多发病。
45.统计表一般由标题、标目、线条、数字和备注等部分组成。统计表的编制应:⑴重点突出,简单明了,一张统计表至应包括一个中心内容;⑵主谓分明,层次清楚;⑶结构完整,有自明性。
46.常用的统计图有条图、圆图、百分条图、直方图、线图、半对数线图、散点图、箱式图和统计地图等。
47.单个构成比的描述,可选用圆图或百分条图;多个构成比的描述和比较,宜选用百分条图。
48.普通线图适用于描述某项指标随某个连续型数值变量变化而变化的幅度(绝对变化趋势);半对数线图适用于描述某项指标随某个连续型数值变量变化而变化的速度(相对变化趋势)。
49.箱式图通常选用5个描述统计量来绘制,即最小值、下四分位数(P25)、中位数(M)、上四分位数(P75)、最大值;可用于描述某个连续型数值变量的分布特征,也可用于比较不同类别之间某个连续型数值变量分布特征的差异。
50.均数抽样误差是抽样产生的由于个体差异所导致的样本均数与样本均数之间、样本均数与总体均数之间的差异。
51.标准误是样本均数的标准差,是描述均数抽样误差大小的指标。增加样本含量可减小样本均数的标准误,从而降低抽样误差。
52.参数估计是指用样本指标(统计量)来推断总体指标(参数)。估计方法有点估计和区间估计,区间估计是按预先给定的概率1-α,由样本指标确定的包含总体参数的一个范围。
53.可信区间是指总体均数可能所在的范围。用于推断总体参数所在的范围。总体均数95%可信区间的意义为:总体均数在x±t0.05,νSx或x±1.96Sx范围内的可能性为95%。
54.在抽样研究中,由于有抽样误差存在,不能直接通过比较样本均数与样本均数之间、样本均数与总体均数之间的大小得出结论,要进行假设检验。55.假设检验的基本思想包括小概率思想和反证法思想。56.假设检验是先对总体作出某种假定(检验假设),然后根据样本信息来推断其是否成立的一类统计方法的总称。用于推断总体参数是否相等。
57.假设检验的基本步骤:⑴建立检验假设,确定检验水准;⑵计算检验统计量;⑶确定P值,作出统计判断。
58.单样本t检验的目的是推断样本均数所代表的总体均数与已知总体均数是否相同,它要求样本取自正态总体。
59.配对设计包括:⑴两个受试对象按某特征相同或相近配成对子,分别给予不同的处理;⑵同一受试对象给予不同处理或处理前后比较。它可以降低抽样误差,提高统计效率。60.配对t检验适用于配对设计的计量资料的比较,且要求差值服从正态分布。
61.完全随机设计可以将一批同质受试对象随机分配到各组,也可以是随机抽取几组不同的受试对象,观察其实验效应。
62.完全随机设计两样本均数比较的t检验是推断计量资料的两个总体均数之间有无差别的假设检验方法,要求样本来自正态总体,且两总体方差相等(方差齐)。
63.方差齐性检验的适用条件是两样本均来自正态分布的总体,方差齐性检验中的检验统计量F服从F分布,有两个自由度,分子的自由度(较大方差)和分母的自由度(较小方差)。F值越大,P值越小。
64.两个样本均数比较,方差不齐时刻选择:⑴近似t′检验;⑵通过一定的变量变换以达到方差齐;⑶选用非参数统计,如秩和检验等。65.Z检验适用于大样本资料的假设检验。
66.第Ⅰ类错误:检验假设H0本来是成立的,经过检验后被拒绝了,即“弃真”。其发生的的概率为α,为已知。
67.第Ⅱ类错误:检验假设H0本来是不成立的,经过检验后被接受了,即“存伪”。其发生的概率为β,属未知数。68.假设检验的注意事项:⑴要有严密的研究设计;⑵选用的假设检验方法应符合应用条件;⑶有统计学意义不等于有实际意义;⑷结论不能绝对化;⑸正确理解P值与差别有无统计意义;⑹平衡Ⅰ类错误和Ⅱ类错误。69.方差分析是一种以分析数据的变异为基础,以F值为检验统计量的计量资料的假设检验方法,主要用于推断计量资料单因素k水平(k≧3)或多因素不同水平总体均数间的差异性,其前提条件为资料服从正态分布,各组方差齐。
70.随机区组设计资料的总变异被分解为3个部分,即处理组间变异、区组间变异和误差。区组变异和误差两部分相当于单因素方差分析的组内变异。
71.两两比较的方法很多,常用q检验、LSD—t检验等;q检验适用于探索性研究,对每两个样本均数都进行检验;LSD—t检验适用于事先有明确假设的证实性研究。72.常用数据变换的方法有对数变换、平方根变换、平方根反正弦变换、倒数变换。
273.X检验是一种以Χ²分布为基础,以Χ²值为检验统计量的计数资料的假设检验方法。
274.X值反映实际频数(A)和理论频数(T)的符合程度。
275.X检验的主要用途:⑴推断两个或两个以上总体率(或构成比)之间有无差别;⑵两变量间有无相关关系;⑶检验频数分布的拟合优度。
2276.四格表X检验的注意事项:(1)当n≥40,T≥5时,用四格表x检验的基本公式或专用22公式计算X 值;(2)当n≥40,1≤T<5时,需要用校正公式计算X 值;(3)当n<40或2T 2277.行×列表资料X检验的注意事项:(1)行×列表X检验允许有1/5的基本格子的理论频数小于5大于1,但不能有理论频数小于1。⑵如果有1/5以上格子的理论频数小于5大于1,或有一个格子的理论频数小于1,可采用以下处理方法:①增加样本含量:可以增大理论频数;②将理论频数太小的行或列与性质相近的邻行或邻列中的实际频数合并;③删去理论频数太小的格子所对应的行或例。 78.依次增减四格表中某个格子(一般选用行合计与列合计均为最小的那个格子)的数据,可列出周边合计不变条件下各种组合的四格表(一般可列出最小周边合计数加1个四格表)。 79.非参数检验是一类不依赖于总体分布类型的检验,即在应用中可以不考虑被研究对象为何种分布以及分布是否已知,检验假设中没有包括总体参数的一类统计方法。80.秩和检验的适用范围:⑴未加精确测量的资料(包括等级资料);⑵偏态分布且无法转化为正态分布的资料;⑶分布不清的资料。 81.配对资料的秩和检验用于配对设计计量资料差值的比较和单一样本与总体中位数的比较。 82.直线相关是分析服从正态分布的两个随机变量x和y有无线性相关关系的一种统计分析方法。 83.相关系数是描述两个变量间线性相关关系的密切程度与方向的统计指标。相关系数的符号表示两变量的线性相关的方向。其特点为:⑴相关系数r没有单位;⑵取值范围在﹣1和1之间;⑶r为正表示正相关,r为1表示完全正相关;r值为负表示负相关,r为﹣1表示完全负相关;⑷r绝对值越接近1,表示两个变量间相关关系密切程度越高;越接近0,则相关关系越不密切。 84.相关分析的前提条件:两个随机变量;散点图呈线性相关;服从双变量正态分布。85.在有相关关系时,根据r值判断两变量相关的密切程度:⑴|r|≥0.7,两变量有高度相关关系;⑵0.7>|r|≥0.4,两变量有中度相关关系;⑶|r|<0.4,两变量有低度相关关系。 86.直线回归分析的前提条件:⑴线性:两个变量间存在线性关系;⑵独立性:任意两个观察值互相独立;⑶正态性:应变量y是服从正态分布的随机变量;⑷方差齐:给定x后,应变量y的方差相等。 87.等级相关应用范围:⑴不服从双变量正态分布或偏态分布;⑵总体分布类型未知;⑶原始数据是等级变量。 88.对同一资料,相关系数t检验与回归系数t 检验效果相同。 89.决定系数r²决定回归效果的好坏,r²越接近1,回归的效果越好。 90.直线回归方程:y=a+bx其中a为回归直线在Y轴上的截距:⑴a>0表示直线与纵轴的交点在原点的上方;⑵a<0则交点在原点的下方;⑶a=0则回归直线通过原点;b为回归系数,即直线的斜率:⑴b>0表示直线从左下方走向右上方,即 y随 x的增大而增大;⑵b<0表示直线从左上方走向右下方,即 y随 x的增大而减小;⑶b=0表示直线与 x轴平行,即x与 y无直线关系;⑷b的统计学意义是x每增(减)一个单位,y平均改变b个单位。 91.实验设计的特点:⑴研究者能人为设置处理因素;⑵受试对象接受何种处理因素或水平是由随机分配而定的。 92.医学实验设计包括处理因素或研究因素,受试对象和实验效应三个基本要素。 93.常用对照的形式为空白对照、安慰剂对照、实验对照、标准对照、自身对照、相互对照及历史对照等。 94.随机化包括随机抽样和随机分组,随机抽样指保证总体中的每一个个体都有同等的机会被抽出来作为样本;随机分组指保证样本中的每一个个体都有同等的机会被分配到实验组或对照组。 95.实验设计的基本原则:对照、随机、重复、均衡。 96.重复是指研究样本要有一定的数量,即在保证研究结果具有一定可靠性的条件下,确定最少的样本例数。 97.均衡原则又称齐同对比原则,指实验组和对照组或各实验组之间,除了处理因素以外,其他一切条件应尽可能相同或一致。 98.完全随机设计又称随机对照试验,属于单因素研究设计。 99.样本含量估计需要确定四个基本因素:α、1-β、σ、δ。α、δ与样本含量成反比,σ(或s)、1-β与样本含量成正比。 100.剂量反应是实验物质引起实验动物总体中产生某种反应的剂量。 简述标准差与标准误的联系与区别? 标准差和标准误都是变异指标,但它们之间有区别,也有联系。区别: ①概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;②用途不同;标准差常用于表示变量值对均数波动的大小,与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波动情况,用于估计参数的可信区间,进行假设检验等。③它们与样本含量的关系不同: 当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。联系: 标准差,标准误均为变异指标,如果把样本均数看作一个变量值,则样本均数的标准误可称为样本均数的标准差;当样本含量不变时,标准误与标准差成正比;两者均可与均数结合运用,但描述的内容各不相同。 试述正态分布的特征? 服从正态分布的变量的频数分布由υ、σ 完全决定。 (1)υ 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 x =υ为对 称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ。 (2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数 据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲 线越瘦高。 简述直线相关与直线回归的联系与区别? 答: 1、区别: ①在资料要求上,回归要求因变量y 服从正态分布,自变量x是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;相关要求两个变量x、y服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。②在应用上,说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。 2、联系: ①对一组数据若同时计算r与b,则它们的正负号是一致的;②r与b的假设检验是等价的,即对同一样本,二者的t值相等。③可用回归解释相关。 .简述假设检验的基本步骤及其两类错误 ① 建立假设:包括: H0,称无效假设;H1: 称备择假设;② 确定检验水准:检验水准用α表示,α一般取0.05;③ 计算检验统计量:根据不同的检验方法,使用特定的公式计算;④确定P值:通过统计量及相应的界值表来确定P值;⑤推断结论:如P>α,则接受H0,差别无统计学意义;如P≤α,则拒绝H0,差别有统计学意义。Ⅰ型错误又称第一类错误(type Ⅰ error):拒绝了实际上成立的的错误,其概率通常用,为“弃真”,表示。Ⅱ型错误又称第二类错误(type Ⅱ error):不拒绝实际上不成立的表示。为“存伪”的错误,其概率通常用 3.简述标准差的意义和用途? 标准差是描述变量值离散程度常用的指标,主要用途如下: ①描述变量值的离散程度。两组同类资料(总体或样本)均数相近,标准差大,说明变量值的变异度较大,即各变量值较分散,因而均数代表性较差;反之,标准差较小,说明变量异度较小,各变量值较集中在均数周围,因而均数的代表性较好。②结合均数描述正态分布特征;③结合均数计算变异系数CV;④结合样本含量计算标准误。 抽样误差:由于总体中存在个体变异,随机抽样所得样本仅仅是总体的一部分,从而造成样本统计量与总体参数之间的差异,称抽样误差。 第一类错误:拒绝了实际上是成立的H0所产生的错误,即“弃真”,其概率大小为α。 第二类错误:接受了实际上不成立的H0所产生的错误,即“存伪”,其概率大小用β表示,一般β是未知的,其大小与α有关。 构成比: 又称构成指标。它说明一事物内部各组成部分所占的比重或分布。 构成比=(某一组成部分的观察单位数/同一事物各组成的观察单位总数)×100%。 率:又称频率指标。它说明某现象发生的频率或强度。 率=(发生某现象的观察单位数/可能发生该现象的观察单位总数)×K。 率的标准化法: 采用一个共同的内部构成标准,把两个或多个样本的不同内部构成调整为共同的内部构成标准, 以消除因内部构成不同对总率产生的影响,使算得的标准化率具有可比性 计量资料: 用定量方法对每个观察对象测定某项指标量的大小,所得的资料称为计量资料。 计数资料: 先将观察单位按某种属性或类别分组,然后清点各组的观察单位数所得资料,称为计数资料。等级资料: 将观察单位按某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。 小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。P值:P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义,P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。 描述数据分布集中趋势的指标 算术均数、几何均数、中位数。 描述数据分布离散程度的指标 极差、四分位数间距、方差、标准差、变异系数。 同质:影响研究指标的主要因素易控制的因素基本上相同。 可信区间:在参数估计时,按一定可信度估计所得的总体参数所在的范围。 率:又称频率指标。它说明某现象发生的频率或强度。 非参数检验:在统计推断中,不依赖于总体的分布形式, 直接对总体分布位置是否相同进行检验的方法相关系数: 说明两变量间相关关系的密切程度与相关方向的指标,用r表示。 回归系数b: 即回归直线的斜率,它表示当X变动一个单位时,Y平均改变b个单位。 偏回归系数bi: 在其它自变量保持恒定时,Xi每增(减)一个单位时y平均改变bi个单位。 决定系数: 相关系数或复相关系数的平方,即r或R。它表明由于引入有显著性相关的自变量,使总平方和减少的部分,r或R越接近1, 说明引入相关变量的效果越好 医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种波动范围。2222第五篇:医学统计学重点总结