第一篇:环境统计学总结doc
总体:一个统计问题研究对象的全体,具有某种共同特性的元素集合个体:组成总体的每个基本单元的个体
样本:从总体中按一定方法抽取部分具有代表性的个体所组成的群体
抽样:按相等的时间间隔抽取样值的过程
误差:测量结果与被测量真值之差。
残差:指实际观察值与模型值的差异。
过失误差:观测中某种不应有错误而造成的所得数据与事实显著不符的误差。例如记录误差、读数误差、试剂误差、样品错误以及仪器出了毛病而未被发觉所带来的错误。不管是何种原因造成过失误差,只要明确所得测量值是上类性质,就应将该值作为异常值予以舍弃
偶然误差:(也称随机误差或或然误差)观测中因环境中不易察觉的随机因素而导致的误差。÷。在同样条件下,虽经多次重复观测。但观测总是存在差异,这种差异就是偶然误差,它们出现一般有确定的概率。随着观测次数的增多,偶然误差的平均值逐步趋近于零
系统误差:在一定条件下因某种原因引起有确定性规律的误差。例如:试验中因方法不够完善而导致的误差,或因环境有显著改变而引起的误差等。系统误差分为固定系统误差和有周期性变化的系统误差。系统误差数值常常是可估计的精密度:观测某一定值时所得观测值的离散程度。它常用标准差或变异系数来量度
准确度:在一定条件下度量观测平均值与真值间一致性接近程度,它常用系统误差来表示 连续变量:取值精度至少在理论是无限的。即在连续量的任意两个取值之间可以插入无穷多个中间值。换言之,只要测定手段允许,一个连续量得任意两个取值不可能相等。自然科学中遇到的大多数变量,如温度,压力,体积,重量,浓度,ph值,噪声强度都是连续变量 离散变量:其特点在于其可能的取值仅限于如0、1、2、3、。。。这样的正整数,即计数值。人口、植株和菌落等都是典型的离散变量
顺序变量:在没有高水平测量手段的情况下,只能借助肉眼观察或类似方法对样本进行考察,得到的结果是按大小顺序排列的顺序值(即秩),秩只有相对顺序意义而绝无大小意义,二元变量:所观察的实体对象仅仅具有两个对立的属性。通常用0和1来表示这种存在与否或两种对立的状态,故也称0-1变量。例如人类性别,只有男女两种对立状态,则分别记为0与1
无序多元变量:指具有两个以上状态且每个状态互为独立而又无一定顺序的属性。如颜色、季节、岩石类型等,其若干取值只有相同和不同的区别而无任何与大小相关的顺序变量 双侧概率(两尾概率):把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率,记作α
单侧概率(一尾概率):对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+ kσ的概率,记作α/2
大小特征参数(位置特征参数:它是表示环境观测集中趋势的一类参数,常见的大小特征参数包括平均值、中位数和众数
离散特征参数:所谓离散特征,是指个体的聚集或分散程度,或者说它们距离分布中心的远近程度。可以表示离散特征的参数很多,常用的有平方和、方差、标准差、变异系数、几何标准差、范围等
分布特征参数:用于描述总体或样本的分布特征,即偏锋系数或分位数
类型变换:对环境研究的变量类型进行转换,一般是高测量水平的变量向低测量水平进行变换,尽管这种变换会造出数据信息的损失,但在某些情况下,这种变换又是必需的 线性变换:指对观测数据进行加减乘除的运算
分布变换:是指对观测样本的分布形态进行变换。最常见的是正态变换,它将非正态分布数据转化成正态分布数据
相似系数:用于定量比较两个变量或两个样本之间相似程度的指标。当两个变量或两个样本完全不同时,其相似性为零,表征相似性的系数主要是内积系数,它包括离差系数、协方差系数与相关系数
相异系数:是相似系数的补数,其数值大小反映的是变量间或样本间的差异程度。当两个变量或两个样本完全一致时,其相异性为零。常用的相异系数是距离系数
区间估计:是从样本统计量去估计、研究总体参数的可能取值范围
点估计:是估计、研究总体参数的可能取值情况
置信水平:置信度的互补概率,1-α
显著性水平:落在拒绝域的小概率,用α表示
原假设(零假设):是指对检验的直接对象作出的假设,记为H0.对立假设(备择假设):如果检验结果拒绝原假设时必须接受的另一种可能假设称为对立 H1:备择假设,一旦否定原假设就接受它
双侧检验:假设检验的否定域分别位于检验统计量抽样分布的两个尾部
单侧检验:否定域在检验统计量分布的一侧
第一类错误:当原假设实际上是正确的,而依据某一样本作出拒绝原假设的判断,将正确的假设误认为是错误的,(以真为假)
第二类错误:当原假设实际上是错误的,而依据某一样本作出接受原假设的判断,将错误的假设误认为是正确的,(以假为真)
单因素方差分析:试验中只有一个因素,比较因素各水平上指标值之间的差别
双因素方差分析:试验中有两个因素变量,考虑两个因素的变化对指标值的影响
小概率原理:把小概率事件在一次试验中看成是实际不可能发生事件称为小概率事件实际不可能性原理
方差:度量总体或样本各变量间变异程度的参数或统计量
方差分析:以线性函数平方和为统计量的统计分析
统计量:描述样本特性的量
相关系数:度量两个随机变量间关联程度的量。相关系数的取值范围为(-1,+1)。当相关系数小于0时,称为负相关;大于0时,称为正相关;等于0时,称为零相关
线性回归:在变量的函数关系中,X、Y之间存在线性函数关系
三大统计分布:卡方、T、F分布
根据变量的观测水平可以将它们划分为:定量变量(连续变量、离散变量、和顺序变量)与定性变量即类型变量(二元变量和多元变量)
根据变量的取值能否由研究者加以控制可将其分为:随机变量和固定变量
误差按其产生来源分为:过失误差,偶然误差和系统误差
系统误差与偶然误差之和,称为:综合误差
模型一般分为:物理模型、语言模型和数学模型
响应指标的类型:正向指标、负向指标、区间指标
三种重要的概率分布:正态分布、二项分布、泊松分布
统计特征参数:总体特征参数与样本特征参数
统计特征参数可按照说描述的总体或样本特征类型分为:大小特征参数、离散特征参数和分布特征参数
总体分布形态的两个重要特征是:偏斜度(左偏态,右偏态)与峰态(低峰态,尖峰态)剔除异常值的方法:概率剔除与非概率剔除
数据变换类型:类型变换、线性变换、分布变换
统计推断包括:参数估计(点估计与区间估计)和假设检验
假设检验方法按是否依赖某些总体参数而分为:参数检验方法与非参数检验
总体大小特征的假设检验方法:正态U检验与t检验
检验临界值的确定的条件:(1)概率水平:由显著性水平α和单侧、双侧来确定。(2)自由度:由样本量确定。(3)概率分布表:由假设检验方法确定
多重比较常用的方法:最小显著差数法和最小显著极差法(q法和邓肯新复极差法)相关关系按其形成原因分为:直接相关和间接相关
正态分布的特征:
(1)正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=µ;
(2)f(x)在x=µ处达到极大,极大值f(µ)=;
(3)f(x)是非负函数,以x轴为渐近线,分布从-∞到+∞;
(4)曲线在x=µ±σ处各有一个拐点,即曲线在(-∞,µ-σ)和(µ+σ,+∞)区间上是
下凸的,在(µ-σ,µ+σ)区间内是上凸的;
(5)正态分布有两个参数,即平均数µ和标准差σ。µ是位置参数,当σ恒定时,µ愈大,则曲线沿x轴愈向右移动;反之,µ愈小,曲线沿x轴愈向左移动。σ是变异度参数,当µ恒定时,σ愈大,表示x的取值越分散,曲线越“胖”; σ愈小,x的取值越集中在附近,曲线越“瘦”。
(6)分布密度曲线与横轴所夹的面积为1。
三个重要的概率分布的关系
三个重要概率分布中,正态分布属连续随机变量的概率分布,二项分布、泊松分布属离散型随机变量的概率分布。
对于二项分布,在n→∞,p→0,且np=λ(较小常数)情况下,二项分布趋近于泊松分布。在这种场合,泊松分布中的参数λ用二项分布np代之。
2在n→∞,p→0.5 时,二项分布趋向于正态分布。在这种场合,正态分布中的μ、σ 用二
项分布的np、npq代之。在实际计算中,当p<0.1且n很大是,二项分布可由泊松分布近似,当 p>0.1且n很大时,二项分布可由正态分布近似。
对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ>=20(也有
2人认为λ>=6)时,用泊松分布中的λ代替正态分布中的μ及σ,即可由后者对前者进行
近似计算。
异常值的的剔除原理
异常值是一个样本中出现概率很小的观测值,又称离群值,即在相同条件下,因某种原因造成的显著偏离样本中值的个别数据。异常值的剔除原理是假设检验,它是建立在观测值误差服从随机抽样与正态分布(高斯误差定律)的基础下。即在选定的可靠性概率条件下,根据某些检验方法作出某个或某些观测值是否属于异常的判断。可以主观地确定这一最大允许错误的概率记为α,用以表示某观测值并非异常,而检验结果将它判断为异常的可能性,通常取α=0.05,这意味着如果检验结果认为某值时异常,该结论不正确的几率不会大于5%。由此可见,研究者可以通过改变α。值来调整检验方法的严格程度。假如宁可错误地剔除非异常数据,也 不愿放过可能的异常值,那么应当选择大一些的α值;反之,如果要求尽量不作错误剔除,那么可用较小的α值进行检验。
异常值的剔除程序:
首先将观测值从小到大依次排列,将两端的最小值x1及最大值xn作为第一轮的检验对象;第二步是根据样本容量大小及其分布特征选择相应的检验方法,并计算x1及xn的检验统计量;第三步是根据事先确定的检验水平α与样本量n查验相应的临界值;第四步是将检验统计量值与临界值进行比较,由此统计推断出检验结果。如果x1被剔除,依次检验x2、x3,…,直到某值不为异常值时停止;如果xn被剔除,则依次检验xn-
1、xn-2,…,直到某值不为异常值时停止。
距离系数满足的条件
(1)同一点的不可区分性。若A=B,则d(A,B)=0
(2)相异点的可区分性。若A≠B,则d(A,B)≠0
(3)对称性。d(A,B)= d(B,A)
(4)三角不等式公理。d(A,B)≤d(A,C)+d(B,C)
假设检验的对象
假设检验师指对不完全了解的总体特征提出某种假设,然后根据样本资料对所作假设进行检验与判断。根据总体不同的 特征。假设检验可以分为以下四类:
(1)关于总体离散大小的假设检验;例如比较一个总体的均值是否等于或大于某一特定
值,比较两个总体的大小是否有明显差异,以及比较多个总体的大小是否一致。
(2)关于总体离散特征的假设检验;例如检验一个总体的方差是否在某特定值之下,或
者判断两个总体的方差是否一致。
(3)关于总体分布形式的假设检验;例如检验一个总体是否服从正态分布、对数正态分
布或某种特定的理论分布以及比较两个总体的分布形式有没有明显区别。
(4)关于总体综合特征的假设检验;这类检验是指不加区分地对总体各方面的特征进行
综合比较,即比较两个或多个总体是否在大小、分散程度及分布形式有没有明显区别。
(5)关于异常值的假设检验;事实上,异常值的剔除也是一种假设检验。即当怀疑某个
观测值为异常值时,可首先假定该值不是异常值,然后用特定的方法按特定的准则,对接受还是拒绝这一假设作出判断。
假设检验基本步骤
(1)用统计语言表达有关假定,即提出统计假设。
(2)确定显著性水平,即允许犯第I类错误的概率为α。
(3)选择适当的统计检验方法。
(4)根据样本数据计算有关检验统计量
(5)根据检验量的抽样分布、显著性水平α以及自由度等从有关统计用表中查出检验临
界值。
(6)比较检验统计量的计算结果与临界值,决定是否拒绝检验的原假设。
假设检验方法选择
参数检验是指在模型的建立及检验中借助了总体的某些参数,并针对这些参数规定了一些条件,又称经典检验方法。参数方法对数据有较严格的要求,只能适用于定量变量中的连续变量与离散变量。其优点在于:(1)能够充分利用连续数据与离散数据中的高信息含量,其检验功效(1-β)高于相应的非参数检验方法。(2)少数问题到目前为止尚无合适的非参数检验方法能够解决,如因子的交互作用显著性只能使用参数检验。
非参数检验在模型的建立和检验过程中,不涉及任何总体参数,故又称无分布检验。与参数检验相比,非参数检验虽然对高测量水平数据信息利用不够充分,但由于其模型条件简单,具有以下优点:(1)不要求样本服从各种假定。这在样本量较小时以及当观测值来自几个有明显差异的总体时尤为重要。此时参数检验所需要的各种假定往往难以满足。(2)不受少数异常值的干扰,而异常值的剔除在样本量较小时比较困难。(3)可以适合于各种类型的变量。(4)计算简便。
正态检验与t检验的比较
正态检验的使用条件必须是样本服从正态分布,而且还必须是大样本量情形(n)100)。样本量较小时,从正态分布总体中得到的样本 从属于学生t分布,这时应改用t检验而不是正态检验对总体均值进行比较。另一方面,可以将正态分布视为自由度为无穷大时的学生t分布特例,对大样本量的数据,t检验方法仍然有效。
方差分析的基本假定
(1)可加性;即试验处理效应、环境效应以及试验误差应该是“可加”的。方差分析所
依据的数学模型是线性可加模型,可加和性是方差分析的主要特性。当以样本估计时,“可加性”可表示为:SST=SSr+SSe
2(2)正态性;即试验误差应是独立的随机变量,并服从正态分布(0,α),这是因为
多个样本的F检验,是假定k个样本是从k个正态总体中随机抽取的,因而试验误差一定是随机的,且服从正态分布。
(3)同质性;也称“方差齐性”,是指试验所有处理的误差方差是同质的,即具有共同的误差方差。这是因为方差分析师将各处理的误差合并为一个共同的误差方差,以作为显著性检验共用的误差项方差。
最小显著差数法(LSD法):检测程序:是在处理间的F检测为显著的前提下,计算出显著水平为a的最小显著差数LSDa;任何两个处理平均数间的差数(xi-xj)若绝对值≥LSDa,则为在a水平上差异显著;反之,则为在水平上差异不显著。这种方法又称为保护性最小显著差数法。LSD法实质是t检验。
最小显著极差法简称LSR法。其特点是把平均数差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距)K的不同而采用不同的检验尺度,以克服LSD法的不足。这些在显著水平a上依秩次距K的不同而采用的不同的检验尺度叫最小显著极差LSR。判断估计量的优劣标准
最小二乘法与线性回归系数: 线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线。在研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1、x2, y2...xm , ym);将这些数据描绘在x-y直角坐标系中,若发现这些点在一条直线附近,可以令这条直线方程y=bx+a
第二篇:统计学总结
统计学(Statistics):应用统计学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。
医学统计学(Medical Statistics):应用统计学的原理与方法,研究医学科研中有关数据的搜集、整理和分析的应用科学。
统计学方法的特点: 1.用数量反映质量
2.统计逻辑:用群体规律估算/推测个体 3.手段:常通过部分个体估计总体
同质和变异(考试重点)
同质(homogeneity):据研究目的所确定的所有研究对象的相同属性。例子:身高、体重、年龄、容貌…… 变异(variation):同质研究单位中变量值间的差异,整个统计学甚至是整个科学研究存在的基础。
总体、样本和研究单位(考试重点)
总体(population):是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合,包括有限总体和无限总体。 样本(sample):是总体中抽取的一部分个体。包括随机抽样和非随机样本。 样本含量(sample size):样本中包含的研究单位数。 观察单位(observed unit):也叫个体或研究单位,它是研究中的个体(individual),完全由研究目的确定。它可以是一个(群)人、一只动物和一个细胞。
变量、变量值和资料(考试重点)
变量(variable):按特定目的确定的研究单位的某种特征或属性。
变量值(value of variable):变量的观察或检测结果,也叫变量的观测值。 资料(data):在特定目的指引下而确定的变量及其变量值。 计量资料(measurement/quantitative/numerical data):其特征是能够用数量衡量,通常具体计量单位。按照变量值是否连续又可分为连续型(continuous/interval)和离散型(discrete)两类按特定目的确定的研究单位的某种特征或属性(请举例)。要特别注意比值资料,如细胞凋亡率。
计数资料(enumeration/qualitative/categorical/ nominal data):是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型(举例)。
等级资料(ordinal categorical/rank/semi-quantitative data):是将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而得到的资料,其变量值具有半定量性质。(举例,如血清反应强度、疗效)
参数和统计量(考试重点)
参数(parameter):根据总体中所有个体值计算出来的特征量/指标,一般用希腊字母表示。 统计量(statistic):根据样本个体值计算出来的描述的特征量/指标,一般用拉丁字母表示。
总体参数一般是不知道的,统计工作的目的是:通过样本统计量估计推测总体参数。
误差、随机误差、系统误差和非系统误差(考试重点) 误差(error):泛指实际观测值与真值之差,也即样本指标/统计量与总体指标/参数之差。
按误差产生的原因分为:系统误差、非系统误差和随机误差。
系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。
非系统误差(nonsystematic error):由于研究者偶然 失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error) 测量值 = 真值 + 随机误差 + 非随机误差
随机误差:是一类不恒定的、随机变化的误差,由于多种目前尚无法控制的因素引起。如:在同一条件下对某一实验进行多次重复,虽极力对其进行控制或消除系统误差后,但实验结果却不尽相同。 抽样误差(sampling error):由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免,具有统计规律性,主要由个体差异(变异)
频率、概率和小概率事件(考试重点)
频率(relative frequency): 一次随机试验有几种可能结果,在重复进行试验时,各种结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种
概率(probability)概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现 f 次,f/n 则称为随机事件A出现的频率。当 n 逐渐增大时,频率 f/n 趋向于一个常数,则称该常数为随机事件A的概率,可记为 P(A),简记为P。概率的取值范围: 0≤ P(A)≤1。
频率是就样本而言的,而概率从总体的意义上说的,频率是概率的估计值。试验次数(样本含量)越多(越大),估计就越可靠。
小概率事件: 统计分析中的很多结论都基于一定置信程度下的概率推断,小概率是研究人员确定的统计判断或决策标准,习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生,这即是统计决策必须付出的代价。
医学统计工作的基本步骤 1.设计(design)
设计阶段主要涉及实验的三要素(对象对象、研究因素、实验效应)、四原则(对照、随机、重复和均衡)和设计方法。
包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为:实验设计、调查设计 和 临床实验设计。
2.收集资料(collection of data)(1)资料来源
第一手资料:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等);经常性工作记录(卫生监督记录、健康检查记录、病历等);专题调查、实验或临床试验。
第二手资料:已公布的资料,特别是官方出版物,以及其他各种类型的数据。
(2)对资料要求
完整:观察单位及观察指标应尽可能地完整 准确:即真实、可靠。真实是统计学的灵魂 及时:即时限性
3.整理资料(sorting data)
目的:通过对原始数据的条理化、系统化和数量化的处理,使得其能够满足统计分析的需要,特别是要满足统计软件的要求。因此,国外有些教材也把该阶段称作数据筛查(data screening)
评估数据质量,弥补缺失值或补做调查或实验,确保数据准确、可信。
4.分析资料(analysis of data)(考试重点)
目的:揭示样本数据中潜藏的内在联系和规律,借以估计总体的特征,从而达到支持决策的目的。
包括统计描述(统计图、表、统计指标)和统计推断(假设检验和置信区间)。
资料的类型
定量资料: 可直接利用原始测量值进行分析,也可将其分为几类,完全取决于研究目的。
无序资料: 二项分类资料(赋值进行量化)和多项分类资料(必须采用哑变量)举行分析。
有序数据:可直接进行量化处理。
统计描述:采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。极差(range)也称全距,即最大值和最小值之差,记作R。(考试重点)
编制频数表的步骤 1.求极差 2.确定组距(i)
3.写组段(分为12个组段)组下限(L):每个组段的起点 组上限(U):每个组段的终点
4.分组段划记并统计频数
(1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。
(2)偏态分布 :
右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。(考试重点)
左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。(考试重点)频数表和频数分布图用途 1.描述数据分布类型
2.描述频数分布的特征
3.便于发现一些特大或特小的可疑值; 4.便于进一步做统计分析和处理。
集中趋势:遴选最合适的代表值。
离散趋势:评判代表值对总体代表的程度。
集中趋势的描述(考试重点)统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。(考试重点)常用的平均数有:算术均数、几何均数、中位数
算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。(考试重点)适用于对称分布,特别是正态分布或近似正态分布的资料。
几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料,特别是对数正态分布资料。 中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。各种分布类 型的资料,特别是偏态分布资料和含有不确定数值的资料。
百分位数(percentile)是一种位置指标,用
来表示,读作第X 百分位分数。
离散趋势的描述(考试重点)
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。
极差或全距(Range),用R表示:即一组变量值最大值与最小值之差。
四分位数间距,用QR表示:QR=p75-p25 下四分位数:QL=P25 上四分位数;QU=P75 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。
标准差:方差的开方
变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。(考试重点)
正态分布的概念:如果随机变量X的分布服从概率密度函数
(X)2221f(X)e2
X则称服从正态分布,记作
N
(, )μ为X的总体均数,
2为总体方差。X
百分位数法:公式:双侧1-α参考范围 P100α/2~ P100-100α/2 单侧1-α参考范围 >P100或
医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。
双侧 :即指标过高和过低都不正常,如:血清总胆固醇、血压、体重等等。
单侧: 即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。
计算医学参考值范围的常用方法:
正态分布法(当资料服从正态分布)
百分位数法(当资料不服从正态分布)
抽样误差:由于存在个体差异,抽得样本的均数不太可能恰好等于总体均数,因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异,称为抽样误差。(常考内容)
标准误(standard error, SE):表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式
X n
t 分布: 若某一随机变量X服从总体均数为X、总体标准差为2N(, ),的正态分布则可通过u变换()将一般正态分布转化为标准正态分布N(0,12),即u分布.t 分布特征
1.单峰分布,以0为中心,左右对称; 2.自由度3.当越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;
X逼近, SX逼近, t分布逼近u分布,故标准正态分布是t分布的特例
参数估计 :用样本统计量推断总体参数。总体均数估计:用样本均数推推断总体均数
点估计:就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ,S估计σ等。其方法虽简单,但未考虑抽样误差的大小。
区间估计:是按预先给定的概率(1-α)所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间(confidence bound/confidence interval, CI);预先给定的概率1-α称为可信度或置信度(confidence level),常取95﹪或99﹪,如果没有特别说明,一般取双侧95﹪。
可信区间的两个要素
(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。它愈接近1愈好,如99%的可信区间比95%的可信区间要好。
(2)精确度:即区间的宽度。区间愈窄愈精确,如95%的可信区间比99%的可信区间要好。
假设检验的步骤
1.建立检验假设,确定检验水准
① =0:即检验假设,常称无效假设或零/原假设,用H0表示。
② 0:即备择假设,常称对立假设,用H1表示。③ :即检验水准,也称显著性水准。是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。2.计算检验统计量
应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。3.确定P值
按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。
4.下结论
将上述计算所得概率P与检验水准进行比较,判断其是否为小概率事件,从而得出结论。一般来说,结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。必须将二者结合起来,才能得出符合客观实际的结论。
若P≤,则结论为按所取的检验水准,拒绝H0,接受H1,有统计学意义(统计结论),可认为……不等或不同(专业结论)。;
若P>,则结论为按检验水准,不拒绝H0,无统计学意义(统计结论),还不能认为……不等或不同(专业结论)。
t检验和u检验的应用条件
1.t检验应用条件
样本含量n较小时(如n<60)(1)正态分布
(2)方差齐性
2.u 检验应用条件
样本含量n较大,或n虽小但总体标准差已知(1)方差齐性(homogeneity of variance)总变异:全部测量值大小不同,这种变异称为总变异。
离均差平方和:总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。
组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。
均方差,均方(mean square,MS)。
MS组间MS组内SS组间组间SS组内组内完全随机设计:(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。
率:说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:某时期内发生某现象的观察单位数率比例基数 同期可能发生某现象的观察单位总数
构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。
相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,通常以倍数或百分数(%)表示。
应用相对数的注意事项
1、计算相对数应有足够数量即分母不宜太小。
2、不能以构成比代替率 3.正确计算合计率 4.注意资料的可比性
动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。
二项分布的适用条件
1.每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和
恒等于1;
2.每次试验产生某种结果(如“阳性”)的概率π固定不变;
3.重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出
现的概率。
Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
Poisson分布的适用条件
假定在规定的观测单位内某事件(如“阳性”)平均发生次数为λ,而其样本计数为X(X=0,1,2,„)。则在满足下面三个条件时,有X~P(λ)。
1.普通性
在充分小的观测单位上X的取值只能为1个,不能同时取多个值。2.平稳性
X的取值只与观测单位的大小有关,而与观测单位的位置无关。
3.独立增量性
在某个观测单位上X的取值与其他各观测单位上X的取值无关。
卡方检验目的:推断两个总体率或构成比之间有无差别
多个总体率或构成比之间有无差别
多个样本率的多重比较
两个分类变量之间有无关联性
频数分布拟合优度的检验。检验统计量:X2 应用:计数资料
X2分布的一个基本性质是可加性
参数检验
如果总体分布为已知的数学形式,对其总体参数作假设检验。如: t 检验和 F 检验。
非参数检验:对总体分布不作严格假定,又称任意分布检验(distribution-free test),它直接对总体分布作假设检验。
秩转换的非参数检验应用范围: 对于计量资料:
1.不满足正态和方差齐性条件的小样本资料;
2.分布不明的小样本资料;
3.一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选); 对于等级资料: 若选行×列表资料的 x2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。
wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。
直线回归
目的:研究应变量Y对自变量X的数量依存关系。
特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系。
回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equal variance)
ˆabX(91)直线回归方程的一般表达式为
Ya 为回归直线在 Y 轴上的截距,b为回归系数,即直线的斜率.残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。
直线回归方程的求法:原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小.22SSlll2回决定系数(coefficient of determination)RXYXXXYSS总lYYlXXlYY
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
(YY)SSSS总=SS回+SS残,总即,为Y的离均差平方和,表示未考虑X与Y的回归关
2系时Y的总变异。
直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系
相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
相关系数没有单位,其值为-1≥ r≥ 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
(XX)(YY)l样本相关系数的计算公式为
rXY lXXlYY(XX)2(YY)2
秩相关适用条件:双变量计量资料: ①资料不服从双变量态分布; ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。
曲线拟合: 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。
几种曲线拟合:对数曲线、指数曲线、抛物线、S型曲线
统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;
统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。
制表的基本要求
(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
常用统计图
1.直条图(bar chart)2.圆图(pie chart)和百分比条图(percent bar chart)3.线图(line graph)4.直方图(histogram)5.统计地图(statistical map)6.其他特殊分析图
箱式图(box plot)茎叶图(stem-leaf plot)误差条图(error bar chart)
线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。
箱式图(box plot)使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。
多因素试验资料的方差分析设计类型:析因设计 各因素各水平的全面组合 处理组合数 g = 各因素水平数之积。
正交试验:非全面组合,g个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。
嵌套试验:非各处理因素各水平的全面组合,而是各因素按隶属关系系统分组,各因素水平没有交叉。
裂区设计:两因素析因设计的特殊形式。
单独效应 指其他因素的水平固定时,同一因素不同水平间的差别。主效应 指某一因素各水平间的平均差别/不考虑其他因素下的效应。
交互作用 当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。
析因设计变异分解 SS总SS处理SS误差 SSASSBSSABSS误差
重复测量资料
目的:推断处理、时间、处理×时间作用于试验对象的试验指标的作用。
资料特征:处理因素 g(≥1)个水平,每个水平有n个试验对象,共计 gn个试验对象。时间因素 同一试验对象在m(≥2)个时点获得m个测量值,共计gnm个测量值。方法:方差分析
单组前后测量设计与配对设计的区别区别
区别点 配对设计 单组前后测量设计
N 两实验单位 可随机分配
观测时间 同期 两时间点 N 试验数据与差值关系 独立
分析指标平均差值平均差值、相关回归
推断 组间差别 前后差别
logistic回归 分析目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。
用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。
logistic回归种类: 1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。
优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:
P/(1P 1)ORj1 P0/(1P0)
logistic回归的应用及注意事项 1.流行病学危险因素分析 2.便于控制混杂因素效应 3.预测与判别
等级变量和无序分类变量的数量化 样本含量的计算(经验标准和科学计算)
模型拟合优度(偏差、显著性检验、假决定系数、AIC、BIC和预测准确率)二分类logistic回归、有序logistic回归和多分类logistic回归的选择
第三篇:统计学复习总结
3.样本:从总体中抽样部分个体的过程称为抽样,所抽得的部分为样本。(从样本中随机抽取的有代表性的一部分)
4.统计量:是统计理论中用来对数据进行分析、检验的变量。
5.频率:是指单位时间内完成振动的次数,是描述振动物体往复运动频繁程度的量。
6.概率:是描写某一事件发生的可能性大小的一个量度。
8.系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小。
9.随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂以校正,但是由于各种偶然因素的影响也会造成同一对象多次测定的结果完全不一致。这种误差往往没有固定的倾向,有时高有时低。
12.标准误:也称标准误差,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。
13.标准差:是一种表示分散程度的统计观念。
14.指标:指预期中打算达到的指数、规格、标准。
15.相对数:是两个相关的绝对数之比,也可以是两个统计指标之比。
16.率:表示在一定范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度活频率。
17.构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分比表示。
18.相对比:是A、B两个关联指标之比,用以描述两者的对比水平。19 统计学是一门用于观察资料的应用科学它具有严密的科学逻辑无限的应用性和以高等数学为基础的计算性它广泛的涉及到自然科学人文科学和管理科学的各个领域
20医学统计研究对象及特征同质性 大量性变异性平均数是描述一组同质的计量资料集中趋势(平均水平)的指标 22 算术均数 是描述一组同质的计量资料集中趋势(平均水平)的指标
23几何均数是描述一组同质的呈对数整台分布的计量资料变异系数的指标 1极差即最大值与最小值之差。四分位数间距2离均差平方和 方差 标准差 变异系数 3方差4标准差5变异系数 25参数估计包括点估计和区间估计搜集资料
一资料来源
1统计报表
2报告卡如报出生率换染率
3日常工作记录如 住院病历
4专题研究或实验研究
5学术专题研究会讨论会经验交流会
6图书资料
7国际互联网
二资料要求
(一)三性及时性 正确性完整性
(二)四原则对照原则均衡原则随机化原则重复原则
三 整理资料核对 2 分组按质量等级分组3 归纳 手工法 机械法 4 列表
1.什么叫医学统计学?医学统计学与统计学、卫生统计学、生物统计学有何联系与区别?
医学统计学:是统计学的重要应用领域,它运用概率论、数理统计的原理和方法,结合医学实践,阐述统计设计的基本原理和步骤,研究资料和信息收集、整理和分析,进行科学推断的一门应用统计学。医学统计学与生物统计学、卫生统计学是统计学原理和方法在互有联系的不同学科领域的应用,三者间既有区别,又有交叉,故难以截然划定界限。生物统计学应用于生物学研究,从生物范畴的角度来看,显然比医学统计学的范围更广,其原理和方法一般均可应用于医学研究。医学统计学和卫生统计学均应用于医学研究,而前者侧重于医学的生物性方面,后者侧重于公共卫生学的社会性方面。
2.标准差和标准误有何区别和联系?
区别:标准差与标准误的意义、作用和使用范围均不同。
(1)标准差一般用s 表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标。
标准误一般用sx 表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。
(2)随着样本数(或测量次数)n 的增大, 标准差趋向某个稳定值,即样本标准差s 越接近总体标准差σ。
标准误则随着样本数(或测量次数)n 的增大逐渐减小,即样本平均数越接近总体平均数μ;故在实验中也经常采用适当增加样本数(或测量次数)n 减小sx 的方法来减小实验误差,但样本数太大意义也不大。
(3)标准差是最常用的统计量, 一般用于表示一组样本变量的分散程度,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等
标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。
联系:标准差与标准误尽管都是反映变异程度的指标。标准误是标准差的1/ n;二者都是衡量样本变量(观测值)随机性的指标,只是从不同角度来反映误差;二者在统计推断和误差分析中都有重要的应用。
3.方差分析的基本思想是什么?
通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。将总变异及自由度按其来源分解
4.常用相对数指标有哪些?它们在计算和意义上有何不同? 常用的有率、构成比和相对比,5.x2检验的适用范围和各个公式的适用条件是什么?
6.简述非参数统计方法的概念及适用范围?
在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法
称为“非参数统计”。适用范围:(1)待分析数据不满足参数检验所要求的假定,因而无法应用参数检验。(2)仅由一些等级构成的数据,不能应用参数检验。(3)所提的问题中并不包含参数,也不能用参数检验。(4)当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统计方法来达到目的。
7.非参数统计方法有何优缺点?
优点 1等级资料2对资料没有特殊要求总体为偏态总体分布未知计量资料(N《30)有过大或过小的数值 3总体方差不齐
缺点检验效率低容易犯第二类错误
8.相关与回归的区别与联系?
回归分与相关分的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。从资料所具备的条件来说,作相关分析时要求两变量都是随机变量;作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量。差别主要是:(1)在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;(2)相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;(3)相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制。
9.直线相关与等级相关有何区别?
直线相关又称为简单相关,是探讨服从正态分布的两个随机变量X和Y有无线性相关关系的一种统计分析方法。直线相关的性质可由散点图直观地说明。等级相关又称秩相关,方法简单,易学易用,适用范围较广;两事物或现象间是否存在直线相关关系,也可用等级相关来检验。尤其适用于某些指标不便准确地测量,而只能以严重程度、成效大小、名次先后或综合判断等方式定出等级或次序的资统计工作的基本步骤 1 统计设计2资料搜集3资料整理4资料分析
第四篇:生物统计学总结
生物统计学学习心得
这学期要结束了,在老师的指导下,经过一学期对生物统计学的学习,我对生物统计学有了进一步的理解。下面是我学习这门课程的一些收获和体会,还有对生物统计学简单的总结。
1.收获
生物统计学是在生物的基础上进行数学统计分析,具有很强的逻辑性。在运用的过程中,公式较多,应用性强,需要多记多用,才能充分的发挥其功能。生物统计学的内容包括试验设计、资料整理与描述、统计假设检验、方差分析等。这门课程,让我学会了怎样根据实际情况进行试验设计(制定试验方案、实施试验方案、分析实验结果);学会了怎样从一堆无规则的数据中提取有用的信息,通过整理数据和分析,进行相应的假设从而得出结论。
2.体会
2.1生物统计学的作用
生物统计学为人们提供了数据整理和分析方法;提供了由样本推断总体的方法;判断实验效应的真实性和分析现象间的关系;提供了设计试验的原则和方法。它是一种方法论,在生物领域有着不可或缺的地位。它为我们提供了解决实验过程中各种疑难杂症的方法,有了生物统计,再复杂的数据也不攻自破。
2.2怎样学好生物统计学
当我刚接触到生物统计学时,感觉它是一门很揪心的科目,部分理论非常抽象,学起来很困难。后来在老师的讲解下慢慢的觉得,其实它也没那么难。学习生物统计时不要老想去完全明白那些理论的每一个字,只要在老师的讲述下理解了那些理论的含义,然后通过例题将这些理论带到实践中去,基本上就可以学会了。所以想要学好生物统计,就要先学会理解。最基本的就是熟悉概念,这样在审题的时候就能立刻明白题目的主干意思,有利于进一步寻找解题方案。明白了题目意思后,搜索脑海中所学的试验方法,选择相应的试验方案,就是什么类型的题目,对应什么类型的解题方案,这样才能解决一道困难的题目。为了更深入的学习生物统计,除了要求平时上课仔细听课,课后的作业也要认真完成,还要学会总结分类,这样对书本的知识点就有一个全面的了解,巩固了对生物统计学
内容的掌握。生物统计很重要,我们一定要学好。不管是对于生物这门学科,还是对于我们的生活,它都有很大的帮助。
3.总结
生物统计学是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门科学,是现代生物学研究不可缺少的工具。
通过学习生物统计学,就个人而言,我收获了很多。生物统计学是贯穿生物学科的一门重要工具,我们要充分认识到它的重要性,积极主动的学好生物统计,以便于以后的研究发展。同时,对于还有一年就毕业了的我们,专业知识储备的还并不够,所以我们应该养成每天学习的习惯,不断的提高自己,并好好珍惜眼前学习的机会。
第五篇:统计学基础总结
统计学基础 第一章
1、政治算术学派最早的统计学源于17世纪英国。其创始人物是威廉·配第,代表作《政治算术》,另一创始人约翰~特朗特。政治算术学派被称为“无统计学之名,有统计学之实”。
2、国势学派又称记述学派,产生于18世纪的德国。其主要代表人物是海尔曼·康令(H.Conrin2,1606—1681)和阿亨华尔(G.Achenwall,1714—1772)该学派在进行国势比较分析中,偏重事物性质的解释,而不注重数量对比和数量计算,但却为统计学的发展奠定了经济理论基础。
3、数理统计学派创始人凯特勒,他被称为“近代统计学之父”。
4、社会统计学派代表人厄恩斯特.。恩格尔和乔治。洪。梅尔
5、统计数据对所要研究的现象观察、测量的结果。统计数据分为以下四种类型:定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。
6、统计学的特点:总体性、数量型、归纳性。
7、统计学的研究方法:大量观察法、统计描述法、统计推断法、统计模型法。
总体是客观存在在某一相同性质基础上结合的许多个别事物的整体。特征:大量性、同质性、变异性、相对性。其中反映总体单位特征为标志,可变的标志又称变量。可变标志按其性质特征可分为品质标志和数量标志。标志具体取值称为统计数据。
8、统计指标是反映同类社会经济现象总体综合数量特征的范畴及其具体数值。特性:数量性、综合性、具体性。其所反映总体现象的数量特性的性质不同可分为数量指标和质量指标。数量指标是表明现象总体绝对数量的多少指标,反映了总体外延的广度、规模大小、以及其发展成果多少的总和。质量指标总体内部数量关系和总体水平的指标,反应本身质量、现象的强度管理工作的质量等的统计指标,用来说明总体的质的属性。第二章
1、调查方式:a、抽样调查根据随机的原则从总体中抽取部分实际数据进行调查,并运用概率估计方法,根据样本数据推算总体相应的数量指标的一种统计分析方法。其特点:1】调查样本是按随机的原则抽取的。2】按照一定的置信度推断总体。3】其中误差可事先控制和计算的。b、普查:为了某种特定的目的而专门组织的一次性的全面调查。其特点:1】普查通常是一次性的或周期性的2】规定统一的普查期限和统一的标准时点3】普查的数据一般比较准确,规范化程度也较高。C、统计报表d、偶遇抽样e、判断抽样
2、调查方法常见的有访问法(又包含座谈会、面谈访问、电话调查)、观察法、实验法。
3、调查设计其封闭式问题特点标准化程度高、回答方便、易于归类和分析,有利于提高有效率。缺点自由度小可能无法反映出有目的、真实的想法。开放式问题与之相对。“杜威十进位分类法”有麦尔维。杜威所创。第三章
1、统计分组原则要遵循穷尽原则和互斥原则。穷尽原则就是总体中的每一个单位都有组可归。互斥原则就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时归属于几个组。
2、累计频数:依照各分组的频数逐级累加起来。是向上累计频数,也可以是向下累计频数。向上累计频数分布是先列出各组的上限,然后由标志值低的组向标志值高的组依次累计频数。向下累计频数分布是先列出各组的下限,然后由标志值高的组向标志值低的组依次累计频数。
3、定距数据分组的方法:单项分组和组距分组。A、单项分组适用于离散型变量的数据,并且范围不大的分组,按变量的大小顺序排列的。B、组距分组就是一个数值区间,适用于连续性变量或变动范围大的离散型变量的数据分组。a、组数和组距,组距分组每个组的最大值为组的上线,最小值为组的下线。其上下线的间距为组距,m=1+3.322lgN(N为总次数)组数与组距(i):i=R/m.。b、组距两端的数值称为组限,上限与下限之间的中点数值称为组中值,开口组有上限无下限或有下限无上限的分组。闭口组既有上限由又下线。开口组组中值=下限+邻组组距/2,下开口组组中值=上限-邻组组距/2,组中值=(上限+下限)/2。
4、统计图的结构:标题、坐标轴和网格线、图标区和绘图区、图例。有饼图与条形图。分组数据用直方图与折线图来表达,未分组用茎叶图。第四章
1、总量指标用来反映社会经济现象在一定条件下的总规模、总水平或工作总量的统计指标,总量指标用绝对数表示。可分为a、时期指标和时点指标,时期指标:不同时期指标数值具有可加性,相加后表示较长时期现象总的发展水平;指标数值大小与包含的时期长短有直接联系;指标数值是连续登记累计的结果。而时点指标的特点正好相反。(二者区别)b、计量单位不同又分实物指标(用实物单位计量的总量指标)、价值指标(用贷币单位计量的总量指标)、劳动量指标(用劳动量单位计量的总量指标)。
2、a、动态相对指标=报告期指标/基期指标·100%b、计划完成程度相对指标=实际完成数/计划数·100%特点:分子分母不得互换,判断计划完成程度好坏,是指标而定。计划指标是绝对数、相对数、平均数。
3、计算和使用相对指标的原则:遵循可比性原则、相对指标和绝对数综合应用、选好对比的基数、各种相对指标需综合使用。
4、平均指标的作用:反应总体分布的集中趋势、利用平均指标便于对比分析、利用平均指标便分析现象之间的依存关系、平均指标是制定定额的依据、利用平均指标可做数量上的推算。
5、加权算术平均数=x1*f1+x2*f2+x3*f3+„„xn*fn / f1+f2+f3+„„.fn=∑xifi/∑fi。X为各组变量值,f为各组频数。
6、调和平均数可分为简单调和平均数与加权调和平均数。简单调和平均数。
几何平均数:指n个观察值连乘积的n次方根G=n√(IIX),几何平均数的对数等于变量值对数的算术平均数。众数,若变量值不同,则无众数。M0,来表示。
L——众数所在组下限; U——众数所在组上限——众数所在组次数与其下限的邻组次数之差——众数所在组次数与其上限的邻组次数之差; d——众数所在组组距。Q。中位数:当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。其中算术平均数、调和平均数、几何平均数适用于定距数据,故又数值平均数。中位数适用于反映定序以及上层次数据,适用于定序数刻画。众数适用于所有,主要用于定类数据刻化。
7、标志变异指标测定方法:全距、平均差、标准差、标准差系数。全距:ω=XH-XL其中的ω为全距,XH为最大值,XL为最小值。平均差:a、简单平均式=(∑|x-x'|)÷n ,加权平均数见课本p98.标准差:公式见课本P98标准差越大表明标志变动程度越大,因而平均数代表性越小,越小则反之。是非数据标准差:P101.第五章
1、时点数列中的指标数值与时点间隔的长短无直接联系,指标数值是现象在一段时间内增减抵消的后果,故而时点数列不具有可加性。编制时间数列应遵循的原则:时间长短的可比性、总体范围的可比性、经济内容可比性、计算方法的一致性。
2、发展水平,既可作为总量会标,亦可是相对指标或平均指标。发展速度=报告期水平/基期水平
3、移动平均法
第六章
1、统计指数种类:数量指标指数与质量指标指数、.个体指数和总指数.动态指数和静态指数、。定基指数和环比指数。数量指标指数反映现象总体的规模和水平的变动状况,如产量指数,职工人数指数等。质量指标指数则反映现象总体内涵质量的变动,如商品物价指数,劳动生产率指数等。质量指数P155,。
2、平均指数以指数化因素的个体指数为基础,通过对个体指数的加权平均而计算的一种总指数。它是编制总指数的又一种重要形式。平均指数与综合指数不同:a、编制思路不同,其性质有不同,综合指数 先综合,后对比,平均指数 先对比,后平均。B、使用权数不同,综合指数依同度量因素为权数,平均数一价值量指标为权数。C、对资料的要求不同。
3、消费价格指数,其居民消费价格指数变动外,亦可分为 货币购买力指数=1/居民消费价格指数 职工实际工资指数=职工名义工资指数/居民消费价格指数
通货膨胀指数=报告期居民消费价格指数/基期居民消费价格指数 第七章
1、分层抽样优点:a、即可对总体进行估计,又可对各层的子总体进行估计。b、按照自然区域分层,又可对行政区域进行分层。C、样本分布在各个层内,从使样本在总体中分布较均匀。d、可以提高精确度。遵循的原则:根据研究目的分层、遵循“层内同质,层间差异”。方法:等数分配分层抽样、等比例分层抽样、不等比例分层抽样。
2、样本均值、样本方差、样本比例都是随机变量。
3、样本均值的抽样分布样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。这就是中心极限定理 第八章
1、抽样推断方法:参数估计和假设检验。抽样推断特点:根据样本资料对总体熟数量的特征做出具有一定可靠性的估计与推断、按随机原则从总体中抽取样本单位、必然会产生误差。
2、参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。Θ表示总体参数。矩估计法英国统计学家皮尔逊,极大似然估计法由费雪提出。
3、样本容量与置信水平成正比,在其他条件下不变的情况下,置信水平越大,所需的样本容量就越大;样本容量与总体方差成正比,总体的差异越大,所需的样本容量就越大;样本容量与边际误差的平方成反比。第九章
1、假设检验的依据:在一个已知的假设下,若某个事件发生概率很小,通常认为,该假设不成立。
2、两类错误:把原假设真时拒绝原假设所犯的错误,即弃真的错误,称为第一类错误;原假设假时没有拒绝原假设所犯的错误,称为第二类错误。
3、在二项分布中,当n很大时,np和n(1-p)都大于5时,可用正态来逼近。第十章
1、变量的关系分两种:函数关系,变量之间保持着严格依存的关系,呈现一一对应的特征,例如圆面积与半径;相关关系,变量之间保持着不确定的依存关系。相关关系特点:现象之间存在着数量上的依存关系、现象之间数量的关系不确定与不严格的依存关系。
2、相关关系的分类:按其程度分为完全不相关、不完全相关与不相关;按相关的方向分正相关和负相关;按研究的数量的多少分单相关、偏相关与复相关;按其形式分线性相关与非线性相关。
3、相关分析:用指标去表现现象之间相关关系的方向与密切程度。回归分析:一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。回归有英国生物学家高尔顿提出的。
4、相关图的判断方法:P245。1.强正相关,即x增大,y显著地随之增大,.弱正相关,即x增大,y缓慢地增大 强负相关,即x增大,Y显著地减小;弱负相关,即x增大,y缓慢减小;非线性相关(又称曲线相关),即在某界限值之前x增大,y随之增大或减小,在此界限之后X增大,y又随之减小或增 ;不相关,即y不随x的增减而变化
5、相关系数的计算P248.