第一篇:社会统计学 社会学 测量尺度 复习资料 大纲 总结
1、四种测量尺度:
(1)定类尺度:按现象性质差异进行的辨别与区分。测量结果形成定类变量或指标。定类变量或指标确切的值是以文字表述的,可用数值标识,但仅起标签作用。各类别间是平等的,没有高低、大小、优劣之分。
分类的原则:穷尽性或无遗性;互不重叠或互斥性 属性:对称性;传递性
(2)定序尺度:按现象顺序差异进行的辨别与区分。测量结果形成定序变量或指标。定类变量或指标确切的值是以文字表述的,可用数值标识,但仅起标签作用。定序变量或指标各类别间有高低优劣之分,不能随意排列。
(3)定距尺度:按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或指标。定居变量或指标的值以数字表述,有计量单位可进行加减运算,不能进行乘除运算。各类别间有大小之分,但没有绝对零点。
(4)定比尺度:按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或指标。定比变量或指标确切的值以数字表述,有计量单位,可加减。有绝对意义上的零点,可乘除。
2、测量尺度的作用:(1)决定数据的整理、显示方法。(2)决定数据的分析方法。(3)决定计算机的处理方法。
3、对测量尺度的判断:测量精度、计算方法、信息数量
4、条形图和直方图的区别:
条形图:是以长方形的长度(宽度相同)来表示次数或百分率的多少,为求清楚长方形之间可以分开(当然也可以不分),宽度没有意义。
直方图:又称矩形图,以一个矩形的面积(长宽)表示每组数值的次数或百分率的多少。与条形图的不同。条形图的宽度没有意义,直方图的长度与宽度均有意义;直方图各个矩形要相连排列,条形图可以分开。
5、累加次数:累加次数就是把次数逐级相加起来,分为两种;一种是向上累加(cf↑),一种是向下累加(cf↓),其作用是使我们容易知道某值以下(或以上)之次数总和。向上累积表示由低层向高层累加。向下累积表示由高层向低层累加。
6、众值:众值(Mo)就是次数最多之值。对于定类变项,以众值作预测所犯的错误是最小的。众值适合于分析定类变项,也可以用来分析定序、定距变项的资料。
7、中位值:中位值(Md)就是在一个序列的中央位置之值,即高于此值的有50%的研究个案,低于此值的也有50%。即:按大小次序排列的N个数值的中间值。
注意:(1)如果N是奇数,中位数个案就是第(N+1)/2个个案。
(2)如果N是偶数,中位数就是第N/2个个案和N/2+1个个案之间的数值;如果两个中间的个案碰巧都是一样的数,那么中位数也就是那个数本身。
(3)可以利用累加次数寻找中位值
(4)根据分组资料计算中位值
Ncf2f)W
公式:Md=L+(L:中位值组的真实下限
f:中位值组的频数
CF:低于中位值组真实下限的累积次数
W:中位值组的组距
N:全部个案数目
8、均值:分数之和除以个案的总数目。习惯上用X来代表均值。
均值具有以下代数性质:(1)每一个记分数对均值的偏差的总和为0,即:(xi-x)=0(2)各数值对均值的偏差平方和小于任何其他数的偏差平方和,换句话说,就是:(xi-x)2=极小值
xx
根据原始资料求均值:
N
iix
根据频数分布求均值:fxffxf
x
根据分株数据求均值:
im
xm 为组中心值
二种情况一般不用均值:(1)开放间距
(2)存在极端个案
9、众值、中位值和均值比较
三值设计的目的是共同的,都是希望通过一个数值来描述整体特征,以便简化资料。它们都是反映了变量的集中趋势。一般说来:众值:适用于定类、定序和定距变量。中位值:适用于定序和定距变量。均值:适用于定距变量。
众值仅使用了资料中最大频次这一信息,因此,资料使用是不完全的。中位值:由于考虑了变量的顺序和居中位置,它和总体的频次分布有关。均值:由于它既考虑到频次,又考虑变量值的大小,因此它是最灵敏的。虽然均值对资料的信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。
(1)均值受极端值的变化影响;中位值则不受影响,除非中位值本身变化。
(2)均值随样本变化较少,与中位数相比,一般是比较稳定的量度;往往不同的样本之间,中位数 比均值有更大的差异。
(3)均值比较容易进行算术运算。
(4)计算均值以定距尺度为前提,中位数既可用于定序的,也可以用于定距的尺度。
对于对称的图形,众值、中位值和均值三者位置重叠,当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。
10、集中趋势测量法:找出一个数值来代表变项的资料分布,以反映资料的集中情况。集中趋势测量法有一个特殊意义,就是可以根据这个代表值来估计或预测每个研究对象(即个案)的数值。这样的估计或预测,由于所根据的数值最有代表性,故所发生错误的总和是最小的。
11、离散趋势测量法:指求出一个值来表示一个变项上的个案与个案之间的差异情况。
12、四分位差:检验中位数代表性高低;是定序及以上变量度量分散程度的一种方法。
注意:中位值两旁的Q1和Q3之间,共有50%的个案,其分布愈远离中位值,中位值代表性就愈小,以之作估计的标准所犯错误就愈大。
计算方法:将个案由低至高排列,然后分为四个等分(即每个等分包括25%的个案),则第一个四分位置的值(Q1)与第三个四分位置的(Q3)的差异,就是四分位差(简写Q),公式是Q=Q3-Q1。
(一)未分组数据:首先求出Q1与Q3的位置,公式是:Q1位置=(N+1)/4 Q3位置=3/4(N+1)(其中N是全部个案数目),然后求出相应的Q1和 Q3的值;最后
Q=Q3-Q1。
(二)根据分组资料求四分位差:第一步:计算累加次数(Cf↑);第二步:求出Q1和Q3位置,Q1位置=1/4N
Q3位置=3/4N;第三步:参考累加次数分布,决定Q1和Q3的位置应属于哪一组;第四步:从所属的组中,计算Q1位置和Q3位置的数值。
N3cf1Ncf344f1)W1
Q3=L3+(f3Q1=L1+()W3 L1=Q1属组之真实下限 L3=Q3属组之真实下限 f1=Q1属组之次数
f3=Q3属组之次数
Cf1=低于Q1属组下限之累加次数 Cf3=低于Q3属组下限之累加次数 W1=Q1属组之组
W3=Q3属组之组距 N=全部个案数目 例题:生产队的育龄妇女节育情况如下表,求四分位差。
13、定距变量离散程度测量:
极差(全距:R):最高与最低的记分数之差。优点:计算简单,一目了然,特别是对外行来说,极差是唯一可理解的离差量度。缺点:仅仅以两个个案为依据,而且是两个极端个案;随着样本变化而变化很大,一般来说大样本的极差比小样本更大一些。因此,极差难以真正反映资料全体的分散程度。
XX平均差:各记分数偏离均值的绝对差的算术平均数。
A.D=
N
严重缺点:(1)用绝对值不容易进行代数运算;(2)平均偏差既不容易做理论
上的阐释,又会导致较复杂的数学结论。
(XX)标准差:对均值的偏差平方的算术平均值的平方根。S=
2N 或者1S=NNX2(X)2
计算方法:取每个记分数对于均值的偏差,取每个差的平方,再相加取和,除以个案数目,然后取平方根。
明显的性质:(1)数据在均值周围的散布范围越大,标准差越大。(2)对于均值的极端偏差在决定标准差的数值方面具有最大的加权作用。如果分布中有很少极端个案而且数值可能非常大,标准差就会导致错误的结论。这种情况下可用中位数作为集中趋势的量度,用四分位差作为离差的量度。
对于分组资料,用组中值来代表变量值,标准差计算公式与上述相同。方差:标准差的平方。
14、标准分:它是以均值为基点,以标准差为度量单位,因此,各总体之间可以通过标准分进行合理的比z较和相加。xx
为标准差
标准分的意义:它是以均值为基点,以标准差为度量单位,因此,各总体之间可以通过标准分进行合理的比较和相加。
15、相关:是指一个变项的值与另一个变项的值具有连带性。即:如果一个变项的值发生变化,另一个变项的值也有变化,则两个变项就是相关了。
相关测量种类:
1、从变量或现象多少看,单项关和负相关
2、从变量变化的形式看,直线相关和曲线相关
3、从测量层次上看,定类——定类 定序——定序 定距——定距
定类——定序
定类——定距
定序——定距
16、交互分类:同时依据两个变项的值,将所研究的个案分类。
17、条件次数:表示在自变项的每个值(条件)的情况下依变项的各个值的个案数目(次数)。
18、边缘次数:表中表示总和的次数
19、条件次数表有大小之分。计算方法:依变项值数目乘上自变项值数目。
20、如果将依变项放于表的旁边,自变项放于表的上端,则表的大小就是横行数目(r)乘上纵列数目(c),即表的大小为R×C。
21、条件次数表的缺点:难于比较不同条件下的次数分布,因为作为基数的边缘次数各有不同。
22、条件百分表–––结论表制定原则:①每个表的顶端要有表号和标题。②绘表所用的线条要尽可能简洁。③在表的上层(即自变项的每个值之下)写上%符号,表示下列的数值都是百分率。④在下端的括孤内的数值,表示在计算百分率时所根据的个案总数。⑤表内百分率数值的小数位保留多少视研究需要,但要有一致性。
23、条件百分表里有自变项和依变相两类数据,常用的规则是:根据自变项的方向(即纵向百分比或列百分比)。但是,如果依变项在样本内的分布不能代表其在总体内的分布,则百分率的计算要根据依变项的方向,不在等比情况下抽样。
24、消减误差比例(PRE):表示用一种现象(x)来解释另一种现象(y)时,减少百分之几的误差。
E1E2E
1E1:表示在不知道X的情况下,预测Y值所产生的全部误差;E2:表示在知道X的PRE=情况下,可以根据X的每个值来预测Y值时产生的误差;E1-E2:表示在知道X的情况下用X预测Y,和在不知道X的情况下预测Y时相比所减少的误差。
25、如果E2=0,即标示以X预测Y不会产生任何误差,则PRE=1,反映X与Y是全相关;
如果E2=E1,即意味着以X预测Y所产生的误差等于不以X预测Y所产生的误差,则PRE=0,反映X与Y是无相关。
如:PRE=0.80,表示用X预测Y可减少80%的误差,反映两者相关程度很高。又如:PRE=0.08,就表示只能消减8%的误差,即X对Y的影响很小。(例题)
26、对于r×c表,有两类讨论方法。一类是以
值为基础来讨论变量的相关性。一类是以减少误差比例(PRE)为准则来讨论变量间的相关性。
27、Lambda相关测量法
基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时,如果以众值为预测的准则,可以减少多少误差。消减的误差在全部误差中所占的比例愈大,就表示这两个变项的相关愈强。
yx myMy=PRE
My=Y变项的众值次数;my=X变项的每个值之下y变项的众值次数;NMyN=全部个案数目。若以Y为自变量,X为依变量,则
xymxMxNMx
其中:Mx为x变项的众值次数;mx为y变项的每个值之x变项的众值次数;N为全部个案数目
如果是对称的情况,即:x与y可相互预测,不分自变项与依变项,则:
mmxy(MxMy)2N(MxMy)
Lambda 相关测量的性质:(1)系数的取值范围0<=λ,=1;(2)具有PRE意义;(3)对称与不对称的情况下,有不同的公式;(4)具有以众数作为预测的特点,不理会众数以外的分布;(5)当众数集中在一行或一列时,会使得λ=0,这是λ的灵敏度有问题。
28、Gamma等级相关(两个定序变量分析)
Gamma等级相关系数允许数据具有相同的等级。它的使用不受样本容量的限制。
同序对(NS):设单元A变量的X和Y具有等级(xi,yi),单元B变量的X和Y具有等级(xj,yj)。如果xi>xj,则yi>yj,则称A和B为同序对。同序对只要求X变化方向与Y变化方向相同,但并不要求A与B中X的变化量(xi-xj)与Y的变化量(yi-yi)相等。
异序对(Nd):设单元A的变量X和Y具有等级(xi,yi),单元B的变量X和Y具有等级(xj,yj),如果xi>xj,yi 同分对TX:如果单元A与单元B中,变量X具有相同的等级,则称X同分对。同分对Ty:如果单元A与单元B中,变量Y具有相同的等级,则称Y同分对。 同分对Txy:如果单元A与单元B中,变量X与变量Y等级都相同,则称X、Y同分对。 GG系数:NsNdNsNd Ns为同序对的数目。Nd为异序对的数目。 G系数不考虑同分对。如果在单元对中是以同序对为主,则变量x和变量Y正相关,反之为负相关。同序对和异序对数量之差,则反映了等级相关的程度。 G系数的特征: 1、G系数的取值范围:-1G1。 G=1,则Nd=0,即均为同序对。 G=0,则Ns=Nd,即同序对和异序对相等。 G=-1,则Ns=0,即均为异序对。 2、分母表示预测时可能犯的最大错误。分子表示的是可以减少的误差。 因此G具有PRE性质。 3、G属于对称相关测量法。 4、G系数不考虑同分对。 G 5、当定序变量只有两种等级时,则G系数有: f11f22f12f21f11f22f12f21 可见,当G系数不计及符号(或方向)时,与2*2列联表中的Q系数相同,所以Q系数可看作G系数的特例。 dyx相关测量法——萨默斯(Somers)dyx系数:Gamma系数是属于对称相关测量法。如果我们认为某定序变项是自变项(X),另一个变项是依变项(Y),最好是采用适宜于简化不对称关系的dyx系数。 dyx= NsNdNsNdTy(x是自变量、y为依变量) NsNdNNdTx(y为自变量、x为依变量)dxy=sNs是同序对数,Nd是异序对数,Ty是只在依变项y上同分的对数。 ①dyx 是非对称的测量:X→Y;②-1<=dyx<=1;③具有PRE意义。 29、回归(两个定距变量分析) 回归研究的是定距变量与定距变量之间的非确定关系。 回归分析法的目的,是要找出一个通过定距变量来预测另一个定距变量犯错误最小的方法。相关关系可以归结为两点:变量间存在着关系;这种关系是非确定的,或者说只存在着统计规律性。相关系数的描述:设有两个变量X和Y,当X变化时会引起Y相应的变化,但它们之间的变化关系是不确定的。如果当X取得任何一可能值Xi时,Y相应地服从一定的概率分布,则称随机变量Y和变量X之间存在着相关。 回归方程:由于确定的X=Xi,Y的均值也是确定的,因此X和均值Y之间就形成了确定的函数关系Y=f(x)。Y=f(x)称作Y对X的回归方程,可见,回归方程是研究自变量X不同取值的,因变量Y平均值的变化。 当因变量Y的平均值与自变量X呈现线性规律时,称作线性回归方程。 只有一个自变量时,称一元线性回归方程,记作:Y=bx+a。其中b称作回归系数、a称作回归常数。回归常数a表示回归直线的截距,即回归线与Y轴的交割点;回归系数b表示回归直线的斜率。 每一个真实Yi与回归线的关系是:yi=bxi+a+ei 其中yi是随机变量,ei是随机误差,由于ei的值是非固定的,从而使X和Y呈现非确定的关系。 如果所研究的变项都是属于定距测量层次,可以用简单直线回归分析法来以自变项的数值预测或估计依变项的值。30、积矩相关测量法(皮尔逊Pearson的积矩相关系数r)(xix)(yiy)cov(x,y)协方差:平均偏差。 n表示X和Y两变量观测值相对其各自均值所选成的共同 (xx)(yy)r(xx)(yy)相关系数(即标准化的协方差)Nxy(x)(y)rNx(x)Ny(y)简化公式: ii2ii22222 积矩相关系数r具有以下性质: 1、r系数假定x与y的关系是对称关系,即是对称测量,ryx=rxy。 2、适用定距测量层次。 3、取值范围[-1,+1] 注意:r<=0.2,社会学中一般认为不呈直线相关(经济学中为0.3);0.2 4、相关系数受变量取值范围的影响很大。 5、相关系数不因坐标原点的改变或单位的变化而变化。 6、相关系数R的平方具有PRE的意义。R2称为决定系数(或制定系数) 31、相关与回归的比较 相关和回归研究的都是变量间的非确定性关系,而且研究的都是其中的线性关系。但是两者研究的角度是不同的。 1.从研究关系性质看:回归是研究变量间的因果关系的,要建立模型Y=a+bX;相关关系则不一定具有因果关系,它们往往是伴随、共存的关系,当然也不排斥一方为主的情况。 2.从对称来看:相关关系是双向对称的,即X对Y的相关和Y对X的相关是一样的,即ryx=rxy。回归是不对称的:byx不等于bxy。 3.从两者的数量关系来看:回归直线中Y的变化,反映的是真实Y值平均值的变化(即B是集中趋势),而真实数据与回归直线分散的情况在Y=a+bX中是不反映的,相关系数R则正是表现了真实数据与回归直线靠拢程度,因此,R是离散趋势。通过回归方程,X可以预测Y,但无法回答预测的能力(或效果);R反映了预测效果的好坏;0<=R2<=1越大,效果越好。 R与b的区别:R对称测量, b非对称测量;R不受单位影响, b受单位影响;b反映回归强度,R反映预测效果,且R受取值范围影响很大;b反映集中趋势,R反映离散趋势,;-1<=R<=1,b没有区间限制;b反映因果关系,R反映相关关系。 R=标准化的回归系数。 32、统计推论分为两大类:1.参数估计,即通过样本对总体的未知参数进行估计。2.假设检验,即通过样本对总体的某种假设进行检验。 33、参数估计与假设检验的逻辑区别:参数估计,通俗的讲,就是根据抽样结果来合理地、科学地猜一猜总体的参数大概是多少?或者在什么范围?参数估计的逻辑是先看样本的情况,再问总体的情况。假设检验:先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。换言之,要先构思总体情况,才进行抽样和分析样本的资料。 34、参数估计有两种做法:点值估计(或称点估计);间距估计(或称区间估计)。二者都要求样本是以随机方法抽取的。 35、估计值的衡量标准:无偏性、有效性、一致性 36、区间估计:就是以两个数值之间的间距来估计参数值。 37、置信区间(可信间距):两个数值之间的间距,称为置信区间。例:我们用作为未知参数Q的估计值,-e,+e]或[-eQ+e] 那么区间为[QQQQ38、区间大小反映了估计值的准确性 39、置信度(可信度)或称作置信概率或置信系数,它表示用置信区间估计的可靠性,即置信区间内包含参数Q的概率。即:P(Q-eQQ+e)=1- 40、置信性水平(α),它表示用置信区间估计不可靠的概率。置信度与显著性水平之和为1。 41、置信区间与置信度之间的关系:在样本容量一定情况下,置信区间和置信度是相互制约的。置信度愈大(即估计的可行性愈大),则相应的置信区间也愈宽(估计的值愈不精确),精确度越高,置信度愈小,置信区间愈窄。 42、方差分析内涵、基本原理、假定条件,单因素方差分析中统计量、多重比较 一、算数平均数:某一总体值总体单位平均所得的标志值的水平,是反映集中趋势最常用、最基本的平均指标。 二、中位数:把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值。 三、平均差:各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。 四、标准差:各变量值对其算术平均数的离差平方的算数平均数的算数平方根,又称均方差。 五、方差:为标准差的平方。 六、众数:出现次数最多的变量值。用Mo表示。众数也是常用的反映现象集中趋势的代表性数值.七、在社会统计中,表达相关关系的强弱,削减误差比例的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。 八、皮尔逊相关系数:对于定距变量,根据其变量值的数学特征,我们自然可以引进更为精确的量化指标来反映它们之间的关程度。用来测量两个定距变量相关程度和方向的积差系数。它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。九、一元回归分析:关于X为自变量、Y为不确定的因变量的变量关系,其中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示的回归分析。 十、中心极限定理:从任意一个总体中抽取样本量为n的样本,当n充分大时(在社会现象中,指n≥50),样本均值的抽样分布近似服从正态分布。 十一、P 值(显著度):1.是一个概率值 2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 3.被称为观察到的(或实测的)显著性水平H0 能被拒绝的最小值 十二、置信水平:总体参数值落在样本统计值某一区间的概率,也称置信度 正态分布 1.由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出 2.描述连续型随机变量的最重要的分布,许多现象都可以由正态分布来描述 3.可用于近似离散型随机变量的分布 例如: 二项分布 4.经典统计推断的基础 原假设: 待检验的假设,又称“0假设” 备择假设:与原假设对立的假设,又称研究假设 十三、否定域:不大可能出现的结果 十四、异众比率:非众数的频数与总体单位数的比值 十五、总体参数值:关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。 十六、样本统计值:关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表。 十七、Z分数:原始数据与均值之间的大小,实际表达变量值距算术平均数有几个标准差。 十八、均值的标准误差:是样本均值的标准差,衡量的是样本均值的离散程度。而在实际的抽样中习惯用样本均值来推断总体均值,那么样本均值的离散程度(标准误)越大,抽样误差就越大。所以用样本均值的标准误来衡量抽样误差的大小。 十九、斯皮尔曼相关系数:主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。 二十、置信水平与置信区间的关系: 置信水平:总体参数值落在样本统计值某一区间的概率,也称置信度,或者说,总体参数值落在样本统计值某一区间的把握性程度。它反映的是绰约那个的可靠性程度。 置信区间:在一定的置信度下,样本值与总体值之间的误差范围。它所反映的是抽样的精确性程度。 二十一、区间估计与假设检验的关系: 1、区间估计 立足于大概率,用已知样本统计量和标准误差,确定一个有概率意义的区间(置信区间),可理解为正向求解问题。 2、假设检验 立足于小概率,利用反证法原理,首先依据两种可能性建立两种假设,再从第一种假设出发,计算出特定统计量,判断该种假设是否成立。 3、联系:区间估计和假设检验可以看作同一个问题的不同表达方式。区间估计和假设检验都是根据样本信息对总体参数进行推断,都是以抽样分布为理论依据,都是建立在概率基础上的推断,使用同一样本、同一统计量、同一分布,二者可以相互转换。 二十二、假设检验的理论基础: 采用逻辑上的反证法;依据统计上的小概率原理 假设检验的基本步骤:(1)、建立虚无假设和研究假设,通常是将原假设作为(2)、根据需要选择适当的显著性水平(3)、根据样本数据计算出统计值,并根据显著性水平查处对应的临界值。(4)、将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设。二 十三、中心极限定理的重要性:中心极限定理对大样本均值正态分布性质的揭示,为未知总体的研究奠定了理论基础。 二十四、标准差与标准误差的区别: 1、标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度; 2、标准误差是样本均值的标准差,衡量的是样本均值的离散程度。 二十五、置信水平与置信区间的关系: 1、置信水平表示总体参数值落在样本统计值某一区间的概率,也称置信度。用(1-α)表示。 2、置信区间指在一定的置信度下,样本值与总体值之间的误差范围,反映抽样的精确程度。 使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较小的置信水平则会得到一个较准确(较窄)的区间。 当置信水平1-α=0.90时,Zα/2=1.65;1-α=0.95时,Zα/2=1.96;1-α=0.99,Zα/2=2.58 二 十六、相关关系与因果关系的联系与区别: 区别: 1、相关关系是指两个以上的变量的样本观测值序列之间表现出来的随机数学关系,用相关系数来衡量。 2、因果关系是指两个或两个以上变量在行为机制上的依赖性,结果变量由原因变量决定,原因变量的变化会引起结果变量的变化。有单向因果关系和互为因果关系之分。 联系:具有因果关系的变量一定具有数学上的相关关系,而具有相关关系的变量不一定有因果关系。 二十七、公式: 1、皮 尔 逊 相 关 系 数 : 2、回归方程: 3、置信区间相关公式(双侧检验):(1)、对于大样本的总体均值在1-α置信水平下的置信区间为: σ为总体标准差,S为样本标准差,当σ未知,用S来替代。(2)、对于小样本且σ未知时: (3)、总体比例在1-α置信水平下的置信区间为 (4)、在抽样分布中: 1、Z作为检验大样本统计量,σ未知时: 2、t作为小样本检验统计量时,σ未知: 当计算的Z值或t值等于或大于显著性水平下的Z值和t值,那么否定零假设。 体育社会学,是一门把体育这种社会文化现象作为一个不断发展的整体,在外部研究体育与其他社会现象之间的关系,在内部研究体育与人的社会行为、社会观念的关系,以及体育运动的结构、功能、发展动力和制约因素,用以推动体育和社会合理发展的综合性的科学 体育现象扩大化的表现 1体育的国际化与全球化趋势2体育文化的普及3体育于大众传播媒介的高度结合4体育的大众化与平民化发展 体育现象的复杂的表现 1大量经济活动介入体育之中2体育现象的社会政治化3体育社会问题的广泛出现 体育社会学研究的基本内容1研究体育的社会结构、特点及社会的相互关系2研究体育社会学的理论和体育社会问题3不同体育形态的研究 社会学的三个研究对象1社会2个人及其社会行为3人与社会的关系 社会学的研究领域1群体单位:家庭、城市民族等2社会制度:经济、政治、教育等3社会过程:合作、竞争、战争等 中国体育改革的四个特征 1紧迫性2渐进性3滞后性4长期性 体育社会研究应坚持的原则1坚持实事求是的观点2运用辩证法的特点3运用系统的观点4社会基本矛盾的观点5为人民服务的观点 体育社会学的研究意义1推动社会发展、促进体育繁荣2为政府的体育决策提供依据3为体育事业管理提供依据4引导家庭与个人对体育的参与 体育社会学研究的步骤1选题和提出假设2研究设计3收集资料4处理和分析资料5阐述结果以验证假设 影响选题的几种因素1研究模式2价值观念3方法论 体育社会学研究的课题类型 1社会现状调查2评估体系研究3社会心理分析4影响因素分析5新概念开发6专家预测7比较分析8历史回顾研究9跟踪调查 测量的层次1定类2定序3定比 现代调查研究方法的特点1科学化2系统化3定量化 提问题的顺序1敏感性和开放性的提问放在后面2容易回答的问题放在前面3对后面的问题有启发意义的可安排在前面4问题的安排要有逻辑性5避免形成回答定向6将检查新都的问题分开7处理好列联问题 提问题的注意事项 1问题不能带有倾向性、诱导性2不要用否定式提问3问题要避免双重含义 问卷设计的注意事项 1要围绕着调查目的去设计2设计问卷应该使用清晰、明确、简单的语言,问题不要过多,以不超过30个问题,在半小时内可以回答完为宜3设计问题要避免带有感情色彩,尽量做到客观,以减少偏误4问卷最好匿名回答 影响问卷回收的因素 1调查主办者的权威性2问卷版式的吸引性3问卷的长度4要求合作的附设的质量5填表及回寄的难易程度6为回复提供的利诱如何7调查对象的特点8邮寄的方式9邮寄的日期10催促新的性质 体育对经济的作用1对劳动者的素质的提高2对企业文化的建设3体育产业的形成与发展对国民经济的促进作用 社区 指一定地域内,按一定的社会制度和社会关系组织起来的、具有共同人口特征的地域生活共同体 社区体育,指以社区为区域范围,以辖区内的自然环境和体育设施为物质基础,以社区成员为主体,以满足社区成员的体育需求,增进社区感情为主要目的,就地就近开展的区域性体育。 社会分层 指社会中的人被区分为高低有序的不同等级、层次的过程和现象 社会变迁 指一切社会现象发生变化的动态过程及其结果 社会变迁的内容 1自然环境引起的社会变迁2人口的变迁3经济的变迁4社会结构的变迁5社会价值观念和生活方式的变迁6科学技术的变迁7文化的变迁 社会变迁的类型 1整体变迁与局部变迁 2社会进步与社会倒退3社会进化与社会革命4自然性社会变迁与有计划的社会变迁 社会变迁对体育的影响 1经济变迁可以改变体育的发展方向和规模2社会制度的变迁可改变体育的性质和体育的价值观念3社会的科技变迁可以加速体育的发展4社会变迁的方向决定了体育的发展目标和功能5社会的文化变迁可以形成体育的文化类型 体育运动与社会生活的联系 1经济联系2与人的联系3社会活动联系4精神文化联系5体育与自然环境 社会对体育的软控制1风俗对体育的控制2到得对体育的控制3信仰和信念 社会流动 指社会成员从一种社会地位向另一种社会地位,从一种职业想另一种职业的转变过程 体育社会流动的趋势 1水平流动越来越频繁2向上流动多与向下流动3非自然流动、结构性流动增加4体育人才个人一生中流动增加,范围加大速度加快5流动中的经济因素增加 人口数量与体育的关系 1社会人口数量过多,会造成体育资源分配的严重不足2学校学生数量过多,造成人均体育教师数量,人均体育经费,人均体育场地面积和人均体育器材设施数量的严重不足3家庭子女数量过多也不利于体育的发展 人口质量的直接指标 1人口平均预期寿命2人口的疾病死亡谱3残疾人所占的比例4青少年生长发育指标5教育水平指标6体育水平指标 体育人口是指在一定时期,一定地域里,经常从事身体锻炼、身体娱乐,接受体育教育、参与运动训练和竞赛,以及其他与体育事业有密切关系的、具有统计意义的社会群体 我国体育人口的结构1性别结构2年龄结构3城乡、职业结构4家庭经济结构 竞技体育的特点1竞争是竞技体育的灵魂2运动竞赛的结果具有预先不可确定性3具有竞赛规则、裁判与仲裁手段4竞技体育追求既定的功利目标,传播和宣传某种价值观念5竞技体育具有完整的组织体系和严格的规章制度 竞技体育的社会文化价值1竞技体育是一种庄严肃穆的礼仪庆典文化2竞技体育是记录人类潜能的人体文化3经济体育是提高社会道德水平的规范文化4经济体育是提高审美意识的情感文化 群体 指通过一定社会关系结合起来进行共同活动的集体,是人们社会生活的具体单位 群体的要素 1具有联系纽带2具有共同的目标和活动3具有群体规范4具有群体意识 体育群体 指为了达到某种体育的目的,而自发的或认为地组织起来的具有结构性特征的小群体 体育群体的特征1以体育为共同目标2以体育实践为共同的基本活动方式3成员对某种体育活动项目或某种体育手段具有强烈而稳定的兴趣4开展对外的竞赛活动5内部具有分工或分层 按群体从事的体育活动性质把体育群体分为1体育学习群体2竞技体育群体3健身娱乐群社团就是具有某些共同特征的人相聚而成的互益组织 体育社团是社会团体的重要类别,也是对体育活动的重要的组织形式之一 体育社团的性质1民间性2非盈利性3互益性4同类相聚性 构成体育社团的条件 1一定数量的较为固定的成员2特定的体育目标3明确的行为规范4权力结构5一定的物质设备6适宜的外部环境7一定的社会承认 体育社团的种类1竞技体育类社团2社会体育类社团3体育科学学术社团4体育观众社团5体育娱乐享受型社团6体育经济型社团 文化的性质1文化的继承性2文化的时代性3文化的民族性4文化的世界性5文化的阶级性 中国文化的特质1统一性2连续性3非宗教性4泛道德性5中庸和平6乡土情谊 体育文化是关于人类体育运动的物质、制 度、精神文化的总和 为什么说体育是一种文化 1体育是人类,也只有人类才能创造出来的一种社会活动2体育运动具有文化的各种特征3体育运动不仅有它外在的身体活动形式以及设施、器材等物态体系,而且具有内在的价值观念、意识形态,行为规范等 体育文化在文化中的地位体育作为一种独立的文化形态,它的作用是其他任何文化形态所不能取代的,甚至其他文化形态的发展,还不得不从体育文化中借鉴、迁延某些具有特质的东西。因此体育一旦成为当代文化的重要组成部分,它的存在和发展,有助于完善和健全社会文化,也有利于人类自身的协调发展 社会化的内容1传授基本知识技能2教导社会行为规范3指点生活进取目标4培养适当社会角色 体育社会化的功能1身体教育、运动教育与生活技术、技能传授2体育运动与社会规范教育3体育运动与社会价值观念体系4体育运动与社会角色习得5体育运动与个性的形成和发展 素质教育是以促进学生身心发展为目的,以提高国民的思想道德、科学文化、劳动技术、身体心理素质为宗旨的一种教育 体育对科学技术的贡献1体育实践是检验科学技术成果的标准之一2体育科学是重要的科学门类之一3运动技术是一种特殊的技术 知识经济对体育发展的影响1在只是经济时代,竞技体育的实力将转化为各种不同质的知识产品的智力,其竞争手段主要依靠技术创新以及创新技术的推广能力2对体育人才的争夺与培养、体育科学知识的创造,体育科学知识产权的保护,将成为未来社会体育运动的焦点3在追求知识劳动放大的知识经济社会,计算机系统和计算机网络系统将成为强有力的工具,体育活动中的大量常规性的、逻辑性智力活动将交给电脑去完成体育科学化的发展趋势1体育科学体系更加完整2体育科研的管理体制更加完善3科学技术成果在体育领域的广泛使用4运动处方科学是体育科学化的重要标志5体育科学与反科学、伪科学之间的斗争更加有力 大众传播媒介的功能1赋予人物、时间和社会活动以某种社会地位2社会控制的中介作用3模拟社会环境 大众传播媒介与体育的关系1大众传播媒介影响力人们的体育态度与行为2大众传播媒介缩短了体育活动与人们的社会距离3大众传播媒介使体育运动的传播速度加快,社会覆盖面加大4大众传播媒介为体育树立形象5大众传播媒介为社会提供提与娱乐,改变人们的生活方式6体育运动通过大众传播媒介大众传播媒介可以吸引社会注意力7大众传播媒介促进体育产业和体育市场的发展8体育运动是各种大众传播媒介进行新闻战的争夺内容 社会问题指社会关系和社会环境失调,影响社会成员或部分成员的生活,破坏社会正常运行,妨碍社会协调发展,需要依靠社会力量加以解决的问题 社会问题的特性1普遍性2变异性3复合性4周期性5潜伏性 体育社会问题出现的必然性1社会基本构成要素相互关系的失调造成了体育社会问题2由于人们的社会关系失调,以及参与体育运动的各种利益群体都会因利益的追逐和分配产生种种矛盾3由于制度与体制的失调带来的社会问题4我国当前正处在一个剧烈变革的历史时期 体育社问题的特点1体育社会问题是多层面的,大多发生在伦理层面、管理层面,但有时也可能上升为法律问题2体育社会问题比一般社会问题有较大的局限性,其危害要小些3体育社会问题寄生与体育文化现象,它的产生与社会的体育价值观念、体育管理水平关系较大 我国的体育社会问题1高水平竞技体育与学校体育、群众体育失衡问题2竞技体育队伍的文化素质偏低的问题3侵占体育场地设施问题 体育社会问题的解决途径1大力发展体 育事业与产业,增加社会体育资源2着眼于体育体制的改善和完善4建立社会“安全阀”机制 体育运动对民族的作用1强身健体增强民族体质2竞技体育振奋民族精神3我国民族体育之花长盛不衰 体育与宗教的本质对立1宗教与体育对人的态度是根本对立的2宗教与体育在人的身心统一问题上存在根本分歧3宗教与体育在“现实生活”上存在对立 社会体育指职工、农民和街道居民自愿参加的、以增进身心健康为主要目的的、内容丰富,形式灵活的体育活动 社会体育的特点1社会体育的广泛性2社会体育的多样性3社会体育的灵活性4社会体育的业余性 社会体育的发展趋势1社会体育的普及化程度将有较快的发展2社会体育将全面走向社会化3社会体育的科学化水平将有较大的提高4社会体育呈多样化发展的格局 我国社会体育的价值取向1满足社会成员的多种需要2社会体育是建设精神文明的必不可少的社会活动3社会体育是一种特殊的社会生产力 社会体育的制约因素1生活方式与生活质量2体育场地设施3参与者体育价值观念和态度 社会现代化的标准1人均国民生产总值达3000美元以上2农业产值在国名经济生产总值中所占的比重不超过12%至15%3服务业产值在国民生产总值中所占的比重超过45%4非农业就业人口在总就业人口中所占的比例超过70%5有文化的人口在总人口中所占的比例超过80%6青年适龄年龄组中上大学的人数比例超过10%至15%7城市人口占总人口比例超过50%8平均每个公民一生负担的人口在1000人以下9平均预期寿命在70岁以上10人口的自然增长率为1%以下 体育运动对社会现代化的贡献1体育是现代教育的组成部分2体育维护了社会健康3体育参与了社会文化的建设4体育推动了城市建设的现代化5体育推动高科技的发展 生活方式是社会整体结构及其运行状况具体而生动的反映形式,对它的研究有助于人们了解社会运行的规律 影响生活方式的因素1生产方式是生活方式的前提2不同的社会制度形成不同的生活方式3自然地理环境也决定了人们的生活方式4经济发展水平决定了人们的生活水平5文化传统对生活方式产生着久远的影响 生活方式的构成要素1行为习惯2生活时间3生活节奏4生活空间5生活消费 现代生活方式的健康隐患1环境破坏2营养过剩3运动不足3解剖结构与生理机能的退化5生活危险6高度紧张 体育与生活方式的改善1提高生活品位的体育消费2体育运动充实了生活时间3体育活动是快速生活节奏的心理调节器4体育运动扩展了人们的生活空间 第一章 2选1 总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 总体population根据研究目的而确定的同质观察单位的全体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 样本sample从总体中随机抽得的部分观察单位,其实测值的集合。 3选1 小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。 P值:P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义,P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。P值是: 1)一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。2)拒绝原假设的最小显著性水平。3)观察到的(实例的)显著性水平。 4)表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。 小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。 资料的类型(3选1) (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(10/L)、脉搏(次/分)、血压(KPa)等。 计量资料measurement data定量资料quantitative data数值变量资料numerical variable 为观测每个观察单位某项指标的大小,而获得的资料。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。 计量资料enumeration data定性资料qualitative data无序分类变量资料unordered categorical variable 名义变量资料nominal variable 为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。12等级资料ranked data半定量资料semi-quantitative data有序分类变量ordinal categorical variable资料 为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位后而得到的资料。 等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。 等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。两种误差(2选1) 抽样误差(sampling error)由于抽样而引起的总体指标(参数)与样本指标(统计数)之间的差异。抽样误差是由个体变异或其它随机因素造成的,是不可避免的,但误差分布有规律可循,可进行估计和分析。 系统误差(systematic error):由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。 统计的步骤(考填空题,四个空) 统计工作的步骤 1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的一环,是今后工作应遵循的依据。 2.收集资料:应采取措施使能取得准确可靠的原始数据。 3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。 4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。 实验设计的基本原则(考填空题,三个空)随机化原则、对照的原则、重复的原则。2选1 参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数 是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样 本,用算得的样本统计量估计未知的总体参数。 统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本 统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机 变量。 第二章 频数表的制作步骤以及频数分布表的用途(问答题)频数分布表的编制步骤: 例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。 114.4 117.2 122.7 124.0 114.0 110.8 118.2 116.7 118.9 118.1 123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0 119.8 116.8 119.8 122.5 119.7 120.7 114.3 122.0 117.0 122.5 119.7 124.9 126.1 120.0 124.6 120.0 121.5 114.3 124.1 117.2 120.2 120.8 126.6 121.5 126.1 117.7 124.1 128.3 121.8 118.7 1、找出观察值中的最大值(largest value)、最小值(smallest value),求极差(range)。 极差等于最大值减最小值。本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm) 2、确定分组数和组距(class interval)。 组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。组距为相邻两组的间隔,组距=极差/组数。本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。 3、确定组段。 第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。最后组段包括最大值并写出其上限值。 4、划记。 将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。 5、统计各组段的频数。全部数据划记完后,清点各组段的人数。 根据编制出的频数表即可了解该数值变量资料的频数分布特征。频数分布表的用途 1、描述资料的分布特征和分布类型。 频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。 2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。 3、发现特大、特小的可疑值。 如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。 4、据此绘制频数分布图。 描述数据分布集中趋势的指标和描述数据分布离散程度的指标(考选择或者填空) 2. 描述数据分布集中趋势的指标 算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 极差、四分位数间距、方差、标准差、变异系数。正态分布的特征(考选择题 υ、σ对图形的影响) 服从正态分布的变量的频数分布由υ、σ 完全决定。 (1)υ 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 x =υ为对 称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ。(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数 据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲 线越瘦高。 标准正态分布(填空) 1.标准正态分布是一种特殊的正态分布,标准正态分布的υ 常用u(或Z)表示服从标准正态分布的变量,记为υ~N(0,1)。 正态分布的应用(简答) 某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。 1.估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。 2.制定参考值范围 (1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。 (2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。 3.质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。4.正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。 医学参考值范围的制定(计算题) 确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。确定百分位点:一般取95%或99%。 20,σ2 1,通 例题 某市 20 岁男学生 160 人的脉搏数(次/分钟),经正态性检验服从正态分布。求得76.10,S =9.32。试估计脉搏数的95%、99%参考值范围。 解:脉搏数的95%正常值范围为:脉搏数的99%正常值范围为: ±1.96 S=76.10 ± 1.96(9.32)=57.83~94.37 ±2.58 S =76.10 ± 2.58(9.32)=52.05~100.37 第三章 = 标准误的概念,计算公式。标准误:抽样研究中,样本统计量与总体参数间的差别称为抽样误差(sampling error)。统计上用标准误(standard error,SE)来衡量抽样误差的大小,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。 t分布的图形特征及其与正态分布的区别(简答)t分布的图形特征 1.以0为中心,左右对称的单峰分布; 2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。 t分布 对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。 t 分布与正态分布比较的区别 t 分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t 分布峰值较低,而尾部较高;③随自由度增大,t 分布趋近与标准正态分布;当ν趋向∞,t 分布的极限分布是标准正态分布。 置信区间和参数估计(名解2选1) 置信区间:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。给出的是被测量参数的测量值的可信程度。 1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。 2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。 3、该区间包含了参数θ真值的可信程度。 4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。 参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。 可信区间与参考值范围的不同点(简答) 应注意:可信区间与参考值范围的意义、计算公式和用途均不同。 1.从意义和用途来看 95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。2.从计算公式看 若指标服从正态分布,95%参考值范围的公式是: ±1.96s。 总体均数95%可信区间的公式是:。 前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。t检验的应用条件和类型(填空) t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。t检验的类型:单样本t检验,独立t检验,配对t检验 配对设计和完全随机设计(名解2选1) 完全随机设计(completely random design):完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。 配对设计(paired design):是将受试对象按一定条件匹配成对,再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。 假设检验的基本求解步骤或者注意事项。(简答2选1) 假设检验的基本步骤 1.建立假设,确定检验水准α 假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设。H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。2.根据研究目的和设计类型选择适合的检验方法 这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。对双样本资料,要注意区分成组设计和配对设计的资料类型。如果资料里有“配成对子”字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。3.确定P值并作出统计结论 u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。方差分析得到的是F统计量或称F值。将求得的统计量绝对值与界值相比,可以确定P值。当α=0.05时,u值要和u界值1.96相比较,确定P值。如果u<1.96,则P>0.05.反之,如u>1.96,则P<0.05.t值 要和某自由度的t界值相比较,确定P值。如果t值<t界值,故P>0.05.反之,如t>t界值,则P<0.05.相同自由度的情况下,单侧检验的t界值 要小于双侧检验的t界值,因此有可能出现算得的t值大于单侧t界值,而小于双侧t界值的情况,即单侧检验显著,双侧检验未必就显著,反之,双侧检验显著,单侧检验必然会显著。即单侧检验更容易出现阳性结论。 当P>0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。当P<0.05时,拒绝零假设,接受备择假设,认为差异有统 计学意义,也可以理解为二者存在质的区别。但即使检验结果是P<0.01甚至P<0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。 假设检验时应注意的事项 (一)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡性和资料的可比性。 (二)根据现有的资料的性质、设计类型、样本含量大小正确选用检验方法。 (三)对差别有无统计学意义的判断不能绝对化,因检验水准只是人为规定的界限,是相对的。差别有统计学意义时,是指无效假设h0被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒h0,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;同样,若不拒绝h0,可能产生第二类错误。 (四)统计学上差别显著与否,与实际意义是有区别的。如应用某药治疗高血压,平均降低舒张压0.5kpa,并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kpa是无临床意义。因此要结合专业作出恰如其分的结论。 第一类错误与第二类错误(名解 2选1) Ⅰ型错误又称第一类错误(type Ⅰ error):拒绝了实际上成立的,为“弃真”的错误,其概率通常用表示。可取单尾也可取双尾,假设检验时研究者可以根据需要确定值大小,一般规定=0.05或=0.01,其意义为:假设检验中如果拒绝Ⅰ型错误的概率为5%或1%,即100次拒绝 时,发生的结论中,平均有5次或1次是错误的。,为“存伪”Ⅱ型错误又称第二类错误(type Ⅱ error):不拒绝实际上不成立的的错误,其概率通常用 表示。 只取单尾,假设检验时 值一般不知道,在一定情况下可以测算出,如已知两总体的差值(如)、样本含量和检验水准。以下图说明两类错误: 第四章 为什么等级资料不可用方差分析?资料不相互独立 方差分析的基本思想 应用条件(简答) 方差分析(analysis of variance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sum of squares of deviations from mean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数有无影响。 方差分析的应用条件 (1)各样本是相互独立的随机样本,且来自正态分布总体。 (2)各样本的总体方差相等,即方差齐性(homoscedasticity)。 第五章 分类资料的统计描述(几个常用相对数指标 填空题)率(强度相对数,频率相对数)、构成比、相对比 应用相对数时应注意的问题(简答题 六条)⑴ 计算相对数的分母一般不宜过小。⑵ 分析时不能以构成比代替率。 ⑶ 不能用构成比的动态分析代替率的动态分析。 ⑷ 对观察单位数不等的几个率,不能直接相加求其总率。⑸ 在比较相对数时应注意可比性。 ⑹ 对样本率(或构成比)的比较应随机抽样,并做假设检验。率的标准化的基本思想,应注意的问题(分析题) 率的标准化的基本思想 : 要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。 标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。 二、直接标准化法的计算方法 当已知所比较资料各组率Pi,可选用直接法计算标化率。 三、间接标准化死亡比的计算方法 当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。 第六章 二项分布,Piosson分布 在什么条件下接近正态分布(选择或填空) 第七章(考计算题) 配对与完全随机设计下的四格表的计算 列四格表 公式选择 给个例题把 为研究静脉曲张是否与肥胖有关,观察 122 对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况见表8-2,试分析之。 [评析]这是一个配对设计的资料,因此用配对 检验公式计算。 第八章 参数统计与非参数统计(名解 2选1)1. 参数统计 样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。 2. 非参数统计 样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics),或称为不拘分布(distribution-free statistics)的统计分析方法,又称为无分布型式假定(assumption free statistics)的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。 非参数统计的特点和适用范围(简答)1.特点 (1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。(2)收集资料方便,可用“等级”或“符号”来评定观察结果。 (3)多数非参数方法比较简便,易于理解和掌握。 (4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。 2.适用范围 (1)等级资料。 (2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。 (3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。 (7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。 非参数检验的优缺点:(简答) 非参数统计与传统的参数统计相比,有以下优点: 1、非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。 2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。 3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。 4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。 5、当推论多达3个以上时,非参数统计方法尤具优越性。 但非参数统计方法也有以下缺点: 1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。 2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。注 意: 凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。当资料不具备参数检验的条件时,非参数检验是一种有效的分析方法。 配对设计的符号秩和检验方法(简答)(1)假设:H0:差值总体中位数Md=0 H1:Md≠0 α =0.05(2)求差值 (3)编秩次:依差值的绝对值从小到大编秩次。编秩次时遇差数等于 0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。 (4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量T。 (5)确定 P 值和作出推断结论:当 n≤50 时,查 T 界值表,得出 P值。若检验统计量T值在上、下界值范围内,其 P值大于表上方相应概率水平;若 T值在上、下界值上若范围外,其 P值小于表上方相应概率水平。 第九章 线性相关系数(名解) 线性相关系数:表示两个变数线性相关方向及程度的统计数或参数。又叫直线相关系数,简称相关系数。,|R|的极值为1,|R|越大(接近1),则直线关系越好。 线性相关系数取值范围(填空) -1≤r≤1 样本相关系数 r的假设检验(填空题)(1)r 界值表法;(2)t检验法。 线性相关或回归应用应注意的问题(简答) ⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。 ⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。 ⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。 ⑷双变量的小样本经 t 检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。 ⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。 秩相关的应用适用范围(简答) 秩相关,又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用于下列资料: ⒈ 不服从双变量正态分布而不宜作积差相关分析; ⒉ 总体分布型未知; ⒊ 用等级表示的原始数据。相关与回归的区别与联系(简答)区别: 1.意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 4.相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。 联系: 1.r与b值可相互换算; 2.r与b正负号一致; 3.r与b的假设检验等价; 4.回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。 回归系数的估计原则:最小二乘(least squares)原则(填空)应用直线回归时的注意事项(简答) 应用直线回归时的注意事项: 1.作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。2.在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。 3.建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。 4.直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。 从社会学本科,到Stanford统计学硕士,我的2018申请总结(世毕盟学员) 随着大数据的火热,统计类专业申请的竞争也是一年一年水涨船高。相比科班出身的同学,转专业申请的难度也日益加大,很多同学或许会迷茫想要转专业到底应该如何准备。在此我结合个人的申请经历为后来的同学提出一些建议,希望能有所参考。 世毕盟留学:www.xiexiebang.com 志存高远,与优秀的人为伍,脚踏实地,人生必定辉煌。 一、课程补充 一般而言,掌握微积分、线代和概统是最基本的,编程方面R和Python用的较多,学有余力的同学可以选修数据结构、机器学习等课程。不同项目对于学生课程背景的要求不同,例如,有的学校要求A strong mathematics background, especially in probability, statistics and linear algebra;有的要求Two semesters of calculus based probability and mathematical statistics、One course in linear regression analysis、One course in matrix algebra… 可自行去各个学校的官网查看,并有针对性的弥补自己的弱项。 对于低年级的同学,有条件选修数学或统计类的双学位是最好的,现在统计学申请也很偏好计算机背景的同学,也可以考虑修个计算机相关的学位。此外,可以在学校或网上选修相关课程并用一个不错的成绩来证明自己的数学能力,但是网课成绩的效力如何就不得而知了。 二、科研/实习 转专业的同学相比科班出身的同学而言在专业背景上处于劣势,更加需要通过科研或实习来弥补自己背景上的弱势,增加申请的竞争力。对于转专业的学生,在找校内科研或者海外暑研上,不一定非要在数学系或统计系下,也可以试着找找其他学科和统计相关的交叉科研,如计量经济学相关、计算社会科学相关、教育统计、心理统计等等。 很建议大家在大二或大三的暑假去海外高校进行暑研:一方面可以提前感受海外高校的研究和学习氛围,另一方面海外导师的推荐信认可度也更强。而在实习方面,有相关的经历也是很加分的,但是我自己准备申请较晚没有来得及找,无法给出建议,可以找专业的世毕盟导师们咨询看看! 世毕盟留学:www.xiexiebang.com 志存高远,与优秀的人为伍,脚踏实地,人生必定辉煌。 三、语言考试 理工类专业对托福/GRE的要求并不高,语言考试只是基本门槛,过了线一般就不看了。通常来说105+/325+的成绩会比较稳妥,不需要在语言考试上花太多时间,建议早点考掉结束战斗,以免耽误后面的申请进度。同时,对于硕士申请者而言,GRE math sub不是必须的,可以不考。 四、选校建议 如果你和我一样也是完全没有数学类相关双学位、纯粹以社科背景申请统计类专业的同学,请做好被连环拒到怀疑人生的准备,毕竟大多数学校还是比较看重专业出身的,同时由于大数据方向的火热,统计/数据科学类申请的竞争非常激烈,转专业申请的确比较玄学。建议选校上以课程设置偏应用的项目为主,同时穿插一些对文商科同学比较友好的交叉项目来增加录取概率,避免失学。 五、致谢 最后,非常感谢申请季世毕盟一路的耐心帮助!尤其是在文书润色上,培训师和mentor一次次meeting给出最细致专业的修改建议。同时,GGU native speaker team的高效也令人印象深刻,在申请季最忙的时候,应对网申过程中遇到的一堆琐碎文书要求,都可以保证在2天左右完成文书的润色,在推进申请进度上帮了大忙!此外,也非常感谢我的培训师和mentor姐姐们面对我申请过程中的各种问题事无巨细的及时解答和一路上的支持鼓励,多谢你们,慌张的申请季也安心了不少。 世毕盟留学:www.xiexiebang.com 志存高远,与优秀的人为伍,脚踏实地,人生必定辉煌。第二篇:社会统计学总结
第三篇:考研体育社会学总结复习资料
第四篇:医学统计学_总结_重点_笔记_复习资料
第五篇:从社会学本科,到Stanford统计学硕士,我的2018申请总结(世毕盟学员)