第一篇:常用的统计量抽样分布总结
常用的统计量抽样分布
一.正态分布 1n
1.XiEX ni1
1n1n2222.SXin]DX (Xi)n1[n1i1i12
3.定理:
X~N(,2),X1,X2,,Xn为X的样本,则(1).~N(,(n1)S22n),(2).2~2(n1),(3).与S2相互独立。
二.2分布
1.定义
设X1,X2,,Xn独立同分布,且~N(0,1),则Xi2~2(n)2
i1n
2.性质:
Y~2(n2),(1).若X~2(n1),且X,Y独立,则X+Y~2(n1n2)。
(2).若X~2(n),则EXn,DX2n。
三.t分布
1.定义
设X~N(0,1),Y~2(n),且X,Y独立,则T
2.定理:
设X1,X2,,Xn独立同分布,且~N(,2),则 X~t(n)。
()()
Sn
nS
(n1)S
~t(n1)
2
~N(0,1),1
(因为
3.定理:
(n1)S2
n
~2(n1))。
设X1,X2,,Xn1为总体X~N(1,2)的样本,Y1,Y2,,Yn1为总体Y~N(2,2)的样本,且X,Y独立,则
()(12)Sw
w
11n1n2
~t(n1n22),其中
(n11)S12(n21)S2
S。
n1n22
证:因为
(n11)S12
~(n11),(n21)S2
~2(n21),所以
(n11)S12(n21)S2
2
~2(n1n22);
又~N(1,2
n1),~N(2,2
n2),所以~N(12,2
n1
2
n2),所以
()(12)
11n1n2
/
~N(0,1),所以
()(12)Sw
11n1n2
()(12)
11n1n2
(n11)S12(n21)S2
2
/(n1n22)
~t(n1n22)。
四.F分布 1.定义
U
设U~2(n1),V~2(n2),且U,V独立,则F2.定理:
设F~F(n1,n2),则3.定理:
设X1,X2,,Xn1为总体X~N(1,12)的样本,~F(n2,n1)F
V
~F(n1,n2)。)的样本,且X,Y独立,则 Y1,Y2,,Yn1为总体Y~N(2,2
S12/12
F22~F(n11,n21)。
S2/2
常用的统计量抽样分布示例
例1 设X1,X2,X25是来自总体X~
1的一个样本,则Xi服从
i1
225分布;
例2设随机变量X1,X2,X3相互独立,X1~N(0,1),X2~N(0,),X3~
1222
N(0,),则X122X2服从(3)分布。3X3
例3 设总体X服从N(0,2),而X1,X2,,X15为来自总体X的简单随机样
X12X2X10
本,则随机变量Y服从F(10,5)分布。22
2(X11x15)
例4 设随机变量X,Y相互独立且都服从N(0,3),而X1,X2,,X9和
Y1,Y2,,Y9为分别来自总体X和Y的简单随机样本,则统计量
U
X1X2X9
Y
服从t(9)分布。
例5 设X1,X2,,Xn(n2)为来自总体N(0,1)的简单随机样本,X是样本均
值,S是样本方差,则
(A).nX~N(0,1)(B)nS~2(n)
(n1)X12(n1)X
(C).~t(n1)(D)~F(1,n1)n
S
Xi2
i2
解:
(n1)X12
X
i2
n
X12/1
2i
X
i2
n
~F(1,n1)
2i
/n1
例6 设总体X服从N(1,2),总体Y服从N(2,2),X1,X2,,Xn1为来自总体X的简单随机样本,Y1,Y2,,Yn2为来自总体Y的简单随机样本,则
E[i1
(X
n1
i
X)(YiY)2
i1
n2
n1n22
]
n
2
n12
122
解:原式E[(XiX)(YiY)]
n1n22i1i1
n1
n2
n1
2{E[i1
n1n222
X)
(X
i
X)
]E[i1
(YY)
i
]}
(X
又
i1
n1
i
(n11)S
~2(n11),故E[i1
(X
n2
i
X)2
]n21,从
而E
(X
i1
i
X)
n11
n11,同理E
(YY)
i
i1
n2
n21
n21,所以原式=2。
例7.设X1,X2,,Xn(n2)为来自总体N(0,2)的简单随机样本,值,记YiXiX,i1,2,,n。求:(1).Yi的方差DYi,i1,2,,n ;(2).Co(vY1,Yn);(3)P{Y1Yn0}。
(4)若c(Y1Yn)2是的无偏估计,求c的值。
X
是样本均
解:
11n
(1)DYiD(XiX)((1)Xi与Xk独立)nnk1,ki
11n1211n
,i1,2,,n。D[(1)XiXk](1)222(n1)2
nnnnnk1,ki
(2)EY1EYnE(X1X)0,Cov(Y1,Yn)E(Y1EY1)(YnEYn)E(X1X)(XnX)E(X1Xn)E(X)E(X1X)E(XnX)X1,Xn独立,E(X1Xn)EX1EXn0
D(X)E(X)E(X)2E(X)
X1X2Xn11
]2(DX1DXn)2
nnn
E(X1X){E(X1)2E(X1X2)E(X1Xn)}E(X1)22,nnn
E(XnX){E(XnX1)E(XnX2)E(Xn)2}E(Xn)22
nnn
121212
所以Cov(Y1,Yn)D(X)=
nnn
而D(X)D[
n2n22n1
(3)Y1Yn(X1X)(XnX)X1XnXi
nnni2
上式是相互独立的正态随机变量的线性组合,所以Y1Yn服从正态分布,由于
E(Y1Yn)0,所以P{Y1Yn0}0.5。
(4)E[c(Y1Yn)2]cD(Y1Yn)c[DY1DYn2Cov(Y1,Yn)]
c[
n1n1222(n2)2n
]c2,故c。nnnn2(n2)
第二篇:第五章 样本与抽样分布
第五章
样本与抽样分布
P(X1x1)P(X2x2)P(Xnxn)
xinpi1(1p)nxii1n(xi0或1)
1、设容量n10的样本的观察值为(8,7,6,5,9,8,7,5,9,6),求样本均值及样本方差的观察值.
1n1n1n EXE(Xi)EXipp
ni1ni1ni11n1DXD(Xi)2ni1n1n1解: xxi(876)7
ni1101ns(xix)2
ni12DXin2n[EXi2(EXi)2]i1n1
11[pp2]p(1p).
n n
3、已知样本X1,X2,,X16取自正态分布总体N(0,1),X为1[(87)2(77)2(67)2]2 102、设X1,X2,,Xn是来自(01)分布(P(0)1p, 样本均值,已知P{X}0.01,则等于多少?
P(1)p)的简单随机样本,p为未知参数,则
解:(X1,X2,,X16)取自正态分布总体N(0,1),于是(X1,X2,,Xn)的概率分布是什么?并求EX,DX.
解:服从(01)分布P(0)1p,P(1)p.
由于X1,X2,,Xn相互独立且与同分布,故其分布为
X~N(0,1). 16X00)1414P{X}1P{X)1P(P(X1x1,X2x2,,Xnxn)
1P(X4)=1(4)0.01 14则 (4)0.99 查正态分布表,42.33 故 0.58
6、样本X1,X2,X3,X4取自正态分布总体,Ea已知,而
3331[()()]1[2()1]
22232[1()]
20.13362.
D2未知,则下列随机变量中哪些不能作为统计量?
(a)X144Xi
(b)hX1X22a
i1(c)k14(x22142iX)
(d)Si13(xiX)2.
i1解:(c)不能作为统计量,因为(c)中含有未知参数2.
7、在总体~N(80,202)中随机地抽取一容量为100的样本,问样本均值与总体均值的差的绝对值大于3的概率是多少? 解:总体~N(80,202),则对容量为100的样本的样本均值X,有 X~N(80,202100)N(80,22)P(|X|3)1P(|X80|3)
1P(3X803)1P(3X803222)
8、设总体~N(a,2),假定要以99.7%的概率保证偏差
|Xa|0.1,试问在20.5时,样本容量应取多大?
解:样本均值X~N(a,2n)
P{|Xa|0.1}P{0.1Xa0.1}
P{0.1a12Xn20.n2}
n P{0.10Xa0.1.5n0.5n
2}n (0.10.5n)(0.10.5n)
2(0.10.5n)1
0.997 于是 (0.10.5n)0.9985
10、设总体服从N(0,1),样本(X1,X2,,X5)来自总体,试求常数c,使统计量查标准正态分布表有
c(X1X2)2X30.10.5n2X42X5服从t分布.
2.97
解:服从N(0,1),(X1,X2,,X5)来自总体,则Xi相互独则样本容量n441.
9、设总体X ~ N(,2),从此总体中取一个容量为 n16的样本(Xn1,X2,X2116), 求概率P(X2ni)222;i1解因为 X1,X2,X16 是来自正态总体的样本, 所以 1n2(Xi)2~2(n),i121n于是 P2n(X22i)2i1P81162(Xi)232P{82(16)32}i1P{2(16)32}P{2(16)8}
0.990.050.94
立且与同分布.
令 XX1X22,则X~N(0,12),于是 X0122X2(X1X2)2X1X22~N(0,1)
令 YX2X2234X5,则Y~2(3),于是 2XY3服从t分布
要使
c(X1X2)服从t分布,必须使
X23X24X25c(X1X2)2X1X2)2X23X24X25Y3(X(X23X24X25)3
X1X23X2223X4X52 3
于是c3时,2c(X1X2)222X3X4X5服从t分布.
12、设总体~N(30,4),若抽取容量为4的样本,问子样均值X大于31的概率是多少?
解:子样均值X~N(30,)N(30,1)则
11、设X1,X2,,Xn是来自正态总体0,2的样本,试
4证:(1)1n222Xi~n;
i11n2(2)nX2i~21。
i1证明:(1)Xi独立同分布于0,1,由2分布的定义,nX2i~2n,即1n22i12Xi~n。
i1nX(2)易见,nXi~0,n2,即
i1i~0,1,由2分i1n2n22布的定义,Xi1i~21,即1nX~2i1n2n2 i1
4P{X31}1P{X31}1P{X30131301} 1P{X3011}1(1)0.1587.
第三篇:人口抽样技术总结
人口抽样技术总结
人口抽样技术总结怎么写,以下是小编精心整理的相关内容,希望对大家有所帮助!人口抽样技术总结
国务院关于开展20XX年1%人口抽样调查的通知下发后,邵阳市人民政府非常重视,于20XX年3月成立了市人民政府1%人口抽样调查领导小组,设立了办公室,抽调了专门的工作人员。邵阳市1%人口抽样调查工作在确保了领导到位、机构到位、人员到位的前提下,按照《20XX年全国1%人口抽样调查方案》和各项工作细则的要求,积极筹措工作经费,精心选调和培训了调查指导员和调查员,扎实细致地开展调查摸底工作,紧张有序地组织了现场登记调查,及时准确地进行了快速汇总、数据录入和机器汇总,按时上报了各项调查指标数据。主要情况如下:
一、编制户主姓名底册、绘制小区地图,抓紧抓实摸底工作
做好摸底清查工作可以使调查员提前熟悉调查小区环境,明确工作范围;可以保证调查员按时完成调查登记任务,提高登记质量。邵阳市在编制户主姓名底册、绘制小区地图时要求调查员、指导员真正的沉下去,熟悉小区情况,摸清建筑物和居住户的基本情况,并安排工作人员分流到各抽调小区进行业务指导,督促各项摸底工作的落实,为正式调查打下了坚实的基础。
二、选配好“两员”,做好业务培训工作
各县(市、区)人民政府对调查指导员和调查员在入户摸底和调查登记期间给予一定补助,标准按每个人记录不少于2元,经费由县、乡两级财政共同负担。保证每个调查小区至少配备3名工作人员(2名调查员、1名调查指导员)。并采取授课、讨论、测试、答疑、试点相结合的学习方式,对所有的调查员和调查指导员进行系统的培训。
三、扎实深入住户,认真开展调查登记工作
在正式入户登记工作中,为确保调查质量,市1%人口抽样调查领导小组组织力量分四个组分赴各县市区督查,县市区1%人口抽样调查办公室全员上阵,整体出动,通过人员分组、划分路线等办法解决了入户调查的效率问题,通过详细询问、多方了解等办法确保了入户调查的质量问题。由于许多抽中的小区属于纯家属区,白天一般找人较难,通过预约或者晚上入户的办法进行登记;遇到刁蛮户则通过多次的思想工作与之沟通,争取配合,或者采取询问其邻居了解其真实情况。真正做到抽查的小区“区不漏房,房不漏户,户不漏人”的调查要求,确保1%人口抽样调查数据的准确度。
四、严把数据质量关,做好复查、核实、录入工作
邵阳市各县市区就复查、编码、数据处理工作召开了多次专题会议进行研究,集中对调查小区的调查表和死亡表进行了严格的审核,对审核中发现的问题再次入户调查核实,并认真及时地处理。安排数据处理专业人员到抽中乡镇进行了调查表的专项编码和数据录入指导工作,加班加点按时完成了数据的审核、录入和初步汇总工作,并对汇总数据进行了数据评估工作。市1%人口抽样调查办公室从市统计局抽调局领导和业务科长12人,每个县(市、区)一人座阵督促1%人口抽样调查表的审核、编码、录入,从而确保了1%人口抽样调查数据的质量。
存在的问题有:
1、权利、责任和义务不对称。
2、调查方案没有考虑地方的需要。
3、调查方案中的少数指标设计不科学报告
4、调查结果的利用十分有限。
5、程序设计不太科学。
人口抽样技术总结
我市1%人口抽样调查工作在省、黄冈市1%人口抽样调查协调小组的正确指导下,在我市市委、市政府的统一领导下,全市各级调查机构认真贯彻落实《国务院办公厅关于开展20XX年全国1%人口抽样调查的通知》(国办发33号)、《省人民政府办公厅关于开展我省20XX年全国1%人口抽样调查的通知》(鄂政办发49号)文件精神,坚持实事求是的调查原则,精心组织、狠抓落实、扎实推进,圆满完成了我市20XX年全国1%人口抽样调查工作。本次1%人口抽样调查对我市11个镇处、24个村(社区)、2495户居民的家庭住房情况及这些家庭中的7923人的教育、就业、婚姻、生育、流动等基本情况进行了详细调查登记,摸清了我市抽中调查小区人口在数量、素质、结构、分布以及居住等方面的变化情况。20XX年11月21日,我市1%人口抽样调查工作顺利通过了省、黄冈市1%人口抽样调查协调小组办公室质量验收。
一、主要工作作法
我市1%人口抽样调查工作,自启动以来,不等不靠,强力推进,取得了较好的效果。主要是做到“六到位”:
一是组织机构成立到位。早在20XX年底,我市就在黄冈市率先成立了1%人口抽样调查工作协调小组,协调小组组长由市委常委、常务副市长向博担任,10个市直部门分管负责人任协调小组成员。同时,各镇、办事处按照市政府要求全部成立了1%人口抽样调查工作办公室,初步形成了市、镇(处)两级1%人口抽样调查工作体系。4月21日,我市又向各镇(处)、相关部门下发了《武穴市20XX年全国1%人口抽样调查工作协调小组办公室组织机构和工作职责的通知》,对市级1%人口抽样调查办公室内设机构和相关部门工作职责进行具体明确。
二是物质、经费保障到位。20XX年底,按照国务院和省人民政府关于落实1%人口抽样调查经费的有关规定,武穴市及时编制1%人口抽样调查经费预算报告,共落实人口抽样调查工作经费30万元,切实保障了市级1%人口抽样调查工作正常开展,各镇、处也按照有关要求落实了必要的调查经费;在人口调查入户摸底阶段,由于“三经普”下发的PDA设备时间久远,大部分出现了各种维护故障,难以满足人口调查工作需要,9月17日,武穴市1%人口抽样调查办公室又通过政府采购形式,投入7万多元购买全新的数据采集设备,给每位调查员配齐性能先进的PDA。同时按照上级要求,其它抽样调查物资也及时保障、发放到位。
三是“两员”选聘、培训到位。“两员”是1%人口抽样调查工作的具体承担者和直接采集者,做好1%人口调查“两员”选聘工作意义重大,我们高度重视这项工作。这次人口抽样调查工作,对照“思想政治素质、业务能力、PDA操作水平”三个方面要求,我们从全市各镇处精心选聘了72名调查员和调查指导员,避免了因人员不足或素质不高妨碍调查工作的正常开展;从5月7日至10月31日,我们在全市先后开展了6次1%人口抽样调查业务培训会,对抽样框整理、人口抽样调查方案、小区图绘制、户主姓名底册、抽样调查表填报、PDA软件操作等业务进行了重点培训,每次培训会,我们都现场进行模拟测试,要求每位调查指导员和调查员人人掌握操作流程,人人学会填写调查表,人人熟练使用PDA。
四是舆论宣传发动到位。为了增强被抽中乡镇和小区对象配合度,扩大1%人口抽样调查工作社会影响,我们把10月份定为1%人口抽样调查宣传月,1%人口抽样协调小组落实专人,利用广播、电视、网络及宣传栏形式广泛开展宣传工作,为1%抽样调查工作营造良好氛围。对调查过程中遇到的不配合钉子户,我们要求社区工作人员或村“两委”人员负责上门协调和解释工作。
五是入户调查登记到位。搞好1%人口抽样调查,入户登记是关键。在确保百分之百入户调查登记的前提下我们真正做到了“区不漏户,户不漏人,人不漏项”。一是明确登记时间和方法。登记时间为11月1日至15日,视不同情况合理安排;登记方法为入户询问、逐一调查、逐项填报。二是明确调查重点。重点应放在社区、流动人口、出生和死亡人口上。相比之下,社区、流动人口、出生和死亡人口的调查要困难和复杂一些,对此我们进行了反复核查。三是掌握调查技巧。这次1%人口抽样调查项目多,技术要求高,工作难度大,我们不仅重点培训了调查员和调查指导员的业务知识还重点辅导了他们入户调查技巧。重点强调了以下几点:(1)调查员在入户登记前要做好充分的准备,包括业务、资料及相关证件的准备、心理准备和工作计划安排等,打有准备之仗。(2)调查阶段要按注意自身形象、接近调查对象、说明来意、开展调查等四个步骤进行。(3)针对入户登记难把握的调查项目,根据调查对象的年龄、房屋是否出租转让、调查户人口构成等情况,采取不同的调查方式和技巧,力争把数据搞准。
六是检查督办到位。去年9月15日,黄冈统计局王永忠局长带领专业人员到武穴办事处下港社区督导人口抽样调查工作,11月4日,黄冈统计局总统计师胡建华、人口社会科长童泉陪省局人口处杨副处长深入到大金镇张天二村现场入户调查。11月1日,武穴市人口抽样调查协调小组组长、市委常委、常务副市长深入西新村社区指导人口调查工作,并指示,从20XX年起,每个镇处安排统计业务经费至少10万元以上。9月13日---10月25日,我市1%人口抽样调查协调办公室,先后两次对全市24个1%人口抽样调查抽中小区开展了督查活动。重点督查了六个方面内容:调查小区图是否绘制完毕、PDA录入程序是否安装就绪、调查应登记对象是否正确、小区图、摸底表、PDA登记内容是否一致、出生和死亡人口是否有遗漏、外出人口是否有漏登。针对检查中发现的问题我们及时提出了指导性意见和建议,要求各镇处调查员指导员和调查员在登记过程中要重点关注出生率、死亡率、性别比等关键指标,加强数据质量审核,确保1%人口抽样调查数据真实、可靠。
二、存在的问题及建议
(一)调查对象配合难。这次1%人口抽样调查,我们虽然加大了调查宣传力度,在调查前期开展了声势浩大的宣传工作,但仍然有部分调查对象统计法律意识淡薄、统计法制意识不强,不愿履行提供调查资料的义务。“门难进、脸难看”甚至拒绝配合上门调查等突出问题仍然较严重,很多调查对象担心泄露私人、住宅的信息,调查配合程度较差,或虚报瞒报调查数据。建议国家、省级普查中心加大各种普查、调查宣传力度,这项工作要常抓不懈。
(二)“两员”选聘难。这次调查由于要使用PDA手持终端进行入户调查,对“两员”要求相对较高,上级要求的是大专以上文化程度,有较强的业务能力的人。而当下农村文化层次相对较高,有一定工作能力的青壮年,大多有自己的经营与事业,或在企业上班,或在外打工,很难有时间来从事调查工作。虽然“两员”报酬可以解决部分问题,但金额一般不会很高,与他们自己经营或打工所得到的收入相比还是有所差距,吸引力不够。建议国家在“两员”报酬上要加大投入,不能完全靠地方政府负担。
(三)PDA信息现场采集难。按照《20XX年全国1%人口抽样调查方案》要求,国家鼓励调查员手持PDA终端现场入户登记,但从这次1%人口抽样调查现场登记情况看,情况很不乐观,绝大部分调查员很难现场完成PDA信息现场采集任务,主要由于调查户信息处理量大,人口选项逻辑错误较多,PDA数据处理程序不完善等原因严重影响调查员现场数据录入速度。建议国家采取先纸质登记后PDA集中录入的办法采集调查数据。
(四)调查经费落实难。巧女难为无米之炊。我市历届的大型普查、各种专项调查,统计部门最感头痛的就是经费的落实。而黄冈这个经济欠发达地区要想确保正常经费的开支,更是难上加难,落实市本级1%人口抽样调查经费,特别是落实县(市、区)1%人口抽样调查经费,就成了各级抽样调查办公室的第一要务。随着经济的发展,“两员”报酬水涨船高,动辄几十万到一两百万元开支,给基层政府带来了沉重的压力,建议国家对普查或调查经费这块实行改革,国家拿大头,地方政府拿小头进行适当补贴。
第四篇:抽样方法总结
华北水利水电大学
概率论与数理统计
论 文
学院:信息工程学院 姓名:
靳春明
学号:
201315427
2015年5月
目录
1、抽样调查方法论文································1
2、概率章节小结····································5
3、课后习题解答····································25
抽样方法总结
抽样调查是数理统计学的一个分支,主要研究如何从总体中抽样才能使抽样更有效率,即在给定的样本量下,如何抽取样本,如何分析样本才能对总体做出更精确的推断,或者在给定精度的要求下如何抽取样本才更节省。现将有关抽样调查的方法总结如下:
1.非概率抽样
又称非随机抽样,指根据一定主观标准抽取样本,令总体中每个个体的被抽取不是依据其本身的机会,而是完全决定于调研者的意愿。
其特点为不具有从样本推断总体的功能,但能反映某类群体的特征,是一种快速、简易且节省的数据收集方法。当研究者对总体具有较好的了解时可以采用此方法,或是总体过于庞大、复杂,采用概率方法有困难时,可以采用非概率抽样来避免概率抽样中容易抽到实际无法实施或“差”的样本,从而避免影响对总体的代表度。
常用的非概率抽样方法有以下四类:
方便抽样
指根据调查者的方便选取的样本,以无目标、随意的方式进行。例如:街头拦截访问(看到谁就访问谁);个别入户项目谁开门就访问谁。
优点:
适用于总体中每个个体都是“同质”的,最方便、最省钱;可以在探索性研究中使用,另外还可用于小组座谈会、预测问卷等方面的样本选取工作。
缺点:
抽样偏差较大,不适用于要做总体推断的任何民意项目,对描述性或因果性研究最好不要采用方便抽样。
判断抽样
指由专家判断而有目的地抽取他认为“有代表性的样本”。例如:社会学家研究某国家的一般家庭情况时,常以专家判断方法挑选“中型城镇”进行;也有家庭研究专家选取某类家庭进行研究,如选三口之家(子女正在上学的);在探索性研究中,如抽取深度访问的样本时,可以使用这种方法。
优点:
适用于总体的构成单位极不相同而样本数很小,同时设计调查者对总体的有关特征具有相当的了解(明白研究的具体指向)的情况下,适合特殊类型的研究(如产品口味测试等);操作成本低,方便快捷,在商业性调研中较多用。
缺点:
该类抽样结果受研究人员的倾向性影响大,一旦主观判断偏差,则根易引起抽样偏差;不能直接对研究总体进行推断。
配额抽样
指先将总体元素按某些控制的指标或特性分类,然后按方便抽样或判断抽样选取样本元素。
相当于包括两个阶段的加限制的判断抽样。在第一阶段需要确定总体中的特性分布(控制特征),通常,样本中具备这些控制特征的元素的比例与总体中有这些特征的元素的比例是相同的,通过第一步的配额,保证了在这些特征上样本的组成与总体的组成是一致的。在第二阶段,按照配额来控制样本的抽取工作,要求所选出的元素要适合所控制的特性。例如:定点街访中的配额抽样。
优点:
适用于设计调查者对总体的有关特征具有一定的了解而样本数较多的情况下,实际上,配额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,易于实施,能满足总体比例的要求。
缺点:
容易掩盖不可忽略的偏差。
滚雪球抽样
指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。
第一批被访者是采用概率抽样得来的,之后的被访者都属于非概率抽样,此类被访者彼此之间较为相似。例如:如在目前中国的小轿车车主等。
优点:
可以根据某些样本特征对样本进行控制,适用寻找一些在总体中十分稀少的人物。
缺点:
有选择偏差,不能保证代表性。
2.概率抽样
又称随机抽样,指在总体中排除人的主观因素,给予每一个体一定的抽取机会的抽样。
其特点为,抽取样本具有一定的代表性,可以从调查结果推断总体;操作比较复杂,需要更多的时间,而且往往需要更多的费用。
常用的有以下六种类型:
简单抽样
即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:按照“抽签法”、“随机表”法抽取访问对象,从单位人名目录中抽取对象。
优点:
随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单的统计公式。
缺点:
未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低;有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。
系统抽样
将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点<间距)后每100号码抽一访问号码。
优点:
兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。
如果起点是随机确定的,总体中单元排列是随机的,等距抽样的效果近似简单抽样;与简单抽样相比,在一定条件下,样本的分布较好。
缺点:
抽样间隔可能遇到总体中某种未知的周期性,导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。
分层抽样
是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查城市时,按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等,再抽出具体的各类型城市若干。
优点:
适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能保证“层”的代表性,避免抽到“差”的样本;同时,不同层可以依据情况采用不同的抽样框和抽样方法。
缺点:
要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。
整群抽样
是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选出的地块或居委会实施逐户抽样;市场调查中,最后一级抽样时,从居委会中抽取若干户,然后调查抽中户家中所有18岁以上成年人。
优点:
适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。
缺点:
群内单位有趋同性,其精度比简单抽样为低。
多级抽样
也叫多阶段抽样或阶段抽样,以二级抽样为例,二级抽样就是先将总分组,然后在第一级和第二中分别随机地抽取部分一级单位和部分二级单位。例如:以全国性调查为例,当抽样单元为各级行政单位时,按社会发展水平分层后(或按经济发展水平,或按地理位置分层),从每层中先抽几个地区,再从抽中的地区抽市、县、村,最后再抽至户或个人。
优点:
具体整体抽样的简单易行的优点,同时,在样本量相同的情况下又整群抽样的精度高。
缺点:
计算复杂。
抽中概率与规模成比例抽样(PPS)
是不等概率中最常用的一种方法,指在总体中参照各单位的规模进行抽样,规模大的被抽取的机会大,总体中每个个体被抽中的概率与该个体的规模成正比的抽样。例如:在进行企业调查时,根据PPS抽样方法抽取企业,令规模大的企业被抽取机会大。
优点:
使用了辅助信息,可以提高抽样方案的统计效率。
缺点:
如果研究指标与规模无直接关系时,不合适采取这种方法。
此外,在抽样方法划分上,还有多阶段抽样和两相抽样等,有兴趣的读者可参阅其他相关书籍。
前面谈到抽样方法的一些基本分类和各自特点,需要注意的是,在实际的运用中,一个调查方案
常常不是只局限于使用某一种抽样方式,而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的,有时甚至在同一时段综合运用几种抽样方法。
例如,设计一个全国城市的入户项目,在抽样上可以分为几个不同的步骤,包括:
1)在项目正式开始前,可以采用判断抽样法选出某一城市先作试点,在问卷设计初期可以采用任意抽样法选出部分人群进行问卷试访。
2)采用分层随机抽样法,确定全国要分别在多少个超大型市、多少个大型市、多少个中型市、多少个小型市实施(先分出城市的几个层次,再依据研究需要在各层用PPS法选取具体城市)
3)采用简单抽样法或PPS抽样法,确定抽出城市中应抽的地块或居委会;
4)采用整群抽样法,确定抽出地块或居委会应访问的家庭户;
5)在项目后期,可以采用判断抽样法选取某城市进行深入研究。
抽样调查有许多种方法,如何选择最正确的的方法得出最确定的信息才是我们所要学习的。
第五篇:第六章 从样本统计量估计整体参数
第六章 从样本统计量估计整体参数
学习要点 第一节
点估计 第二节
区间估计
第三节
总体均数的估计
第四节
其他总体参数的估计
本章小结
学习要点
掌握推断统计的内容和前提条件
理解统计估计的原理,掌握统计估计的方法
能够运用总体均数估计的方法解决实际问题
第一节
点估计
当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值”。
科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的推断统计则是专门研究如何用样本去推断总体的方法。
一、什么是推断统计
一般情况下,样本统计量是不会和相应的总体参数完全相同的,两者多少都会有一定的差距,但是如果用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。具有这一特征的统计量就无偏估计值。
例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它可能会大于总体平均数,而在另一些样本中它又可能会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误差为0。换句话说,样本平均数的平均数将会等于总体平均数。
推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,由已知推未知的过程。
推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameter estimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesis test)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数(,)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的2情况。参数检验法主要有Z检验、t检验、F检验和q检验等,非参数检验(non-parameter test)主要有χ2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。
二、统计推断的基本问题
没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方 法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。
一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。
二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个体(即nN)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。
三是统计推断的错误要有一定限度。统计推断是在特定的时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。
第二节
区间估计
一、参数估计的定义
所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数(X)去估计总体的均数(),根据样本方差(S)去估计总体方差(),根据样本
22的相关系数(r)去估计总体相关系数()等等。
二、参数估计的方法
参数估计有点估计和区间估计两种。譬如,某学区期末时抽取所管辖的小学四年级的数学测验成绩,求得平均分70分,标准差10分,于是一个管理者认为全区四年级的数学平均分可能是70分,而另一个管理者则认为全区四年级数学平均分可能性在65~75之间。因前者是用数轴上的一点做估计,称为点估计。后者是用数轴上的一段距离做估计,称区间估计。
(一)点估计
点估计(point estimation)是在参数估计中直接以样本的统计量(数轴上的一个点)作为总体参数的估计值。譬如用样本统计量:X,S、r等作为总体参数、、等的估计值。但是作为良好点估计的统计量必须具备一定的前提条件。
1.无偏性
用统计量估计总体参数必然会存在一定的误差,而恰好相等的情形是极少见的。当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值时,其偏差为0,即
X0
这时的统计量被称为无偏估计量(unbiased estimator)。譬如,根据中心极限定理二有X,即样本均数的均数是总体均数的无偏估计量,亦即我们可以用样本均数的均数作为总体均数的点估计值。假设我们从某市四个区的六岁男童中随机抽取四个样本,对每个样本测量其身高的平均数,再求得四个样本均数的均数为110.70公分,并此值作为该市所有六岁男孩的平均身高就是一个点估计。如果,X大于0或小于0,那么这时的统计量就为有偏估计量。作为总体参数的良好估计值是应当具备无偏性的。
当样本容量足够大的时候,用样本均数或样本标准差作为总体相应参数的估计量都可视为无偏估计量。正因为如此,在大样本统计分析中,常用样本标准差(Sn1)去代替总体标准差()。当总体分布呈正态时,中数也是总体均数的无偏估计量。然而由于抽样误差的普遍存在,我们不能期待一次抽样就能对总体参数作出精确的估计。加之点估计不能给出估计误差及其可靠性有关信息,因此采用点估计时应特别注意样本统计量所具有的特性。
2.一致性
总体参数的估计量随样本容量的无限增大,应当能越来越接近它所估计的总体参数。例如正态总体的总体均数为,标准差为,如果X是从总体中随机抽取样本获得的平均数,其容量为n,则当N→∞时,X→;
Sn1→。
这时样本统计量的均数X就是总体参数的一个估计值,或者说X与是一致的。
3.有效性
当总体参数的无偏估计量不止一个统计量时,则要分析无偏估计量的变异大小的情况。无偏估计量变异性小的,有效性较高;无偏估计量变异性大的,则有效性较低。例如作为总体均数的估计值来说,样本均数X、中数Mdn和众数Mo等都是无偏估计量。这时选谁作为估计值最恰当则要看谁的变异性最小。在X,Mdn和Mo中只有X的变异性最小,即X的方差最小。所以用统计量——样本均数作为总体参数的估计值是最佳选择。这也同时说明为什么在统计推断中不常使用中数和众数。
4.充分性
充分性是指一个容量为n的样本统计量是否充分地反映了全部n个数所反映的总体信息。从X,Mdn和Mo的比较中我们已知,只有在求均数X时n个数据全部参与计算,它充分地反映所有数据所要反映的总体信息,而在计算Mdn和Mo时只有部分数据参与计算,是用部分数据反映的总体信息。因此平均数的充分性最高,中数和众数的充分性较低。同理,在差异量数中方差S和标准差S要比平均差AD、四分位差Q更具有充分性。
2一个好的点估计应当具备以上四个条件。但是无论如何,抽样误差总是存在,加上点估计不能提供正确估计的概率,所以应用时受到局限。例如,我们只能大体上知道样本容量比较大时,多数的X靠近,但是样本容量究竟大到什么程度,“多数”、“靠近”到什么程度,“多数”到底是多少等等都是很模糊的。点估计的这些不足以及缺陷可以用区间估计的方法来弥补。
第三节
总体均数的估计
一、均数估计的标准误
均数估计就是用样本均数去估计总体均数。在用样本均数(X)对总体均数()进行区间估计时,样本均数的标准误(SEX)是衡量抽样误差大小的重要指标,而样本均数的抽样分布则是进行这种估计的理论依据。
(一)标准误的定义式——已知 当总体σ2已知时,根据中心极限定理三有
2XSEXnXnn2
因为标准误与总体标准差成正比,与样本容量的平方根成反比,所以总体标准差越小,标准误越小;样本容量越大,标准误也越小。
对于一个指定的总体来说,其总体标准差是一个确定的数。因此,在实际工作中,增大样本容量可以减小均数的标准误,这是提高估计精度的重要手段。对于总体均数进行估计时,如果已知,那么只需从总体中抽取一个容量为n的随机样本,就可以求出SEX而对其区间作出估计,其区间估计公式为
X1.96X X2.58X
(二)标准误的近似式——未知
在实际工作中,总体方差及总体标准差往往是未知的。这时我们只能根据样本的标准差
2去估计总体的标准差。用样本标准差去估计总体标准差时必须考虑其无偏估计量的问题。数理统计学已证明样本标准差Sn不是总体标准差的无偏估计量。因此,以Sn作为的点估计是不恰当的。但是样本的无偏标准差Sn1却是总体标准差的无偏估计量,即统计量Sn1抽样分布的平均数恰好等于。因此,这里的样本无偏标准差定义为
Sn1XXn22
2XXnn
由于Sn1是σ的无偏估计量,且当n一定时,Sn1抽样分布的标准误小于SEX,所以当n足够大且一定时,Sn1的近似程度高于X。于是,有了样本平均数标准误的近似公式
SEXSn1n
2XXn1nXXnn12
∴ SEXSn1
当总体σ未知时,即可采用这一公式计算均数的标准误。
二、总体均数的估计方法
总体均数的估计方法大致有三种,一种以正态分布理论为依据的估计法,称正态估计法。一种是以t分布理论为依据的估计方法,称t分布估计法。三是以渐近正态分布为依据的估计方法,称近似正态估计法。三种方法适用于不同的资料形式。
(一)正态估计法
正态估计法适用于总体方差σ2已知的数据资料。其具体应用情形有二,一是总体呈正态时,不论样本容量的大小,样本均数的分布都呈正态分布。因为,中心极限定理一指出,总体正态时,从总体抽取的容量为n一切可能样本的均数呈正态分布。二是总体呈非正态时,只要样本容量大于30,样本均数的分布呈近似正态分布。因为,中心极限定理一指出,当n足够大时,无论总体分布形态如何,样本均数的分布服从或接近正态分布。
第四节
其他总体参数的估计
参数估计除总体均数的估计外,还有总体方差和标准差的估计、总体相关系数的估计和总体比例的估计等等。这种参数估计过程大致相同,主要区别在于标准误的计算不同。
一、总体方差和总体标准差的估计
(一)总体方差的估计
由于样本方差与总体方差比值的分布呈分布,所以有
2n1Sn212n12n1Sn21≤≤
2n1Sn212,或
n12n1Sn212≤≤
22n2n2
例8-5:从某校初三学生中随机抽取10份物理成绩,计算得平均分为71.2,标准差(为14.46。试估计物理成绩的方差在什么范围之内。1)选择显著性水平。假设本例选0.05 2)计算自由度。本例,dfn11019 3)查显著性临界值表,确定
Sn1)
2nn1222和
n2,本例有
22
4)代入公式,作出估计 91290.9752.7,2290.02519.0914.462914.46222.7≤≤19.0
696.97≤2≤99.04,或26.40≤2≤9.95
5)结果解释
该校初三学生物理成绩的方差有98%的可能会落在86.86~901.20之间或标准差会落在9.32~30.02之间,超出这一范围的可能只有2%。从这一结果看,物理成绩标准差的区间较大,若增加样本容量可缩小区间差距。
(二)总体标准差的估计
标准差的估计既可以采用上述总体方差估计区间的平方根,也可以直接利用样本标准差进行估计。样本标准差抽样分布的标准差称标准差的标准误,其公式为
SES(或S)
Sn12n
因其近似正态分布,所以总体标准差的置信区间为
Sn11.96SES Sn12.58SES
用此法对例8-5进行总体标准的估计,则有
14.463.234.47210
14.461.963.238.13~20.79 SES
二、总体相关系数的估计
由样本相关系数r形成的分布形式较多,因此计算样本相关系数标准误的及置信限的方法也较为复杂。这里只介绍常用方法——Fisher的Z函数分布法。Fisher的Z函数分布法是通过将样本相关系数转换为Zr值(因Zr的样本分布近似正态分布),并以Zr值进行估计,然后再将Zr值还原为r值的做法。这种既无需考虑样本容量大小,也无需顾忌总体相关系数。14.46例8-6:某教师经研究发现,其所教班级学生(55人)的数学成绩与物理成绩的相关系数为0.66。试以95%的置信度估计全年级数学和物理的相关系数。
1)将r转换为Zr函数。查Fisher函数转换表,当r0.66时,Zr0.792)求Zr的标准误
SEZrSEZr15531n3
本例,10.147.21
3)求Z的置信区间,即
ZZr1.96SEZrZZr2.58SEZr
本例,Z0.7931.960.140.519~1.067
4)将Zr转换为r。仍查Fisher函数转换表,由有
0.48~0.79
本章小结
参数估计是根据样本统计量去估计相应总体的参数的统计方法,其中最常用的是总体平均数的估计,有点估计和区间估计之分。点估计是指用数轴上的一点做估计,良好点估计的条件是无偏性、一致性、有效性和充分性。区间估计是以数轴上的一段距离做估计,其方法有正态法、t分布法和近似正态法。