非参数统计实验报告
一、实验目的及要求
学习两独立样本数据位置检验方法,包括Brown-Mood检验,Man-Whitney秩和检验,以及有打结情况的处理;尺度检验的方法,包括Mood检验,Moses检验。掌握不同方法的适用条件(如Mood检验假设两样本均值相等),检验原理,并能够运用R软件进行操作求解。
二、环境
R软件
三、原理
(一)Brown-Mood检验
将两样本混合,求混合数据的中位数,记录样本中大于的个数,的分布服从超几何分布,太小或太大时考虑拒绝原假设。(只有方向的信息,没有差异大小的信息)
(二)Man-Whitney秩和检验
假设把两样本混合,求混合数据的秩R,计算样本的秩和,样本的秩和,并进行比较。其中,表示混合数据中样本小于样本的个数。如果过大或者过小,那么数据将支持或者,将不能证明两样本形成的序列是一个随机的混合,将拒绝、来自相同总体的零假设。(充分利用差异大小的信息)
(三)Mood检验
前提假定两样本具有相同的均值,将两样本混合,求混合数据中样本的秩,构造统计量,偏大,则样本的方差可能偏大,可以对大的拒绝零假设。
(四)Moses检验
不需要假定具有相同的均值,将样本随机均分为组,每组个数据,计算每组的偏差平方和,将样本随机均分为组,每组个数据,计算每组偏差平方和,混合和,计算混合数据中的秩和,计算统计量,如果值很大,考虑拒绝原假设。
四、实验方案设计
(一)题目
4.4
两个不同学院教师一年的课时量分别为(单位:学时):
学院
课时(学时)
A
321
266
256
386
330
329
303
334
299
B
488
593
507
428
807
342
512
350
672
A
221
365
250
258
342
243
298
238
317
B
589
665
549
451
492
514
391
366
469
根据这两个样本,两个学院教师讲课的课时是否存在不同?估计这些差别。从两个学院教师讲课的课时来看,教师完成讲课任务的情况是否类似?给出检验和判断。
(二)题目分析
鉴于Brown-Mood检验仅利用了方向信息而没有利用差异信息,此题选择Man-Whitney秩和检验方法检验两个学院教师讲课的课时是否存在不同。因为Mood检验假定两样本具有相同均值,初步观察数据认为亮学员教师讲课的课时均值不同,需要使用Moses检验方法来检验教师完成讲课任务的情况是否类似。但是,还是要根据Man-Whitney检验的结果来说明是否可以使用Mood检验。
(三)一般步骤
1.Man-Whitney秩和检验
(1)提出假设:,(2)给定显著性水平,单样本容量
(3)计算统计量,其中
(4)拒绝域为,由确定
(5)如果是大样本,可以用正态分布近似,求的均值,方差为。
(6)在零假设下,若,且,则计算
(7)对于打结情况下的修正,其中表示结的个数,表示结长。
2.Moses检验
(1)做出假设:,(2)将样本随机均分为组,每组个数据,计算样本均值;将样本随机均分为组,每组个数据,计算样本均值;
(3)计算每个样本组的偏差平方和,(4)混合和,计算混合数据中的秩和,计算统计量。
五、实验过程
(一)Man-Whitney秩和检验两学校教师授课课时是否存在不同
1.通过做折线图、boxplot观察两组数据的特征,发现A学校教师授课课时整体小于B学校,但是需要进一步做中位数检验。
h<-c(1:18)
x y opar<-par(no.readonly=TRUE) par(lwd=2,cex=1.5,font.lab=2) plot(h,y,type=“b“,pch=15,lty=1,col=“red“,ylim=c(200,900),main=“A vs B“) lines(h,x,type=“b“,pch=17,lty=2,col=“blue“) legend(“topright“,inset=.05,title=“school“,c(“B“,“A“),lty=c(1,2),pch=c(15,17),col=c(“red“,“blue“)) #红色的线表示B学院,蓝色的线表示A学院 par(opar) 2.作出假设:,3.计算统计量的值: (1)利用R软件把两样本数据混合,求混合数据的秩,计算出,查表当时正态分布的临界值为110,所以拒绝原假设,认为B学院教师授课课时大于A学院。 c<-c(x,y) #将两学院数据混合rank(c) #求混合数据的秩 [1] 12.0 7.0 5.0 21.0 14.0 13.0 10.0 15.0 9.0 1.0 19.0 4.0 6.0 16.5 [15] 3.0 8.0 2.0 11.0 26.0 33.0 28.0 23.0 36.0 16.5 29.0 18.0 35.0 32.0 [29] 34.0 31.0 24.0 27.0 30.0 22.0 20.0 25.0 w<-sum(rank(c)[1:18]) #求A学校18个数据的秩和 w [1] 176.5 (2)因为每一个样本中都有18个数据,于是在没有注意到混合数据中有结的情况下,就用R软件中的检验,发现有结存在,检验中警告:因为有结的存在不能够计算出准确的P值,需要进行连续性调整。 (3)于是又在R中自己计算标准正太分布的值,并进行了相应的连续性修正,以及有结情况下方差的调整,得。最终拒绝原假设,认为A学校的授课学时小于B学校的授课学时。 rank(x) #求A学院数据的秩 [1] m<-max(rank(x)) #计算A学院数据个数 rank(y) #求解B学院数据的秩 [1] n<-max(rank(y)) #求B学院数据的个数 u<-(m*(m+n+1))/2 #计算的均值 v<-(m*n*(m+n+1))/12 #计算的方差 t<-(m*n*6)/(12*(m+n)*(m+n-1)) #有结点的调整项 p<-pnorm(w,u,sqrt(v-t)) p [1] 3.677272e-07 z<-(w-u)/sqrt(v-t) z [1] -4.95176 (二)Moses检验两学校教师完成讲课任务情况是否相似 1.根据两样本位置检验的结果,决定要用Moses检验学校教师完成讲课任务的情况; 2.假设:,3.将样本随机均分为6组,每组3个数据,计算样本均值;将样本随机均分为6组,每组3个数据,计算样本均值。 mean(x) [1] 297.5556 mean(y) [1] 510.2778 a<-rnorm(18,0,1) #利用正态分布产生一组随机数 rank(a) #求随机数的秩 [1] b<-rank(a) b [1] c<-x[b[1:3]] #利用随机数的秩将X分组 c [1] 365 266 342 4.计算每个样本组的偏差平方和 组数 离差平方和 秩 365 266 342 7519.808 298 243 221 8837.271 258 321 303 2143.927 329 250 256 4977.153 238 386 330 12421.92 334 299 317 1708.365 5.混合和,计算混合数据中的秩和,的秩和计算,,所以不能拒绝,认为两学院教师授课课时完成情况存在差异。 六、实验总结 (一)题目结论 1.经Man-Whitney检验,,两学校教师授课课时存在明显差异,认为A学校的授课学时小于B学校的授课学时。 2经Moses检验,说明两学院教师授课课时完成情况存在差异,B学院完成情况波动性大于A学院。 (二)实验总结 1.用R软件中的检验,有结的存在不能够计算出准确的P值,需要进行连续性调整。 2.在进行Moses检验时,数据随机分组遇到问题。后来自己随机分组发现结果并不能拒绝原假设,可能是因为数据太少,可能是因为随机分组不当造成的误差。于是又利用正态分布产生18个随机数,利用18个随机数的秩将两组样本数据重新分组,重新计算结果可以拒绝原假设。