第一篇:统计方法总结
一、统计分析方法总结
1.连续性资料
1.1 两组独立样本比较
1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。
1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。
1.2 两组配对样本的比较
1.2.1 两组差值服从正态分布,采用配对t检验。
1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较
1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。
1.4 多组随机区组样本比较
1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。
****需要注意的问题:
(1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。
(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**
(3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。
2.分类资料
2.1 四格表资料
2.1.1 例数大于40,且所有理论数大于5,则用普通的Pearson 检验。
2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或Fisher’s确切概率法检验。
2.1.3 例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验。
2.2 2×C表或R×2表资料的统计分析
2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。
2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的Wilcoxon秩和检验。
2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。
2.3 R×C表资料的统计分析
2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。(3)如果要作相关性分析,可采用Pearson相关系数。
2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。
2.2.3 列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。
2.2.4 列变量&行变量均为有序多分类变量,(1)如要做组间差别分析,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。(2)如果要做两变量之间的相关性,可采用Spearson相关分析。
2.4 配对分类资料的统计分析
2.4.1 四格表配对资料,(1)b+c>40,则用McNemar配对 检验。(2)b+c<40,则用校正的配对 检验。
2.4.1 C×C资料,(1)配对比较:用McNemar配对 检验。(2)一致性检验,用Kappa检验。
二、医学科研程序
⑴科研选题——⑵研究设计——⑶实施方法——⑷统计分析——⑸总结归纳
其中科研选题和研究设计最关键。科研设计分为⑴专业设计⑵统计设计
统计设计的内容:研究对象数量的确定、对照组的选定、随机化分组原则、控制误差及统计分析方法的选定等。
一、科研选题:⑴、查阅文献;⑵、选题原则:创新性、先进性、科学性、可行性;⑶、研究条件和优势
二、实施方法:⑴、调查;⑵、实验⑶、临床观察。
三、统计分析:⑴、正确搜集资料;⑵、描述资料统计特征⑶、统计推断并得出结论统计资料的要求:准确、完整、及时
描述资料:统计表、统计图、统计指标
统计推断:参数估计、假设检验
医学科研设计基本内容(临床实验设计参考用)
(社区干预试验设计可参照)
临床科研是以病人为研究对象,因此,在进行临床科研设计时应注意:①人有社会属性,受精神因素、心理因素影响,要注意临床科研要符合医学伦理要求;②必须设立对照(设立对照的注意问题附后);③随访的起点和止点应有明确的定义;④注意影响实验研究结果的因素,并适当控制(具体内容附后)。
1.国内外研究现状、水平、发展趋势(简要介绍与本课题有关研究的国内外现状、水平、发展趋势等,写明本课题提出的依据及本课题研究目的;简要介绍预试验内容及结果。)。
2.研究对象:
(1)具体诊断标准(用公认的或统一的,并阐明出处;如没有统一的标准也应写明是自定标准。)、制定入选(纳入)标准及排除标准;
(2)研究对象选择范围(包括对照组)及选样和分组方法(使用正确的随机方法选样和分组;在实验对象的分组和施加因素分配实验组、对照组上,都要随机化);
(3)样本含量。(说明确定样本含量的依据)3.处理因素:(详细写)
处理因素设置要求:①抓住主要因素;②找出非处理因素(混杂因素);③处理因素标准化。
(1)设备(或试剂或药物)生产厂家(来源)及型号(剂量);(2)治疗方法及操作程序(包括对照组);(3)操作过程中的质量控制(包括方法、人员、设备三统一及实验质控手段等);(4)技术关键。4.研究结果:
确定研究效应的测量指标及测定方法,要考虑与待评价的结果有关联性、客观性、灵敏性、特异性及实用性等。
(1)疗效判断标准(用公认的或统一的,并阐明出处;如没有统一的标准也应写明是自定标准。);
(2)(近期、远期)观察指标(各组观察指标应一致)及观察方法;(3)科研记录表格及汇总表格式样;(4)统计方法及指标确定,预计结果;(5)科研质量控制措施(包括科研全过程的各环节,如预试验工作、分组、施加处理因素、临床观察及随访、原始资料的记录及收集、资料整理等方面质量控制措施)。
5.创新设想(本研究的):
6.工作时间安排(包括调研、设计、研究、统计分析、总结鉴定等): 7.研究人员分工(包括姓名、性别、年龄、职称、工作单位及在本研究中的详细分工):
8.经费的筹措及使用计划:
9.存在(可能出现)的问题、困难及解决办法: 临床科研的对照问题
为保证临床科研实验组与对照组之间具有可比性,对照组中的观察对象除了实验因素不同以外,实验过程中的实验条件和辅助措施,都应与实验组相同。常用对照方式如下:
1、空白对照:对照组不施加任何处理因素。这种对照仅用在某些病情较轻或长期稳定无任何危险的疾病,如:慢性关节炎、HbsAg携带者、近视等。
2、安慰剂对照:对照组采用无药理作用且无害的“药“,如:淀粉、生理盐水等经加工后其外形、味道等与试验药相似,不被受试者识别。这种对照仅用在研究的疾病尚无有效治疗方法,或使用安慰剂后该病的病情、临床经过、预后等影响小或无影响时。
3、实验对照:对照组不施加处理因素,但施加某种与处理因素有关的实验因素。
4、标准对照:用现有标准方法或常规方法做对照,注意以一种低疗效的方法作对照来提高试验的疗效是毫无意义的,甚至是有害的。
5、历史对照:以过去的研究结果作对照,这是一种非随机和非同期的对照,容易产生偏倚(可能因为疾病自然病程会随时间而变化,或医生的收治病人诊断标准和治疗方法或水平因时间而变化等,使两组失去可比性)。这种对照可用于狂犬病、骨折愈合等疗效对照。
6、自身对照:对照和实验在同一受试对象进行,这种对照简单易行,但应注意该方法的两个缺陷:一是实验总是把处理前作对照,这不符合随机分配原则;二是实验前后某些环境因素或自身因素发生了改变,可能影响实验结果。可考虑用交叉实验解决。
7、相互对照:多种待研究观察因素相互对照。
目前常用的设计方案有:随机对照实验、配对实验、交叉实验(适于病程较长的实验研究),可根据具体情况,选用适合的方法进行实验研究。
10、影响实验研究结果的因素及其控制
一、误差:
1、随机误差:通过增加样本含量,可减小随机误差,但不能消除。
2、非随机误差:
非系统误差:偶然失误造成的。
系统误差:误差值遵循一定的规律而存在或变化,增加样本量,不能纠正。
二、编倚:(可以看成是一种系统误差)
1、选择性偏倚:防止选择性偏倚的措施:①正确拟定观察对象的纳入和排除标准;②采用分层抽样方法;③正确设立对照;④遵守随机化原则。
2、测量偏倚(或称观察偏倚或信息偏倚):
产生原因:①沾染(对照组也接受了处理措施);②干扰;③依从与非依从;④失访(>20%);⑤检查与诊断结果不一致;⑥观察记录有误;⑦心理因素的干扰。
防止措施:①用盲法试验;②签定实验合同;③检查实验对象的依从情况;④注意医德问题;⑤定期检查研究记录;⑥对实验方法、诊断标准的一致性在实验前应做出估计。
3、混杂偏倚:
产生原因:多在总结分析阶段,评价被研究因素与疾病之间的关系时,如果存在外来因素与该病和研究因素均有联系,使研究因素效应与外来因素效应混
在一起,从而掩盖或夸大研究因素与疾病的真实联系。
防止措施:①设计时,用配对设计或采用分层抽样方法;②分析阶段,用分层分析技术或多变量回归分析技术。其目的是平衡混杂因素的作用。
医学科研设计基本内容(调查设计参考用)
1、国内外研究现状、水平、发展趋势(简要介绍与本课题有关研究的国内外现状、水平、发展趋势等,写明本课题提出的依据及研究目的。注意:研究目的应很明确,且围绕一个中心;简要介绍预试验内容及结果。)。
2、调查计划:
⑴、确定观察对象(所要研究的总体)和观察单位(总体中的个体统计对象)⑵、选定调查指标(调查指标是调查目的的具体体现):指标选择要求:①精选、重点突出,不要贪多求全,分散精力。②计量指标比计数指标敏感。③客观指标优于主观指标。④选用灵敏度高,特异度高的检查方法作为诊断依据。
⑶、调查方法(普查、抽样调查等)
⑷、样本含量(说明确定样本含量的依据)
⑸、收集原始资料的调查方式(直接观察、直接采访(访问调查、自填调查)、间接采访(信访、电话))
⑹、设计调查表和问卷(调查表和问卷设计相关问题附后)
⑺、调查阶段的组织工作(包括组织领导、关系协调、调查员培训等)
⑻、设计阶段质量控制:①正确划分调查范围;②尽量选择客观、明确的指标;③对调查问题进行精选,避免问题过于繁杂;④对于可能引起混淆的调查项目给出明确的定义。
⑼、调查阶段质量控制:①通过预试验工作完善调查设计;②抓好调查员的选拔和培训,避免因调查员工作态度不好或业务水平不足而影响调查结果;③对被调查者可能存在的拒绝、躲避、隐瞒、等问题,采取相应措施,如:开展宣传、摸清被调查者在家的时间规律、对敏感问题做好解释和保密工作,对记忆不清者,可请知情人帮助回忆;④在问卷中设置相反问题,以了解应答的可靠性;⑤选择调查方式时应考虑年龄和文化水平因素;⑥对检测项目的调查应注明检测设备、试剂等生产厂家、型号、批号;操作过程应注意操作方法(包括诊断标准)、人员、设备(应有明确的校正灵敏度及准确度的方法及时间)三统一;⑦注意调查的效度(真实性)与信度(可靠性)问题,常采用现场抽样复查来评价调查信度等。
3、整理计划:(去粗取精,去伪存真)
⑴、计算机录入与整理工作:应提出确保录入质量的措施:①在建立数据库时,编写逻辑查错程序;②同一资料用两个录入员输入并用计算机核对;③资料录入完成后,做频数表或散点图,发现异常值;④正确选择合适的指标和分析方法等。
⑵、资料分组:(按数值大小分组、按类型分组等)⑶、分组组数确定:
4、统计分析计划:(包括:①说明指标的内涵和计算方法及预期进行统计描述和推断内容;②拟进行的探索性分析;③控制混杂因素的措施;④列出统计分析表,并通过统计分析表检查调查、整理计划有否遗漏。)
5、创新设想(本研究的):
6、工作时间安排(包括调研、设计、研究、统计分析、总结鉴定等):
7、研究人员分工(包括姓名、性别、年龄、职称、单位及在本研究中的详细分工):
8、经费的筹措及使用计划:
9、存在(可能出现)的问题、困难及解决办法:
10、调查表及问卷设计相关问题 一、一般结构:
1、前言:用于说明调查目的、重要性、回答问题的必要性以及对调查内容保密等,以取得调查对象的合作。
2、填写说明:为保证所有调查员和调查对象均能对调查项目和填写方法正确理解,统一认识而编写。
3、核(备)查项目:该部分与调查目的无关,作核查核对用。内容包括调查员姓名、调查日期、复核结果、未调查原因等。
4、调查(分析)项目:为直接用于调查指标所必须以及排除混杂因素所必须的项目,包括调查对象的①背景资料,如:姓名、住址、单位、电话等;②人口学项目,如:年龄、性别、民族、婚姻状况、文化程度、职业等;③研究项目(该部分是调查表的核心内容,依不同调查目的而定,分问题项目和检测项目)。
二、问题的形式:问题的基本形式有提问式和陈述式两种;根据问题答案的形式分开放式问题(无统一答案)和封闭式问题(有固定答案)。
封闭式问题设计注意:
1、答案应包括所有可能的答案,还应有“其它”一栏;
2、各选择答案不应相互包含,不应有重叠情况。
三、问题设计的一般原则:
1、尽量避免用专业术语(提问一般就低不就高);
2、避免混淆,对语义较模糊的词(如:经常、偶尔、普通、大概等)应给出本次调查的定义或标准。
3、避免双重问题,避免一个问题中实际提出两个问题。
4、提问避免诱导或强制性(否定形式的提问有诱导之嫌);对有社会期望偏倚的问题应注意。
5、问题应适合全部调查对象并符合逻辑。
6、敏感问题的处理:对国家政策、伦理道德、经济收入、生活行为、其它个人隐私等敏感问题,可以采用对象转移法或假定法提问;关于敏感问题调查的随机应答技术问题,须参考有关统计学专著。
7、调查项目的安排顺序(注意问题顺序的逻辑性)①、一般问题在前,特殊问题在后; ②、易答问题在前,难答问题在后;
③、敏感问题一般在最后;如敏感问题较多,可分散在问卷中,以降低其敏感性;
④、一般将问题项目放在前,检测项目放在后。
第二篇:统计方法总结
统计方法总结
统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。
一、统计方法的选择
统计资料丰富且错综复杂,要想做到合理选用统计分析方法并非易事。对于同一个资料,若选择不同的统计分析方法处理,有时其结论是截然不同的。
正确选择统计方法的依据是:
①根据研究的目的,明确研究试验设计类型、研究因素与水平数;
②确定数据特征(是否正态分布等)和样本量大小;
③正确判断统计资料所对应的类型(计量、计数和等级资料),同时应根据统计方法的适宜条件进行正确的统计量值计算;
最后,还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择统计分析方法。
二、统计分析的步骤
(一)收集数据
收集数据是进行统计分析的前提和基础。收集数据的途径众多,可通过实验、观察、测量、调查等获得直接资料,也可通过文献检索、阅读等来获得间接资料。收集数据的过程中除了要注意资料的真实性和可靠性外,还要特别注意区分两类不同性质的资料:一是连续数据,也叫计量资料,指通过实际测量得到的数据;二是间断数据,也叫计数资料,指通过对
(二)整理数据
整理数据就是按一定的标准对收集到的数据进行归类汇总的过程。由于收集到的数据大多是无序的、零散的、不系统的,在进入统计运算之前,需要按照研究的目的和要求对数据进行核实,剔除其中不真实的部分,再分组汇总或列表,从而使原始资料简单化、形象化、系统化,并能初步反映数据的分布特征。
(三)分析数据
分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核心和关键。数据分析通常可分为两个层次:第一个层次是用描述统计的方法计算出反映数据集中趋势、离散程度和相关强度的具有外在代表性的指标;第二个层次是在描述统计基础上,用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和规律。
三、统计数据的搜集获取方法
统计数据或称统计资料,它是统计分析的基础,是进行经济研究和制定发展计划,作出各种投资、管理决策的依据。根据数据来源,社会经济统计资料可以分为初级资料和次级资料两种。
1、次级资料搜集的方法
次级资料来源于各种出版物和各级政府统计网站所公布的统计公报、统计分析报告和统计数据资料。随着现代信息的广泛传播,数据搜集可以从网络、报表等多方面搜集。
2、初级资料搜集的方法
初级资料又称第一手资料,可以通过抽样调查、重点调查、典型调查、普查等调查方法搜集数据。
(1)抽样调查:抽样调查是一种非全面调查。根据随机抽样原则从总体中抽取一定数量的单位(样本)进行调查,并由得到的结果来推断总体的一般情况。与其他方法相比,抽样调查周期短、时效性强,能大大降低调查费用,能提高调查的质量,还可以用于评价、修正和补充其他调查方式得到的统计资料。因此,抽样调查不仅是一种科学的、有效地、国际通行的统计调查方法,也将逐步成为我国统计调查的主体。
(2)重点调查:是在所调查的对象中选择一部分重点单位进行调查,也是一种非全面调查。优点在于投入少、效益高、速度快,可调查较多的项目和指标,了解较详细的情况。但重点调查一般不用于推断总体,因为重点单位与一般单位的情况通常差别较大。
(3)典型调查:是根据调查研究的目的和要求,在对调查对象进行全面分析的基础上有意识地选择一些具有代表性的典型单位进行深入调查。对于研究、分析社会经济生活中的新生事物,深入了解典型单位的情况以及补充、验证说明全面调查资料,都具有重要的意义。
(4)普查:是为了研究某种社会经济现象而专门组织的一时性全面调查,如全国人口普查、工业普查、物资普查等。普查项目一般都属于重要的国情国力调查,通过普查能搜集到全面而系统的资料,因此在统计调查方法体系中处于基础地位。
3、统计数据调查的方法
具体有直接观察法、报告法、采访法和通讯法。
四、各种资料的统计方法
1、计量资料的统计方法
分析计量资料的统计分析方法可分为参数检验法和非参数检验法。参数检验法主要为t检验和方差分析(ANOVN,即F检验)等,两组间均数比较时常用t检验和u检验,两组以上均数比较时常用方差分析;非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的t检验和成组设计资料的t检验;当两个小样本比较时要求两总体分布为正态分布且方差齐性,若不能满足以上要求,宜用t 检验或非参数方法(秩和检验)。方差分析可用于两个以上样本均数的比较,应用该方法时,要求各个样本是相互独立的随机样本,各样本来自正态总体且各处理组总体方差齐性。根据设计类型不同,方差分析中又包含了多种不同的方法。对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析。
2、计数资料的统计方法
计数资料的统计方法主要针对四格表和R×C表利用
检验进行分析。四格表资料:组间比较用检验或u检验,若不能满足 检验:当计数资料呈配对设计时,获得的四格表为配对四格表,其用到的检验公式和校正公式可参考书籍。R×C表可以分为双向无序,单向有序、双向有序属性相同和双向有序属性不同四类,不同类的行列表根据其研究目的,其选择的方法也不一样。
3、等级资料的统计方法
等级资料(有序变量)是对性质和类别的等级进行分组,再清点每组观察单位个数所得到的资料。在临床医学资料中,常遇到一些定性指标,如临床疗效的评价、疾病的临床分期、病症严重程度的临床分级等,对这些指标常采用分成若干个等级然后分类计数的办法来解决它的量化问题,这样的资料统计上称为等级资料。
五、按不同标志分类的统计方法
统计分析方法,按不同的分类标志,可划分为不同的类别,而常用的分类标准是功能标准,依此标准进行划分,统计分析可分为描述统计和推断统计。
1、描述统计
描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
2、推断统计
推断统计指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验,最常用的方法有Z检验、T检验、卡方检验等。
描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计是描述统计的升华。具体研究中,是采用描述统计还是推断统计,应视具体的研究目的而定,如研究的目的是要描述数据的特征,则需描述统计;若还需对多组数据进行比较或需以样本信息来推断总体的情况,则需用推断统计。
例如,在教育领域中,在对某幼儿园大班开展一项识字教改实验,期末进行一次测试,并对测试所得数据进行统计分析。如果只需了解该班儿童识字的成绩(平均数及标准差)及其分布,此时,应采用描述统计方法;若还需进一步了解该实验班与另一对照班(未进行教改实验)儿童的识字成绩有无差异,从而判断教改实验是否有效时,除了要对两个班的成绩进行描述统计之外,还需采用推断统计方法。六、一些常用统计方法概述
(一)参数估计
参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。构造点估计常用的方法是:①矩估计法。用样本矩估计总体矩,如用样本均值估计总体均值。②最大似然估计法。于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。③最小二乘法。主要用于线性统计模型中的参数估计问题。④贝叶斯估计法。基于贝叶斯学派(见贝叶斯统计)的观点而提出的估计法。可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。
区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。1934年统计学家J.奈曼创立了一种严格的区间估计理论。求置信区间常用的三种方法:①利用已知的抽样分布。②利用区间估计与假设检验的联系。③利用大样本理论。
参数估计的基本方法有:
(1)矩估计法:用样本矩估计总体矩,如用样本均值估计总体均值。
(2)最小二乘法:为了选出使得模型输出与系统输出yt尽可能接近的参数估计值,可用模型与系统输出的误差的平方和来度量接近程度。使误差平方和最小的参数值即为所求的估计值。
(3)极大似然法:选择参数θ,使已知数据Y在某种意义下最可能出现。某种意义是指似然函数P(Y│θ)最大,这里P(Y│θ)是数据Y的概率分布函数。与最小二乘法不同的是,极大似然法需要已知这个概率分布函数P(Y│θ)。在实践中这是困难的,一般可假设P(Y│θ)是正态分布函数,这时极大似然估计与最小二乘估计相同。
(二)假设检验
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。
参数估计和假设检验是统计推断的两个组成部分,它们都是用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总体参数在估计前是未知的。而在假设检验中,则是先对总体参数的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
基本原理:先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设成立。
具体做法:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H。的判断。常用的假设检验方法有u—检验法、t—检验法、X2检验法、F—检验法,秩和检验等。
基本步骤:
1、提出检验假设(又称无效假设,符号是H0))和备择假设(符号是H1)。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的;
H1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。
应注意的问题:
1、做假设检验之前,应注意资料本身是否有可比性。
2、当差别有统计学意义时应注意这样的差别在实际应用中有无意义。
3、根据资料类型和特点选用正确的假设检验方法。
4、根据专业及经验确定是选用单侧检验还是双侧检验。
5、当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。
6、判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能。
7、报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。
(三)方差分析
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
1.方差分析的假定条件为:
(1)各处理条件下的样本是随机的。
(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。
(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。
(4)各处理条件下的样本方差相同,即具有齐效性。
2.方差分析的假设检验
假设有K个样本,如果原假设H0样本均数都相同,K个样本有共同的方差σ,则K个样本来自具有共同方差σ和相同均数的总体。
如果经过计算,组间均方远远大于组内均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。否则承认原假设,样本来自相同总体,处理间无差异。
方差分析的作用:一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。
经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。
单因素方差分析
1、单因素方差分析概念理解步骤
是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差 分析得到答案。
单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。
单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。
单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。
2、单因素方差分析原理总结:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
3、单因素方差分析基本步骤
1提出原假设:H0——无差异;H1——有显著差异
○2选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检
○验。
3计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统
○计量的观测值和相应的概率P值。
4给定显著性水平,并作出决策 ○多因素方差分析
多因素方差分析基本思想:多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。
例如:分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。
(四)列联表检验
在统计实践中,人们经常需要对样本资料进行各种各样的分类,以便分析研究。如果对样本资料按照两个指标变量进行复合分组,其结果必然就是各种双向列联表。对于列联表资料,人们经常需要检验所依据分类的两个变量是否独立或相关。如在市场调查中,将被调查者对所拟推销商品的状态与被调查者的性别或年龄以及职业等指标变量进行双向复合分组,然后检验分类变量是否独立或相关,可发现和确定潜在的购买者群体,等等。这种对列联表中两分类变量是否独立的检验,也是假设检验的一个重要内容,称为列联表分析或列联表检验。
一般,若总体中的个体可按两个属性A与B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为 频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。
(五)回归分析
1、介绍:
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
2、回归分析的步骤 1根据预测目标,确定自变量和因变量 ○
明确预测的具体目标,也就确定了因变量。如预测具体目标是下一的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
2建立回归预测模型 ○
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3进行相关分析 ○
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
4检验回归预测模型,计算预测误差 ○
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5计算并确定预测值 ○
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
3、应注意的问题
应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系;
②避免回归预测的任意外推;
③应用合适的数据资料;
(六)时间序列分析
1、介绍:
时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。
它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。
2、时间序列的组成要素
一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
1趋势:是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
○
2季节变动:是时间序列在一年内重复出现的周期性波动。它是诸如气
○候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
3循环波动:是时间序列呈现出得非固定长度的周期性变动。循环波动
○的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。
4不规则波动:是时间序列中除去趋势、季节变动和周期波动之后的随机○波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。
3、基本步骤:
时间序列建模基本步骤是:①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。②根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。
4、主要用途:
1系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对○系统进行客观的描述。
2系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去○说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。
3预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值。
○4决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目○标值上,即预测到过程要偏离目标时便可进行必要的控制。
七、统计方法选择技巧
按照“定性——定量—— 定性”的顺序,做到定量分析与定性分析巧妙结合,这就是统计分析技巧。首先是通过定性分析,选择适当的统计分析方法,继而进行定量分析。有些最后还要落脚到定性分析。下面介绍几种类型的统计分析内容如何选择适当的统计分析方法。
(一)状态分析
对于客观存在的事物,需要经常研究一定时间、地点、条件下的状态,分析其量变情况,这属于状态分析。
例如我国1988年出现通货膨胀现象,全国零售物价比上年上涨18.5%。党的十三届三中会制定了治理经济环境,整顿经济秩序的政策,1989年、1900年零售物价状况如何?在这种情况下,就需要作状态分析。什么方法分析全国零售物价状况呢?这要经过“定性——定量”的分析过程。全国零售物价包括所有零售商品的价格,是复杂总体的综合变动,所以要用指数法计算总指数。全国零售物价总指数难以取得综合指数公式所需要的资料,只能选择平均数指数公式进行计算。经过统计分析,1989年全国零售物价比上年上涨17.8%,l990年比上年只上涨2.1%,出现了物价稳定的局面。
状态分析可以细分为若干不同性质的种类,有静态分析,有动态分析,有简单总体的状态分析,有复杂总体的状态分析。不同性质的状态分析,要分别选用不同的统计分析方法,静态分析一般用总量指标、相对指标、平均指标、抽样指标推断等方法,动态分析一般用时间数列、统计指数等方法。指数法也可以用于静态分析,如用指数法分析计划完成程度,就属于静态分析。对于简单总体的状态分析,上述方法均可以使用,而对于复杂总体的状态分析,只能用指数法。
(二)因素分析
因素分析是对构成事物的要素、成分和决定事物发展的内部条件进行定量分析。这是在统计分析中最常见的一种分析。例如,分析计划完成好坏的原因,分析产品产量增加的原因,分析经济效益好坏的原因等。通过因素分析,可以揭示事物内部最本质的联系,可以发现规律,还可以提出新的理论概念。
因素分析主要有两种情况:一是各个因素变动之和等于总变动;二足各个因素变动的乘积等于总变动。前者可以采用离差法,后者可以运用指数体系,如果后者只需分析绝对数的变动,可以采用连环替代法。
(三)联系分析
社会经济现象是相互联系的,在其联系中存在因果关系、比例关系、平衡关系等。联系分析就是利用这种社会经济现象相瓦联系进行数量关系的分析,以研究其中存在的规律性。事物的发展变化,内因是根据,外因是条件。联系分析主要有用于因果关系的相关回归法,用于比例关系的比例法,用于平衡关系的平衡法等。
(四)趋势分析
社会经济现象的发展变化受许多因素影响,有长期起作用的基本因素,也有短期因素和偶然因素。趋势分析就是排除短期偶然因索的影响,使动态数列呈现出长期因素所造成的长期趋势,以揭示事物发展规律,据以预测未来。
趋势分析的方法既有数学模型法,如趋势线配合法,也有非数学模型法,如时距扩大法、移动平均法等对于趋势线配合法的运用。具体配合什么佯的趋势线,首先也要作定性分析,即对客观现象发展的形态进行判断,一种判断方法是画散点图,另一种判断方法是根据动态指标来判定,当动态数列的逐期增长量大体相同,基本趋势是直线型的,可配合直线方程式;若二级增长量大体相同,基本趋势是抛物线型的,可配合指数抛物线方程式。
(五)决策分析
决策分析是人们现在一定条件下,为寻找优化目标和优化地达到目标须采取的行动方案,而进行的一系列分析研究、对比选择工作。决策方法很多,不同的内容,不同的情况,要选用不同的决策方法。例如,按掌握的信息情报资料的不同,有确定型决策、风险I生决策和不确定型决策,各自要选择相应的决策方法。
(六)多层次分析
有些问题比较简单,一两个层次就能把问题分析清楚。有些问题则比较复杂,需要进行多层次的分析,层层解剖,才能找到问题的本质和规律。对于多层次的分析,每一层次都要经过定性——定量——定性的分析过程。
八、统计方法的局限性
统计分析方法有其自身的优势与局限,正确认识其优势和局限,二者同样重要。统计分析方法的局限,归结起来,主要有下列几点:
(一)现实生活极其复杂,诸多因素常常纠缠交错在一起,仅靠统计分析方法去控制和解释这些因素及其相互关系,是不全面、不深刻的。
(二)统计分析方法的运用是有条件的,它依赖于数据资料本身的性质、统计方法的适用程度和研究者对统计原理及统计技术的理解、掌握程度与应用水平。方法选择不当,往往易得出错误的结论。
(三)统计决断以概率为基础,既然是概率,就存在误差,因而可以说,统计决断的结论并非绝对正确。例如,从样本统计量推断总体参数的信息时,由于推断建立在一定的概率基础上,没有百分之百的把握认为推断是正确的;当在0.95概率基础上比较两个总体平均数是否相等并认为它们之间存在或不存在显著差异时,从可靠度上看,决断错误的可能性尚有5%。
第三篇:农民收入统计方法
农民收入统计方法
一、农村住户调查简介
农民收入的统计是通过“农村住户调查”来完成的。“农村住户调查”是通过对农村居民家庭的生产、收入、消费、积累和社会活动的调查,全面反映农村居民的收入和生活质量的变化,对农村居民实现小康和摆脱贫困的进程进行监测,为各级政府制定农村政策和决策提供依据,也为国民经济核算提供了基础数据。
国际上开展“住户调查”已有很长的历史,我国农村开展住户调查始于1954年,在1954年至1977年间,该调查曾因“人民公社化”运动和“文化大革命”运动两次中断,1977年该调查再次恢复。1984年国家统计局农村社会经济调查队成立以后,农村住户调查获得了长足发展,调查方法、调查内容逐渐与国际接轨,走上了科学化、规范化和现代化的道路。
二、农民人均纯收入的定义与计算方法
(一)“纯收入”指标的定义
在我国农村社会经济统计中,“纯收入”指标的应用起始于“人民公社”时期的“农村经济收益分配”统计。在收益分配统计中,“纯收入”指的是农村经济总收入扣除各项费用后的余额部分,这个余额部分也叫“收益”。“纯收入”根据国家有关规定在国家、集体和个人之间进行分配。个人分配所得叫“农村居民所得”,指的是当年的农村经济纯收入减去国家税收和集体提留后的剩余部分。“农民人均纯收入”指的是按农村人口平均的农村居民所得。这个指标的口径从收入分配的角度说,就是农民初次分配得到的收入。
在开展农村住户调查中,初期的“纯收入”概念与“农村经济收益分配”统计中的概念是一致的,随着我国社会主义市场经济的发展和收入分配政策的调整,现行农村住户调查“纯收入”指标的口径有所调整,主要是包含了部分再分配的收入。“纯收入”指的是农村居民当年从各个来源渠道得到的总收入,相应地扣除获得收入所发生的费用后的收入
总和。“农民人均纯收入”指的是按农村人口平均的“农民纯收入”,反映的是一个国家或地区农村居民收入的平均水平。
(二)计算方法
在农村住户抽样调查中,农民人均纯收入计算的工作流程是,首先,由县级农调队将农户每月记的帐录入计算机,按季度(或按月)上报省农调队,年底由省农调队将全年的原始数据上报农调总队,省农调队和农调总队同时用国家统计局开发的计算机数据处理程序对原始调查数据进行处理,计算各省和全国的农民人均纯收入。整个计算过程完全由计算机自动完成,并有严格的制度规定。
农民人均纯收入的计算方法全国是完全统一的,计算公式为:农民人均纯收入=(农村居民家庭总收入—家庭经营费用支出—生产性固定资产折旧—税金和上交承包费用—调查补贴)/农村居民家庭常住人口
从计算公式看,农民纯收入的计算方法并不复杂。但是,由于农民收入是由两部分组成的,一部分是现金收入,另一部分是实物收入,现金收入好计算,调查结果是多少就是多少,复杂的是实物收入。由于实物收入没有经过市场,因此,必须采取一个客观、准确的计算方法来计算其价值量,才能正确反映农民收入水平。在确保原始调查数据质量的前提下,如何计算实物收入的价值量成为准确计算农民收入水平的关键。
在现行的农村住户调查中规定,实物收入的计算方法是将农户当年生产的农产品产量扣除出售部分,分品种作价后计算得出。对各品种农产品的作价执行的是与市场挂钩的原则,即以农民在市场出售农产品的价格为基础,粮食、肉类打九折,其他农产品打八五折。如果在下年出售了上年的结余农产品,根据出售价格与上年实物作价的高低,将出售结余农产品的损益计入下年收入。
对农作物副产品计算收入的原则是,只有用于生产和生活或明确用于出售的农作物副产品才计算收入,用于生产的农作物副产品在计算收入的同时也要计入生产费用中。农作物副产品作价计算收入的方法,原则上按实物折算收入的作价方法执行。
(三)与农民人均纯收入相关的一些指标与定义
农民既是一个消费单位又是一个生产单位,既有生活消费支出又有生产投入,既有现金收入也有实物收入。由于收入是对农民生产经营活动的全面反映,因此,为了准确反映农民的生产经营活动,在调查方案和分析中设计了较多的概念。主要有:总收入、纯收入、现金收入、实物收入、现金纯收入、实物纯收入和可支配收入等。
1.总收入
总收入是调查期内全部收入的总和,其中未扣除为获得收入所发生的支出(生产费用)和生活消费支出。按收入来源的性质划分,总收入分为:工资性收入(报酬收入)、家庭经营总收入、财产性收入和转移性收入。按收入的形态划分,总收入中包含两部分:实物总收入和现金总收入。
(1)工资性收入:指调查期内农村住户和住户成员受雇于单位和个人,靠出卖劳动而获得的收入。按收入来源渠道划分为在非企业组织中劳动得到的收入(如干部、教师收入)、在本地企业劳动得到的收入、常住人口外出务工收入和从其他单位劳动得到的收入。
(2)家庭经营总收入:指农村住户以家庭为生产经营单位进行生产筹划和管理而获得的收入。家庭经营收入按划分又可分为农业收入、林业收入、牧业收入等(共分为十个行业和其他)。
(3)财产性收入:指拥有金融资产或有形非生产性资产的农村住户向其他机构单位提供资金或将有形非生产性资产供其支配,作为回报而从中获得的收入。如利息、股息、红利、土地征用补偿等。
(4)转移性收入:指农村住户和住户成员无须付出任何对应物而获得的货物、服务、资金或资产所有权等。但不包括无偿得到的用于固定资本形成的资金。
(5)现金总收入:指农村住户和住户成员在调查期内得到的以现金形态表现的收入总和。
(6)实物总收入:指的是农户当年生产的各种农产品总量扣除出售部分,按一定的价格计算得到的总收入。
2.纯收入
和总收入一样,纯收入按收入来源的性质划分,可分为工资性收入、家庭经营纯收入、财产性收入和转移性收入,按收入的形态分为现金纯收入和实物纯收入。
工资性收入、财产性收入和转移性收入与总收入中的定义和口径完全一样。
(1)家庭经营纯收入:指的是家庭经营总收入相应地扣除从事各项生产经营活动获得的支出后的收入总和。家庭经营纯收入按行业又可分为农业纯收入、林业纯收入、牧业纯收入等(共分为十个行业和其他)。
(2)现金纯收入:指当年从各个来源得到的现金总收入相应地扣除所发生的现金费用支出后的收入总和。“现金纯收入”是“纯收入”中已经“变现”的部分,反映的是在当年“纯收入”中,农民对外进行商品交换的现实支付能力。
(3)实物纯收入: “纯收入”减去“现金纯收入”就是“实物纯收入”。
3.可支配收入
可支配收入是收入分配的概念。由农民生产活动的净收益和再分配净收益构成。也是通过总收入计算得到。
计算公式:农村住户可支配收入=农村住户总收入-家庭经营费用支出-税费支出-生产性固定资产折旧-财产性支出-转移性支出-调查补贴
按收入来源划分,与总收入和纯收入一样也可划分为四个部分,但名称略有不同,部分指标的口径也不一样,四个部分分别分为:工资性收入、家庭经营净收入、财产性净收入和转移性净收入。
工资性收入与总收入和纯收入中的定义与口径完全一样;家庭经营净收入等同于家庭经营纯收入。
(1)财产性净收入:指住户和住户成员在调查其内获得的财产性总收入扣除为获得财产性收入所发生的费用后的收入。
(2)转移性净收入:指住户和住户成员在调查其内获得的转移性总收入减去调查期内住户和住户成员的转移性支出(再分配支出)后的收入。
在现行的纯收入口径中,财产性收入没有扣除为获得财产性收入而发生的费用,转移性收入只扣除了部分转移性支出,这就是“纯收入”与“可支配收入”指标口径的区别。
第四篇:气象中的统计方法总结
中国近20年来气象统计预报综述
中国近20年来气象统计预报综述
谢炯光曾琮
(广东省气象台)
摘要
近20年来,多元统计分析方法有了长足的进步,涌现出不少新方法、新技术。本文着重介绍了近20年来气象统计预报在中国气象业务科研中的一些应用和发展,主要从多元统计分析意义上来选材。
关键词:多元分析、气象统计、预报。
一、前言
气象统计预报在中国气象业务预报和科研工作中占有重要的位置,特别是在模式统计释用及中长期预报业务中,统计预报更是扮演着一个重要的角色,多元分析中的回归分析、典型相关分析、EOF分析等更是气象预报和分析不可少缺的工具。近20年来,气象统计预报在中国取得了长足的发展。本文主要综述统计方法在气象预报业务中的各个方面的应用及其所取得的一些成绩。
二、多元统计分析在气象预报业务中的应用
1、回归分析
广东、江西、河北、辽宁等气象局[1]用0、1权重回归、逐步回归、多元回归等方法,得出晴雨MOS预报方程。1978年曹鸿兴等、史久恩等[2]用逐步回归建立最高、最低气温预报方程。新疆自治区气象台张家宝等[3]以预报员经验为基础,采用完全预报(Perfect Prog Method)方法,应用0、1权重回归建立了有无寒潮的预报。上海气象台丁长根、黄家鑫[4]用逐步回归建立U、V和S(全风速)预报方程。1965年W.F.Massy[5]提出的主成份回归、1970年Hoerl和Kennard[6]提出的岭估计(Ridge estimate)以及Webster等人[7]提出的特征根回归(Latent root regression, LRR)对在回归分析中出现复共线性(Multi-collinearity)有较好的处理。冯耀煌[8]在预报集成中,应用了岭回归技术,李耀先[ 9]用岭回归作水稻产量年景预测。魏松林[10]用特征根回归建立长春6-8月平均气温的特征根回归。
Furnialhe 和Wilson提出的穷尽所有回归的算法,比较彻底地解决了最优回归(即最优子集回归)的问题。张万诚[11]用最优子集回归作低纬高原雨季开始预报。在气象预报的实际工作中,常要考虑多个自变量(预报因子)与多个因变量(预报量)的关系。中国数学家张尧庭[12]解决了这一问题的算法,徐一鸣等[13]用多预报量双重筛选逐步回归作台风路径预报,严华生等[14]用多因变量多自变量建立大气环流--区域水稻产量预报。
引入非线性回归是近年来发展的趋势。冯耀煌等[15]、姜子俊等[16] 提出了一种选择非线性最优预报因子和建立非线性预报方程的方法,可用于长、中短期预报。近年来由于数值预报模式的频繁更迭,使模式输出统计预报方法受到新的考验,黄嘉佑等[17]介绍了卡尔曼滤波在天气预报中的应用,刘春霞等[18]用此方法制作了广东省冬季的最低气温预报。近年来,卡尔曼滤波技术在短期气候预测中也得到了应用[19]。
2、判别分析
广东省徐闻气象局[20]用二级判别做台风登陆地段的预报。Fisher、Bayes以及逐步判别等虽然在气象实际中广泛应用,但严格地说,这些方法仅当变量为正态分布时才可应用,Logistic判别对变量的基本假设条件较宽,对未经正态检验的变量应用本方法是可行的,且可用于既有连续变量又有多值离散变量的情形。吕纯濂等[21]将Logistic判别引入中国气象界,并研究了二次Logistic判别[22]分析及逐步判别[23]在气象中的应用。
3、相关分析
近20年来在气象统计中用得较多的主要有典型相关(CCA)分析和奇异值分解(SVD)方法。CCA是提取两个气象场的最大线性相关摸态的方法。朱盛明、祝浩敏[24]在数值预报的解释应用中用典型相关分析提取有物理意义的预报因子作预报方程。陈嘉玲、谢炯光[25]用典型相关分析作中期冷空气预报。黄嘉佑[26]用典型相关分析作副高的统计动力预报。近年来发展了一种新的CCA改进方法,称为典型相关分析的BP(Barnert 和Preisendorfer)方法,在气象统计中也得到了应用[27]。
奇异值分解(SVD)也是提取两个场的最大线性相关摸态的方法,SVD方法可以变成是两个要素场关系的扩大EOF分析。谢炯光等[28]用奇异值分解方法,求出了广东省前汛期(4-6月)西太平洋场海温与广东省降水场的6对奇异向量,来作汛期降水趋势预报。江志红等[29]用SVD方法讨论了中国夏半年降水与北太平洋海温异常的关系。
4、气象场的分解及其应用
50年代中期由Loreng引入到大气科学研究中的主成份分析以及后来发展的扩展经验正交函数、复经验正交函数、旋转主分量分析、R型、Q型因子分析、对应分析、主震荡型(Principal Oscillation Parterns,PPOS)。使气象研究及业务水平进入一个更高层次。
4.1 经验正交函数(EOF)分解
章基嘉等[30]应用经验正交函数对亚洲500hPa侯平均环流与我国侯平均气温之关系的时空结构进行分析。用EOF逐年划分自然天气季节,张邦林、丑纪范[31]提出了一种时空综合的经验正交函数分析方法,多数的经验正交函数分解是在标量场上展开的,但风场也用经验正交函数展开,周紫东等[32]、王盘兴[33] ]讨论了气象向量场的经验正交函数展开方法及其应用。
4.2 主成份(主分量)分析及其因子分析
气象分析预报中,常要分析许多变量,而变量间往往互有影响,如何从多个变量中找出很少几个综合性的指标代替原来较多的指标,而且所找到的综合指标又能尽可能多地反映原来数据的信息,而且主成份之间又是相互独立的主成份分析。
何敏等[34]用主分量研究了欧亚地区大气环流年际振荡的时空分布特征,谢炯光[35]用主分量与非线性降维和相似综合作广东月降水量分布预报,陈创买等[36]提出一种气候场的主分量逐步回归预报模型,该模型将气候场的预报变成对气候场主分量的预报,并通过相关分析和逐步回归,求得气候场的主分量与各种不同的因子场的主分量因子之间的联系。用于广东年降水的预报。
4.3 扩展经验正交函数(EEOF)
1982年Weare 和Nasstrom[37]提出的EEOF分解可以得到气象场空间分布结构,也可以得到随时间变化空间分布结构的变化。张先恭等[38]用EEOF做太平洋海表温度与中国降水准3.5年周期变化。
谢炯光[39]提出一种月、季降水预测的新方法,用EEOF分解得到的前期特征向量
场,来预测后期的降水场分布特征。
4.4复经验正交函数(CEOF)
Rasmusson和Barnetl提出的复经验正交函数(CEOF)[40]能表现出气象场的位相变化及空间传播特征。
黄嘉佑[41]使用复经验正交函数分析中国降水长期变化的准两年周期振动,魏凤英等[42]用CEOF分析了近百年中国东部旱涝的分布及其年际变化特征,符综斌等[43]曾将CEOF分析用于Elnino增暖的振幅和位相变化,毕幕莹[44]用CEOF分析研究了夏季西太平洋副高的振荡。
4.5 因子分析、旋转主因子分析(RPC)
将主成份分析向前推进一步,就是因子分析,因子分析又分R型分析和Q型分析两种,我们知道,由于主因子是通过原始变量的线性组合得到的,因而可以了解到其天气意义。但哪一个主因子的天气意义更重要些,可通过因子荷载矩阵进行分析,一般来说因子荷载矩阵越简单越易解释。为此,使每个因子的荷载平方按列向0或1两端分化。使主因子在每个变量上的荷载趋近于1,而在其它变量上的荷载接近于0,这样,就更容易解释主因子的天气意义。这种变换称为旋转主因子分析,一般分正交旋转与斜交旋转两种方式。极大方差旋转是正交旋转,是气象预测、科研业务中最常用的旋转方法。谢炯光等[45]用因子分析和旋转因子分析对西太平洋8个海区进行了分析,对头4个主因子的物理意义进行了初步的解释,进而用它建立了广东省各月降水与海温的预报方程。黄嘉佑[46]用斜旋主分量分析了我国夏季气温及降水场(1951-1987年)的时空特征,王敬方等[47]用旋转主分量(RPC)方法,分析近40年来我国夏季温度变化的规律。
4.6 对应分析
对应分析是一种综合了R型及Q型因子分析特点的多元统计分析技术,黄嘉佑[48]、李麦村等[49]用该方法发现副高逐月变化曲线与赤道海温变化十分相似,谢炯光[50]用对应分析对4-6月逐月的连续变化进行分型,把各月的降水连续变化分为连升型、连降型、降后升型等四型,并利用回归分析作出各型的预报,在前汛期降水趋势和冬半年(1-3月)气温趋势的预测中收到了较好的效果。
4.7 主振荡型(POP)分析
主振荡型(POP)是Hasselmamm和Storch在20世纪80年代末提出来的[51]。章基嘉等[52]对离散化场时间序列推导了主振荡型分析方法的两个导出量:主振荡型(POP)及其伴随相关型(ACP)。通过热带太平洋SST矩平场时间序列POP及相应区域850hPa风场ACP的计算例子,给出了它们的实际算法。聚类分析
郑祖光[53]在首先不能确定用几个因子和分成几类的情况下,提出用变K变N方案。章基嘉等[54]应用K-均值聚类法对东亚各自然天气季节500hPa平均环流进行分型试验。在聚类分析中多数的分类样品是相互独立的,分类时彼此是平等的,但在一些问题中,样品的分类是不能打破顺序的。比如,对某一阶段气象要素数据进行分段以确定不同时段的气候特征。这种分类,称为分割更为形象一些,Fisher提出了最优分割的算法,谢炯光等[55]利用最优分割,对中国T106数值预报输出产品的各种物理意义明确的预报因子进行最优二分割,挑选出晴雨及有无大于25毫米降水的预报因子,建立概率回归方法,做24-144小时的晴雨,大于25毫米降水的完全概率预报,在业务中收到较好效果。最优二分割的进一步优化,产生了一种叫做AID的分割算法(Automatic Interaction Detection),利用AID方法,不但可以分类,还可以根据新的样品落区在哪一类作出预报。AID具有解决一些非线性问题的能力。谢炯光
等[56]据天气学实践选出47个与广东省台风、暴雨关系密切的预报因子,利用AID方法,进行计算做出台风暴雨的短期预报。谱分析
6.1 功率谱
李小泉等[57]利用谱分析研究500hPa环流指数的变化,谱分析也常常与其它方法相结合应用于天气分析与预报中,黄嘉佑[58]在研究海温场与太平洋副热带高压之间的关系时使用交叉谱发现,海温不单有明显的两年振动周期,而且这种振动存在于太平洋地区的气压系统中,关系十分密切,它们之间的凝谱平方值高值0.65的临界值。符淙斌[59]利用协谱与正交谱研究纬向和经向垂直环流强度之间的反相耦合振荡关系。
6.2 最大熵谱分析
在连续功率谱估计中,自相关函数估计与样本量大小有关,1967年Burg提出了一种称之为“最大熵”谱估计的方法,具有分辨率高、适用于短序列等优点。缪锦海[60]讨论了最大熵谱的优良特性和预报误差过滤下系数阶段的确定。曹鸿兴等[61]讨论了气象历史序列的最大熵谱分析。魏凤英[62]用最大熵谱提取1952-1995年华北地区春季干旱指数序列的显著周期。
6.3 奇异谱分析(SSA)
奇异谱分析(Singular Spectrum Analysis)是从时间序列的动力重构出发与经验正交函数(EOF)相结合的一种统计分析技术,特别适合用于大气的非线性振动。吴洪宝
[63]、、刘健文等[64]系统介绍了奇异谱的原理及其在气象中的应用。谢炯光等[65]用SSA方法对登陆广东省的热带气旋的演变规律进行了分析,发现年登陆广东的热带气旋存在明显的8年,准3年的周期振荡,登陆珠江口以西的热带气旋,存在12年,准2年的振荡周期。
6.4 小波分析
小波分析是从傅立叶分析方法发展起来的并被认为是傅立叶分析方法的突破性进展。戴新刚和丑纪范[66]用子波变换研究了长江和黄河流域径流的周期性问题,纪忠萍等[67]用小波分析对广州近百年来气候变化的多时间尺度进行分析,纪忠萍等[68]用小波变换分析广东省低温阴雨的年景趋势变化,着重分析了重低温阴雨年在小波系数图中的分布特征,并根据分析结果对未来1-2年的低温阴雨年景进行了预测估计。7 时间序列分析模型
在气象上用得较多的主要有自回归模型(AR)、滑动平均模型(MA)、自回归滑动平均模型(ARMA)、自回归求和滑动平均(ARIMA)模型。气象要素的时间序列多数是属非线性变化的,上述的时间序列建模模型均为线性模型。而时间序列分析中的门限自回归模型(TAR)是一种非线性模型,它利用逐段线性化手段来处理非线性系统。由于门限的控制作用,保证了递推的稳定性。门限自回归模型可以有效地描述非线性振动现象,可以解释自然界各种类型的稳定循环。丁裕国等[69]利用奇异谱分析对Nino海区SSTA月际序列作短期气候预测试验,采用AR(P)模型,结果发现在SSA分析基础上的AR模型对ENSO海区的SST预报特别有效。史久恩等[70]用自激励门限自回归模型作SOI(南方涛动指数)的预报,其结果与线性AR模型相比较,结果表明非线性门限自回归模型拟合SOI数据,比线性模型更能有效地反映数据的内在规律。多层递阶方法
1983年中国韩志刚教授[71]提出了建立在现代控制理论中“系统辨识”基础上的含时变参数的新型统计预测方法―多层递阶方法。这种时间序列的新预报方法在气象预
报服务中取得了较好的效果[72],不少学者在使用过程中对这种方法的应用方面作了进一步的改进,使其在气象预报应用上得到进一步的提高[73]。均生函数模型
曹鸿兴、魏凤英等提出了时间序列的均值生成函数(Mean Generating Function, MGF,简称均生函数)模型。均生函数预测模型既可以作多步预测,又可以较好地预测极值,为短期气候预测开辟了一条新的途径。魏凤英、曹鸿兴[74] 在《长期预测的数学模型及其应用》与《现代气候统计诊断预测技术》两书中对均生函数模型的数学原理及其在气象中的应用作了详细的介绍。灰色系统预测模型
“灰色系统”理论,是我国学者邓聚龙教授提出的新型理论。到目前为止,人们对天气(气候)系统的演变规律、发生、发展、消亡机制,子系统间的相互作用的了解尚不清楚、不充分,限制了动力和统计方法对天气(气候)系统的深入研究。天气气候系统,由于其复杂性,是一个典型的部分信息已知和部分信息未知的灰色系统。因此,邓聚龙教授提出的灰色系统理论为气象预测和分析研究提供了一个有力的工具。曹鸿兴、翁文洁等人对灰色分析与预测及其在气象中的应用作了推广[75],邓聚龙[76]在“灰色预测与决策”一书中对灰色系统的理论的来龙去脉,具体计算方法作了详细的介绍,并把GM(1,1)模型、灾变预测、季节灾变预测、拓扑预测等方法在气象中的实际应用作了介绍。谢定升等[77]根据GM(1,1)模型的方法原理,作降水峰日的中期预报。车贝雪夫多项式展开
经典车贝雪夫多项式展开只适用于矩形网格,周家斌将车贝雪夫展开推广到不规则格点上,并将其用于气象要素的分布预报[78]。周家斌提出了一种用车贝雪夫多项式做时间序列预报的迭代算法,这是一个非线性、非参数方法,无需对序列作平稳或其它假定。它的拟合和实际预报效果较好[79]。神经网络原理在气象中的应用
近年来神经网络在气象中的应用快速发展。周曾奎等[80]利用神经BP网络模型输出判断台风移向趋势-西进、北上、西北移。于波等[81]结合模糊判断技术利用多层神经网络对GMS云图的台风云系进行图像识别。谢炯光等[82]利用神经BP网络进行月雨量集成预报试验,金龙等[83]提出了小波变换与神经网络相结合的多步预测模型。非线性动力学
林振山[84]首先提出了诺干相空间预报模型,并提出将相空间模处理组合法用于业务预报中。周家斌[85]提出了相空间向量相似方法,相轨迹变率方法,空间变换方法和相空间模方法等4种以混沌理论为基础的预报方法,这些方法已经用于南方涛动强度、北京降水和华北降水分布的预报。分形
近年分形的思路和方法正逐步在气象分析和业务中得到应用。刘式达等[86]指出分数维是气候系统结构的特征,是气候系统中尺度变换后的不变数。付昱华[87]应用分形分布模型N=C/rD的推广形式,即连续变维分形(分维数D是r的连续函数,而不是常量)预测台风路径。
三、结束语
近20年来统计气象学在中国取得了长足的发展,统计预报在中国气象业务预报和科研中占有重要的位置。主要表现在:在数值预报产品统计释用中,统计预报方法发挥了积极的作用。随着计算技术和计算机的发展,以场分析和场相关的统计预报方法如SVD、EEOF、CCA分析等方法得以在业务上得到了广泛应用,对提高业务预报精确率帮助很大。3 一些新的统计方法由于种种原因,用在气候分析中较多,用在业务预测上较少,有待今后进一步开发。近年来国内外一些数学界的研究新成果,如自记忆方程、主振荡模、混沌分形、小波分析等引入到气象界的速度很快,如何使其在天气预测中更快、更好地发挥作用值得研究。在统计预报的使用中,如何发挥统计预报的长处,避免其不足的地方,要继续研究
第五篇:医学统计学统计方法总结
计量资料:
一、描述性分析
集中趋势:对称——算术均数偏态——中位数等比——几何均数 离散趋势:对称——方差、标准差偏态——四分位数间距
均数悬殊或单位不同的资料比较——变异系数
二、统计推断(根据样本推断总体)1.参数(均数)估计总体方差未知——总体方差已知——
参考值范围:单双侧正态分布——
XuS
(xt/2v
snsn,xt/2v
s
sn))
(xu/2,xu/2
n
XuSXuS
偏态分布——百分位数法
二者的含义、用途 2.假设检验
(1)均数的比较(正态)
单个样本、配对(与两独立样本的区别)两样本(方差齐——t检验
方差不齐——校正t检验或秩和检验或变量转换)多样本:方差齐完全随机设计方差分析随机区组设计方差分析
方差不齐——秩和检验或变量转换
非正态:秩和检验或变量转换
F—+—>t
两两比较:SNK任两个对比
LSD一对或几对比较
Dunnet 实验与对照组比较
t——>FF=t
2(2)方差比较
两个方差:F检验(正态)
多个方差:Bartlett(正态)
Levene检验
假设检验注意事项
计数资料
一、描述性分析
频率或严重程度——率
比重或构成——构成比
一指标为另一指标的若干倍或百分比——相对比
应用注意:不能以比代率、可比性、样本率不能直接对比
率或构成比比较:
1.若某因素内部构成不同并且影响比较,进行标化
二、统计推断
1.参数估计
二项分布率的估计:查表或正态法
泊松分布均数估计:查表或正态法
2.假设检验
单个样本率:直接法或二项分布U检验泊松分布U检验(率很小)两样本率的比较:四格表2检验(校正)
二项分布U检验(n大、np>5,n(1-p)>5)
泊松分布U检验((率很小)
精确概率法
多个率或构成比比较:2检验(理论数不能小于1或小于的理论数
不能多于5分1)
两两比较:
任两个对比、实验与对照组比较
等级资料:-----效应比较
秩和检验
两变量关系:
1.定量(计量资料)正态pearson相关 回归
非正态秩相关
2.无序分类定性
3.有序分类定性2检验和列联相关系数
(1)单向有序分组有序、指标无序卡方检验分组无序、指标有序秩和检验
(2)双向有序
属性相同属性不同Kappa检验 线性趋势秩相关