高维数据统计分析

第一篇：高维数据统计分析

高维、相依和不完全数据的统计分析

李国英中国科学院数学与系统科学研究院系统科学所现代科学技术和社会经济的许多领域都遇到高维、相依和不彻底数据的统计分析问题，它是目前统计学应用和理论中面临困苦最多、挑战最严峻，也是最有可能取得突破的研究领域之一。本文试就笔者个人的认识，分三部分介绍、讨论与该领域有关的情况和问题。首先简要讲述统计学的发展情况，然后介绍我国学者在相干领域中的研究成果，最后探讨该领域中一些值得注意的研究方向。本文旨在抛砖引玉，以期得到国内同仁对统计学发展更多的关心和反对。由于笔者程度和知识所限，定有疏漏和不妥之处，欢迎批评指正。

统计学（statistics 我国习惯上称为数理统计）研究效地收集、分析和解释数据，以提取信息、建立模型，并进行推断、预测和决策的方式和理论。人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据（包括各种资料），再从数据中获得知识。统计学正是在这样的过程中产生和发展起来的。社会经济、科学技术和工农业生产的发展是它的源泉和动力，也是它的目的和归宿。统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。大致从十七世纪开始，由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而蒙发了统计学。例如，17 世纪中期，J.Graunt 在人口死亡等社会问题的研究中，发展了最早的描述统计； 18 世纪末 19 世纪初，A.M.Legendre 和 C.F.Gauss 在研究测地学和天体物理的数据分析中，提出了最小二乘法和误差的正态分布理论； 19 世纪中期，F.Galton 在研究生物遗传规律的过程中发明了相干分析和回归分析方式。关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》（《数理统计与管理》，1998 年第 2 期至 1999 年第 6 期）。进入二十世纪以后，相继出现了几位伟大的数学家和统计学家 K.Pearson、R.A.Fisher、A.N.Kolmogrov、N.Neyman、E.Pearson 和 A.Wald 等，由于他们的奠基性工作，统计学方式和理论都有了很大发展，到四十年代中期成为一门成熟的学科。近五十多年，突飞猛进的社会经济和科学技术不断提出各种各样的统计学问题，计算机的急速发展为收集和分析数据提供了方便。这些都极大地推动了统计学的发展和应用。统计学的内容更加丰富，理论更加深刻，统计方式也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域，对人类社会的繁荣进步起到了积极的推动作用。统计学也因此受到社会的承认和重视。例如，1984 年美国《科学》杂志把顺计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项（第一项是塑料，第六项是电视，第十六项是计算机）。美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。一些发达国家和地区的大部分大学设有统计系，许多大学还同时设有生物统计系或林业统计系等等；许多大企业聘用统计学家为其解决统计问题，例如美国的贝尔公司就拥有数十人的统计学家队伍，著名统计学家J.W.Tukey生前在该公司任职长达数十年。现在，统计学已经成为许多学科领域必不可少的工具；它还与一些学科相结合形成了相应的专业统计，例如，生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。在当今的信息和知识经济时代，人类研究的科学和社会问题更加高深、更加复杂、更加庞大，有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。这就给统计学提出了许许多多更大、更难、更复杂的问题。例如，复杂系统的统计建模，经济金融中的预测和决策，高维、定性和不彻底数据的统计分析，数据库等巨型复杂数据的信息提取和知识发现，相依变量和动态系统的统计规律，小样本和相干信息的统计推断，信号和图象的统计处理等等。因此，统计学正面临着前所未有的巨大挑战和机遇，其中高维、相依和不彻底等复杂数据的统计分析是一个带有普遍墟履突出难题。例如，雷达网、信息网等接收和传输的信号数据，卫星遥感观测的图象数据，文字语焰履记录数据，DNA和蛋白质构造的测试数据，全国乃至全球的气象和环境数据，人口、企业、教育、科技、医疗卫生等社会调查数据，以及股市、保险、信用卡、房地产等经济金融数据，都是维数很高（数

十、数百乃至上千维）、构造十分复杂的数据，许多数据还是前后相依（不独立）的；在工业、国防、天文和医学等领域存在大量的不彻底数据，即人们不能得到所关心的某些变量的数值，而只知道它们所在的区域，甚至彻底不知道部分变量钥锟分场合的数值（即缺失数据）。而且在实际问题中，往往同时遇到多种情况。例如，来自复杂现象的数据一般是高维的，许多时候还是相依的、动态的，有时还含有不彻底数据；图象和信号可以转化为高维数据处理，而信号一般是前后相依的动态数据；许多高维数据（例如 DAN 和基因数据），相对其维数而言，样本量相当小；许多小样本问题中常常含有不彻底数据等等。对于这些问题，统计学工作者和实际领域中的数据分析工作者都进行了许多研究，有些方面已经形成了一些比较有效的方式，但很多方面还处在探索阶段，缺乏系统有效的方式，更缺乏完整的统理论。近些年，特别是在发达国家中，有许多统计学家深入到实际领域，或与实际领域的专家合作，探索解决这些挑战性问题的途径。我们将在第三部分介绍一些有关的具体情况。二

我国的统计学起步较挽。解放前只有以许宝禄先生为代表的少数几位统计学者，他们是四十年代从国外回来的。解放后，特别是在1956年的国家科学发展规划的推动下，统计学有了较大的发展。改革开放以来，统计学有了新的发展，从事统计学研究、应用和教学的队伍壮大了许多，先后成立了四个全国性学术团体，出版了几种专业刊物，北京大学等七所综合性或理工科大学成立了统计系（或概率统计系等），有近百所财经类高校设有统计系或统计专业；统计学的研究程度不断提高，应用范围不断扩大。我国的统计工作者在理论和应用研究方面也取得了丰硕的成果，不少成果达到国际先进、甚至领先程度。这里仅简要列举与该方向有关的成果。由于时间所限，未能全面收集有关情况，定有疏漏和不当之处，敬请原谅。经典统计学中与高维数据分析直接相干的是多元分析和线性模型的统计分析。早在四、五十年代，这方面的理论研究还处在早期阶段，我国统计学家许宝禄先生获得了一系列开创性研究成果，是国际上公认的奠基人之一。改革开放以来，我国有不少学者从事这方面的研究，成果也很多。例如，中国科学院研究生院陈希孺和中国科学技术大学赵林城比较系统地研究了多元线性回归的LS、和M估量的相合性、渐近正态性和线性表示等大样本性质，在一些情况下得到了或几乎得到了充分必要条件，有的问题得到了精确的阶估量和理想的界限。他们的成果在国际上有较大反响和许多引用，国际著名统计学家、美国科学院院士C.R.Rao等在专著中把他们的主要成果列为6条定理。此外，中国科学院应用数学所方开泰和上海财经大学张尧庭等在椭球总体的多元分析方面，中国科学院系统科学所吴启光和北京理工大学徐兴忠等在多种线性模型估量的容许性和其他统计决策问题方面，北京工业大学王松桂在线性回归的估量方面，以及东北师范大学史宁中在有约束的线性模型方面也都有不少好成果。比线性模型复杂的多元模型是非线性参数模型、半参数和非参数模型。在这些模型的理论方面我国统计学者也有许多工作。例如，中国科学院系统科学所成平等在研究半参数模型的渐近有效估量方面，陈希孺、赵林城和安徽大学陈桂景等在研究非参数回归、密度估量和非参数判别方面，东南大学韦博成等在用微分几何方式研究非线性（参数）回归方面，以及南京大学王金德在非线性回归估量的渐近性质方面均有一系列成果。在非参数理论的成果中，陈希孺和赵林城彻底解决了关于U统计量分布的非一致收敛速度问题，有关结果被美国《统计科学百科全书》以及美国和前苏联等出版的多本专著引述。自助法等重抽样方式也是一类非参数方式，主要是用来逼近那些无法从理论上给出的统计量分布及有关的量。北京大学郑忠国及其合作者与美国D.B.Rubin独立提出了一种与自助法功能相似的随机加权法。他们在多种模型下研究了统计量的随机加权逼近，结果表明该类方式无需重抽样也能达到用自助法的效果，在有些情况下还优于自助法。有关多元统计模型的另一类重要问题是模型的统计诊断，目的是了解实际数据与选用的模型能否吻合。韦博城、人民大学吴喜之以及云南大学王学仁和石磊等在模型和数据的统计诊断方面有许多好成果。云南大学的学者还把他们的成果用于地质探矿的数据分析等实际问题取得成功。解决数据与模型这一对矛盾的另一种途径是使用对模型不敏感的统计方式，即当模型与数据吻合或不太吻合时都能给出比较正确的结论，这就是稳健统计方式。中国科学院系统科学所李国英和张健等在多元位置和散布阵的稳健估量及其性质，位置M估量的崩溃性质等方面也取得了一些好成果。在多维试验设计方面，中国科学院数学所王元和应用数学所方开泰引进数论方式提出了均匀设计，能用于缺乏使用正交设计条件的情况。该设计方式已在国内的多个实际部门应用，效果良好。这一工作在国际上也受到重视。南开大学张润楚等在研究计算机试验设计方面也有一些好成果。

七十年代中期出现的投影寻踪(projection pursuit简称PP)技术是分析高维数据的较好方式，到八十年代初文献中还很少有理论研究。中国科学院系统科学所成祥和李国英领导的研究小组自八十年代中开始从事PP方式和理论的研究，构造了一些分析高维数据的新方式，研究了PP统计量的渐近性质和自助（Bootstrap）逼近，获得了一系列重要结果。例如，成平、朱力行和张健研究了多种PP拟合优度统计量尾概率的估量，对有的统计量得到了精确的阶，否定了前人的猜测；李国英和施沛德等对两类应用普遍的PPU和PPL统计量作出了统一处理，研究了它们的渐近分布及其自助逼近；张健和成平给出了一个一般性结果，解决了大部分PP检验的功效问题；李国英和张健等分别用PP技巧构造了几种多元质量控制图，比原有的控制图提高了检测效果。他们的工作曾多次在有关的国际学术会议上作邀请报告，受到国际同行的好评，在国内外文献中引用较多。有些成果还在国内的水文、气象、医学等方面得到了应用，解决了用传统方式难以处理的问题。与相依数据的统计分析关系密切的是时间序列分析。在这方面我国学者也有很好的工作。北京大学江泽培是这方面最资深的学术带头人。改革开放以来，他和他的学生何书元等在多元平稳序列的谱估量方面取得了一系列重要成果。有些成果还被北京大学谢衷洁、程乾生等应用到天文、地质和医学等实际数据的分析，获得了有价值的发现。中国科学院应用数学所安鸿志在时间序列分析中的重对数律，自回归的选元方式及其相容性，以及非线性和条件异方差模型的性质等方面有不少重要成果，有些成果在国际上有较多引用，受到好评。另一类重要的相依数据问题是统计信号处理。赵林城在信号检测和叠加指数信号的估量及其性质方面有不少好成果，受到国际同行的重视。他提出的一个信号检测准则被本国学者称为有效检测准则，在文献中多次被人引用和仿效。

在我国较早从事不彻底数据分析研究的有北京大学陈家鼎和复旦大学郑祖康。他们在删失数据下的分布估量和参数估量理论方面作出了贡献。近年来由于可靠性研究的需要，不彻底数据的统计方式和理论取得了很大进展。例如，陈家鼎及其合作者用样本空间排序法对于可靠性中常用的寿命分布和一类增长模型，在多种不彻底数据情况下导出了在一定意仪舐的最优置信限。中国科学院系统科学所戴树森、于丹、李国英等对于常用的寿命分布和不彻底数据类型，以及可靠性构造相当一般的系统，给出了利用部件数据对系统可靠度进行综合评估的方式，对部件数据样本量的要求比前人的方式明显减少，而且评估精度也提高了。北大和系统所的工作显著推进了前人的理论结果，在相当程度上解决了中小样本情况下，单部件和系统的可靠性评估问题，很有实用价值，受到国防工业部门的欢迎和赞赏。戴树森、于丹、华东师范大学茆诗松以及上海师范大学费鹤良等研究了不彻底数据情况下加速寿命试验中的一些估量理论问题，有些成果已在电子元件筛选中得到应用，取得了较大的经济效益。北京工业大学杨振海等关于无失效数据等可靠性中不彻底数据的统计分析也有一些好成果。近些年，我国还涌现出一批比较优秀的年轻统计学者，在高维、相依和不彻底数据的统计分析等方面获得了可喜的成果。比较突出的有北京大学正直、何书元、施沛德，中国科学院应用数学所朱力行，系统科学所张健、于丹等。其中，正直关于定性和不彻底数据图模型的研究，朱力行关于PP统计量尾概率和逆回归理论的研究，张健关于PP理论、稳健估量噪检验的崩溃性质以及非参数回归的研究，何书元关涌锘彻底数据总体分布估量渐近性质的研究，施沛德关于模型选择问题的研究，以及于丹关于中小样本下复杂系统可靠性评定和导弹贮存可靠墟履研究及应用均有不少好成果。此外，北京大学蒋建成，北京师范大学崔恒建，安徽大学胡舒合，中国科学院系统科学所石坚和邹国华，应用数学所王启华、周勇和陈敏，北京理工大学徐兴忠，吉林大学宋立新，以及云南大学石磊和陈建宝等也有一些较好的工作。总之，改革开放以来我国统计学有很大发展，但总的说来，我国的统计学与发达国家相比差距还较大。首先，与我国经济和科技发展对统计学的需求相比，与一个十多亿人口的大国相比，我国统计学的队伍还很小；其次，统计学的应用远没有达到应有的程度。有很多能够应用统计学的行业领域，还不大了解统计学。因此在我国大力发展统计学非常重要。事实上，早在1984年，国务院[国发（1984）7号]文件《关于加强统计工作的决定》就指出“我国要实现工业、农业、科学技术和国防现代化，必须实现统计工作现代化”，“中国科学院要加强数理统计研究机构，要集中一批专门人材，开展统计科学研究，尽快提高我国统计学程度”。笔者深切感到我国统计工作者任重道远。从战略上讲，我们需要大力发展统计教育，培养不同层次的统计学人才，扩簇铣计学队伍提高研究程度；还需要在一切能应用统计学的部门与行业普及统计知识，使之成为实际部门的有力工具。这不仅将加速实际领域的发展，而且使我国统计学的发展有更广阔的土壤和更强劲的动力。但这些已超出了本文的范围，这里暂不讨论。三

如前所述，现代科学技术的前沿领域和社会经济的重大问题提出了许多高维、相依和不彻底等复杂数据的分析处理问题，以下仅就笔者的个人认识，扼要讲述有关这方面的一些值得注意的研究动向。（1）统计模型

统计模型是对数据内在规律墟履数学描述，数据的复杂性必然带来模型的复杂化。以描述变量之间关系的回归分析为例，经典的统计模型是线性回归函数和独立同分布正态误差。由于所研究的客观现象越来越复杂，要求也越来越精细，回归函数已从线性发展到各种非线性回归函数、广仪筮性、部分线性、比例惊险率等半参数回归函数，以及可加、广义可加和彻底非参数等非参数回归函数；误差模型也发展到独立不同分布的正态误差和污染误差等参数和半参数模型，独立不同分布的对称误差、相依弱构造误差等半参数和非参数模型。类型的情况在统计学的各个分支都存在。近些年研究较多的统计模型还有：分层模型、多重线性模型、潜马氏链模型、间接可加模型、网络图模型、时空序列模型和条件异方差模型等等。这些模型大多是在研究某类实际问题中提出，后来被推广到更多的领域，成为有一定普遍墟履统计模型。还有一种情况，特别是较新领域中的数据，由于我们对该领域所知甚少，只好用半参数甚至非参数模型。近十多年半参数和非参数模型的统计方式和理论有很多讨论。总之，由于人类所研究的问题和现象越来越复杂，所遇到的数据和相应的模型也将越来越复杂。对于实际中出现的各种复杂数据，找出和建立适当的模型，并针对不同的模型研究孕效的统计分析、推断方式及其理论是统计学永远要面舵履挑战，也是它取之不尽、用之不竭的发展动力。（2）模型选择、统计诊断和稳健方式

进行统计分析与推断的第一步，就是对手中的数据建立适当的模型。对于一组数据，往往有好多类模型可供选择；在同一类模型中，还要确定变量个数或某种“阶数”，这就是所说的模型选择。然后才是进一步的统计推断，即参数的点估量、区间估量或假设检验等。早期的模型选择主要是线性回归中自变量的选取，方式也局限于最小二乘法导出的统计量和AIC准则等。随着数据和模型的复杂化，模型选择问题更为重要。面对一组数据，特别是一组新领域的复杂数据，往往有数十类模型可供选择。这里最为困苦的是选择哪一类模型，其次是在这一类模型中，选择其“阶数”或变量。到目前为止，对前一个问题还极少有讨论。关于后一个问题，虽然取得了许多重要进展，但仍有许多方式和理论问题尚待解决，特别是关于时空序列、高阶马氏链和隐马氏链的定阶，以及广仪筮性模型、生长曲线模型、含误差的变量和协变量模型（EV模型）中的变量选取等较复杂的模型选择问题。模型选择问题在理论和应用上都很重要，是研究较多且有可能取得突破的研究方向。

统计诊断是研究所选定的模型与数据能否符合，找出明显与模型不符的情况，包括少数“离群点”，对推断结果影响大的“杠杆点”，以及其它不符合模型假定的地方（例如，常用的模型假定有：误差等方差，回归函数为线墟氯）。稳健方式则是从另一个角度解决模型与数据的关系问题，即研究在模型与数据相符或者不很相符（即少有偏离）的情况，都能给出比较符合实际的推断结果的统计方式。统计诊断和稳健统计方式是在过去的三十多年里发展起来的统计分析方式，由于许多方式计算十分复杂，其发展曾一度减缓。近些年，随着计算机的快速发展和普及，这两个方向又再次受到的重视，对于比较复杂模型（参见后面的（1），（2）），的统计诊断和稳健方式，包括相应的理论问题研究较多。而且，新的数据类型和新的模型不断出现，需要研究新的诊断和稳健方式、算法及理论。（3）降维技术

一方面由于高维数据分析十分困苦，另一方面高维数据中的信息往往主要包括在一个或几个低维构造中，因此降维是分析高维数据的一个重要手段。传统的主成分分析，Fisher判断等都属于降维方式，但它们只适用于有线性构造的简单数据。七十年代中开始的投影寻踪是具有一定普遍意义的较好的降维技术，九十年代初提出的切片逆回归也是一种降维方式。近几年关于投影寻踪和其他降维方式讨论较多。这里有几个难点：（I）怎样针对一类实际问题确定寻找低维构造的准则；（II）如何判断所找到的低维构造能否真实；（III）计算问题，因为真正可用于高维复杂数据的降维方式（例如投影寻踪）计算量都很大，而且往往不能一步到位，需要多次反复。（4）计算密集型方式

统计量及其分布是进行推断的基础。在许多复杂情况，所需要的统计量没有显表达式，有时即使有也很难计算。对此，往往提出适当的算法借助计算机求出所需要的量。而且，除了少量较简单的参数模型外，无法得到统计量在有限样本情况的精确分布（或某些分布特征），而这是进行统计推断的关健。虽然许多情况有大样本下的渐近分布，但在实际中用它作统计推断精度较差，不能满足要求。由此近二、三十年产生了许多计算密集型方式，益旅到所需要的统计量、统计量的近似分布或分布特征，或给出比基于大样本理论精度更高的推断结果。例如EM 算法及其各种推广、投影寻踪技术、偏最小二乘法（Partial least square）、自助法、重要抽样和马氏链蒙特卡洛（MCMC）等。其中有些方式，例如，偏最小二乘和MCMC等，首先出现在某个实际领域，后来被统计学家注意，并推广发展成具有一般墟履方式。当前，还有一些处理和分析复杂数据的方式，已经在某些实际领域中应用，例如神经网络、机器学习、数据采掘、数据库知识发展和独立成分分析等。一些统计学家已经开始参与这些方式的研究。这应该是一个非常值得重视的领域。（5）似然方式

钥镂数模型的统计推断中，似然方式（极大似然估量和似然比检验等）占有十分重要的地位。近二、三十年，参数模型的似然方式有许多发展，出现了拟似然、偏似然、条件似然和惩罚似然等新方式。其中基于近似辅助统计量和条件似然的条件推断尤为有目共睹。然而在半参数和非参数模型下，极大似然估量和似然比检验统计量或者不存在，或者很难计算。这一困苦近十年左右已有所突破。其中比较突出的是Sieve似然方式和利用各种辅助信息的经验似然方式。在一些相对简单的情况已获得成功，并得到了一些理论成果。但总的说来，这方面的研究还在开始阶段，有许多复杂情况还有待研究。例如，似然方式在半参数和非参数情况，能不能达到简单参数情况的优良性质？怎么才能达到？这些问题均是研究的焦点。

（6）小样本问题与信息融合在高新技术和国防科技中，由涌嵇品价格和试验费用十分昂贵，在各种环境条件下所获得的试验数据中，能作为来自同总体样本的样本量相当小，而且大部分是不彻底数据。在许多复杂问题中，样本量的绝对数也许不算小，但相对于数据的维数，或者参数个数而言，样本量就相当小了。对这样一些问题，经典的精确统计方式大多不适用，而大样本理论的统计推断又精度较差。于是近二、三十年出现了自助法、随机逼近、鞍点逼近和其他高阶渐近逼近的方式。对于较复杂的数据和模型，基于样本量较小的数据本身，给出尽可能精确的统计推断，仍然是一个重要的研究方向。另一方面，在实际问题中除了来自所研究的总体的直接数据之外，还可能有其他一些与之有关的数据，也包括一些有关所研究总体的信息。如何把这些数据充分利用起来，对于小样本问题是十分重要的。贝叶斯分析是融合不同来源信息的较好方式。问题在于如何客观地确定先验分布，即避免先验分布中的主观成分。这就是近些年讨论较多的客观贝叶斯方式。

著名统计学家B.Efron（Statistical Science13(1998)95-122）以为，信仰（Fiducial）方式有可能在客观贝叶斯分析中起重要作用。信仰方式是由A.R.Fisher于二十世纪三十年代提出，它是在没有先验信息的情况下，对参数给出类似于后验分布的信仰分布。但该方式遇到很多困苦，没有发展起来，而被以为是 Fisher 的一大失误。Efron以为，信仰方式有可能在较复杂的问题中给出较好的近似信仰分布，从而有可能进行客观的贝叶斯分析。显然他把 Bayes 推断和 Fiducial 推断结合起来了。面对越来越大、越来越难、越来越复杂的实际问题，人们必然需要多种推断方式，以及它们之间合理、有效的结合，并根据不同的实际问题，选用适当的推断原理和方式。这里有许多需要深入研究的基础性问题。结束语现代科学技术和社会经济中的课题，一般都是交叉性综合墟履，要涉及多个学科领域。同样，在其数据的获取和分析这一统计学方面，也不可能只涉及

一、两个研究方向。面对各种实际领域中的统计学问题，特别是挑战性强的困苦问题，应该有一些统计工作者与实际领域的专家相结合，在解决实际问题的过程中利用统计学的有关最新成果，同时探索新的统计概念、模型、方式和理论。以理论研究为主的统计学者，在关注国际统计学理论发展的同时，也应关心我国实际领域中的统计问题及其进展，提出和解决其中的理论问题。这样，我国的统计学将在与国际接轨的同时，也将逐渐哺育起自己的肥沃土壤，为我国的现代化建设和国际统计学的发展都作出应有的贡献。

致谢在本文形成的过程中，曾得陈希孺院士，张尧庭、陈家鼎、茆诗松、王学仁、安鸿志、赵林城和韦博成等教授的帮助，特致衷心的感谢！http://i.mtime.com/920665/blog/5653335/

高维数据分析蔡天文，沈晓彤编丛书名：出版社：高等教育出版社ＩＳＢＮ：9787040298512 出版时间：2010-10-01 over the last few years，significant developments have been taking place in high-dimensional data analysis，driven primarily by a wide range of applications in many fields such as genomics and signal processing.in particular，substantial advances have been made in the areas of feature selection，covariance estimation，classification and regression.this book intends to examine important issues arising from high-dimensional data analysis to explore key ideas for statistical inference and prediction.it is structured around topics on multiple hypothesis testing，feature selection，regression，classification，dimension reduction，as well as applications in survival analysis and biomedical research.the book will appeal to graduate students and new researchers interested in the plethora of opportunities available in highdimensional data analysis.Preface part i high-dimensional classification chapter 1 high-dimensional classification jianqing fan，yingying fan and yichao wu 1 introduction 2 elements of classifications 3 impact of dimensionality on classification 4 distance-based classification rules 5 feature selection by independence rule 6 loss-based classification 7 feature selection in loss-based classification 8 multi-category classification references chapter 2 flexible large margin classifiers yufeng liu and yichao wu 1 background on classification 2 the support vector machine： the margin formulation and the sv interpretation 3 regularization framework 4 some extensions of the svm： bounded constraint machine and the balancing svm 5 multicategory classifiers 6 probability estimation 7 conclusions and discussions references part ii large-scale multiple testing chapter 3 a compound decision-theoretic approach to large-scale multiple testing t tony cai and wenguang sun 1 introduction 2 fdr controlling procedures based on p-values 3 oracle and adaptive compound decision rules for fdr control 4 simultaneous testing of grouped hypotheses 5 large-scale multiple testing under dependence 6 open problems references part iii model building with variable selection chapter 4 model building with variable selection ming yuan 1 introduction 2 why variable selection 3 classical approaches 4 bayesian and stochastic search 5 regularization 6 towards more interpretable models 7 further readings references chapter 5 bayesian variable selection in regression with networked predictors feng tai，wei pan and xiaotong shen 1 introduction 2 statistical models 3 estimation 4 results 5 discussion references part iv high-dimensional statistics in genomics chapter 6 high-dimensional statistics in genomics hongzhe li 1 introduction 2 identification of active transcription factors using time-course gene expression data 3 methods for analysis of genomic data with a graphical str 4 statistical methods in eqtl studies 5 discussion and future direction references chapter 7 an overview on joint modeling of censored survival time and longitudinal data runze li and jian-jian ren 1 introduction 2 survival data with longitudinal covariates 3 joint modeling with right censored data 4 joint modeling with interval censored data 5 further studies references part v analysis of survival and longitudinal data chapter 8 survival analysis with high-dimensional covariates bin nan 1 introduction 2 regularized cox regression 3 hierarchically penalized cox regression with grouped variables 4 regularized methods for the accelerated failure time model 5 tuning parameter selection and a concluding remark references part vi sufficient dimension reduction in regression chapter 9 sufficient dimension reduction in regression xiangrong yin 1 introduction 2 sufficient dimension reduction in regression 3 sufficient variable selection（svs)4 sdr for correlated data and large-p-small-n 5 further discussion references chapter 10 combining statistical procedures lihua chen and yuhong yang 1 introduction 2 combining for adaptation 3 combining procedures for improvement 4 concluding remarks references subject index author index

Multivariate statistical analysis(多元统计分析-高维方法)作者：V.I.Serdobolskii.出版社：Springer出版日期：2000年1月

This book presents a new branch of mathematical statistics aimed at constructing unimprovable methods of multivariate analysis, multi-parametric estimation, and discriminant and regression analysis.In contrast to the traditional consistent Fisher method

高维生物学数据分析中的几个统计问题论文作者荀鹏程著导师陈峰指导

学科专业流行病与卫生统计学研究领域研究方向学位级别博士

学位授予单位南京医科大学学位授予日期2007 【中文摘要】

微阵列技术的发展给生物科学研究带来了革命性的契机，成千上万的基因(或蛋白等)的同时测定成为现实，这很快产生了庞大的微阵列数据。另一方面，随着分子生物学相关学科的迅猛发展，基因序列数据亦呈现出迅猛增长的态势。本研究借助统计学的方法和手段，从应用的角度出发，对微阵列数据的差异...>> 详细

微阵列技术的发展给生物科学研究带来了革命性的契机，成千上万的基因(或蛋白等)的同时测定成为现实，这很快产生了庞大的微阵列数据。另一方面，随着分子生物学相关学科的迅猛发展，基因序列数据亦呈现出迅猛增长的态势。本研究借助统计学的方法和手段，从应用的角度出发，对微阵列数据的差异表达分析、判别分析以及基因序列代表性片段的筛选等问题进行了深入研究：第一部分，基于结肠癌数据库设计了两个模拟试验，考察了四种FDR控制程序，主要结论如下：(1)在“假设独立变量独立但维持现实的方差结构”时，四种程序在大部分情形下，均能将FDR控制在既定的检验水准下，同时又具有较高的检验效能。FDR控制由强到弱的顺序为BL≥BY≥BH≥ALSU，相应的检验效能从大到小的顺序为ALSU≥BH≥BY≥BL。

(2)在保持变量间现实的协方差结构时，在大部分情形下，对FDR要么失控，要么以不同程度的牺牲检验效能为代价达到强控。每组样本量在20及以下时，四个程序已均无检验效能可言。

通过对“正常成年男子和精子运动能力低下者精子蛋白表达差异研究”的蛋白质数据的分析，探索出了“变量粗筛→全局检验→单变量检验→局部多变量检验”的差异表达分析策略，发现了在组间差异表达的十个蛋白组合。第二部分，分别设计了高、中、低三个错误率水平的模拟试验，考察了k-fold CV、BS、LOOBS等九种方法在判别分析预测误差估计中的应用后认为：综合考虑估计的“偏性”和“误差均方”，3-fold CV和5-fold CV效果好且较稳健，推荐使用。

通过对结肠癌数据的分析，探索出了“初步选维→进一步降维→逐步判别筛选→判别建模→模型验证”的判别分析策略，并通过另两个数据集验证了上述策略的实用性。

第三部分，将“HEV基因序列代表性片段的筛选”的专业问题转化为奇异矩阵比较的统计问题，并从以下三个视角进行了方法学探索：(1)改进了Korin's统计量并用于片段的比较，得出“片段Ⅲ对全序列最具有代表性，可用于HEV基因分型”的结论，并用50％分层bootstrap抽样验证了方法的稳定性，用弃一法显示了方法对毒株的稳健性，进一步说明了结论的可信性。

(2)用弃二法获取了矩阵特征根分布阵，并通过马氏距离直观比较各片段的特征根分布阵与全序列者的距离，结果亦显示片段Ⅲ最优。(3)构建了“记分统计量”，并通过Monte Carlo模拟获取其经验抽样分布，作统计检验后认为片段Ⅲ对全序列有较好的代表性，可用于HEV基因分型。

最后，系统发育分析的结果显示基于全序列和片段Ⅲ将71株HEV分为同样的四型，并且基于片段Ⅲ的核甘酸平均差异性在型、亚型、株等三个水平上与基于全序列者取得了相似的结果，进一步从生物信息学的角度验证了统计学结论。

综合上述分析，本研究认为： 1．“变量粗筛→全局检验→单变量检验→局部多变量检验”是一个较为适用的微阵列差异表达分析策略。2．“初步选维→进一步降维→逐步判别筛选→判别建模→模型验证”的判别分析策略不仅适用于两类判别，而且可用于多类判别。3．“记分法”是一个思想朴素、易于实施的统计推断方法，可用于基因序列代表性片段的筛选，指导病毒序列分型工作。

本研究提出的策略和方法，较好地回答了生物学工作者的问题，值得推广应用。

关键词微阵列数据差异表达假发现率统计策略判别分析预测误差戊肝病毒基因分型全序列基因片段记分法

高维列联表资料的统计分析与SAS软件实现葛毅胡良平【摘要】：正在上一讲中主要介绍了采用加权等措施合并原因变量的方法处理高维列联表资料~[1],但如果列联表维数较多,且希望将各原因变量对结果变量所产生的影响都明确地显示出来时,加权X~2及CMH X~2分析就不能满足研究的需要了。如果想系统地评价【作者单位】：后勤指挥学院;军事医学科学院生物医学统计学咨询中心;高维数据可视化在统计分析中的作用

在对社会、经济、技术系统的认识过程中，都需要收集和分析大量表现系统特征和运行状态的指标数据信息。例如，要衡量一个地区的经济发展，需要观测的指标有：地区生产总值、劳动生产率、税收、人均GDP等；要衡量一个城市的综合发展水平也需要观测很多指标，如：工业总产值、非农业人口数、人均住房面积、工资总额、城乡居民储蓄率等等，高维统计推断与随机矩阵

Iain Johnstone 李国英（译）石坚（校）美国斯坦福大学不详多元统计分析所关心的是对于多个变量的观察，这些变量具有某种程度的关联．由遗传学和社会科学中的问题所驱动，最初它是在上个世纪的前半叶中发展起来的．继而，随机矩阵论（RMT）最初在物理学中，更近些广泛地在数学中发展起来了．虽然RMT与多元统计的主要研究对象是相同的，但是统计理论被揭示与其有关联还是很哑B的事．海量数据采集在将来是很普通的，然而，现在数据集合的变量数目往往与观察值的数目相当，甚至更多．在这样的情形，RMT对多元统计提供了众多的技术和结果，中法暑期学校-随机矩阵理论及其在高维统计中的应用（2011年7月11-31日，长春）http://web.hku.hk/~jeffyao/ss/

本次会议由法国国家科学研究中心(CNRS)和中国国家自然科学基金委员会（NSFC）联合主办，东北师范大学承办，旨在加强中法学术交流，联合培养研究生，就目前国际的热点问题之一：大维随机矩阵理论及其在高维数据分析中的应用进行探讨和交流。大会主席：

法国方面：Alice Guionnet Jianfeng Yao 中国方面：白志东组织委员会：

史宁中东北师范大学郭建华东北师范大学张宝学东北师范大学高巍东北师范大学陶剑东北师范大学郑术蓉东北师范大学苏中根浙江大学暑期学校的主题：

Topics in the probability theory of random matrices : Convergence of spectral measures of random matrices;universality;Large deviation theory for matrix ensembles;matrix-valued stochastic processes;Central limit theorems for linear functional of spectral measures;Tracy-Widom laws;Spiked population models, deformed matrix models;Random matrices with heavy-tailed entries;Free probability theory fee convolution Topics in high-dimensional statistics with random matrix theory: Limiting distributions of general sample covariance matrices, of F matrices;Estimation of the population covariance matrices from sample covariance matrices;Testing and estimation in presence of high-dimensional data;Signal detection;capacity analysis of telecommunication networks Signal detection;capacity analysis of telecommunication networks.联系人信息：

苏中根浙江大学数学系

Email: suzhonggen@zju.edu.cn 电话：0571-87953676 郑术蓉东北师范大学数学与统计学院 Email：zhengsr1993@gmail.com 手机：***

Corrections to LRT on Large Dimensional Covariance Matrix by RMT 2010年7月15日下午，应“北航研究生学术论坛数学分论坛”邀请，第三世界科学院院士、中国概率统计学会常务理事、东北师大教授、博士生导师白志东为我校师生作了题为 “Corrections to LRT on Large Dimensional Covariance Matrix by RMT”的学术报告。白教授首先就古典的样本均值概念谈起，深入浅出地介绍了概率论数理统计中的极限理论在大维随机矩阵的谱分析领域的发展与应用。他指出，他建立的线性谱统计量的中心极限定理，开创了极端特征根极限理论和精确谱分离定理等重要成果。除了直接的应用价值之外，其研究结果和经验为高维统计分析开创了一个行之有效的新方法、新思路。另外，白教授还进一步介绍了近期的研究进展，对统计学在未来经济领域的发展做出了实践性的展望。他强调学生应勇于发现问题，分析问题，进而解决问题，敢于批判自己。整场报告十分精彩，吸引了很多专家学者、青年教师和研究生前来参加。白教授以他幽默的谈吐，严谨的学风，缜密的思维给聆听报告的师生留下了深刻的印象。

白志东教授毕业于中国科技大学数学系，1982年获得我国首批博士学位。主要从事概率论数理统计中的极限理论方面的研究，特别是在大维随机矩阵的谱分析、临床试验自适应的设计、算法中的应用概率、信号处理、模型选择等领域里颇有建树。他于1989年被选为第三世界科学院院士，1995年被选为美国数理统计研究院Fellow，2003年被选为中国概率统计学会常务理事。曾担任多元分析杂志Editor，Journal of Probability and Statistics等杂志副主编。先后执教于中国科技大学，匹兹堡大学，宾州州立大学，台湾中山大学，新加坡国立大学等国内外著名大学。目前在东北师大任教授，博士生导师，发表专著三部，学术论文180余篇。他开创了极端特征根极限理论和精确谱分离定理等重要成果，这些成果使他被称为该领域里的国际领袖人物。在秩集抽样方面，他完善了该领域的信息理论，最优抽样设计等理论贡献。在渐进展开方面，他还特别提出了部分Cramer条件，建立了包含离散变量时，统计量的Edgeworth展开。在应用方面，他参与了匹兹堡大学关于心脏造形的研究。

南京理工大学数学及其应用研究中心 http://cma.njust.edu.cn/index.asp

高维数据统计分析

主要研究方向及其特色和意义：

1、本研究方向的主要特色：

现代科学技术的前沿领域和社会经济的重大问题提出了许多高维复杂数据的分析与处理问题。例如，复杂系统的统计建模，经济金融中的预测和决策。高维、定性和不完全数据的统计分析，数据库等巨型复杂数据的信息提取和知识发现。相依变量和动态系统的统计规律，小样本和相关信息的统计推断，信号和图像的统计处理等等。本研究方向主要研究特色如下：(1)模式识别理论与应用。针对模式识别中的经典理论，包括最优判别分析、代数特征抽取、特征维数和人脸图象识别、数字图像高维数据统计分析理论等问题的研究，取得了显著成绩，在相关领域国际学术刊物及国际会议上发表论文近100 篇，其中被 SCI 收录 50 篇。其研究成果主要发表在与模式识别理论与应用有关的所有重要国内外学术刊物上，如IEEE Trans.on Pattern Analysis and Machine Intelligence, IEEE Trans.on Computers, Pattern Recognition、Pattern Recognition Letters,Image and Vision Computing,Artificial Intelligence in Engineering, Pattern Recognition and Artificial Intelligence等。(2)多维数据统计方法下的数据挖掘理论与方法。基于多维数据统计方法下的数据挖掘理论与方法研究，近年来一直是数据挖掘的重要和热点问题之一。我们在这个方面已具有很好的研究基础，并将其理论与技术研究应用于高维数据处理，取得了很好的效果。目前已在国内外核心刊物发表论文近30篇，SCI与EI收录近10篇。

2、本研究方向的学术地位：

(1)金忠教授发表在2001年《Pattern Recognition》上的关于统计不相关性的线性鉴别分析理论研究方面的论文“Face recognition based on the uncorrelated discriminant transformation”被广泛引用，美国著名的科学评价机构THOMSON 于2002年发来了贺信，信中指出：根据“ Essential Science Indicators”的统计，你们的论文“Face Recognition Based on the Uncorrelated Discriminant Transformation” 被引用的次数位于同一领域的引用次数最高的百分之一以内，他们认为“该项工作具有高度的影响，对该研究领域的同行具有重要的影响”。(2)杨健教授近5年在IEEE TPAMI上发表的论文数3 篇，其引用次数也位居国内高校位居也前列。美国著名学者 Chellapa(Maryland University)教授在 IEEE 汇刊（Proceedings of The IEEE）发表的关于人脸识别的权威性综述论文中，用大量篇幅引用和介绍了我们的研究成果。杨健教授在Pattern Recognition 等国际核心(SCI 收录)期刊上发表论文 24 篇，合作出版英文专著一部，在 2DPCA, 鉴别分析及 kernel 方法方面的研究已引起国内外相关领域学者的较为广泛的关注，杨健教授的国际期刊论文被SCI收录的论文引用已逾380次，其中他引次数超过300次，单篇论文SCI引用次数超过60次的论文有3篇，单篇论文SCI引用次数超过10次的有10篇，单篇论文最高SCI引用次数为95次。根据Scholar Google的检索结果，杨健教授的国际期刊论文被引用已逾1100次，其中单篇最高被引用次数为457次。杨健教授现为国际模式识别领域知名核心期刊 Pattern Recognition Letters 的编委(Associate editor)。

3、本研究方向的作用和意义：高维数据分析是目前统计学理论和应用面临困难最多、挑战最严峻的问题。本方向结合二维及三维人脸识别中高维特征下模式识别、多维数据统计方法下的数据挖掘、多元统计分析与缺失数据估计等方面的相关数学问题与工程实际应用技术，深入研究高维数据分析中理论与方法，具有十分重要的意义。http://cma.njust.edu.cn/Aboutus.asp?ID=3

图像处理中数学建模、理论与算法研究

研究方向：图像处理中数学建模、理论与算法研究主要研究方向及其特色和意义：

1、本研究方向的主要特色：

本研究方向多年来追踪图像处理国际研究热点，结合图像处理相关的数学理论和方法，主要包括变分偏微分方程理论及算法、几何多尺度分析理论及方法、调和分析理论、统计分析理论与方法、基于人类视觉感知的稀疏编码理论以及复杂系统建模理论与方法，针对图像图像处理中的问题进行数学建模、理论分析以及算法研究。主要研究特色有：（1）图像超分辨率重构和涉及的包括图像去噪、图像放大、图像修补、图像增强等相关问题进行数学建模、理论与算法研究。（2）结合几何多尺度分析理论及方法、基于人类视觉感知的稀疏编码理论，对图像稀疏表示、压缩编码、以及涉及信息安全的图像隐藏、数字水印等问题进行数学建模、理论与算法研究。（3）针对医学图像的图像分割、图像重构、图像（信号）奇异性检测等问题进行数学建模、理论及算法的研究。经过多年努力，已形成实力雄厚的研究梯队，在图像处理各个热点研究方向都取得了很好的成果，在国内已有一定的影响力和学术地位。

2、本研究方向的学术地位：

近5年来，主持或参与完成国家863项目2项，国家自然科学基金4项，省部级基金项目7项；发表论文120余篇，SCI(SCIE)收录10余篇，EI收录50余篇，在国内已有一定的影响力和学术地位。

（1）在图像超分辨率重构问题的数学建模、理论与算法研究方面，目前研究项目有：SAR图像超分辨反问题基础理论与算法研究（国家高技术研究发展计划(863)）；基于形态分量分析的图像超分辨重建机理与算法研究（国家自然科学基金)；多幅红外热图像超分辨重建算法（教育部高等学校博士点基金）。2003-2008年共发表论文50篇，其中SCI(SCIE)收录10篇，EI收录25篇。

（2）在图像稀疏表示、压缩编码理论及算法研究方面，目前研究项目有：基于超小波变换的甚低比特率感知图像编码机理和算法研究（国家自然科学基金）；基于过完备稀疏表示的高效可伸缩图像编码机理与算法研究（高等学校博士学科点专项科研基金）。

（3）在信息安全与图像隐藏技术研究方面，承担和完成的研究项目有：信息隐藏的优化模型及其应用研究（国家自然科学基金）；基于超小波变换和视觉模型的稳健性水印（江苏省自然科学基金）；超小波变换域稳健性数字水印理论与安全评测方法研究（中国博士后科学基金（一等））；2003-2008年共发表论文40篇，其中EI收录10篇。（4）在医学图像数学建模、理论与算法研究方面，主要针对医学图像的图像分割、图像重构、图像（信号）奇异性检测等问题进行数学建模、理论及算法的研究。目前研究项目有：中国数字化虚拟人切片图像分割研究（国家自然科学基金）。2003-2008年共发表论文27篇，其中SCI(SCIE)收录1篇，EI收录12篇。

3、本研究方向的作用和意义：在图像处理发展过程中，数学始终起着举足轻重的作用，并渗透在图像处理的所有分支之中。一方面由于数学理论及方法的引入，大大促进了图像处理理论与技术的丰富与发展，也使相关数学理论和应用得到很大的发展；另一方面，随着图像处理工程应用的进一步发展，提出了更多的数学问题值得去深入研究。大数学家Stéphane Mallat和David Mumford分别在1998年和2002年的国际数学家大会的报告中讨论了许多与图像处理相关的数学问题，对这类问题的研究已成为数学研究的一个热点分支。因此，本方向研究图像处理中的数学问题，并结合相关数学理论及方法，针对图像处理问题进行数学建模、理论分析以及算法研究具有十分重要的理论意义和应用前景。http://cma.njust.edu.cn/Aboutus.asp?ID=4 非线性偏微分方程与几何分析

研究方向：非线性偏微分方程与几何分析主要研究方向及其特色和意义：

1、本研究方向的主要特色：本研究方向主要结合非线性分析、几何测度论、微分几何、调和分析和多复变函数等理论和方法研究非线性偏微分方程的现代理论以及黎曼和次黎曼流形上的几何和分析问题：

（1）非线性偏微分方程解的存在性、正则性，特别是高阶非线性方程、Boltzmann方程、自由不连续问题、随机PED等的解之性质；（2）流形上的几何分析，特别是黎曼和次黎曼流形上的几何结构和分析，如次黎曼流形（包括CR流形）上的曲率、测地线、极小曲面等的刻画、存在性，以及次黎曼度量的正则性问题、次调和函数的研究等；

（3）完全非线性方程的研究，特别是具有几何、物理背景的复的椭圆型、双曲型或退化的Monge-Ampere方程各类边值问题、弱解的存在性、正则性等。在理论探讨的同时并注重研究非线性偏微分方程在工程技术、数学物理、金融工程和控制论等方面的应用。

2、本研究方向的学术地位：几何测度论及其应用是从上世纪六十年代得到迅速发展而形成一个完整的数学分支，特别是其在几何分析、极小曲面、偏微分方程和变分学等中的完美应用以及与分形学等之间的关系，使得几何测度论的理论和方法引起了几何和分析学界的广泛关注。我们和林芳华合作的《Geometric Measure Theory》专著，是国内关于几何测度论的第一本专著，也是国外同类为数不多的几本专著之一，引起了国内外同行的广泛关注，被Caffarelli L.A.、Wang L-H、Chen G-Q、Chan T.等著名数学家多次引用，被国内外多所高校选为研究生、博士生的教材，特别是几何测度论领域的国际知名数学家美国Rice大学的R.Hardt教授和芬兰Jyväskylä大学的P.Mattila教授也使用此书作为教学和研究参考, 对此学科特别是在国内的发展产生了积极的推动作用。本研究方向在次黎曼流形上的几何和分析方面取得了一系列成果，引起了同行的关注，如Heisenberg群上的BV函数的理论被著名数学家(国际数学家大会45分钟特邀报告人)L.Ambrosio等引用，H型群上的等距变换群理论被德国波恩大学的A.Lytchak引用；Carnot群上的水平凸函数理论被A.Bonfiglioli等的专著引用。基于我们在非线性偏微和几何分析方面的研究工作，我们在国内外举办的十余次PDE和几何分析国际会议上作邀请报告。本研究方向主持了国家自然基金项目4项、省自然基金项目2项、教育部博士点基金项目1项，教育部回国人员基金项目3项等。

3、本研究方向的作用和意义：非线性偏微分方程与几何分析是当今世界数学发展的一个非常重要和活跃的分支，2002年8月在北京召开的国际数学家大会（ICM）的二十个一小时大会特邀报告就有五个在此方向或与之有密切联系，仅偏微分方程的四十五分钟报告有十二个就可以说明这一点。次黎曼几何与控制论、调和分析、多复变函数等有密切的联系，具有广泛的应用背景。非线性偏微分方程和几何分析不但自身理论方面有很多重要问题有待解决，而且与很多其它数学研究方向如微分几何、拓扑学、泛函分析、复分析和数学物理等紧密联系和相互促进，在几乎所有的自然科学、社会科学、金融工程、管理科学和军事工程等领域都有广泛的应用。几何分析主要用分析的工具解决几何问题，是当今数学研究的热点之一，具有广泛的发展背景。

白志东，男，1943年11月出生于河北省乐亭县。于1982年5月在中国科学技术大学数学系获得博士学位。1984年9月出国留学，先后在美国匹兹堡大学和滨州州立大学统计系担任研究员，美国Temple大学统计系担任副教授、中华民国国立中山大学应用数学系和新加坡国立大学概率统计系担任教授。于1990年3月被评为第三世界院士。2002年5月回国，于东北师范大学数学与统计学院担任特聘教授。曾担任《Journal of Multivariate Analysis》主编, 《Statistica Sinica》副主编，《Journal of statistical planning and inference》副主编；现担任中国概率统计学会常务理事，《Sankya》副主编。

自1982年参加工作以来，一直从事概率统计中极限理论方面的研究。至今已发表学术论文160余篇，其中近120篇为SCI检索论文，另有10多篇乃应邀为各学术专著所写的章节。论文已被SCI引用近1000余次。研究领域包括：大维随机矩阵的谱分析理论，分布函数的渐进展开，模型选择，信号处理，M-估计，深度估计，临床试验中的序贯设计，算法中的应用概率等。主要贡献如下：

a.白志东不等式的建立与经验谱分布收敛速度的估计。给经验谱分布收敛速度的估计开创了一种方法，并且对Wigner矩阵和大维样本协方差矩阵之经验谱分布给出了初步的收敛速度之估计。

b.随机矩阵极端特征值的极限。解决了极端特征值的极限之确立关系到极限谱分布的可应用性等一系列重大理论与实用问题。c.园律的证明。“园律”是大维随机矩阵谱分析理论中一个最著名的猜想。经十多年努力，给出了一个可靠证明。d.线性谱统计量的中心极限定理。理论结果是在四阶矩一致可积（不假定同分布）的条件下获得的。为大维随机矩阵谱分析理论在数理统计，无线通讯等领域中的应用奠定了理论基础。e.Edgeworth展开。首次提出了Partial Cramer条件的概念，并于在Ann.Statist.、JMVA及Sankya等杂志上发表的一系列文章中解决了这个问题。填补了没有Cramer条件不能渐进展开的空白。

f.最大深度估计。这是近二十年来统计界最热门的研究领域之一，它的渐进分布一直是统计界研究的重点问题，1999年与他人合作在美国最权威的统计杂志Ann.Statist.上发表文章，给出了维数任意时最大深度估计的渐进分布是一个具有线性偏差高斯过程的最小最大解。其结果与方法对其他相关估计也是有益的。美国的《数学评论》对该成果作了很高的评价。g.模型选择。提出了广泛信息准则(GIC)，给出了强相合的条件。

h.计算方法中的应用概率。2001年在《Electronic Journal of Probability》上发表的文章解决了多维立方体中随机点列的最大点个数的方差表达式及其中心极限定理的问题。

【学习工作简历】

一、毕业学校：

1982年中国科学技术大学，博士

二、工作简历：

1.2002年3月至今东北师范大学数学系

2.1999年至今

新加坡国立大学概率与统计系教授 3.1997-1999

新加坡国立大学数学系高级研究员

4.1994-1997

中华民国（台湾）国立中山大学应用数学系教授 5.1990-1994

美国Temple 大学副教授

6.1988-1990

美国 Penn洲立大学多元分析中心 Senior Research Associate 7.1984-1988

美国Pittsburgh大学多元分析中心 Visiting research associate 8.1982-1984

中国科学技术大学数学系讲师, 副教授

【社会学术兼职】

吉林省特聘教授, 第三世界科学院院士, 美国数理统计研究所特别研究员, 国际统计协会会员, IMS 会员, 中国数学协会会员, 中国概率统计协会常务理事, ICSA 会员,曾任《Journal of the Multivariate Analysis》编委;《Journal of Statistical Planning and Inference》编委《;Statistica Sinica》副主编 << Mathematical Review>> 评论员 << Zentralblatt Fur Mathematik>> 评论员

【教学工作】

讲授课程: 时间序列分析多元分析非参数统计非参及稳健性统计测度论及概率矩阵论及在统计中的应用点估计假设检验助步法及应用高等统计概率中的极限定理数学分析实分析特征函数统计导论分析概率论

【主要科研方向】

1.大维随机矩阵的谱分析 2.秩集抽样

3.m-估计和稳健估计 4.模型选择 5.时间序列分析 6.urn模型及其在临床试验中的应用 7.概率的极限定理 8.概率算法

9.edgeworth展开

【主要科研项目】

1.1998年至2000 年新加坡国立大学, Exact Separation of the Support of Limiting Spectral Distribution of Large Dimensional Sample Covariance Matrices;2.1999年至2001年新加坡国立大学(与陈泽华)Statistical methods based on ranks: The generalized ranked set sampling and mode estimation using order statistics;3.2000年至2001年新加坡国立大学 Stochastic type limiting theorems in spectral analysis of random matrice;4.2000年至2003年新加坡国立大学(与Hu Feifang), Optimal Sequential Designs for Medical Studie;5.2003年1月至2005年12月国家自然科学基金《大维随机阵线性谱统计量的极限性质》;6.2006年1月至2008年12月国家自然科学基金《大维随机矩阵理论及其在无线电通讯中的应用》.

第二篇：数据统计分析方法

数据统计分析方法

排列图：

排列图是由两个纵坐标，一个横坐标，若干个按高低顺序依次排列的长方形和一条累计百分比折线所组的，为寻找主要问题或主要原因所使用的图。

排列图有以下优点：直观，明了－－全世界品质管理界通用用数据说明问题－－说服力强用途广泛：品质管理 / 人员管理 / 治安管理排列图的作图步骤收集数据(某时间)作缺陷项目统计表绘制排列图画横坐标(标出项目的等分刻度)画左纵坐标(表示频数)画直方图形(按每项的频数画)画右纵坐标(表示累计百分比)定点表数。

因果图何谓因果图：

对于结果（特性）与原因（要因）间或所期望之效果（特性）与对策的关系，以箭头连接，详细分析原因或对策的一种图形称为因果图。因果图为日本品管权威学者石川馨博士于1952年所发明，故又称为石川图，又因其形状似鱼骨，故也可称其为鱼骨图，或特性要因图作因果图的原则采取由原因到结果的格式通常从‘人，机，料，法，环’这五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三个层次：主干线、支干线、分支线尽可能把所有的原因全部找出来列上对少数的主要原因标上特殊的标志写上绘制的日期、作者、有关说明等作因果图应注意的事项问题(结果)应单

一、具体，表述规范最后细分出来的因应是具体的，以便采取措施；在寻找和分析原因时，要集思广益，力求准确和无遗漏可召开诸葛亮会，采用头脑风暴法层次要清，因果关系不可颠倒原因归类正确作因果图应注意的事项画法按从左至右的贯例执行－－规范化在作因果图前，可先从排列图中找出主要问题，然后针对主要问题，召集相关人员进行讨论，力求尽可能找出产生问题的原因，通过分析，确立主要原因。因果图在今后可不断进行修改，逐渐完善，反復使用。

直方图：

是通过对数据的加工整理，从而分析和掌握品质数据的分布状况和估算工序不合格率的一种方法。直方图的作法作直方图的三大步骤作频数表画直方图进行有关计算作直方图的步骤(例3)1.搜集数据作直方图的步骤计算极差(Range),上表中最大值Xmax=48;最小值Xmin=1;R＝Xmax-Xmin=48-1=47适当分组(k)在本例中，取k=10确定组距(h)组距用字母 h 表示：h=R/k=47/10=4.7, Y约等于5。确定各组界限－－组的边界值单位取最小测量单位的一半。作直方图的步骤本例第一组的下限为：第一组的上限值为下界限值加上组距第二组的下界值为上界限值，第一组的上界值加上组距就是第二组上界限值，照此类推，定出各组的边界。编制频数分布表

分层法

分层的目的是把杂乱无章和错综复杂的数据，按照不同的目的、性质、来源等加以分类整理，使之系统化、条理化，能更确切地反映数据所代表的客观事实，便于查明产品质量波动的实质性原因和变化规律，以便抓住主要矛盾，找到主要影响因素，从而对症下药，采取相应的措施。

分层的原则是使同一层内的数据波动尽可能小、而层与层之间的差别尽可能大。

为了达到目的，通常按操作者、机器设备、材料、工艺方法、测量手段、环境条件和时间等标志对数据进行分层。

调查表

调查表也叫检查表或核对表，它是一种为了便于搜集数据而使用简单记号并予统计整理，并作进一步分析或作为核对、检查之用而事先设计的一种表格或图表

控制图

控制图是一种带有控制界限的反映过程质量的记录图形，图的纵轴代表産品质量特性值(或由质量特性值获得的某种统计量)；横轴代表按时间顺序(自左至右)抽取的各个样本号；图内有中心线(记爲CL)、上控制界限(记爲UCL)和下控制界限(记爲LCL)三条线(见下图)

第三篇：职业病数据统计分析报告

公乌素公司近年来职业病数据

统计分析报告

作者：白建兵日期：2013年11月

用品管理制度、个人防护用品发放管理制度、职业危害事件应急救援预案、职业卫生健康监护制度、职工听力保护管理制度、职业卫生防治措施、职业卫生安全操作规程等相关制度。按照该企业制定的劳动防护用品管理办法，定期为作业人员发放防尘口罩、防噪耳塞等职业卫生防护用品。

2004年来，随着我公司企业改制和神华总部政策的实施，潜在职业危害越来越多，从业人员的健康面临更大的威胁。为了更好地保障工人职业健康，促进我公司工业持续健康发展，在我公司全面开展职业病防治工作愈显重要。

2008年，通过职业病危害专项整治调查，我公司存在职业病危害因素在煤炭生产的整个过程中都伴随着生产性粉尘(包括煤尘、混合性粉尘、岩尘)、生产性毒物(包括三硝基甲苯、铅、苯、砷化氢、汞及其化合物等)、有害物理因素(包括地温与高温、噪声与振动、放射线等)、有毒有害气体(包括沼气、一氧化碳、二氧化碳、氧化氨、二氧化硫、硫化氢、氨、磷化物)、不良气象条件(包括通风、采光、照明、气温、湿度、风速)、水质(包括矿区水源、工业用水)等职业危害因素，造成了部分作业人员患有不同程度的矽肺、煤工尘肺、职业中毒、中暑、放射性疾病、局部振动病、噪声聋等职业病。噪声、粉尘、甲醛、游离二氧化硅苯系物等。

在生产作业的整个过程中都伴随着生产性粉尘(包括煤尘、混合性粉尘、岩尘)、生产性毒物(包括三硝基甲苯、铅、苯、砷化氢、汞及其化合物等)、有害物理因素(包括地温与高温、噪声与振动、放射线

85%的老员工都是采掘一线人员，尘肺疑是人员非常多,2013年6月底我公司与能源公司职防所对在岗员工进行了岗中体检，新增的尘肺病人有10人，其中有8人是2004年破产重组以前就参加了煤矿井工工作的人员（重组改制人员），两人是山西大同2004年招聘人员，现在的职业健康监护是我们的重中之重。

（二）接触危害因素作业点监测情况

1989～2003年，我公司前身是海勃湾矿务局公乌素煤矿，因当时属国有统配煤矿，各种原因导致职业病监测工作未重点开展。2008年，我公司重点抽取7个采掘单位进行了职业卫生监测，监测结果显示：噪声强度超标率达20%，粉尘浓度超标率达80%，一氧化碳和二氧化碳浓度均符合国家职业卫生标准；同时根据乌海市安监局的要求，又对全公司采区场进行了作业场所环境卫生监测，合格率达80%以上。

2009年，根据乌海市安监局的要求，对全公司采区进行了作业场所环境卫生监测，合格率达90%以上。

2010年，在抽取的3个单位监测结果显示：地面作业场所绞车房、压风机房、变电所，噪声强度超标，井下粉尘浓度超标率达38%，一氧化碳和二氧化碳浓度均符合国家职业卫生标准；根据乌海市安监局和神华集团乌海能源公司的要求，我们能源公司职防所对全公司9个采掘单位进行了作业场所卫生监测，合格率90%。

2012年，我能源公司职防所对我公司所有单位进行了职业卫生监测，监测结果显示：噪声强度超标率达20%，粉尘浓度（1604工作面）超标率达80%，一氧化碳和二氧化碳浓度均符合国家职业卫生标准；同

仪共六台，同时限制或淘汰危害劳动者健康的落后技术、工艺、设备和材料，积极开发、推广和应用有利于职业病防治的新技术、新工艺、新材料、新设备，从根本上减少和消除职业病危害。

杜绝产生源头

我公司除严格劳保用品的使用，严格防护措施的执行外，有关部门还定期组织人员深入井下和作业现场督查，重点整治井下防尘设施，进一步完善通风系统，狠抓井下质量标准化建设，有效降低了人体摄入粉尘量和有毒有害气体量；定期组织职工体检，做到早发现、早治疗、早鉴定；严格落实有关津贴补助的发放，解决了职工的后顾之忧。

四、降低职业发病率的主要作法

1、对新矿工人和在岗的工人进行职业健康检查。这样，企业可以了解和掌握劳动者的健康状况，及早发现职业禁忌证的人员和及早发现化学毒物对健康的损害，通过调换患有职业禁忌证的人员的工作岗位和治理工作场所存在的职业危害，避免发生职业危害事故。降低职业病发病率。通过我公司与能源公司职防所对其进行健康监护体检，能提前查出职业禁异证由于措施得力，程序规范，有效的促进了队伍的壮大和建设。

2、做好个人卫生防护工作

我公司为落实好国家颁布《职业病防治法》第二十条规定用人单位“必须采用有效的职业病防护设施，并为劳动者提供个人使用的职业病防护用品。为劳动者我们的员工个人提供的职业病防护用品必须符合防治职业病的要求；不符合要求的，不得使用。我公司坚持按照规

劳动合同中未告知的存在职业病危害的作业时，我公司并如实告知劳动者从事职业存在职业安全健康危害及防护措施，真正体现了诚实信用、公平合理的基本原则。同时我们在入井井口做了四块职业健康宣传牌板包括（公告栏告知、警示告知、培训告知、职业病危害等）

公告栏告知

我公司在矿区内醒目位置设置公告栏，公布有关职业病防治的规章制度、操作规程、职业病危害事故应急救援措施和工作场所职业病危害因素检测结果。”实施公告栏告知，可让劳动者熟悉我公司制定的各项职业卫生管理制度、操作规程，了解工作场所职业病危害的真实情况，增加管理的透明度，调动起工人的积极性，配合企业做好职业病防治工作。这有利于避免因劳动者不了解职业病危害而盲目操作，导致受害。

警示告知

我公司并在井下对产生严重职业病危害的作业岗位（特别是井下岩巷喷浆、采煤工作面作业等地区）醒目位置，设置警示标识和中警示说明。并载明产生职业病危害的种类、后果、预防以及应急救治措施等内容。”、“对可能发生急性职业损伤的有毒、有害工作场所，设置报警装置，特别是瓦斯积聚地区和回风巷都悬挂风速传感器、瓦斯检测仪、一氧化碳检测仪等设备，并在职工不可进入的盲巷设置警示栏，防止职工误入，出现事故。

培训告知

通过职业卫生培训，告知劳动者有关的职业卫生知识，让劳动者

职业健康监护工作包括职业健康检查，健康状况分析和建立健康监护档案等工作。职业健康检查包括：上岗前、在岗期间、离岗时和应急健康检查。

5、加强职业危害宣传培训

防治职业病关键在于预防。为此，我公司加大宣传力度，深入开展《职业病防治法》宣传，2013年在能源公司职防所的组织下在工业广场做了大力宣传，特请3m职业健康系列产品对员工进行职业病防治知识、相关法律法规更加了解。同时，通过向全矿员工公开监督电话、设立举报箱等形式，接受员工的职业卫生咨询和举报监督。通过宣传教育，让员工了解煤矿生产的特点、职业病的危害和防治常识，增强了员工的基本防护技能和健康保护意识。

源头防范

地面环境保护

公司严格遵守国家环境保护法律法规，持有合法有效的排污许可证。排出的矿井水经过处理后成为灌溉水源；矸石集中堆积，并投入巨资将矸石山绿化改造，防止因有风天气将粉尘到处飞扬，为解决该问题，给地面职工创造良好环境，减少每天吸入肺部粉尘量，我公司

康体检、监督监测工作难度大、阻力大。

3、对职业病防治工作重视不够大，经费投入相对不足，我公司在职业卫生工作方面的协调合作积极性不够，《职业病防治法》等法规执行不够到位，执罚疲软。

4、职业病防治工作人才队伍薄弱，经验相对不足，技术层次较低，应对繁重的职业病防治工作还有待提高技术和积累经验。

5、要切实有效贯彻《职业病防治法》。建设高素质的职业病防治工作队伍，加大力度，对我公司职业病危害严重的问题加强监督检查，促使我公司严格按照《职业病防治法》做好职业病防治工作。

6、针对我公司目前职业病防治工作的现状，要进行生产场所职业病危害因素监督自查，组织接触有毒有害工人进行定期身体健康检查，以确保职业病危害因素监测工作的进一步得到全面落实，工人身体健康进一步得到保障。

公乌素煤业公司职业健康监护办公室

二〇一三年八月八日

第四篇：用统计分析数据说话

用统计分析数据说话

中国医药报

【日期】2007-01-06 【期次】4(总第3312期)【版次】8 【版名】交流

【栏目】<专题>= 【类别】药品监督

【作者】李军

【特刊】<周刊期次>=<周刊类别>=法治周刊

【正文】点击查看：本版 PDF

河北省保定市食品药品监管局法规处从2005年8月开始对行政处罚案件、不合格药品、举报案件和药品从业人员健康体检情况等进行统计和深入分析，找出问题，提出具体的解决办法，为执法工作及领导决策提供依据。

■统计分析工作内容

认真进行数字统计。该局法规处把统计项目细化成案源、案件性质、类别、涉案药品、器械、没收物品、罚款金额等内容，详细地反映出案件全貌。除行政处罚案件实行月报告统计外，其他统计按进行。为保证统计数据的准确性和真实性，他们要求各县局把数据统计作为一项重要任务落实到人。为防止数据的失真失实，法规处还将统计工作与案件检查结合起来，通过案件检查验证统计数据，防止统计数据做假。

综合进行数据分析。分析是对统计结果的进一步深化，是深入挖掘、揭示一般性规律的过程。通过分析比较，从中发现经验和不足。如案件月统计分析，法规处做到“三看”，一是纵向看：看案件来源，了解日常监督检查力度和监督网络发挥作用情况；看案件类别，了解违法药品种类和药械监督检查范围；看案件性质，了解违法行为性质情节和社会危害程度；看案件数量，了解药械市场监管情况和行政相对人违法情况。二是横向看：将日常监督检查和市场抽验发现的案件与举报和转办案件相比较，看日常监管是否到位；将药品、医疗器械常见案件与药包材、医院制剂等案件相比较，看监管是否存在盲区。第三是交叉看：比较简易程序项目和违法所得、违法物品项目，看是否存在违反法定程序问题；比较一般程序、听证程序项目与罚没金额项目，看是否存在没有履行重大案件审查备案程序问题；比较货值金额（违法所得）项目与罚没金额项目，看是否存在滥用自由裁量权的问题；比较山区县与山区县之间，山区县与平原县之间，平原县与平原县之间的案件查处情况，看地域特点及药械市场规范程度。

提出改进措施。在提出改进措施时，要注重针对性和可操作性。如法规处在对市区药品从业人员参加健康体检的情况进行统计分析后，发现存在不体检或冒名体检等许多不规范现象，针对这种状况，该处起草制定了全市《医药行业工作人员健康体检管理办法》，在充分征求相关部门意见的基础上正式印发并组织实施，使健康体检实现了规范化管理。

■开展统计分析的成效

开展统计分析后，该局的执法质量得到进一步提升。通过行政处罚案件月统计分析，对程序违法、重罚款轻整改、监管不到位等8个方面的问题进行了纠正，至今该局已连续10个月没有出现程序违法案件。针对处罚随意性较大的问题，制定了《行政处罚自由裁量实施办法》。针对统计中发现的问题，开展相关的法律法规培训等。针对统计分析中发现的药品送检报告中存在着单位名称书写不规范、送检药品中化学药数量偏低等问题，提出了建立假劣药品展室，加大对假劣药品鉴别培训力度，加大对安国中药材专业市场的监管力度等建议，还将不合格药品抽验情况每月在系统内进行公布，实现信息共享。对举报案件进行统计，分析群众举报的内容、时间和所提的要求以及查处情况等，找出举报动机、接报存在的问题等，提出了具体应对措施：对有明确地点、证据充分的举报及时组织力量进行查处；对线索不明确，不能提供相关证据的举报做耐心细致地解释与了解；对不属于本局管辖的举报及时移交；由稽查处牵头组建举报案件快速反应中心。这些措施，有效提升了执法质量。

第五篇：大数据的统计分析方法

统计分析方法有哪几种？下面天互数据将详细阐述，并介绍一些常用的统计分析软件。

一、指标对比分析法指标对比分析法

统计分析的八种方法

一、指标对比分析法指标对比分析法，又称比较分析法，是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法,有比较才能鉴别。

指标分析对比分析方法可分为静态比较和动态比较分析。静态比较是同一时间条件下不同总体指标比较，如不同部门、不同地区、不同国家的比较，也叫横向比较；动态比较是同一总体条件不同时期指标数值的比较，也叫纵向比较。

二、分组分析法指标对比分析法

分组分析法指标对比分析法对比，但组成统计总体的各单位具有多种特征，这就使得在同一总体范围内的各单位之间产生了许多差别，统计分析不仅要对总体数量特征和数量关系进行分析，还要深入总体的内部进行分组分析。分组分析法就是根据统计分析的目的要求，把所研究的总体按照一个或者几个标志划分为若干个部分，加以整理，进行观察、分析，以揭示其内在的联系和规律性。

统计分组法的关键问题在于正确选择分组标值和划分各组界限。

三、时间数列及动态分析法

时间数列。是将同一指标在时间上变化和发展的一系列数值，按时间先后顺序排列，就形成时间数列，又称动态数列。它能反映社会经济现象的发展变动情况，通过时间数列的编制和分析，可以找出动态变化规律，为预测未来的发展趋势提供依据。时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列。

时间数列速度指标。根据绝对数时间数列可以计算的速度指标：有发展速度、增长速度、平均发展速度、平均增长速度。

动态分析法。在统计分析中，如果只有孤立的一个时期指标值，是很难作出判断的。如果编制了时间数列，就可以进行动态分析，反映其发展水平和速度的变化规律。

四、指数分析法

指数是指反映社会经济现象变动情况的相对数。有广义和狭义之分。根据指数所研究的范围不同可以有个体指数、类指数与总指数之分。

指数的作用：一是可以综合反映复杂的社会经济现象的总体数量变动的方向和程度；二是可以分析某种社会经济现象的总变动受各因素变动影响的程度，这是一种因素分析法。操作方法是：通过指数体系中的数量关系，假定其他因素不变，来观察某一因素的变动对总变动的影响。

用指数进行因素分析。因素分析就是将研究对象分解为各个因素，把研究对象的总体看成是各因素变动共同的结果，通过对各个因素的分析，对研究对象总变动中各项因素的影响程度进行测定。因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析，对平均指标变动的因素分析。

五、平衡分析法

平衡分析是研究社会经济现象数量变化对等关系的一种方法。它把对立统一的双方按其构成要素一一排列起来，给人以整体的概念，以便于全局来观察它们之间的平衡关系。平衡关系广泛存在于经济生活中，大至全国宏观经济运行，小至个人经济收支。平衡分析的作用：一是从数量对等关系上反映社会经济现象的平衡状况，分析各种比例关系相适应状况；二是揭示不平衡的因素和发展潜力；三是利用平衡关系可以从各项已知指标中推算未知的个别指标。

六、综合评价分析

社会经济分析现象往往是错综复杂的，社会经济运行状况是多种因素综合作用的结果，而且各个因素的变动方向和变动程度是不同的。如对宏观经济运行的评价，涉及生活、分配、流通、消费各个方面；对企业经济效益的评价，涉及人、财、物合理利用和市场销售状况。如果只用单一指标，就难以作出恰当的评价。

进行综合评价包括四个步骤：

1.确定评价指标体系，这是综合评价的基础和依据。要注意指标体系的全面性和系统性。

2.搜集数据，并对不同计量单位的指标数值进行同度量处理。可采用相对化处理、函数化处理、标准化处理等方法。

3.确定各指标的权数，以保证评价的科学性。根据各个指标所处的地位和对总体影响程度不同，需要对不同指标赋予不同的权数。

4.对指标进行汇总，计算综合分值，并据此作出综合评价。

七、景气分析

经济波动是客观存在的，是任何国家都难以完全避免的。如何避免大的经济波动，保持经济的稳定发展，一直是各国政府和经济之专家在宏观调控和决策中面临的重要课题，景气分析正是适应这一要求而产生和发展的。景气分析是一种综合评价分析，可分为宏观经济景气分析和企业景气调查分析。

宏观经济景气分析。是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法，经过十多年时间和不断完善，已形成制度，定期提供景气分析报告，对宏观经济运行状态起到晴雨表和报警器的作用，便于国务院和有关部门及时采取宏观调控措施。以经常性的小调整，防止经济的大起大落。

企业景气调查分析。是全国的大中型各类企业中，采取抽样调查的方法，通过问卷的形式，让企业负责人回答有关情况判断和预期。内容分为两类：一是对宏观经济总体的判断和预期；一是对企业经营状况的判断和预期，如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等。

八、预测分析

宏观经济决策和微观经济决策，不仅需要了解经济运行中已经发生了的实际情况，而且更需要预见未来将发生的情况。根据已知的过去和现在推测未来，就是预测分析。

统计预测属于定量预测，是以数据分析为主，在预测中结合定性分析。统计预测的方法大致可分为两类：一类是主要根据指标时间数列自身变化与时间的依存关系进行预测，属于时间数列分析；另一类是根据指标之间相互影响的因果关系进行预测，属于回归分析。

预测分析的方法有回归分析法、滑动平均法、指数平滑法、周期（季节）变化分析和随机变化分析等。比较复杂的预测分析需要建立计量经济模型，求解模型中的参数又有许多方法。

高维数据统计分析

第一篇：高维数据统计分析

第二篇：数据统计分析方法

第三篇：职业病数据统计分析报告

第四篇：用统计分析数据说话

第五篇：大数据的统计分析方法

相关范文推荐

饭店月度经营数据统计分析报告

2017年第二季度指标数据统计分析2

基层法律服务工作数据统计分析报告

分析报告、统计分析和数据挖掘的区别（精选5篇）

2010年全省学生体质与健康调研及数据统计分析

2011年河南省信阳市房地产市场广告数据统计分析报告

高学生上网情况问卷调查数据分析[范文模版]

中国旅游统计分析