第一篇:多元变量典型相关分析的分类:最小二乘配方、扩展和分析.
多元变量典型相关分析的分类:最小二乘配方、扩展和分析
摘要——典型相关分析(CCA)是一种寻找两个多维变量之间相关性的著名的技术。它是一项把两组变量化到一个低维空间中并且使他们之间的相关性最大的工作。CCA通常在两组变量分别的是来源于数据和类标签上申请监督降维。众所周知,CCA可以制定作为在二进制类案件中的一个最小二乘问题。然而,扩展到更一般的变量尚不清楚。在本文中,我们表明,在倾向于保持高维数据的温和条件,CCA在多元变量的情况下可以制定作为一个最小二乘问题。在此基础上等价关系,高效的算法求解最小二乘问题可以应用于非常大的数据集规模CCA问题。此外,我们提出几个CCA扩展,包括基于1规范正规化的稀疏CCA方程式。我们进一步扩展最小二乘方程式为偏最小二乘法。此外,我们表明,投影,让一群CCA变量是独立的,正则化在另组多维变量,提供新的见解的影响CCA的正规化。我们使用基准数据集进行了实验。实验数据集确认建立了等价关系。结果也证明了CCA扩展的有效性和效率的提议。
关键字——典型相关分析、最小二乘法、多元变量学习,偏最小二乘法、正规化。引言
典型相关分析(CCA)[1]是一个众所周知的寻找两套多维变量之间的相关性的技术。它使用两个视图相同的组对象和项目到一个与他们最相关的低维空间中去。CCA已经成功应用在各种应用中[2]、[3]。一个流行的使用CCA是监督式学习,它其中一个观点是来源于数据并且其他的观点来源于类标签。在这种背景,数据可以用标签信息定向的被投影到一个低维空间。这样的一个方程式在对多元变量进行降维的情况下是非常的吸引人的。
多元线性回归(多元)即最小平方和成本函数是一种专门研究回归问题的技术。它还可以被应用于通过定义一个合适的类指标矩阵的分类问题[5],[6]。多元的解决方案基于最小二乘法通过求解一个线性方程组来获得。一个数量的算法包括共轭梯度算法,可以应用到它有效地解决[7]。此外,最小二乘方程式可以很容易使用正则化技术进行扩展。例如,1规范可以被纳入正规化最小二乘方程式来控制模型复杂性和提高稀疏[8]。稀疏常常会导致容易解释和良好的泛化能力。它已经被成功地应用在几个算法中,包括主成分分析[9]和支持向量机[10]。
与最小二乘法相比,CCA涉及广义特征值问题,它解决时,计算更加费时[11]。此外,它是具有挑战性的,因为它获得稀疏CCA时涉及到一个困难稀疏的广义特征值问题。凸松弛的稀疏CCA的研究[12]放在,确切的稀疏的CCA配方一直放松在几个步骤上。另一方面,最小二乘法和CCA已经建立在文学上建立起一个有趣的联系。特别是,CCA被证明是相当于Fisher线性判别分析(LDA)的二进制类问题[13]。与此同时,众所周知,在这种情况下LDA相当于最小二乘法[5],[6]。因此,CCA可以作为一个对于二进制类问题制定最小二乘问题。在实践中,多元变量问题非常普遍。因此研究它们在更一般的变量中的关系更具诱惑。
在本文中,我们研究 CCA和最小二乘在多元变量问题之间的关系。我们表明,在倾向于保持高维数据的温和条件下,CCA可以作为一个通过制定构造一个特殊类指标矩阵的最小二乘问题。在此等价关系的基础上,我们提出几个CCA扩展,包括使用1规范正规化的稀疏CCA。我们表明,最小二乘方程式及其扩展的CCA可以有效地解决。例如,相当于2规范的最小二乘配方和正规化的扩展可以通过计算迭代共轭梯度算法LSQR进行处理[14],这种算法可以处理非常大规模的问题。我们通过建立OPLS 和 CCA之间的等价关系使最小二乘方程式扩展到正交最小二乘(OPLS)和偏最小二乘法(PLS)。此外,我们分析正则化在CCA上的效果。特别是,我们表明,CCA投影,让一群变量是独立的正规化另组多维变量,阐明正规化在CCA上的影响。此外,它能显示出我们的分析可以扩展到内核诱导功能空间。提供更多细节的补充文件,可以发现在计算机协会数字图书馆在http://doi。ieeecomputersociety.org/10.1109/TPAMI.2010.160。
注释:训练样本的数量,数据维数,数量的标签分别用n、d、k。xiR表
kdnyRXx,,xRii1n示第个观察。并且表示编码对应的标签信息。让是knYy,,yR1n数据矩阵,是类标签矩阵。我们假设所有的xii1和
ndyiin1是集中的,i1xi0n和i1nyi0。
AF弗罗贝尼乌斯的规范表示矩阵A。I是单位矩阵和e是一个单位向量。背景和相关工作
在本节中,我们回顾CCA,最小二乘法,和一些相关的工作。2.1 典型相关分析
在CCA,两种不同造型的同一组对象,给出了一个投影计算了每个表示这样
dwRx的,他们是最大的维度降低空间相关。正式,CCA计算两个投影向量和wyRk这样的相关系数
TwTxXYwyTTT(wTxXXwx)(wyYYwy)
(1)
是最大化
因为是
wx,wywx和wy不变的缩放,CCA可以相等的变换为
(2)
TmaxwTxXYwy 2
Ts.twTxXXwx1,TwTyYYwy1.以下,我 们假设YY是满秩的。这表明
wxTwx以下问题的最优解来获得:,TT1TmaxwTxXY(YY)YXwx,TTs.t wxXXwx1。
(3)两种方法在(2)和(3)中试图找到所对应的特征向量与特征值的顶部以下广义特征值问题:
XYT(YYT)1YXTwxXXTwx,(4)
特征值与特征向量wx是相对应的。它也表明,多个投影向量在某些正规化约束由顶部的特征向量的广义特征值问题(4)[2]。
在正规化CCA(rCCA),两个正则化条件xI和
TTyI,并且
x0,y0被添加在(2)来防止过度拟合,避免奇点XX和YY的[2], [15]。具体来说,解决了以下商资归农广义特征值问题: XXT(YYTyI)1YXTwx(XXTxI)wx
(5)
2.2 最小二乘法的回归和分类 在回归,我们就有了一种训练集xi,tini1dkxRtRii,其中是观察数据,是相应的目标。我们假设两把观察结果和目标集中。结果,拦截在回归可以被消除。在这种情况下, 最小二乘方法可以用于计算投影 矩阵W通过最小化以下平方和成本 功能:
nminf(W)WxitiTWi122WXTT2F
(6)
knTt,tR1n其中。众所周知,最优投影矩阵给出了[5],[6]
WLS(XXT)XTT
(7)T(XX)代表雅可比矩阵XXT的伪伪逆。其中最小二乘公式也可应用于分类问题。在一般的多级情况下,我们是给定一个
ndxi,yii11,2,,k表示第i类标号的样xRin样品组成的数据集,其中,yi 3 本,k>2。应用最小二乘的多类配方情况下,1 k的二进制编码方案通常是把向量值类代码应用于每个数据点[5]。解决方案取决于选择类指标矩阵。几类指标矩阵的提出在文献[6]。
2.3 相关工作
最小二乘法的内在关系和其他几个模型在过去已经建立。特别是,它是一个经典的效果,最小二乘问题是等价的LDA对二进制类问题[5]。最近,这种等价关系是延伸到通过定义一个特定的类指标矩阵的多类案件[16]。CCA已被证明是相当于LDA对多类问题[13]。因此,CCA相当于最小二乘法在多类案件。我们显示在接下来的部分,在温和条件下,可作为制定CCA最小二乘问题的更一般的设置,即,多元变量问题当一个用来源于标签的CCA的视图。CCA和最小二乘对于MULTILABEL之间的关系分类
在本节中,我们的相关关系和最小二乘法的CCA multilabel案例,由于空间限制,所有的证据是提供在补充文件,可以在计算机协会数字图书馆中找到http://doi.ieeecomputersociety.org/10.1109/TPAMI.2010.160。
首先为我们的推导定义四个矩阵:
HY(YY)TT12Rnk,(8)
CXXXXTRdd,(9)CHHXHHTXTRdd,(10)CDDCXXCHHRdd,(11)
注意,我们假设nk并且rank(Y)k为多元变量的问题。这样(YY)T12就很明确了。遵循上面的定义,解决CCA可以表达为特征值所对应的特征向量与矩阵CXXCHH的顶部。
3.1 基本矩阵属性
在本节中,我们研究的基本性质的矩阵参与下面的讨论。以下定义在(8)中的H,我们有:
引理 3.1 让H被定义为在(8),并且让我们有:
(1)H已经正规化的列,T(2)He0。
yiin1集中的,i1yi0。这样,nHTHIK'。
鉴于HR言之 nk与列正交,存在DRn(nk)nnH,DR使得是正交矩阵,简而
InH,DH,DHHTDDTT
TTCCCXDDXDDXXHH于是就出现了的结果,让奇异值分解计算X且
XUVTU1,U2diag(r,0)V1,V2U1rV1TT
其中rrank(X),U,V是正交矩阵,Rdn,U1Rdr,U2Rd(dr),V1Rnr,V1Rn(nr),rRrrT很明显U2位于零空间X中,简而言之
XTU20
(12)
3.2 通过特征分解计算CCA
C回想一下,解决CCA由矩阵XXCHH的顶部特征向量.我们下一个展示如何计算这些特征向量。定义了矩阵ARrk且
(13)
rk1TTArU1XHV1H让奇异值分解A,使对角线的。这样 APAQTrrkkRPR,QR,其中是正交的,A是
TAATPATAP
(14)C矩阵XXCHH的特征分解总结了下面的定理:
C定理3.1 矩阵XXCHH有k个非零特征值。具体来说,CCA的解决办法是由与矩阵CXXCHH最顶端的特征值(k)相对应的特征向量组成的,可以得到:
1WCCAU1rP
(15)其中Pl在包含第一列的P。
3.3 和最小二乘法等价的CCA 考虑类指标矩阵T定义如下:
~ 5
T(YY)YHT
(16)
~T12它遵循从(7),解决最小二乘问题给定T
1TWLS(XXT)XHU1rPAQ~
(17)
T从(15)和(17)中可以很明显的看出之间(CCA)和最小二乘法的区别在于A和Q 我们下一个显示所有的对角元素A的在温和的条件下,即rank(X)n1,rank(Y)k.注意,第一个条件是相当于要求原始数据点是线性独立前定心,倾向于保持高维数据。出示之前主要结果总结在定理3.2下面,我们有以下引理: 引理 3.2 我们假设
rank(CXX)srank(CHH)rank(CDD),TrrAAAdiag(a1,a2,,ar)RS对于一些非负整数有。那么对于矩阵,^我们有
1afsafs1afaf10其中frank(A)。
定理 3.2 假设rank(X)n1,rank(Y)k为多元变量问题,这样我们有rank(CXX)n1,rank(CHH)k,rank(CDD)nk1,因此S在引理3.2中的定义相当于零,并且有
1a1akak1ar0。
这就意味着A的所有的对角元素是单位的。
既然rank(A)k,CXXCHH包含k个非零特征值。如果我们令k,则有
1WCCAU1rPk(18)
WLS和WCCA唯一的区别在于正交矩阵在QT和WLS。
在实践中,我们可以使用WCCA和WLS两个项目的原始数据到一个低维空间在分类之前。对于分类器基于欧几里得距离,正交变换QT不会影响分类性能,任何正交转换欧几里得距离是不变的。一些著名的算法满足这个属性包括k最近邻(k 最近邻)算法[6]基于欧氏距离和线性支持向量机(SVM)[17]。在下面,相当于最小二乘CCA配方被称为“IS-CCA。”
4.扩展最小二乘的CCA 基于等价关系建立在上一节中,古典CCA配方可以扩展使用正则化技术,它 常用于控制的复杂性和提高模型的泛化性能。类似于岭回归[6],我们得到2规范正则化最小二乘CCA配方(称为“LS-CCA2”),从而减少以下目标函数通过使用目标矩阵T(16):
L2(W,)((xwjTij)2wj)Tij1i12kn~2~
其中W[w1,wk],0是正则化参数。
众所周知,稀疏通常可以通过惩罚1规范变量的[8]得到。它已经被引入最小二乘配方,由此产生的模型被称为套索[8]。基于等价关系的建立(CCA)和最小二乘法,我们推导出1规范正则化最小二乘CCA配方(称为“LS-CCA1”),从而减少以下目标函数: L1(W,)((xwjTij)2wj)。
Tij1i11kn~LS-CCA1使用最先进的算法[18]、[19]可以有效地解决。此外,整个解决方案的路径用最小角回归算法[20]计算所有值。
5.高效实现的CCA 回想一下,我们处理问题的广义特征值在(4)来解决CCA,虽然,在我们的理 推导,等价特征值问题是代替。大规模的广义特征值问题是已知的比常规的特征值问题[11]、[21]来的更难。有两个选项转换中的问题(4)成一个标准的特征值问题[21]:1)因素XXT和2)使用标准的兰索斯算法矩阵(XXT)1XHHTXT使用XXT内积。在对于高维问题与一个小正则化这种情况下,第二个选择都有它自己的奇异矩阵的问题。因此,在本文中,我们XXT因素和解决对称特征值问题使用兰索斯算法。
相当于导致一个有效的最小二乘制定实施。该算法的伪代码,给出了算法1。复杂的第一步是O(nk2)。在第二步中,我们解决最小二乘问题的k。在我们的实现中,我们使用LSQR算法在[14],这是一个实现了共轭梯度式法求解稀疏最小二乘问题。注意,原始矩阵XRdn很稀少在应用在程序中,如文本文档建模。然而, 7 在中心,X不再是稀疏的。为了保持X稀疏的,向量xi是由一个额外的组件作为增强x[1,x]。这个新组件充当对最小二乘法的拦截。扩展X来标示XRTiTminWXT~W~~~2~(d1)k~Ti~(d1)k,修订后的最小二乘问题表示为dWRF,其中
。对于一个新的数据点xR,它的投影给出了
WT[1;x]~
算法1。高效的实现通过LSQR CCA 输入:X,Y 计算矩阵诊HY(YY)断基于奇异值分解的Y。用LSQR在THT上回归X。
对于一个密集的数据矩阵,计算成本参与每个迭代的是O(3n5d2dn)[14]。因为最小二乘问题解决了k次,总体成本是O(NK(3n5d2dn)),其中N是迭代的总数。当矩阵X是稀疏的,成本明显降低。
~~TT12假设非零元素的数量在 X中是z。总成本减少到O(NK(3n5d2z))。总之,总时间复杂度为解决最小二乘配方通过LSQR是O(nkNK(3n5d2z))当是X稀疏的。
6.扩展最小二乘的配方
回想一下,CCA寻求一对线性变换,一个用于每一组变量,这样数据最相关 转换空间。相比之下,偏最小二乘法(PLS)发现方向最大协方差。协方差和相关性是两种不同的统计措施为如何共变的量化的变量。CCA和PLS已被证明是有密切联系[22]。在[23]和[24],一个统一的框架,请和CCA的开发,并正交(CCA)和偏最小二乘法(OPLS)[25]的一个变体,可视为特殊情况的统一框架,通过选择不同的正则化参数值。然而,OPLS 和CCA内在的等价关系尚未研究过。在本节中,我们证明了OPLS 和CCA等价关系,从而扩展最小二乘OPLS配方。以下优化问题被认为是在OPLS: maxtr(WTXYTYXTW)W~2~
(20)
stWTXXTW1
给出了最优W以下的特征向量的广义特征值问题: 8
TTXHplsHTplsXwXXw(21)
矩阵Hpls被定义为
HplsYTRnk(22)
回想一下,在CCA,矩阵AV1TH定义在(13)中和奇异值分解给出了APAQ。同样的,我们定义TAplsV1THplspls,允许细微的Apls奇异分解值为
V1THplsAplsPplsplsQTpls,其中
PplsRrk,kkRkk,QTplsR。在范围的空间我们有下面的结果:
引理 6.1 让AVH定义在(13)中,T1AplsV1THplsRrk。这样R(A)R(Apls)PplspkR,其中R(A)和
R(Apls)是A和
Apls的列空间。此外,存在一种像这样的正交矩阵R,pk由p的第k列组成。
本节的主要结果总结了以下定理: 定理 6.1 让(18)。然后,Wpls是最优解的优化问题(20)和让WCCA是最佳CCA变换定义在为正交矩阵R。WplsWCCAR它遵循从定理6.1,OPLS可以很容易为一个等价的最小二乘问题的新配方使用相同的类指标矩阵定义在(16)。
7.分析正则化在CCA 在本节中,我们调查在CCA正规化的影响。最小二乘CCA制定建立在本文假设没有正则化应用。然而,正则化通常用于控制复杂性的学习模式,它已应用于各种机器学习算法。使用正则化在CCA自然统计解释[15],[26]。在实践中,正则化通常在CCA中执行两种多维变量,因为它一般认为的解决方案是依赖于CCA正规化两变量。从前面部分后的推导,我们表明,投影,让一群CCA变量是独立的正规化另组多维变量,提供新的影响CCA正规化的见解。7.1 正规化在Y 在CCA中对Y使用正则化导致下列广义特征值问题: XYT(YYTyI)1YXTw(XXT)w
(23)
y0是正则化参数。广义特征值问题在(23)可以表示为: XHrHrTXTw(XXT)w
(24)nkHRr矩阵为正规化CCA的定义是: HrY(YYyI)TT12
(25)主要结果概括如下定理: 定理7.1 让WrCCA是矩阵组成的主要特征向量的广义特征值问题在(24)的非零特征值对应。然后,WrCCAWCCA为正交矩阵R。它很容易检查在在(8)中H的和在(25)中的Hr的范围的空间一致。证明遵循相同的参数在引理6.1和定理6.1。
定理7.1表明CCA配方被认为是可以制定作为一个最小二乘问题相当于当Y正则化。注意,Y可以是任意矩阵(不一定是类标签矩阵)。一个重要的结果从等价关系的投影为一个视图是独立的CCA的正规化的其他视图。一个类似的结果能够获取内核CCA。
7.2 正规化在X 对Y自正则化不影响投影的X,我们接下来考虑正则化在X分开。由此产生的广义特征值问题在CCA可以制定如下:(XHHTXT)w(XXTxI)w
(26)
T1TTx0是参数X正则化。(XXI)(XHHX),x同样,我们可以推导出正交矩阵结果总结了以下引理: 引理 7.1 定义矩阵BR21rk为
12B(xI)TBPBBQBVH11H,(27)
rkrRrRRPRQR为他的奇异分解,B,B是正交的,B是对角
T1TT(XXI)(XHHX)的特征值最高所对应的特征向量给出x线的。然后,与矩阵了
WU1(xI)PB2112,(28)
PB由PB的第一列(rank(B))组成。
它可以观察到,B的空间范围与A不是同于一个;因此,CCA和最小二乘的等价关系被认为是不持有当正则化在X。然而,OPLS CCA的等价关系仍然持有当正则化在X是应用。主要结果总结在定理7.2以下(证明遵循类似的参数在引理 6.1): 定理 7.2 Bpls(xI)2112VH11Hpls,让B和
Bpls少量的奇异分解值为
BBTBPBB(QB)TBplsPplsBpls(Qpls),BPB,PplsRrk,rBrank(B)rank(Bpls)BPBPplsRB。然后,这个B和
Bpls范围的空间一致。此外,还存在一个像
rrB这样的正交矩阵RRBB。因此,CCA和OPLS是等价的任何x0.回想一下,制定可归纳为CCA广义特征值问题如(5),这就需要计算矩阵的逆YYTRkk。计算逆可能计算量大,当维数k的数据Y是很大的。这种情况在基于内容的图像检索[27],两个视图对应的文本和图像数据,都是高维度。一个重要的结果,建立了OPLS和 CCA的等价关系是逆的大型矩阵可以有效避免计算投影一个视图。
8.实验
我们在实验中使用三种类型的数据。基因表达模式图像data1描述果蝇的基因表达谱[28]。每个图像标注一个变量数量的文本术语(标签)从受控词汇表。我们应用伽柏过滤器中提取一个384维的特征向量从每个图像。我们用五个数据集和不同数量的术语(类标签)。我们也评估拟议的方法在现场数据集[29],这是常用的作为一个基准数据集对多元变量的学习。研究提出了最小二乘的可伸缩性配方,一个文本文档数据集与高维度从雅虎!使用[30]。这些数据集的统计归纳如表1。
表1
汇总统计的数据集
表2
比较不同的CCA配方 意思是中华民国方面得分
所有的数据集,报告10个随机数据的分区训练集和测试集生成和平均性能。对于高维文本文档的数据集,我们遵循特征选择方法研究[31]文本文档和提取不同数量的术语(特性)调查性能的算法。与算法5进行比较,包括在(5)中CCA和正规化的版本(指示为商资归农),提出了最小二乘CCA配方(指示为ls CCA)及其2规范和1规范正规化的版本(指示为LS-CCA2和LS-CCA1,分别)。所有的方法都是用于项目数据到一个低维空间中线性支持向量机进行分类为每个不同的标签。接受者操作特性(ROC)得分计算为每个不同的标签,在标签和平均性能报告所有剥片。
8.2 等价关系的评估和性能比较
我们首先对(CCA)和最小二乘法的等价关系进行评估。我们观察到,当数据维 数d远远大于样本大小n,在定理3.2的条件往往持有。它遵循从定理3.2,rank(CXX)等于rank(CHH)rank(CDD),A所有对角元素是单位的,这是符合观测的实验。
在表2中,我们报告的平均分数超过所有的标签和中华民国为每个数据集都剥片。主要的观察包括:1)CCA和ls CCA达到同样的性能,所有的数据集,这是符合我们的理论结果,2)正规化CCA扩展包括商资归农,LS-CCA2,LS-CCA1执行更好的比他们的同行CCA和ls CCA没有正规化,3)LS-CCA2比得上在所有的数据集商资归农,而LS-CCA1达到最好的性能对于所有基因图像数据集。这些观察结果证明用正则化最小二乘扩展技术的有效性使。
8.3 敏感性研究
在这个实验中,我们调查ls CCA的性能相比CCA当在定理3.2的条件中并不持有,这种情况存在许多真实世界的应用程序中。具体来说,我们使用一个基因数据集基因图像2维数固定在d=384和k= 15的标签,而训练集的大小变化从100年到900年与步长约100。
不同的线性算法的性能作为训练集规模的增加呈现在图a1。我们可以发现,总体而言,所有算法的性能增加的培训规模增加。当n是很小,条件在定理3.2成立,因此CCA和ls CCA是等价的,它们达到同样的性能。当n进一步增加,CCA和ls CCA实现不同的变动率指标数,虽然在我们的实验差异分数总是非常小的。类似于上次的实验,我们可以从图观察到,正则化方法能够比CCA和ls-CCA,LS-CCA2与rCCA更好地执行。这个数据集稀疏配方LS-CCA1执行的最好。
实验的灵敏度也表现在现场数据集。结果总结在图b1,可以类似的观察。
8.4 可扩展性研究
在这个实验中,我们研究相比最小二乘原CCA配方的可伸缩性配方。因为正规化算法是首选在实践中,我们比较正规化CCA配方(rCCA)和2规范正规化最小 13 二乘配方(LS-CCA2)。最小二乘问题是解决LSQR算法[14]。
图a2一个显示了计算时间的两个配方的高维文本文档数据集雅虎 Arts&Humanities作为数据维数随着训练集的大小固定为1000。它可以观察到两种算法随着数据维数不断增加,计算时间不断增加。然而,计算时间的最小二乘配方(LS-CCA2)是大大低于原来的配方(rCCA)。事实上,LS-CCA2所有测试数据维数计算时间小于5秒。我们也评估两个配方的可伸缩性方面的训练样本大小。图b2阴谋计算时间的两个公式在文本文件数据集当训练样本大小随数据维数固定为2000,可以类似的观察。训练集的大小由于高计算成本的原始特征值问题是没有进一步增加。从图2,我们得出了最小二乘配方是比原来CCA配方更加可伸缩。
8.5 正则化分析
在这个实验中,我们研究的影响为CCA正规化。此外,我们比较OPLS 和 CCA在不同正则化参数值下得性能。具体来说,我们随机选择700样本数据集进行训练的场景,不同的正则化参数值从1e-6到1e4。
首先,我们考虑只在X正规化。CCA的性能和OPLS现场数据设置为变量x总结了图3。我们可以观察到从图,在所有的x值,(CCA)和OPLS的性能是相同的。这证实了CCA 和OPLS的等价关系定理7.2成立。我们还观察到OPLS 和CCA的性能可以提高,通过使用一个适当的显著正则化参数,证明了利用正则化在X。
接下来,我们考虑正则化只在Y。CCA和OPLS的性能的不同值3 b。我们可以观察到CCA的表现依然是分析。
y总结了图
y变化,验证正则化在y不影响其性能。另外,我们观察到两种方法的性能在所有的情况下是相同的,这是符合我们的理论
9.总结
在本文中,我们在温和条件下为CCA建立一个等价的最小二乘配方,倾向于保持高维数据。在本文中基于等价关系建立,我们提出几个CCA扩展包括稀疏CCA。一个高效的算法扩展CCA配方非常大的数据集。我们进一步扩展的等价关系正交偏最小二乘法。此外,我们表明,投影一视图CCA独立的正规化的其他视图。我们进行了多元变量数据集的集合的实验。我们的实验表明,最小二乘法CCA配方和原始CCA配方的性能非常接近甚至当条件是违反的。
版权声明
这项研究是由美国国家科学基金会组织(NSF)iis0953662,NIH,hm1582 R01-HG002516 NGA1-0016。
参考文献:
[1] H.Hotelling, “Relations between Two Sets of Variables,” Biometrika, vol.28, pp.312-377, 1936.[2] D.Hardoon, S.Szedmak, and J.Shawe-Taylor, “Canonical Correlation Analysis: An Overview with Application to Learning Methods,” Neural Computation, vol.16, no.12, 2004.[3] J.-P.Vert and M.Kanehisa, “Graph-Driven Feature Extraction from Microarray Data Using Diffusion Kernels and Kernel CCA,” Proc.Ann.Conf.Neural Information Processing Systems, vol.15, pp.1425-1432, 2003.[4] S.Yu, K.Yu, V.Tresp, and H.-P.Kriegel, “Multi-Output Regularized Feature Projection,” IEEE Trans.Knowledge and Data Eng., vol.18, no.12, pp.1600-1613, Dec.2006.[5] C.Bishop, Pattern Recognition and Machine Learning.Springer, 2006.[6] T.Hastie, R.Tibshirani, and J.Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction.Springer, 2001.[7] G.Golub and C.V.Loan, Matrix Computations.Johns Hopkins Press, 1996.[8] R.Tibshirani, “Regression Shrinkage and Selection via the Lasso,” J.Royal Statistical Soc.: Series B, vol.58, no.1, pp.267-288, 1996.[9] A.d’Aspremont, L.Ghaoui, M.Jordan, and G.Lanckriet, “A Direct Formulation for Sparse PCA Using Semidefinite Programming,” Proc.Ann.Conf.Neural Information Processing Systems, vol.16, pp.41-48, 2004.[10] J.Zhu, S.Rosset, T.Hastie, and R.Tibshirani, “1-Norm Support Vector Machines,” Proc.Ann.Conf.Neural Information Processing Systems, vol.15, pp.49-56, 2003.[11] D.Watkins, Fundamentals of Matrix Computations.John Wiley & Sons, Inc., 1991.[12] B.Sriperumbudur, D.Torres, and G.Lanckriet, “Sparse Eigen Methods by D.C.Programming,” Proc.Int’l Conf.Machine Learning, pp.831-838, 2007.[13] T.Hastie, A.Buja, and R.Tibshirani, “Penalized Discriminant Analysis,”
Annals of Statistics, vol.23, pp.73-102, 1995.[14] C.Paige and M.Saunders, “LSQR: An Algorithm for Sparse Linear Equations and Sparse Least Squares,” ACM Trans.Math.Software, vol.8, no.1, pp.43-71, 1982.[15] F.Bach and M.Jordan, “Kernel Independent Component Analysis,” J.Machine Learning Research, vol.3, pp.1-48, 2003.[16] J.Ye, “Least Squares Linear Discriminant Analysis,” Proc.Int’l Conf.Machine Learning, pp.1087-1094, 2007.[17] B.Scho¨lkopf and A.J.Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond.MIT Press, 2002.16 [18] J.Liu, S.Ji, and J.Ye, SLEP: Sparse Learning with Efficient Projections.Arizona State Univ.,
第二篇:多种最小二乘算法分析+算法特点总结
第一部分:程序设计思路、辨识结果分析和算法特点总结................................................2 一:RLS遗忘因子法.................................................................................................2 RLS遗忘因子法仿真思路和辨识结果.................................................................2 遗忘因子法的特点:..........................................................................................3 二:RFF遗忘因子递推算法.......................................................................................4 仿真思路和辨识结果..........................................................................................4 遗忘因子递推算法的特点:................................................................................5 三:RFM限定记忆法..................................................................................................5 仿真思路和辨识结果..........................................................................................5 RFM限定记忆法的特点:....................................................................................7 四:RCLS偏差补偿最小二乘法..................................................................................7 仿真思路和辨识结果..........................................................................................7 RCLS偏差补偿最小二乘递推算法的特点:..........................................................9 五:增广最小二乘法.................................................................................................9 仿真思路和辨识结果..........................................................................................9 RELS增广最小二乘递推算法的特点:................................................................11 六:RGLS广义最小二乘法.......................................................................................12 仿真思路和辨识结果........................................................................................12 RGLS广义最小二乘法的特点:.........................................................................14 七:RIV辅助变量法................................................................................................14 仿真思路和辨识结果........................................................................................14 RIV辅助变量法的特点:..................................................................................16 八:Cor-ls相关最小二乘法(二步法)..................................................................17 仿真思路和辨识结果........................................................................................17 Cor-ls相关最小二乘法(二步法)特点:........................................................18 九:MLS多级最小二乘法.........................................................................................19 仿真思路和辨识结果........................................................................................19 MLS多级最小二乘法的特点:...........................................................................22 十:yule_walker辨识算法.....................................................................................23 仿真思路和辨识结果........................................................................................23 yule_walker辨识算法的特点:.......................................................................24 第二部分:matlab程序..................................................................................................24 一:RLS遗忘因子算法程序.....................................................................................24 二:RFF遗忘因子递推算法.....................................................................................26 三:RFM限定记忆法................................................................................................28 四:RCLS偏差补偿最小二乘递推算法......................................................................31 五:RELS增广最小二乘的递推算法.........................................................................33 六;RGLS 广义最小二乘的递推算法..........................................................................36 七:Tally辅助变量最小二乘的递推算法................................................................39 八:Cor-ls相关最小二乘法(二步法)..................................................................42 九:MLS多级最小二乘法.........................................................................................45 十yule_walker辨识算法........................................................................................49
第一部分:程序设计思路、辨识结果分析和算法特点总结
一:RLS遗忘因子法
RLS遗忘因子法仿真思路和辨识结果
仿真对象如下:
其中,v(k)为服从N(0,1)分布的白噪声。输入信号u(k)采用M 序列,幅度为 1。M 序列由 9 级移位寄存器产生,x(i)=x(i-4)⊕x(i-9)。选择如下辨识模型:
加权阵取Λ = I。
衰减因子β = 0.98,数据长度 L = 402。辨识结果与理论值比较,基本相同。辨识结果可信: Estimate =-1.4666 0.6503 0.9736 0.3035 遗忘因子法的特点:
对老数据加上遗忘因子,以降低老数据对辨识的影响,相对增加新数据对辨识的影响,不会出现“数据饱和”现象。如模型噪声是有色噪声,则Ø是有偏估计量。常用作其他辨识方式的起步,以获得其他方式的初始值。
二:RFF遗忘因子递推算法 仿真思路和辨识结果
辨识模型与遗忘因子法所用模型相同。
其中,0 ≤µ≤1为遗忘因子,此处取0.98。始条件:
参数a1 a2 b1 b2的估计值: ans =-1.4977 0.6863 1.1903 0.4769 待估参数变化过程如图所示:
数据长度L=402,初
遗忘因子递推算法的特点:
从上面两个例子可以看出对于相同的仿真对象,一次算法和递推算法结果基本一致,但递推算法可以实现在线实时辨识,而且可以减少计算量和存储量。
三:RFM限定记忆法 仿真思路和辨识结果
辨识模型与遗忘因子法所用模型相同。
辨识结果与理论值比较,基本相同。辨识结果可信: 参数 a1 a2 b1 b2 的估计值为: Theta_a =-1.5128 0.7099 0.8393 0.4416 待估参数的过渡过程如下:
RFM限定记忆法的特点:
辨识所使用的数据长度保持不变,每增加一个新数据就抛掉一个老数据,使参数估计值始终只依赖于有限个新数据所提供的新消息,克服了遗忘因子法不管多老的数据都在起作用的缺点,因此该算法更能有效的克服数据饱和现象。
四:RCLS偏差补偿最小二乘法 仿真思路和辨识结果
辨识模型与遗忘因子法所用模型相同。
辨识结果与理论值比较,基本相同。辨识结果可信: 参数a1 a2 b1 b2的估计值为: ans =-1.4916
0.7005 1.0365 0.4271
RCLS偏差补偿最小二乘递推算法的特点:
算法思想::在最小二乘参数估计值的基础上,引进补偿项σW2C-1D Ø0,则获得了参数的无偏估计。针对模型噪声来说,RCLS算法的适应能力比RLS更好。
五:增广最小二乘法 仿真思路和辨识结果
考虑如下仿真对象:
其中,为服从N(0,1)分布的白噪声。输入信号采用 M 序列,幅度为 1。M 序列由 9 级移位寄存器产生,x(i)=x(i-4)⊕x(i-9)。
选择如下的辨识模型:
观测数据长度取L =402。加权阵取Λ=I。
辨识结果与理论值比较,基本相同,同时又能获得噪声模型的参数估计。辨识结果可信:
参数a1、a2、b1、b2、d1、d2估计结果:
ans =-1.5000 0.7000 1.0001 0.5002-0.9999 0.2000
RELS增广最小二乘递推算法的特点:
增广最小二乘的递推算法对应的噪声模型为滑动平均噪声,扩充了参数向量和数据向量H(k)的维数,把噪声模型的辨识同时考虑进去。最小二乘法只能获得过程模型的参数估计,而增广最小二乘法
同时又能获得噪声模型的参数估计,若噪声模型为平均滑动模型,则只能用RELS算法才能获得无偏估计。当数据长度较大时,辨识精度低于极大似然法。
六:RGLS广义最小二乘法 仿真思路和辨识结果
模型结构选择:
模型结构选用:
其中,各个参数的真值为:
广义最小二乘算法为:
辨识结果与理论值比较,基本相同,同时又能获得噪声传递系数的参数估计。辨识结果可信: 参数a1 a2 b1 b2的估计结果: ans =-1.5058 0.6972 0.9316 0.4833
噪声传递系数c1 c2的估计结果: ans = 0.6203 0.2210
RGLS广义最小二乘法的特点:
该算法用于自回归输入模型,是一种迭代的算法。其基本思想是基于对数据先进行一次滤波处理,后利用普通最小二乘法对滤波后的数据进行辨识,进而获得无偏一致估计。但是当过程的输出信噪比比较大或模型参数较多时,这种数据白色化处理的可靠性就会下降,辨识结果往往会是有偏估计。数据要充分多,否则辨识精度下降。模型阶次不宜过高。初始值对辨识结果有较大影响。
七:RIV辅助变量法 仿真思路和辨识结果
辨识模型与遗忘因子法所用模型相同,只不过此处噪声为有色噪声,产生过程为:e(k)=v(k)+0.5v(k-1)+0.2v(k-2),v(k)为0均值的不相关随机噪声。
按照Tally法选取辅助变量x(k)=z(k-nd), nd为误差传递函数的阶数,此处为2.则有
辅助变量法的递推公式可写成:
辨识结果与理论值比较,基本相同。辨识结果可信: 参数a1 a2 b1 b2的估计结果: ans =-1.5314 0.7461 0.9999 0.4597
RIV辅助变量法的特点:
适当选择辅助变量,使之满足相应条件,参数估计值就可以是无偏一致。估计辅助变量法的计算量与最小二乘法相当,但辨识效果却比最小二乘法好的多。尤其当噪声是有色的,而噪声的模型结构又不好确定时,增广最小二乘法和广义最小二乘法一般都不好直接应用,因为他们需要选用特定的模型结构,而辅助变量法不需要确定噪声的模型结构,因此辅助变量法就显得更为灵活,但辅助变量法不能同时获得噪声模型的参数估计。
八:Cor-ls相关最小二乘法(二步法)仿真思路和辨识结果
辨识模型与遗忘因子法所用模型相同:,e(k)=v(k)+0.5v(k-1)+0.2v(k-2),v(k)为0均值的不相关随机噪声。Cor-ls的递推公式可写成:
其中:M(k)为输入M序列。初始条件:,辨识结果与理论值比较,基本相同,辨识结果可信: 参数a1 a2 b1 b2的估计结果: ans =-1.4896
0.6858 1.0168 0.4362
Cor-ls相关最小二乘法(二步法)特点:
把辨识分成两步进行:第一步:利用相关分析法获得对象的非参数模型(脉冲响应或相关函数);第二步:利用最小二乘法、辅助变量法或增广最小二乘法等,进一步求的对象的参数模型。如果模型噪声与输入无关,则Cor-ls相关最小二乘法(二步法)可以得到较好的辨识结果。Cor-ls相关最小二乘法(二步法)实质上是先对数据进行一次相关分析,滤除了有色噪声的影响,再利用最小二乘法必然就会改善辨识结果。能适应较宽广的噪声范围,计算量不大,初始值
对辨识结果影响较小。但要求输入信号与噪声不相关。
九:MLS多级最小二乘法 仿真思路和辨识结果
仿真对象如下:
其中,u(k)是输入变量,此处为 M 序列;v(k)是零均值、方差为 1 的不相关随机噪声,通过控制λ的大小来控制信噪比。辨识模型结构选用:
其中,辨识过程如下:
第一级,辅助模型参数辨识 原模型可写为:
利用最小二乘法可获得辅助模型的参数无偏一致估计值:
数据长度 L=400,第二级,过程模型参数辨识:
根据最小二乘算法可以获得过程模型的参数估计值为:
第三级,噪声模型参数辨识:
根据最小二乘算法可以获得过程模型的参数估计值为
辨识结果与理论值比较,基本相同。辨识结果可信:
第一级 辅助模型参数 e1 e2 e3 e3 e4 f1 f2 f3 f4 辨识结果: E = 1.9062 1.4454 0.5279 0.0613-0.0026 0.7988-0.8694-1.3037-0.6318
第二级 过程模型参数 a1 a2 a3 b1 b2 辨识结果: E2 = 0.9304 0.1596 0.0113 0.7998-1.6502 第三级 噪声模型参数 c1 c2 辨识结果: E3 = 0.9750 0.3824 MLS多级最小二乘法的特点:
当信噪比较大时,采用广义最小二乘法可能会出现多个局部收敛点,解决这个问题的方法可用多级最小二乘法,一般来说多级最小二乘法包含三级辨识过程。利用输入输出数据,通过多级最小二乘法,可分别求的辅助模型,过程模型和噪声模型的参数估计值。在高噪声的情况下,多级最小二乘法明显优于广义最小二乘法,其收敛点唯一。
十:yule_walker辨识算法 仿真思路和辨识结果
仿真对象如下:,z(k)是可观测变量;v(k)是均值为零,方差为 1 的不相关随机噪声;数据长度取 L=1024。相关函数按下式计算 :
参数的估计算法按下式计算:
辨识结果与理论值比较,基本相同,同时又能获得噪声模型的参数估计。辨识结果可信: 辨识结果为: Theta = 0.8597 0.2955
-0.0034 d = 1.0025 yule_walker辨识算法的特点:
yule_walker辨识算法可以方便的辨识形如估计值。的参数第二部分:matlab程序
一:RLS遗忘因子算法程序
clear clc %========================================== %最小二乘法辨识对象
% Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+v(k)%==========产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%初始值 n=403;%n为脉冲数目 M=[];%存放M序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);
for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end;%产生高斯白噪声 v=randn(1,400);z=[];z(1)=-1;z(2)=0;u=0.98;% 遗忘因子 L=400;for i=3:402 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+v(i-2);zstar(i)=z(i)*u^(L-i+2);end H=zeros(400,4);for i=1:400 H(i,1)=-z(i+1)*u^(L-i);H(i,2)=-z(i)*u^(L-i);H(i,3)=M(i+1)*u^(L-i);H(i,4)=M(i)*u^(L-i);
end Estimate=inv(H'*H)*H'*(zstar(3:402))' 二:RFF遗忘因子递推算法
%最小二乘遗忘因子的递推算法仿真对象
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+v(k)%======================================== clear clc %==========400 个产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声=========
v=randn(1,400);%==============产生观测序列z================= z=zeros(402,1);z(1)=-1;z(2)=0;for i=3:402 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+v(i-2);end %==============递推求解================= P=10*eye(4);%估计方差
Theta=zeros(4,401);%参数的估计值,存放中间过程估值 Theta(:,1)=[0.001;0.001;0.001;0.001];K=zeros(4,400);%增益矩阵 K=[10;10;10;10];u=0.98;%遗忘因子 for i=3:402 h=[-z(i-1);-z(i-2);M(i-1);M(i-2)];K=P*h*inv(h'*P*h+u);Theta(:,i-1)=Theta(:,i-2)+K*(z(i)-h'*Theta(:,i-2));P=(eye(4)-K*h')*P/u;end %==========================输出结果及作图
============================= disp('参数a1 a2 b1 b2的估计值:')Theta(:,401)i=1:401;figure(1)plot(i,Theta(1,:),i,Theta(2,:),i,Theta(3,:),i,Theta(4,:))title('待估参数过渡过程')三:RFM限定记忆法
%限定记忆最小二乘的递推算法辨识对象
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+v(k)%======================================== clear clc %==========产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2
x(j)=x(j-1);end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声========= v=randn(1,402);%==============产生观测序列z================= z=zeros(402,1);z(1)=-1;z(2)=0;for i=3:402 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+v(i);end %递推求解
P_a=100*eye(4);%估计方差 Theta_a=[3;3;3;3];L=20;%记忆长度
for i=3:L-1 %利用最小二乘递推算法获得初步参数估计值和P阵
h=[-z(i-1);-z(i-2);M(i-1);M(i-2)];K=P_a*h*inv(h'*P_a*h+1);Theta_a=Theta_a+K*(z(i)-h'*Theta_a);
P_a=(eye(4)-K*h')*P_a;end for k=0:380 hL=[-z(k+L-1);-z(k+L-2);M(k+L-1);M(k+L-2)];%增加新数据的信息
K_b=P_a*hL*inv(1+hL'*P_a*hL);Theta_b=Theta_a+K_b*(z(k+L)-hL'*Theta_a);P_b=(eye(4)-K_b*hL')*P_a;
hk=[-z(k+L);-z(k+L-1);M(k+L);M(k+L-1);];%去掉老数据的信息 K_a=P_b*hk*inv(1+hk'*P_b*hk);Theta_a=Theta_b-K_a*(z(k+L+1)-hk'*Theta_b);P_a=(eye(4)+K_a*hk')*P_b;Theta_Store(:,k+1)=Theta_a;end
%========================输出结果及作图=========================== disp('参数 a1 a2 b1 b2 的估计值为:')Theta_a i=1:381;figure(1)
plot(i,Theta_Store(1,:),i,Theta_Store(2,:),i,Theta_Store(3,:),i,Theta_Store(4,:))title('待估参数过渡过程')四:RCLS偏差补偿最小二乘递推算法
%偏差补偿最小二乘的递推算法辨识对象
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+v(k)%======================================== clear clc %==========产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end
%===========产生均值为0,方差为1 的正态分布噪声========= v=random('Normal',0,1,1,400);%==============产生观测序列z================= z=zeros(402,1);z(1)=-1;z(2)=0;for i=3:402 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+v(i-2);end %===================递推求解================== %赋初值
P=100*eye(4);%估计方差
Theta=zeros(4,401);%参数的估计值,存放中间过程估值 Theta(:,1)=[3;3;3;3];K=[10;10;10;10];%增益 J=0;ThetaC=zeros(4,401);%偏差补偿后的估计值 ThetaC(:,1)=[2;3;1;3.5];D=[1 0 0 0;0 1 0 0;0 0 0 0;0 0 0 0];for i=3:402 h=[-z(i-1);-z(i-2);M(i-1);M(i-2)];J=J+(z(i-1)-h'*Theta(:,i-1))^2/(1+h'*P*h);
K=P*h*inv(h'*P*h+1);Theta(:,i-1)=Theta(:,i-2)+K*(z(i)-h'*Theta(:,i-2));P=(eye(4)-K*h')*P;end es=J/((i-1)*(1+(ThetaC(:,i-2))'*D*Theta(:,i-1)));ThetaC(:,i-1)=Theta(:,i-1)+(i-1)*es*P*D*ThetaC(:,i-2);%==============输出参数估计结果及作图================ disp('参数a1 a2 b1 b2的估计值为:')Theta(:,401)i=1:401;figure(1)plot(i,Theta(1,:),i,Theta(2,:),i,Theta(3,:),i,Theta(4,:))title('待估参数过渡过程')
五:RELS增广最小二乘的递推算法
%增广最小二乘的递推算法辨识对象
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)-v(k+1)+0.2*v(k)%======================================== clear clc
%==========产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声========= v=randn(1,402);%==============产生观测序列z================= z=zeros(402,1);z(1)=-1;z(2)=0;for i=3:402 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)-v(i-1)+0.2*v(i-2);end
%递推求解
P=100*eye(6);%估计方差
Theta=zeros(6,401);%参数的估计值,存放中间过程估值 Theta(:,1)=[3;3;3;3;3;3];% K=zeros(4,400);%增益矩阵 K=[10;10;10;10;10;10];for i=3:402 h=[-z(i-1);-z(i-2);M(i-1);M(i-2);v(i-1);v(i-2)];K=P*h*inv(h'*P*h+1);Theta(:,i-1)=Theta(:,i-2)+K*(z(i)-h'*Theta(:,i-2));P=(eye(6)-K*h')*P;end %========================= disp('参数a1、a2、b1、b2、d1、d2估计结果:')Theta(:,401)i=1:401;figure(1)plot(i,Theta(1,:),i,Theta(2,:),i,Theta(3,:),i,Theta(4,:),i,Theta(5,:),i,Theta(6,:))title('待估参数过渡过程')
六;RGLS 广义最小二乘的递推算法
%广义最小二乘的递推算法仿真模型
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+e(k)%e(k+2)+2.1*e(k+1)-2.5*e(k)=v(k+2)%======================================== clear clc %==========400 个产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声========= v=randn(1,400);e=[];e(1)=v(1);e(2)=v(2);
for i=3:400 e(i)=0*e(i-1)+0*e(i-2)+v(i);end %==============产生观测序列z================= z=zeros(400,1);z(1)=-1;z(2)=0;for i=3:400 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+e(i);end %变换后的观测序列 zf=[];zf(1)=-1;zf(2)=0;for i=3:400 zf(i)=z(i)-0*z(i-1)-0*z(i-2);end %变换后的输入序列
uf=[];uf(1)=M(1);uf(2)=M(2);for i=3:400 uf(i)=M(i)-0*M(i-1)-0*M(i-2);end
%赋初值
P=100*eye(4);%估计方差
Theta=zeros(4,400);%参数的估计值,存放中间过程估值 Theta(:,2)=[3;3;3;3];K=[10;10;10;10];%增益 PE=10*eye(2);ThetaE=zeros(2,400);ThetaE(:,2)=[0.5;0.3];KE=[10;10];%递推Theta for i=3:400 h=[-zf(i-1);-zf(i-2);uf(i-1);uf(i-2)];K=P*h*inv(h'*P*h+1);Theta(:,i)=Theta(:,i-1)+K*(z(i)-h'*Theta(:,i-1));P=(eye(4)-K*h')*P;end he=[-e(i-1);-e(i-2)];%递推ThetaE KE=PE*he*inv(1+he'*PE*he);ThetaE(:,i)=ThetaE(:,i-1)+KE*(e(i)-he'*ThetaE(:,i-1));PE=(eye(2)-KE*he')*PE;%=====================输出结果及作图
========================= disp('参数a1 a2 b1 b2的估计结果:')Theta(:,400)disp('噪声传递系数c1 c2的估计结果:')ThetaE(:,400)i=1:400;figure(1)plot(i,Theta(1,:),i,Theta(2,:),i,Theta(3,:),i,Theta(4,:))title('待估参数过渡过程')七:Tally辅助变量最小二乘的递推算法
%Tally辅助变量最小二乘的递推算法
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+e(k),e(k)为有色噪声
%e(k)=v(k)+0.5*v(k-1)+0.2*v(k-2),v(k)为零均值的不相关随机噪声
%======================================== clear clc %==========产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目
M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声========= v=randn(1,400);e=[];e(1)=0.3;e(2)=0.5;for i=3:400 e(i)=v(i)+0.5*v(i-1)+0.2*v(i-2);end %==============产生观测序列z================= z=zeros(402,1);z(1)=-1;z(2)=0;for i=3:400
z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+e(i);end %递推求解
P=100*eye(4);%估计方差
Theta=zeros(4,400);%参数的估计值,存放中间过程估值 Theta(:,1)=[3;3;3;3];Theta(:,2)=[3;3;3;3];Theta(:,3)=[3;3;3;3];Theta(:,4)=[3;3;3;3];% K=zeros(4,400);%增益矩阵 K=[10;10;10;10];for i=5:400 h=[-z(i-1);-z(i-2);M(i-1);M(i-2)];hstar=[-z(i-2-1);-z(i-2-2);M(i-1);M(i-2)];%辅助变量 %递推算法
K=P*hstar*inv(h'*P*hstar+1);Theta(:,i)=Theta(:,i-1)+K*(z(i)-h'*Theta(:,i-1));P=(eye(4)-K*h')*P;end %==================结果输出及作图=================== disp('参数a1 a2 b1 b2的估计结果:')Theta(:,400)
i=1:400;figure(1)plot(i,Theta(1,:),i,Theta(2,:),i,Theta(3,:),i,Theta(4,:))title('待估参数过渡过程')八:Cor-ls相关最小二乘法(二步法)
%两步法的递推算法
%Z(k+2)=1.5*Z(k+1)-0.7*Z(k)+u(k+1)+0.5*u(k)+e(k),e(k)为零均值的不相关随机噪声
%e(k)=v(k)+0.5*v(k-1)+0.2*v(k-2)%======================================== clear clc %==========产生M序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=403;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);
end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声========= v=randn(1,400);e=[];e(1)=0.3;e(2)=0.5;for i=3:400 e(i)=v(i)+0.5*v(i-1)+0.2*v(i-2);end %==============产生观测序列z=========== z=zeros(402,1);z(1)=-1;z(2)=0;for i=3:400 z(i)=1.5*z(i-1)-0.7*z(i-2)+M(i-1)+0.5*M(i-2)+e(i);end %递推求解
P=100*eye(4);%估计方差
Theta=zeros(4,400);%参数的估计值,存放中间过程估值 Theta(:,1)=[3;3;3;3];
Theta(:,2)=[3;3;3;3];Theta(:,3)=[3;3;3;3];Theta(:,4)=[3;3;3;3];K=zeros(4,400);%增益矩阵 K=[10;10;10;10];for i=5:400 h=[-z(i-1);-z(i-2);M(i-1);M(i-2)];hstar=[M(i-1);M(i-2);M(i-3);M(i-4)];%辅助变量 %递推
K=P*hstar*inv(h'*P*hstar+1);Theta(:,i)=Theta(:,i-1)+K*(z(i)-h'*Theta(:,i-1));P=(eye(4)-K*h')*P;end %==================结果输出及作图=================== disp('参数a1 a2 b1 b2的估计结果:')Theta(:,400)i=1:400;figure(1)plot(i,Theta(1,:),i,Theta(2,:),i,Theta(3,:),i,Theta(4,:))title('待估参数过渡过程')
九:MLS多级最小二乘法
clear clc %========================================== % Z(k+3)=-0.9*Z(k+2)-0.15*Z(k+1)-0.02*z(k)+0.7*u(k+2)-1.5*u(k+1)+e(k)%e(k+2)+1.0*e(k+1)+0.41*e(k)=r*v(k+2)%==========产生M 序列作为输入=============== x=[0 1 0 1 1 0 1 1 1];%initial value n=405;%n为脉冲数目 M=[];%存放M 序列 for i=1:n temp=xor(x(4),x(9));M(i)=x(9);for j=9:-1:2 x(j)=x(j-1);end x(1)=temp;end %===========产生均值为0,方差为1 的高斯白噪声============= v=randn(1,405);
e=[];e(1)=0.3;e(2)=0.7;r=0.9;%控制信噪比 for i=3:405 e(i)=-1.0*e(i-1)-0.41*e(i-2)+r*v(i);end %=================产生观测序列=================== z=[];z(1)=-1;z(2)=0;z(3)=1.5;for i=4:405 z(i)=-0.9*z(i-1)-0.15*z(i-2)-0.02*z(i-3)+0.7*M(i-1)-1.5*M(i-2)+e(i);end %================第一级辨识 辅助模型参数辨识================== H=zeros(400,9);for i=1:400 H(i,1)=-z(i+4);H(i,2)=-z(i+3);
H(i,3)=-z(i+2);H(i,4)=-z(i+1);H(i,5)=-z(i);H(i,6)=M(i+4);H(i,7)=M(i+3);H(i,8)=M(i+2);H(i,9)=M(i+1);end disp('第一级 辅助模型参数 e1 e2 e3 e3 e4 f1 f2 f3 f4 辨识结果:')E=inv(H'*H)*H'*(z(6:405))' e1=E(1);e2=E(2);e3=E(3);e4=E(4);e5=E(5);f1=E(6);f2=E(7);f3=E(8);f4=E(9);%=================第二级辨识 过程模型参数辨识====================
z2=[f1;f2;f3;f4;0;0;0];H2=[ 0 0 0 1 0;
-f1 0 0 e1 1;
-f2-f1 0 e2 e1;
-f3-f2-f1 e3 e2;
-f4-f3-f2 e4 e3;
0-f4-f3 e5 e4;
0 0-f4 0 e5;];
disp('第二级 过程模型参数 a1 a2 a3 b1 b2 辨识结果:')E2=inv(H2'*H2)*H2'*z2 a1=E2(1);a2=E2(2);a3=E2(3);b1=E2(4);
b2=E2(5);%================第三级辨识 噪声模型参数辨识======================= z3=[e1-a1;e2-a2;e3-a3;e4;e5;f2-b2;f3;f4];H3=[1 0;a1 1;a2 a1;a3 a2;0 a3;b1 0;b2 b1;0 b2;];disp('第三级 噪声模型参数 c1 c2 辨识结果:')E3=inv(H3'*H3)*H3'*z3 十yule_walker辨识算法
%Yule-Walker 辨识算法
%辨识模型:z(k)=-0.9*z(k-1)-0.36*z(k-2)-0.054*z(k-3)+v(k)%============== %产生随机噪声
v=random('Normal',0,1,1,1024);%均值为零,方差为 1
%产生观测序列 z=[];z(1)=0;z(2)=1;z(3)=1.5;for i=4:1024 z(i)=-0.9*z(i-1)-0.36*z(i-2)-0.054*z(i-3)+v(i);end %计算 z(k)的自相关函数 Rz0=0;Rz1=0;Rz2=0;Rz3=0;for i=1:1024 Rz0=Rz0+z(i)^2;end Rz0=Rz0/1024;for i=1:1023 Rz1=Rz1+z(i+1)*z(i);end Rz1=Rz1/1024;for i=1:1022
第三篇:多元统计典型相关分析实例
1、对体力测试(共7项指标)及运动能力测试(共5项指标)两组指标进行典型相关分析
Run MATRIX procedure:
Correlations for Set-1 X1 X2 X3 X4 X5 X6 X7 X1 1.0000.2701.1643-.0286.2463.0722-.1664 X2.2701 1.0000.2694.0406-.0670.3463.2709 X3.1643.2694 1.0000.3190-.2427.1931-.0176 X4-.0286.0406.3190 1.0000-.0370.0524.2035 X5.2463-.0670-.2427-.0370 1.0000.0517.3231 X6.0722.3463.1931.0524.0517 1.0000.2813 X7-.1664.2709-.0176.2035.3231.2813 1.0000
Correlations for Set-2 X8 X9 X10 X11 X12 X8 1.0000-.4429-.2647-.4629.0777 X9-.4429 1.0000.4989.6067-.4744 X10-.2647.4989 1.0000.3562-.5285 X11-.4629.6067.3562 1.0000-.4369 X12.0777-.4744-.5285-.4369 1.0000
两组变量的相关矩阵说明,体力测试指标与运动能力测试指标是有相关性的。
Correlations Between Set-1 and Set-2 X8 X9 X10 X11 X12 X1-.4005.3609.4116.2797-.4709 X2-.3900.5584.3977.4511-.0488 X3-.3026.5590.5538.3215-.4802 X4-.2834.2711-.0414.2470-.1007 X5-.4295-.1843-.0116.1415-.0132 X6-.0800.2596.3310.2359-.2939 X7-.2568.1501.0388.0841.1923
上面给出的是两组变量间各变量的两两相关矩阵,可见体力测试指标与运动能力测试指标间确实存在相关性,这里需要做的就是提取出综合指标代表这种相关性。
Canonical Correlations 1.848 2.707 3.648 4.351 5.290
上面是提取出的5个典型相关系数的大小,可见第一典型相关系数为0.848,第二典型相关系数为0.707,第三典型相关系数为0.648,第四典型相关系数为0.351,第五典型相关系数为0.290。
Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig.1.065 83.194 35.000.000 2.233 44.440 24.000.007 3.466 23.302 15.000.078 4.803 6.682 8.000.571 5.916 2.673 3.000.445
上表为检验各典型相关系数有无统计学意义,可见第一、第二典型相关系数有统计学意义,而其余典型相关系数则没有。
Standardized Canonical Coefficients for Set-1 1 2 3 4 5 X1.475.115.391-.452-.462 X2.190-.565-.774.307.489 X3.634.048.288.321-.276 X4.040.080-.400-.906.422 X5.233.773-.681.459.233 X6.117.148.425.141.649 X7.038-.394.025-.103-1.029
Raw Canonical Coefficients for Set-1 1 2 3 4 5 X1.141.034.116-.134-.137 X2.026-.076-.104.041.066 X3.040.003.018.020-.018 X4.008.015-.075-.169.079 X5.016.054-.047.032.016 X6.020.025.071.024.109 X7.005-.048.003-.013-.126
上面为各典型变量与变量组1中各变量间标化与未标化的系数列表,由此我们可以写出典型变量的转换公式(标化的)为:L1=0.475X1+0.19X2+0.634X3+0.04X4+0.233X5+0.117X6+0.038X7余下同理。
Standardized Canonical Coefficients for Set-2 1 2 3 4 5 X8-.505-.659.577.186.631 X9.209-1.115.207-.775-.292 X10.365-.262.188 1.153-.154 X11-.068-.034-.579.340 1.181 X12-.372-.896-.649.569-.124
Raw Canonical Coefficients for Set-2 1 2 3 4 5 X8-1.441-1.879 1.647.531 1.798 X9.005-.026.005-.018-.007 X10.133-.095.069.419-.056 X11-.018-.009-.153.090.312 X12-.012-.029-.021.018-.004
Canonical Loadings for Set-1 1 2 3 4 5 X1.689.235.099-.150-.112 X2.526-.625-.408.225.237 X3.741-.212.263-.042.001 X4.242-.032-.298-.809.182 X5.200.705-.558.257-.161 X6.364-.096.191.224.476 X7.115-.259-.437.053-.471
Cross Loadings for Set-1 1 2 3 4 5 X1.584.166.064-.053-.032 X2.446-.442-.265.079.069 X3.629-.150.170-.015.000 X4.205-.023-.193-.284.053 X5.170.498-.362.090-.047 X6.309-.068.124.079.138 X7.098-.183-.283.019-.136
上表为第一变量组中各变量分别与自身、相对的典型变量的相关系数,可见它们主要和第一对典型变量的关系比较密切。
Canonical Loadings for Set-2 1 2 3 4 5 X8-.692-.149.654.111.244 X9.750-.550.001-.346.127 X10.776-.183.275.538.020 X11.585-.108-.371-.054.711 X12-.674-.265-.548.193-.371
Cross Loadings for Set-2 1 2 3 4 5 X8-.587-.106.424.039.071 X9.636-.389.001-.121.037 X10.658-.129.178.189.006 X11.496-.076-.240-.019.206 X12-.571-.187-.355.068-.108
上表为第二变量组中各变量分别与自身、相对的典型变量的相关系数,结论与前相同。
下面即将输出的是冗余度(Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。
Redundancy Analysis:
Proportion of Variance of Set-1 Explained by Its Own Can.Var.Prop Var CV1-1.221 CV1-2.152 CV1-3.125 CV1-4.121 CV1-5.082
首先输出的是第一组变量的变化可被自身的典型变量所解释的比例,可见第一典型变量解释了总变化的22.1%,第二典型变量能解释15.2%,第三典型变量只能解释12.5%,第四典型变量只能解释12.1%,第五典型变量只能解释8.2%。
Proportion of Variance of Set-1 Explained by Opposite Can.Var.Prop Var CV2-1.159 CV2-2.076 CV2-3.052 CV2-4.015 CV2-5.007
上表为第一组变量的变化能被它们相对的典型变量所解释的比例,可见第五典型变量的解释度非常小。
Proportion of Variance of Set-2 Explained by Its Own Can.Var.Prop Var CV2-1.488 CV2-2.088 CV2-3.188 CV2-4.092 CV2-5.144
Proportion of Variance of Set-2 Explained by Opposite Can.Var.Prop Var CV1-1.351 CV1-2.044 CV1-3.079 CV1-4.011 CV1-5.012
------END MATRIX-----
2、Run MATRIX procedure:
Correlations for Set-1 X1 X2 X3 X4 X1 1.0000.3588.7417.5694 X2.3588 1.0000.4301.3673 X3.7417.4301 1.0000.4828 X4.5694.3673.4828 1.0000
Correlations for Set-2 X5 X6 X7 X8 X9 X10 X11 X12 X5 1.0000.7147.8489.8827.6935.8956.9004.8727 X6.7147 1.0000.7273.8328.7864.8144.6825.7846 X7.8489.7273 1.0000.8980.6447.9150.7766.9073 X8.8827.8328.8980 1.0000.6838.9553.8446.9080 X9.6935.7864.6447.6838 1.0000.7071.7530.7475 X10.8956.8144.9150.9553.7071 1.0000.8739.9307 X11.9004.6825.7766.8446.7530.8739 1.0000.7981 X12.8727.7846.9073.9080.7475.9307.7981 1.0000
以上,两组变量的相关矩阵说明,农村居民收入与农村居民生活费支出是有相关性的。
Correlations Between Set-1 and Set-2 X5 X6 X7 X8 X9 X10 X11 X12 X1.8368.8523.8645.9453.6702.9195.7682.8736 X2.6060.3903.4852.4397.5548.4567.5096.5262 X3.8135.5256.6417.8239.5093.8138.8242.7513 X4.6166.7269.5385.6062.5615.6602.6027.6543
上面给出的是两组变量间各变量的两两相关矩阵,可见体力测试指标与运动能力测试指标间确实存在相关性,这里需要做的就是提取出综合指标代表这种相关性。
Canonical Correlations 1.981 2.906 3.631 4.571
上面是提取出的5个典型相关系数的大小,可见第一典型相关系数为0.981,第二典型相关系数为0.906,第三典型相关系数为0.631,第四典型相关系数为0.571。
Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig.1.003 132.620 32.000.000 2.072 59.110 21.000.000 3.405 20.310 12.000.061 4.674 8.871 5.000.114
上表为检验各典型相关系数有无统计学意义,可见第一、第二典型相关系数有统计学意义,而其余典型相关系数则没有。
Standardized Canonical Coefficients for Set-1 1 2 3 4 X1-.536-1.056-.468.965 X2-.059-.293-.809-.732 X3-.399 1.480.154-.142 X4-.158-.284 1.023-.635
Raw Canonical Coefficients for Set-1 1 2 3 4 X1-.001-.002-.001.002 X2.000-.001-.002-.002 X3-.009.033.003-.003 X4-.004-.007.026-.016
上面为各典型变量与变量组1中各变量间标化与未标化的系数列表,由此我们可以写出典型变量的转换公式(标化的)为:L1=-0.536X1-0.059X2-0.399X3-0.158X4余下同理。
Standardized Canonical Coefficients for Set-2 1 2 3 4 X5-.233-.151-1.215-1.177 X6-.020-1.459 1.647-.413 X7.414-1.577-1.050.472 X8-.576 1.319-1.618 2.259 X9.070-.071-1.516-.028 X10-.388.683.797.562 X11-.034.521 1.527-.667 X12-.218.346 1.283-1.210
Raw Canonical Coefficients for Set-2 1 2 3 4 X5-.001-.001-.005-.005 X6.000-.030.034-.009 X7.003-.012-.008.003 X8-.011.024-.030.042 X9.003-.003-.068-.001 X10-.012.022.026.018 X11-.001.009.025-.011 X12-.009.015.055-.052
Canonical Loadings for Set-1 1 2 3 4 X1-.943-.225-.062.235 X2-.481-.139-.535-.680 X3-.898.434-.048-.048 X4-.678-.279.533-.423
Cross Loadings for Set-1 1 2 3 4 X1-.925-.204-.039.134 X2-.472-.126-.338-.388 X3-.881.393-.030-.027 X4-.665-.253.337-.241
上表为第一变量组中各变量分别与自身、相对的典型变量的相关系数,可见它们主要和第一对典型变量的关系比较密切。
Canonical Loadings for Set-2 1 2 3 4 X5-.924-.036-.200-.251 X6-.821-.489.173.001 X7-.850-.285-.234.080 X8-.976-.088-.082.155 X9-.698-.304-.174-.330 X10-.968-.097.000.032 X11-.883.097-.046-.231 X12-.921-.166-.079-.113
Cross Loadings for Set-2 1 2 3 4 X5-.907-.032-.126-.143 X6-.805-.443.109.000 X7-.833-.258-.148.046
X8-.957-.080-.052.088 X9-.684-.276-.110-.188 X10-.949-.088.000.018 X11-.866.088-.029-.132 X12-.903-.151-.050-.064
上表为第二变量组中各变量分别与自身、相对的典型变量的相关系数,结论与前相同。
下面即将输出的是冗余度(Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。
Redundancy Analysis:
Proportion of Variance of Set-1 Explained by Its Own Can.Var.Prop Var CV1-1.597 CV1-2.084 CV1-3.144 CV1-4.175
首先输出的是第一组变量的变化可被自身的典型变量所解释的比例,可见第一典型变量解释了总变化的59.7%,第二典型变量能解释8.4%,第三典型变量只能解释14.4%,第四典型变量只能解释17.5%。
Proportion of Variance of Set-1 Explained by Opposite Can.Var.Prop Var CV2-1.574 CV2-2.069 CV2-3.057 CV2-4.057
上表为第一组变量的变化能被它们相对的典型变量所解释的比例,可见第一典型变量的解释度较大,其余相差不大。
Proportion of Variance of Set-2 Explained by Its Own Can.Var.Prop Var CV2-1.782 CV2-2.059 CV2-3.021 CV2-4.034
Proportion of Variance of Set-2 Explained by Opposite Can.Var.Prop Var CV1-1.752 CV1-2.048 CV1-3.008 CV1-4.011------END MATRIX-----习题10.3、Run MATRIX procedure:
Correlations for Set-1 x1 x2 x1 1.0000.7346 x2.7346 1.0000
Correlations for Set-2 y1 y2 y1 1.0000.8393 y2.8393 1.0000
从这里开始进行分析,首先给出的是两组变量内部各自的相关矩阵,可见头宽和头长是有相关性的。
Correlations Between Set-1 and Set-2 y1 y2 x1.7108.7040 x2.6932.7086
上面给出的是两组变量间各变量的两两相关矩阵,可见兄弟的头型指标间确实存在相关性,这里需要做的就是提取出综合指标代表这种相关性。
Canonical Correlations 1.789 2.054
上面是提取出的两个典型相关系数的大小,可见第一典型相关系数为0.789,第二典型相关系数为0.054。
Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig.1.377 20.964 4.000.000 2.997.062 1.000.803
上表为检验各典型相关系数有无统计学意义,可见第一典型相关系数有统计学意义,而第二典型相关系数则没有。
Standardized Canonical Coefficients for Set-1 1 2 x1-.552-1.366 x2-.522 1.378
Raw Canonical Coefficients for Set-1 1 2 x1-.057-.140 x2-.071.187 上面为各典型变量与变量组1中各变量间标化与未标化的系数列表,由此我们可以写出典型变量的转换公式(标化的)为: L1=0.552*xl+0.522*x2 L2=1.366*xl-1.378*x2
Standardized Canonical Coefficients for Set-2 1 2 y1-.504-1.769 y2-.538 1.759
Raw Canonical Coefficients for Set-2 1 2 y1-.050-.176 y2-.080.262
Canonical Loadings for Set-1 1 2 x1-.935-.354 x2-.927.375
Cross Loadings for Set-1 1 2 x1-.737-.019 x2-.731.020
上表为第一变量组中各变量分别与自身、相对的典型变量的相关系数,可见它们主要和第一对典型变量的关系比较密切。
Canonical Loadings for Set-2 1 2 y1-.956-.293 y2-.962.274
Cross Loadings for Set-2 1 2 y1-.754-.016 y2-.758.015
上表为第二变量组中各变量分别与自身、相对的典型变量的相关系数,结论与前相同。
下面即将输出的是冗余度(Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。
Redundancy Analysis:
Proportion of Variance of Set-1 Explained by Its Own Can.Var.Prop Var CV1-1.867 CV1-2.133
首先输出的是第一组变量的变异可被自身的典型变量所解释的比例,可见第一典型变量解释了总变异的86.7%,而第二典型变量只能解释13.3%。
Proportion of Variance of Set-1 Explained by Opposite Can.Var.Prop Var CV2-1.539 CV2-2.000
上表为第一组变量的变异能被它们相对的典型变量所解释的比例,可见第二典型变量的解释度非常小。
Proportion of Variance of Set-2 Explained by Its Own Can.Var.Prop Var CV2-1.920 CV2-2.080
Proportion of Variance of Set-2 Explained by Opposite Can.Var.Prop Var CV1-1.572 CV1-2.000
------END MATRIX-----
第四篇:典型相关分析习题1设标准化变量X=X1X2TY=Y1Y2T的相关
典型相关分析习题
TT1、设标准化变量X=(X1,X2),Y=(Y1,Y2)的相关系数矩阵为
11,||1,||1,011试计算X,Y的典型相关变量与典型相关系数。
2、设样本的相关系数矩阵为
0.5050.5690.60210.50510.4220.4670.5690.42210.9260.6020.4670.9261(1)、计算其典型相关系数与典型相关变量。(2)、检验其典型相关变量的相关性。
3、CRM(Customer Relationship Management)即客户关系管理案例,有三组变量,分别是公司规模变量两个(资本额,销售额),六个CRM实施程度变量(WEB网站,电子邮件,客服中心,DM 快讯广告Direct mail缩写,无线上网,简讯服务),三个CRM绩效维度(行销绩效,销售绩效,服务绩效)。试对三组变量做典型相关分析。
4、俱乐部分别对20名中年人测量了3个生理指标:体重x1,腰围x2,脉搏x3和3个训练指标:引体向上次数y1,起坐次数y2,跳跃次数y3。试分析生理指标与训练指标的相关性。具体数据见下表:
5、下表列举了25个家庭的成年长子和次子的头长和头宽。利用典型相关分析法分析长子和次子头型的典型相关性。
长子头长
191 195 181 183 176 208 189 197 188 192 179 183 X1 长子头宽155 149 148 153 144 157 150 159 152 150 158 147 X2 次子头长Y1 179 201 185 188 171 192 190 189 197 187 186 174 次子头宽Y2 145 152 149 149 143 152 149 152 159 151 148 147
6、测量15名受试者的身体形态以及健康情况指标,如下表。第一组是身体形态变量,有年龄、体重、胸围和日抽烟量;第二组是健康状况变量,有脉搏、收缩压和舒张压。要求测量身体形态以及健康状况这两组变量之间的关系。
年龄
X1 体重X2 抽烟量X3 胸围X4 脉搏Y1 收缩压Y2 舒张压Y3 25 26 28 29 27 32 年龄125 131 128 126 126 118 体重30 25 35 40 45 20 抽烟量83.5 82.9 88.1 88.4 80.6 88.4 70 72 75 78 73 70 脉搏Y1 130 135 140 140 138 130 收缩压Y2 85 80 90 92 85 80 舒张压Y3 X1 X2 X3 胸围X4 31 34 36 38 41 46 47 48 45 120 124 128 124 135 143 141 139 140 18 25 25 23 40 45 48 50 55 87.8 84.6 88.0 85.6 86.3 84.8 87.9 81.6 88.0 68 70 75 72 76 80 82 85 88 135 135 140 145 148 145 148 150 160 75 75 80 86 88 90 92 95 95
第五篇:农业产业化典型企业分析二讲解
农业产业化典型企业分析二
北京顺鑫农业股份有限公司
【企业概况】北京顺鑫农业股份有限公司(以下简称“顺鑫农业”)是北京市第一家农业类上市公司,下设5个分公司,9家控股子公司,截至2000年底,公司总资产达10.2亿元,净资产8.5亿元。几年来,经济效益一直稳步增长,繁荣了首都市场,股民回报稳定,农民收入提高。2001年完成主营业收入7.74亿元,实现净利润7339.94万元。
【产品】“顺鑫农业”主导产品主要有畜产品加工、名优粮食作物、蔬菜、水果、花卉种植与加工、酿酒业等,是集农业科技服务、种植与养殖业产销一体化的综合企业。产品几乎覆盖了所有的农副产品领域。其中主要经营范围有:粮食作物、蔬菜、瓜果、果树种植、加工及销售;养殖畜禽;生产、销售饲料;白酒、肉类加工、制造及销售;淡水养殖;种畜产品、农作物种子、蔬菜种子、种畜的繁育及销售;农业技术开发,技术服务;销售农机具及配件,化工产品、机电产品、建筑材料和餐饮服务。
【市场】“顺鑫农业”在实施产品和市场多元化时,最具特色的是其品牌战略。并利用品牌优势,积极开拓国内外市场。
品牌战略的第一步,是打造精品。“顺鑫农业”用两年多时间打造一系列的农产品精品,包括北京醇系列、鹏程食品系列等。第二步,运用高科技手段(如计算机监控、生化分析、基因测试),对农产品产前、产中、产后整个过程实施有效质量监测,将这些精品确定为有效的品牌资源。经过几年的努力,“顺鑫农业”创造了十多个知名品牌。第三步,用优质服务呵护品牌资源。科技服务是“顺鑫农业”的一大特色,伴随着成熟的市场网络服务成为市场支持强有力的手段。仅在顺义区,公司所设立的科技推广(指导或培训)站便达200余家。在湖南、辽宁、河南、陕西、吉林等养猪大省,公司的技术人员成为各地的业务骨干。
【经营模式】“顺鑫农业”坚持走“知识、资本、技术”三位一体的现代化大农业发展道路。依靠北京市雄厚的科技与人才优势,大力发展高科技产品,实现“宽领域、全过程、内涵式”发展。在具体的企业组织模式上,依托高科技发展现代大农业,以分公司和控股公司为基础发展农业多元化。
在与农户的合作方式上,“顺鑫农业”采取“公司+基地+农户”的方式。“顺鑫农业”大力以科技带动优势产业,主要有五种方式:一是组建技术中心,如组建组培中心;二是引进新的优良品种;三是完善和提高自己的优良品种繁育体系;四是充分利用首都科研力量集中的优势,聘请国内一流专家;五是作为科研单位的实验、示范基地。
科技创新在具体产业上的表现如下: 种植业重点围绕“专”、“特”、“高”做文章。“专”就是发展具有专门用途的小麦和玉米品种的种植;“特”就是发展特殊消费人群需要的产业;“高”就是大力发展高档蔬菜、高档水果和高档花卉。畜牧业方面,重点抓两个环节,一是抓优良品种的繁育,二是抓加工、销售。公司根据市场变化,及时调整产品结构,采取对猪肉分割产品进行精细加工,增加小包装、精包装等措施,充分满足了不同层次的消费需求。而在酿酒方面,重点抓质量,创品牌。
【发展】“顺鑫农业”通过股票发行上市,实现了投资主体多元化,建立了现代企业制度,塑造良好的龙头企业形象。同时,利用发行股票募集的资金进行再投资。例如:先后投资1.3亿多元收购2家公司,强化了公司主营业务;投资4634万元对种猪厂猪舍、产仔舍进行改造,引进了国外优良种猪,成为华北地区最大的优良种猪繁育基地之一。另外,“顺鑫农业”还通过投资控股方式参与石门农副产品批发市场的建设与经营等。
【特色】“顺鑫农业”地处北京,凭借得天独厚的人才、知识和资本优势,一开始就建立了现代企业制度,通过股份制改革而上市,既筹集了大量发展资金,又规范了经营管理。在具体运作中,重视品牌建设和科技创新,实现了“宽领域、全过程、内涵式”的现代化大农业发展。