隐马尔可夫模型的动态脑功能连通性评估

假设我手里有三个不同的骰子。

假设我们开始掷骰子，我们先从三个骰子里挑一个，挑到每一个骰子的概率都是1/3。然后我们掷骰子，得到一串数字，但是在隐马尔可夫模型中，我们不仅仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：D6 D8 D8 D6 D4 D8 D6 D6 D4 D8。一般来说。。在我们这个例子里，D6的下一个状态是D4，D6，D8的概率都是1/3。D4，D8的下一个状态是D4，D6，D8的转换概率也都一样是1/3。根据隐含状态数可以得到隐含状态矩阵。

其实对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，做模拟是相当容易的。但是应用HMM模型时候呢，往往是缺失了一部分信息的，有时候你知道骰子有几种，每种骰子是什么，但是不知道掷出来的骰子序列；

例子

看到结果为1.对应的最大概率骰子序列就是D4，因为D4产生1的概率是1/4，高于1/6和1/8.结果为1，6.这时问题变得复杂起来，我们要计算三个值，分别是第二个骰子是D6，D4，D8的最大概率。

首先，不管序列多长，要从序列长度为1算起，算序列长度为1时取到每个骰子的最大概率。然后，逐渐增加长度，每增加一次长度，重新算一遍在这个长度下最后一个位置取到每个骰子的最大概率。然后，就要把对应这个最大概率的序列从后往前推出来。

用HMM建模大脑图形时间序列

被试的状态和观测的结果，显示了k =3时状态之间的转换，由于隐变量满足马尔可夫性，该转移矩阵与时间无关

在每个时间点，隐藏状态对应于在时间序列中重现的特定的大脑活动模式。

隐藏状态的初始概率（观测值依赖于该时刻的状态）乘转移概率（状态仅与前一状态相关）乘隐藏状态到可见状态的输出概率（观测直接相互独立）

将这个概率最大化可以得到模型参数#和￥的最大似然估计

EM算法：是在依赖于无法观测的隐藏变量的概率模型中，寻找参数最大似然估计或者最大后验估计的算法。

1）根据分布的参数可以求取每个数据的隐藏变量的期望（2）再根据结果计算分布参数（向量）的最大似然值，然后根据这个最大似然值在反过来重新计算每个元组的隐藏变量的期望。这样循环往复，直到隐藏变量的期望与参数的最大似然值趋于稳定。

E步(Expectation)：根据当前的参数值，计算样本隐藏变量的期望；

M步(Maximum)：根据当前样本的隐藏变量，求解参数的最大似然估计；

西格玛k定义为高斯分布的协方差矩阵，但由于观测量不足，其估计往往是一个奇异矩阵（不是满秩）。由于EM算法是迭代算法，甚至在西格玛k为奇异矩阵时迭代失败。另一个问题是稠密协方差矩阵的复杂性。在以往的研究中，研究者们不加区别地使用协方差矩阵或其逆矩阵(称为精度矩阵)来表示函数网络的连通性。但在任何情况下，我们都想揭示最重要的连接，而不是两个功能区域之间的“整体连接”。

在以往的研究中稀疏性被证明是克服这些问题有效方法，加入 L1 范数后往往可以得到稀疏解。稀疏意味着解向量 x 的大部分分量（权重）为零，只有少数是非零的。稀疏性可以避免过度拟合。高斯图形模型的公式

仿真数据集：首先利用两个仿真数据集对所提出的稀疏HMM(SPHMM)进行了验证。

图2(a)中突出显示了4个组件，图2(b)中表示了它们沿时间维度的激活和关闭活动。例如，所有4个组件在前30个时间点被激活，而只有第4个组件在最后30个时间点被激活。图2是一次运行的第一次模拟数据的说明。

为了评估稀疏HMM方法的性能，我们将估计的动态连通性与ground truth和滑动窗口方法的估计进行了比较。在滑动窗口方法中，我们测试了两种不同的窗口长度来说明其微妙的影响(l=30,40)，粗体的值表明结果在该列中是最好的。从表中可以看出，在这两种方法下，提出的模型都比滑动窗口方法更适合四个连通矩阵中的两个。对于剩下的两个状态，我们的方法也得到了一个较好的结果。

然后利用第二组模拟数据验证SPHMM是否能够快速揭示大脑的瞬态状态。为此，我们首先找到SPHMM能够准确预测的时间点，然后计算这些时间点与模拟时间长度的比值。结果表明

作为说明，图3(a)和(b)给出了推断状态序列及其ground truth的示例。有显著差异的时间间隔用红色矩形表示。

图3(c)，根据SPHMM的估计绘制出ground truth模型的平均激活度(高斯分布的均值)和函数连通性(协方差矩阵的非对角元素)。在这两幅图中，每种颜色代表一种不同的状态，每种颜色代表一种不同的状态，如果表示平均值，每个点代表一个区域，如果表示功能连接性，每个点代表一对区域。这两个结果都表明，所提出的SPHMM方法可以恢复ground truth真值序列和下面的高斯分布。

PNC真实数据分析处理

这是功能域空间映射。50个选择的组件被视觉检查，并被分成5个不同的功能域。每个组件在每个域中用不同的颜色说明。对于分布在多个功能域中的组件，我们将它们分配为最显著的域。

提出的模型的另一个问题是，我们必须确定，在给定状态数k的情况下，我们从多次运行中获得的大脑动力学是否可以相互匹配。合适的方法是在不同的高斯分布之间找到一个相似性度量。因此，我们使用瓦瑟斯坦距离来衡量两个分布之间的相似性，而不是比较参数。

给定状态数k，我们计算不同的任意两个状态之间的WD，我们还研究了被试人数对估计结果的影响。我们发现，只要有足够的受试者(840名受试者中超过20%)，我们就可以在人群中得到一致的结果。

结果与分析部分

我们首先测试了我们方法的再现性。图显示了25个随机半分割的5个状态的匹配结果，状态按照相似度降序排序。显示良好匹配状态的WD与随机匹配状态的WD之间存在显著差异。

在验证了所提出模型的再现性后，研究了5个脑fnc的空间和时间属性。稀疏HMM估计的一个fnc。这些节点代表了峰值坐标，并根据它们的功能域用不同的颜色进行区分，节点的大小代表节点连接强度(NCS)。对于第j个节点，其NCS定义为matrixΣ−1k中第j行绝对值的和。更大的NCS意味着该节点与其他区域的连接更强。边缘的颜色，红色或蓝色，表示它的两个端点节点的相关或反相关。线宽度表示两个端点节点之间的连接强度。

状态1和状态2相似，相比之下，状态3-5的特征更加鲜明。

此外，我们还详细考虑了大脑动力学的几个时间。

图a我们可以看到状态之间的FO有一个显著的变化，1或2比其他状态访问得更频繁。

图b显示大脑动力学的转移概率矩阵，我们可以根据这个矩阵来检查大脑状态是如何在彼此之间转换的。例如，状态1和状态4很少切换到对方，而一些转换(如在状态2、3和4之间切换)发生的频率比其他转换要高。

C 进一步检查了整个数据集中FOs的相关性，相关矩阵和转移矩阵非常相似:状态2、3、4和状态1、5形成了两个簇，其中的状态相互之间有很强的相关性，而且簇内状态之间的切换更频繁。换句话说，大脑状态的组织显示出某种等级结构。由于人口中FOs的巨大差异，我们进一步验证了我们的模型在组数据上的有效性，比较了两个年龄组的发育性大脑网络连接:儿童和年轻人。

在图中绘制了小组水平的分数占用率的平均值和标准变化。在子组中，分数占用率、状态转移矩阵以及相关矩阵与整个数据集水平的结果非常相似。儿童组中状态1和状态5相互相关而与其他状态反相关。在年轻人中，状态1变得更占优势和稳定(标准变异更小)，而状态2和4出现的频率更低。状态5在年轻人中出现频率大大增加。

从转换矩阵的角度来看，状态之间的切换是完全不同的，如图8(b)(e)所示。与子群相比，过渡矩阵的对称性更小，也更不具有随机性。年轻人状态3和4的罕见出现。应该注意的是，该州年轻人状态5的出现频率与儿童和整个人口显示出明显的差异。在年轻人中，状态3与状态1相关，与状态2反相关，而在儿童中则相反。此外，随着年龄的增长，状态2,3,4之间的相关性消失。根据这一相关性，我们可以将这5个状态划分为两个元状态。元状态1包括状态2、3、4，而元状态2包括状态1和5。之前研究人员发现大脑的动态在时间上是分层组织的。大脑状态的转变和出现也不是随机的。之前的状态约束了未来的状态。由于我们发现这种组织在年轻人中消失了，从发展的角度探讨大脑活动的时间组织是很有价值的。

为了说明dFNC将如何随着年龄的增长而变化，我们比较了儿童和年轻人之间发现的dFNC。将滑动窗口方法的结果作为基准，与我们的方法进行比较。我们观察到两组在状态1中几乎没有显示连接性差异。在状态2到状态4中可以观察到组间的差异。

状态5显示了年轻人表现出比儿童更强的CN-CN, CN-SM, DMN-DMN连通性。子网络间或子网络内的连接在更高的认知功能和情绪处理中发挥着关键作用。

在本文中，我们将提出的稀疏HMM应用于PNC数据，并在种群水平上估计dfnc。此外，青年人和儿童的两组比较也证明了这种方法。提取并分析了脑动力学的时空特征。在两个年龄组中，我们发现状态1和状态2之间的连通性矩阵差异有限，在扫描过程中占据了大部分时间。在整个数据集中也确认了类似的两种状态。研究人员得出的结论是，随着年龄的增长，FNC的变化是逐渐的，而不是剧烈的。在状态5的年轻人中观察到dmn内连接增加。随着大脑的成熟，整个大脑FNC将从一个相对局部的分布式网络[56]变成一个更加互联的网络。我们还使用FO作为特征来说明儿童和年轻人之间的区别。两年龄组的FO分布有显著差异。在整个数据集和儿童中层级组织的一致出现，与之前的研究一致，人类的大脑动力学不是随机组织的[22]。此外，这种组织在年轻人中的消失意味着这种组织也是特定于主题的。

与基于滑动窗口的方法相比，稀疏HMM可以在较小的时间尺度内捕获大脑的连通性。如仿真部分所示，滑动窗方法中预设的窗口长度是滑动窗方法成功的关键。一般情况下，在25 ~ 50 TR之间进行选择是滑动窗方法成功的必要条件。在稀疏HMM方法中，理论上可以只在一个时间过程中估计连通性。

与其他基于hmm的模型相比，我们的模型有几个优点。

作为一种传统的模型，许多基于hmm的方法已经被应用，并被证明在揭示大脑功能连接的动态本质方面是有用的。在静息状态下，基于功能性磁共振成像和其他脑成像方式估计dfnc，并且dfnc之间的过渡显示不是随机的。在任务fMRI数据中，HMM可以识别快速瞬时和短时间波动。

Glasso：当存在少量重要参数且其他参数接近零时，即当只有少数预测因子实际影响响应时

稀疏正则化

稀疏指的是消除数据中一些特征，用来使模型泛化，减小过拟合的几率

正则化（regularizer）指的是通过给需要训练的目标函数加上一些规则（限制），缩小求解的范围。

在小数据集上训练时，经常会碰到过拟合的问题，模型准确地记住了所有训练数据，包括噪声和不相关的特征。这样的模型通常在新的测试集或之前从未见过的真实数据上表现不佳。由于模型过于认真地对待训练数据，它没有从中学到任何有意义的模式，而只是记住了它所看到的一切，基本没有任何泛化能力。

现在，解决此问题的一种方案称为正则化。这个想法是将 L1 范数应用到机器学习问题的解向量（在深度学习的情况下，它是神经网络权重）中，并试图使其尽可能小。因此，如果你的初始目标是找到最佳向量 x 以及最小化损失函数 f(x)，那么您的新任务应该将 x 的 L1 范数加入到损失函数中(f(x)+ L1-norm(x))，并找到最小值。

加入 L1 范数后往往可以得到稀疏解。稀疏意味着解向量 x 的大部分分量（权重）为零，只有少数是非零的。而稀疏的解决方案可以避免过度拟合。

这正是 L1 范数正则化所做的。它撞击你的机器人（模型）以使其“变笨”。因此，它必须从数据中寻找更简单的模式，而不是简单地记住东西。以机器人为例，当他能记住5个汉字时，他的“大脑”有一个大小为 5 的向量：[把、打、扒、捕、拉]。现在经过正则化后，他的4个内存槽无法使用（被正则化敲坏了）。因此新学习到的向量是：[扌, 0, 0, 0, 0]，很明显，这是一个稀疏向量。

L1 范数定义为向量中所有分量的绝对值之和。

之所以使用 L1 范数求稀疏解，是因为它的特殊形状。它的尖峰恰好位于稀疏点。用它来接触解向量所在的曲面很可能会在尖端找到一个交点，从而得到一个稀疏的解。

隐马尔可夫模型的动态脑功能连通性评估

相关范文推荐

马尔可夫(Markov) 链在体育教学评价中的应用改进（大全）