本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)(5篇)

时间:2019-05-14 19:06:32下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)》。

第一篇:本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)

尊敬的各位老师:

大家上午好!

我叫XX,本次论文指导老师是XX老师,我选的毕业论文题目是《使用遗传算法从蛋白质质谱数据提取特征,下面我先汇报一下自己选择这篇论文的动机以及基本写作思路。

重所周知,蛋白质是遗传物质的直接反映者,通过对蛋白质所反映出的特征进行分析,能够准确地判断出生物体的一些特征,如是否具有癌症性状。但是蛋白质所反映出的信息成千上万,在对数据进行分析之前,必须先知道哪个才是对我们做出判断有决定性作用的,哪个是与我们所研究的方面无关的,这就是论文中提到的特征提取。例如,这次论文中所选取的例子,是121卵巢癌症患者和95例对照的样本收集,针对每个样本有15000个质谱数据,编写程序的目的,就是通过遗传算法,决定出哪20个质谱数据能够对判断是否是癌症患者起决定性作用。

现在,我来陈述本篇论文的结构,主要内容分为三个部分:蛋白质质谱,遗传算法,特征提取的程序实现。

蛋白质质谱是蛋白质分子经过质谱仪分析而得的数据。首先,被分析样品的气态蛋白质分子,在高真空中受到高速电子流或其它能量形式的作用,失去外层电子生成分子离子,或进一步发生化学键的断裂或重排,生成多种碎片离子。然后,将各种离子导入质量分析器,利用离子在电场或磁场中的运动性质,使多种离子按不同质荷比m/e的大小次序分开,并对多种的离子流进行控制、记录,得到质谱图。最后,得到谱图中的各种离子及其强度实现对样品成分及结构的分析。

质谱分析具有如下优点:很高的灵敏度,能为亚微克级试样提供信息,能最有效地与色谱联用,适用于复杂体系中痕量物质的鉴定或结构测定,同时具有准确性易操作性快速性及很好的普适性。正因为质谱法有这些优点,所以分子量测定、氨基酸鉴定、蛋白质序列分析及立体化学分析等。

现在来看第二部分,遗传算法。遗传算法以达尔文的进化论和Mendel的遗传理论为基础,将生物进化过程中的适者生存法则和遗传过程中的随机配对交叉机制相结合,通过模拟生物进化的过程和机制来搜索最优解。从本质上而言,遗传算法是一种迭代算法,它通过逐次逼近来获得问题的近似最优解。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。遗传算法的这些性质,已被人们广泛地应用于组合优化、信号处理、自适应控制和人工智能计算中。

在将数据载入算法之前,首先要对数据进行编码,成为可以被程序处理的数据,也就是二进制串。应遵循的准则首先是完备性,也就是问题空间中的所有点(候选解)都能作为GA

空间中的点(染色体)表现。第二是健全性,就是GA空间中的染色体能对应所有问题空间中的候选解。第三是非冗余性(nonredundancy),就是染色体和候选解一一对应。在遗传算法程序之中,会包含一个用于创建初始群体的函数,这个函数会在编码而成得可行解中随机选择成为第一代父本,进行迭代。

把这些假设的可行解置于问题的“环境”中,并按适者生存的原则,从中选择出较适应环境的“染色体”进行复制,再通过交叉、变异过程产生更适应环境的新一代“染色体”群,这个过程就称为迭代。

适应度,是表示某一个体对环境的适应能力,也表示该个体繁殖后代的能力。遗传算法的适应度函数也叫评价函数,是用来判断群体中的个体的优劣程度的指标,它是根据所求问题的目标函数来进行评估的。适应度函数是遗传算法的核心,它决定了遗传算法的进化方向,也就是我们最后所得到的数据的特点,就是由适应度函数来决定的。不同的程序是有不同的适应度函数的。比如我的这次试验是要找出能够对判断是否是癌症起决定作用的质谱数据,那我的适应度函数用了一个分类函数,按照质谱数据对个体进行分类,选出能够使分类后两组的真值分离最大化的作为特征质谱。在程序中我用两个语句把癌症个体真值赋成1,健康个体的真值为2。

迭代的核心在于三个关键词——复制、交叉、变异。遗传算法的有效性主要来自复制和交叉操作,尤其是交叉在遗传算法中起着核心的作用。复制操作有多种算法,最经典的是轮盘赌算法,即将上一代种群中所有个体按适应度值成比例的依次组成一个圆形的轮盘随机转动轮盘,当轮盘停下来时,指针所指向的个体就是被选中的个体,由于适应度值较高的个体所占的区域较大,被选中的概率也较高,保证了适应度值较高的个体能在新的种群中产生较多的后代。

交叉算子有很多种,包括单点交叉、多点交叉、洗牌交叉等等。交叉操作分两步实现。第一步是在群体中随机抽取两个个体,作为交叉操作的父个体。第二步是随机地选择交叉点,对匹配的位串进行交叉繁殖,产生一对新的位串。

由于种群的个体有限,经过若干代交叉操作,源于一个较好的祖先的个体会逐渐充斥整个种群,使问题过早收敛而得不到最优解。为避免这种情况出现,就要效法自然界生物的变异,对个体进行小概率的翻转(替换)。变异是由变异算子完成的,反映到数据上就比如原来的数据是一串1,那么我把它的某位变成0,就完成了最简单的变异过程。

决定迭代进行到什么程度的就是收敛条件。有很多种收敛条件,如时间限制,就是我进行多少代之后就停止迭代。再比如精度限制,当个体适应度的方差或标准差低于一定的数值时停止迭代,或者适应度限制,当连续几代最优个体的适应度没有明显变化时终止算法。在本次实验中采取的是时间限制。

这是一张遗传算法的图解,它很直观地表示出了遗传算法的步骤。这里的初始条件就是收敛条件,我的论文里选的是时间收敛,设置迭代次数为50次,没到次数就会一直迭代。然后是计算个体适应值,这里用到适应度函数。这是为下步的选择做准备的。然后用概率来选择遗传算子。比如变异的概率是百分之一,也就是500例个体中有5个变异的个体,则从适应度高的个体中选出5个,对它运用变异算子。其他个体进行交叉或者直接复制到下一代。然后再回到第二步进行收敛检验。

最后一部分主要内容就是程序设计了。由于ppt篇幅的关系我没有把所有程序都列举出来。程序一共分为6个部分,数据加载到matlab,创建初始种群,创建适应度函数,创建选择结构,调用遗传算法,显示被选择特征。我选择了数据加载和调用遗传算法两部分解释一下。

Load语句将数据加载至matlab,whos是显示出数据名和类型。从输出可以看出,一共有216组数据,每组有15000个质谱数据。

下面看看主程序的调用。Rand是随机产生均匀分布的随机数,randn是随机产生正态分布的随机数,这两个随机数是在调用ga之前必须设置的。

设置所需的特征数目。

设置适应度函数以便下步调用。而之前已经编写好了适应度函数biografit。

ga函数的参数有三个,分别是适应度、特征数目和选择结构。这个选择结构中包含了设置好的初始群体创建函数,迭代次数,每代得人口增加数等。

ga的返回值是一个下标feat,然后把对应的质谱数据存入Significant_Masses。classify函数的功能是按照程序选出的特征,来对每个体进行判断到底是不是癌症,再与真值id对比,得出评价,存入cp,cp.CorrectRate是评价当中的正确率。

这个是我们的仿真结果图。横轴是mz值,纵轴是相对离子强度。红色的竖线所标的就是重要质谱。很容易可以看出,所选出的质谱数据集中在8000d附近。仿真和实验的结果具有有效性。

下载本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)(5篇)word格式文档
下载本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征)(5篇).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐