第一篇:生物信息学在生物方面的应用
生物信息学在生物方面的应用生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。
从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。
生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。
基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。
1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。
2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。
3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。
生物信息学在人类基因组计划中也具有重要的作用。
大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。
人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完
整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信
息分析得到的。
当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至重要的。
总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。
生物信息学在功能基因组学同样具有重要的应用 目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基酸序列同源性比较。同源性比较的结果大体可以分为如下几种方式:与生化和生理功能均已知的基因具有同源性;虽与生化和生理功能均已知的基因具同源性,但对该基因功能的了解尚不深入,仍停留在表达水平~I:;与其它物种中生化和生理功能均未知的基因具同源性。同源性检索分析方法为该DNA片段的功能提供了间接的证据。
揭示序列数据所隐含的生物学意义的另一重要方法是模式识别技术。顾名思义,模式别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,种保守性或者与蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特片模式可以用来识别该蛋白家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式
搜集起来,构建成数据库.则可以用来确定新测定的蛋白质序列中是否具有某种特征模式,从而确定该未知蛋白属于哪个蛋白质家族。这在治疗肾病问题上具有突破性进展。
生物信息学刚刚起步,但历史的经验告诉我们,未来它必将得到迅猛发展。生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。学习有关的生物学知识,开展多方面的生物信息学研究,逐渐使我国成为生物信息学研究强国。
第二篇:浅谈生物信息学在生物学研究中的应用
10生乙 尹竹10517109
浅谈生物信息学在生物学研究中的应用
生物信息学(Bioinformatics)是一门新兴的、正在迅速发展的交叉学科,目前国内外对生物信息学的定义众说纷纭,没有形成统一认识。概括来说,现代生物信息学是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。
生物信息在生物学研究上的应用主要包括在基因组学研究上的应用和在蛋白质组学研究中的应用。
1.在基因组学研究中的应用
基因组(genome)表示一个生物体所有的遗传信息的总和。一个生物体基因所包含的信息决定了该生物体的生长、发育、繁殖和消亡等所有生命现象。有关基因组的研究称为基因组学(Genomics),基因组学根据研究重点的不同分为序列基因组学(Sequence genomics)、结构基因组学(Structural genomics)、功能基因组学(Functional genomics)与比较基因组学(Comparative genomics)。结构基因组学的研究:结构基因组学(Structural genomics)是基于基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学口。生物信息学在结构基因组学中的应用主要在于:基因组作图、核苷酸序列信息分析、基因定位、新基因的发现和鉴定等方面。比较基因组学的研究:借助生物信息学的手段对不同生物基因组的比较、分析,可以进行生物进化等方面的研究。
功能基因组学的研究:功能基因组学(Functional genomics)是指在全基因组序列测定的基础上,从整体水平研究基因及其产物在不同时空、条件下的结构与功能关系及活动规律的学科。功能基因组的研究是后基因组时代的关键点,它将借助生物信息学的技术平台,利用先进的基因表达技术及庞大的生物功能检测体系,从浩瀚无垠的基因库筛选并确知某一特定基因的功能,并通过比较分析基因及其表达的状态,确定出基因的功能内涵,揭示生命奥秘,甚至开发出基因产品。
2.在蛋白质组学的研究中的应用
在20世纪中后期,随着DNA双螺旋结构的提出和蛋白质空间结构的解析,生生命科学的研究进入了分子生物学时代,而遗传信息载体DNA和生命功能的体现者蛋白质的研究,成为了其主要内容。90年代初期启动的庞大的人类基因组计划,已经取得巨大的成在20世纪中后期,随着DNA双螺旋结构的提出和蛋白质
空间结构的解析,生生命科学的研就,人类基因组序列草图绘制完成后,生命科学研究跨入了后基因组时代。然而,人们清醒地识到基因仅是遗传信息的载体,而生命活动的执行者是基因的表达产物—蛋白质,它是生命现象复杂性和多变性的直接体现者。
蛋白质组一词是澳大利亚学者马克威尔金斯在1994年最先提出来的,它是指基因组表达的所有相应的蛋白质,也可以说是指细胞或组织或机体全部蛋白质的存在及其活动方式。蛋白质组学是从整体的蛋白质水平上,在一个更加深入、更加贴近生命本质的层次上去探讨和发现生命活动的规律和重要生理、病理现象的本质等。蛋白质组学的研究对揭示生命活动规律,探讨重大疾病机制,疾病诊断和防治、新药的开发提供重要的理论基础。
生物信息学在蛋白质组学中的蛋白质数据库的应用
2.1蛋白质组数据库
蛋白质组数据库是蛋白质组学研究的主要内容之一。通过构建不同环境条件下组织或细胞全部蛋白质的数据库来研究蛋白质表达的差异情况。与其他数据库相比, 目前大部分蛋白质组数据库都有以下几个方面的特点:(1)由于蛋白质相关数据的种类繁多,蛋白质组数据库的种类也多种多样,如双向电泳数据库、基于蛋白序列的数据库、蛋白质一级或高级结构数据库、蛋白质相互作用数据库等等;(2)新速度快,网络上的蛋白质组数据库的数据几乎每天都在更新;(3)网共享程度高, 越来越多的数据库资源与互联网相互配合,使得蛋白质相关数据的利用率空前的提高。蛋白质组数据库的主要内容即集中在基于双向电泳结果的数据库和基于蛋白质序列信息的数据库。
2.1.1基于双向电泳图谱的数据库
双向电泳技术是蛋白质组学研究中最重要的实验技术之一,所以基于双向电泳图片的数据库也成了蛋白质组学研究中主要内容。
2.1.2 基于蛋白质序列信息的数据库
基于蛋白质序列信息的数据库是生物信息学数据库中最基本的数据库,这些数据库以氨基酸残基顺序为基本内容,并附有注释信息(计算机的序列分析结果和生物学家查阅文献的结果)。基于蛋白质序列的数据库很多,主要有蛋白质信息资源数据库(PIR)、SWISS3D和 TrEMBL等等。
2.1.3 其他蛋白质组数据库
蛋白质生物信息学包含很多方面的内容:如蛋白质大分子的结构、相互作用等等,所以,除了上述的一些数据库之外,还有很多关于构象、相互作用等方面的数据库,是基于质谱应用的数据库,属于混合数据库。将生物信息学的实验思路引入蛋白质组学的实验方案后,实验人员可以通过互联网上的信息设计实验方
案,避免了很多重复性的劳动,少走很多弯路,为蛋白质组学的发展提供了可靠的信息资源。值得一提的是,上文提到的大多数数据库都能实现数据接收、在线查询和空间结构的可是化浏览等多种功能。而且,几乎所有这些数据库都是免费的,都可以免费下载或提供免费服务,使得蛋白质组学可以在生物信息学的辅助之下快速发展。
2.2生物信息学与蛋白质分析
在蛋白质组分析过程中,生物信息学的作用不仅仅体现在数据库的查阅和资料的整合中,生物信息学软件在蛋白质组研究领域的作用根式至关重要的。蛋白质分析软件应用主要集中在结合蛋白质组研究中的分离技术和坚定技术识别蛋白质(如2-DE)图像分析、Edman降解的序列组合、质谱数据的综合分析等),对有价值的未知蛋白质进行分析和预测(包括序列分析、结构预测、结构域、电点等性质的检测等)、针对蛋白质的分析预测方法应用的工具有4个方面。
2.2.1 蛋白质一级结构分析
根据20中氨基酸的理化性质可以分析电泳等实验中的未知蛋白质,同样也可以分析已知蛋白质的物化性质。设计PROPSEARCH的目的是为了通过排比方法查询一个新的蛋白质序列失败时,查找公认的蛋白质家族而设计的。PROPSEARCH可以通过氨基酸组分来查询,同时也可以通过其他的特性来进行查询,如从序列中计算所得的分子量、挑选的二肽组分的含量等。
2.2.2 蛋白质的物理性质预测
从蛋白质序列出发,预测蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。
2.2.3蛋白质二级结构预测
二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律。蛋白质二级结构预测的方法有3种。一是由已知结构统计各种氨基酸残基形成二级结构 的构象趋势,其中最常用的是Chou和Fasman 法;二是基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成能力等;三是通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。各种方法预测的准确率随蛋白质类型的不同而变化。一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。
2.2.4蛋白质的三维结构
蛋白质三维结构是预测时最复杂和最困难的预测技术。序列差异较大的蛋白质序列也可能折叠成类似的三维构象。由于蛋白质的折叠过程并不十分清晰,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作
用的三维结构预测方法。即与已知结构的序列比较,同源模建,threading算法和 折叠识别方法。常见的预测算法有:SWISS-MODEL(自动蛋白质同源模建服务器)、CPHmodels等。
2.3 生物信息学与蛋白质功能
生物信息学发展到今天不仅可以对蛋白质组数据进行分析和预测,而且可以对已知或者未知的基因产物进行功能上全面的分析和预测。
生物信息学最常用的分析方法是模式识别。主要是利用存在于蛋白质序列结构中的某些特殊的特征模体来识别相关蛋白质性质。换而言之,就是从新的蛋白序列中发现标志性的序列或者结构,以此建立模式,然后在已经建立好的已知蛋白质数据库中,搜集于此相似的模式,来确定未知蛋白质的归属,从而预测它的功能。许多基因是在特定时期和条件下被激活,才能表达出来,在正常人工模拟的环境下根本无法表达。类似于这样的恩未知蛋白质也需要通过生物信息学的方法计算分析预测,以获得它的功能信息。
生物信息学的发展将给生命科学研究带来革命性的变革,将帮助人类认识生命的起源、进化、遗传和发育的本质,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供合理和有效的方法或途径,同时还将对医药、卫生、食品、农业等产业产生巨大的推动作用,甚至可能引发新的产业革命。21世纪是生命科学的时代,生物信息学为生命科学的发展提供了便利和强有利的技术支持,推动着生命科学的迅速发展。
第三篇:数学模型在生物信息学教学中的应用
目 录
目录...............................................................................................................................................i 摘要..............................................................................................................................................ii 第一部分 数学建模........................................................................................................................1 数学建模的介绍...................................................................................................................1 2 数学建模的主要内容...........................................................................................................1 3 数学建模的流程...................................................................................................................2 4 数学建模的主要算法...........................................................................................................3 5 数学建模的软件...................................................................................................................3 第二部分 生物信息学....................................................................................................................3 什么是生物信息学...............................................................................................................3 2 生物信息学的研究方向.......................................................................................................4 第三部分 生物信息学与数学建模的交叉.....................................................................................4 方法和技术的交叉...............................................................................................................4
1.1 数学统计方法............................................................................................................4 1.2 动态规划方法............................................................................................................4 1.3 机器学习....................................................................................................................5 1.4 数据挖掘....................................................................................................................5 1.5 生物分子的计算机模拟............................................................................................5 2 目的上的相似.......................................................................................................................5 第四部分 数学建模在生物信息学中的部分应用.........................................................................6 运用数学模型的预测...........................................................................................................6 2 运用数学模型的数据分析...................................................................................................7 参考文献..........................................................................................................................................7
i 数学建模在生物信息学中的应用研究
摘 要
本文首先介绍了数学建模和生物信息学的基础知识,然后分析了数学建模和生物信息学的交叉知识点。分析显示,数学建模和生物信息学不仅在统计方法和数据挖掘等使用方法和技术方面存在交叉知识点,还在目的上具有一定的相似性,即两者都是对大量的数据进行统计和分析,都以解决问题为最终目的。最后,文章重点回顾了数学建模在生物信息学中数据分析和结构预测方面的部分应用。
关键词:数学建模 生物信息学 应用研究
ii
第一部分 数学建模 数学建模的介绍
从航空航天领域中的火箭发射、武器的自动导航,到企业中该如何配置人力、物力和财力,进而用最小的成本产生最大的利润,再到生活中如何规划自己有限的时间复习期末考试,等等。这都或多或少地运用到了数学建模的知识。数学建模是一个将实际问题用数学的语言、方法,去近似刻画、建立相应数学模型并解决科研、生产和生活中的实际问题的过程。数学建模的问题比较广泛,涉及到多学科知识,它不追求解决方法的天衣无缝,不追求所用数学知识的高深,也不追求理论的严密逻辑,它以解决问题为主要目的。
模型的建立,即把错综复杂的实际问题简化、抽象化为具有合理的数学结构的过程。通过调查、收集数据资料,观察和研究实际对象的固有特征和内在规律,抓住问题的主要矛盾,建立起反映实际问题的数量关系,然后利用数学的理论和方法去分折和解决问题。
随着科学技术的飞速发展,人们越来越认识到数学的重要性:数学的思考方式具有根本的重要性,数学为组织和构造知识提供了方法,将它用于技术时能使科学家和工程师生产出系统的、能复制的、且可以传播的知识„„数学对于经济竞争是必不可少的,数学科学是一种关键性的、普遍的、可实行的技术。在当今高科技与计算机技术日新月异且日益普及的社会里,高新技术的发展离不开数学的支持,没有良好的数学素养已无法实现工程技术的创新与突破。数学建模的主要内容
数学建模理论包含统计回归模型、优化模型、图论模型、微分模型和概率模型等【1-3】,如表1所示。
表1 数学建模的主要内容
统计回归模型 数学挖掘 聚类分析 层次分析 线性回归 非线性回归 主成分分析 时间序列分析 运筹与优化模型 博弈论
图论模型
线性规划
最小生成树
整数规划
最大流问题
目标规划
最短路径问题
动态规划
最长路径问题
非线性规划
PERT网络图模型
多目标决策
最小费用流问题
数据拟合与插值 存贮论模型
偏微分方程模型 灰色预测模型
马氏链模型
差分方差模型
排队论模型
稳定性模型
决策论模型
微分方程模型
计算机模拟
GM模型
随机模拟
图论与网络模型
微分差分模型
概率模型 数学建模的流程
图1数学建模的流程[3] 数学建模的主要算法
蒙特卡罗算法——该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性。
数据处理算法——通常会遇到大量的数据需要数据拟合、参数估计、插值等处理,通常使用Matlab作为工具。
规划算法——遇到线性规划、整数规划、多元规划、二次规划等最优化问题,可以用数学规划算法来描述,通常使用Lingo软件实现。
图论算法——包括最短路、网络流、二分图等算法。动态规划、回溯搜索、分治算法、分支定界等算法。
非经典算法——模拟退火法、神经网络、遗传算法为最优化理论的三大非经典算法。数学建模的软件
数学建模有专用的软件:Matlab 7,Lingo 8为其中最主要的软件,其他重要的软件有Mathematice,S-plus,SAS等。
第二部分 生物信息学 什么是生物信息学
生物信息学是一门新兴的交叉学科,它使用数学和计算机这两项工具,对日益增长的生物数据进行快速、高效的组织与分析。生物信息学的近期任务是大规 3 模的基因组测序中的信息分析、新基因和新SNP的发现与鉴定、完整基因组的比较研究、大规模基因功能表达谱的分析、生物大分子的结构模拟与药物分析,其远期任务是非编码区信息结构分析、遗传密码起源和生物进化的研究。2 生物信息学的研究方向
生物信息学的发展异常迅速,现主要包括DNA序列对比、蛋白质结构对比与预测、编码区的基因识别、序列重叠群(Contigs)装配、基于结构的药物设计、非编码区的分析研究、遗传密码的起源、分子进化与比较基因组学、生物系统的建模和仿真、生物信息学技术方法的研究等几个研究方向【4-6】。
第三部分 生物信息学与数学建模的交叉
生物信息学是利用数学和计算机作为工具,不可避免地与数学建模,这一利用计算机和数学理论解决实际问题的学科,无论在研究方法和技术上,还是在运用目的上均产生一定的交叉。1 方法和技术的交叉
生物信息学所使用的方法与技术包括数学统计方法、动态规划方法、机器学习与模式识别技术、数据库技术与数据挖掘、人工神经网络技术、生物分子的计算机模拟等,而这些恰恰是数学建模领域的核心理论与知识。1.1 数学统计方法
数据统计、因素分析、多元回归分析是生物学研究必备的工具,而这些是数学建模的统计回归模型中最为基础的知识;隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用,与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),而马尔科夫链模型正是数学建模中针对离散状态按照离散时间的随机转移而建立的模型。总之,生物信息学和数学建模有的第一个共同点是,都有对海量数据进行统计分析的过程。1.2 动态规划方法
动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法,在每个阶段做出一定的决策并影响后续的决策,最终选择一个最优决策。
当两个DNA序列长度较小时,采用动态规划算法可以很好地解决两个序列的相似性问题。当序列长度太长时,改进的BALST和FASTA算法也是基于动态规划 的思想。同时,动态规划在数学建模领域也被用来解决最短路线、库存管理、资源分配等生产和生活中的现实问题。1.3 机器学习
机器学习一般采用遗传算法、神经网络或聚类分析等,模拟人类的学习过程,以计算机为工具获取知识、积累经验,在拥有大样本、多向量数据的数据分析中发挥着日益重要的作用。比如,聚类分析已经运用于癌症类型的分类,神经网络和隐马尔可夫模型对于缺乏完备理论体系的生物领域也同样奏效。以上聚类分析、神经网络和隐马尔可夫模型均为数学建模中的重点方法。1.4 数据挖掘
数据挖掘又被称作数据库中的知识发现,在此意义上,生物信息学也是在海量的生物数据中发掘生命的奥秘。基因序列包括外显子和内含子,其中外显子只占其中的一小部分。大部分的内含子序列的作用并不为人知,如何从这些简单的ACGT序列中发现内含子如何参与基因的转录与翻译变得异常重要。比如,利用一阶和二阶马尔可夫链的方法侦测密码区。1.5 生物分子的计算机模拟
所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质,常用的方法是蒙特卡罗法和模拟退火方法。2 目的上的相似
数学建模与生物信息学都会对大量的数据进行统计和分析,都以解决问题为最终目的,并且以求得满意解为重点,因为有时全局最优解难以得到。另外,数学建模和生物信息学的研究都更强调能否具有实用性。比如生物信息学的机器学习技术中运用到了神经网路或隐马氏模型,但人们目前并不清楚该算法或模型是如何到达解的,即对其具体的机理并不十分了解。但这并不妨碍我们使用这种方法,因为这种方法具有使用成功性和可用性。在这个意义上,数学建模也经常通过此类“黑箱” 操作达到特定解。正如Cynthia Gibas和Per Jambeck在《Developing Bioinformatics Computer Skills》的前言所说,生物信息学“is often less about developing perfectly elegant algorithms than it is about answering practical questions”。从这个意义上说,数学建模与生物信息学有着目的上的相似性。
第四部分 数学建模在生物信息学中的部分应用
1.运用数学模型的预测
1993年Rost和Sander[6]提出了三级网络模型,这种神经网络方法已经成为了蛋白质结构预测普遍采用的方法。2003年闫化军等[7]人也通过神经网络算法预测蛋白质二级结构。2007年林卫中等[8]人将GM(1,1)模型应用于蛋白质二级结构类型的预测,把提取出的蛋白质氨基酸的排列信息作为伪氨基酸成分,从而较大的提高了预测的成功率。2008年邱望仁等[9]人将OET-KNN算法应用于蛋白质二级结构类型的预测,通过LZ复杂度的算法计算了伪氨基酸的成分,再用OET-KNN算法分类预测,从而也较大的提高了预测的成功率。
Bader等[10]人将Logistic回归模型用来预测蛋白质之间的生物学关系,这种运用使得通过遗传学和基因表达数据来分析蛋白质数据成为了可能。2006年王明会等[11]人将Markov链模型应用于蛋白质可溶性的预测,预测精度普遍好于或接近于神经网络、信息论和支持向量机法的结果,而且该模型的运算复杂度低,耗时也更短。2006年张菁晶等[12]人将隐马尔可夫模型运用于目标基因全基因组的预测,同量高、准确度高并且操作简单,尤其在多结构域蛋白家族的预测上优势明显。2008年刘桂霞等[13]人提出了一种带偏差单元的递归神经网络模型。该模型根据BP算法得出权系数调整规则,使得收敛速度比一般的BP网络更快,对于预测蛋白质关联图有一定的实用价值。
2.运用数学模型的数据分析
1997年Carr等[14]研究了大鼠脊髓的基因活动,通过聚类分析证明具有已知相似功能的基因属于一类。2006年张文彤等[15]人综合了聚类方法和进化树分析的优点,通过先聚类将数据拆分,然后根据聚类的类别构建进化树,这种方法可以很好地在大样本数据中应用,并以甲型流感病毒的H3A1序列作为实例,构建拼接出了完整的进化树结果。
2006年徐丽等[16]人针对Viterbi算法和Baum-Welch算法在隐马尔可夫模型(Hidden Markov Model)的参数估计中无法找到全局最优解,提出了基于遗传算法的HMM参数估计,这种方法用于多序列对比研究时可以更好的避免局部最优解。2007年周晓彦等[17]人通过综合模糊数学和核判别方法的优点,提出了一种基于模糊核判别分析的基因表达数据分析方法,并以多发性骨髓瘤的基因表达数据为例证实了这种方法的可行性和精确性。2007年刘万霖等[18]人介绍了构建基因调控网络的多种算法和方法,比如马尔可夫链可以用于分析时间序列微阵列表达数据;将随机和概率等引入布尔网络模型,可以增强基因网络调控的精确性;贝叶斯网络模型在Friedman和Pe’er等人做出了开拓性的工作后,在基因表达数据和调控网络方面得到了快速的发展。
参考文献
[1] 冯杰等.数学建模原理与案例.科学出版社,2007.[2] 高隆昌,杨元著.数学建模基础理论.科学出版社,2007.[3] 戴朝寿,孙世良.数学建模简明教程.高等教育出版社,2007.[4] 陶士珩.生物信息学.科学出版社,2007.[5] DAVID W.MOUNT.生物信息学:中文版.高等教育出版社,2003.[6] Rost B, Sander C.Proc.Natl.Acad.Sci.USA, Biothysics, 1993,90:7558-7562 [7] 闫化军,傅
彦,章
毅等.神经网络方法预测蛋白质二级结构.计算机科学.2003,30(11):48-52 [8] 林卫中, 肖绚.基于GM(1,1)模型的蛋白质二级结构类型预测.计算机工程与应用, 2007, 43(34): 41-45 [9] 邱望仁, 肖绚, 林卫中.基于OET-KNN算法的蛋白质二级结构类型预测.计算机工程与应用, 2008, 44(29): 204-210 [10] Bader JS,Chaudhuri A,Rothberg JM,et al.Gaining confidence in high-throughput protein interaction network.Nat Biotechnol,2004,22: 78-85 [11] 王明会, 李 骜, 王娴等.Markov链模型在蛋白质可溶性预测中的应用.生物医学工程学杂志, 2006, 23(5): 1109-1113 [12] 张菁晶,冯
晶,朱英国.全基因组预测目标基因的新方法及其应用.遗传.2006,28(10):1299-1305 [13] 刘桂霞, 于哲舟, 周春光.基于带偏差递归神经网络蛋白质关联图的预测.吉林大学学报(理学版), 2008, 46(2): 265-270 [14] Carr DB, Somogyi R, Michaels G.Templates for looking at gene expression clustering.Statistical Computing & Statistical Graphics Newsletter, 1997,8:20-29 [15] 张文彤, 姜庆五.聚类技术在大样本序列进化树分析中的应用.中国卫生统计.2006,23(5):393-396 [16] 徐丽,康瑞华.基于遗传算法的HMM参数估计.湖北工业大学学报.2006,21(4):68-71 [17] 周晓彦,郑文明.基于模糊核判别分析的基因表达数据分析方法.华中科技大学学报(自然科学版), 2007, 35(I): 173-176 [18] 刘万霖,李
栋,朱云平等.基于微阵列数据构建基因调控网络.遗传,2007,29(12):1434-1442 8
第四篇:生物信息学小结
1. 什么是(基因)生物信息学?
目前一般意义的生物信息学是基因层次的
它是一个包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面学科领域。
生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
他是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。基因组信息
蛋白质的结构模拟 药物设计
它们是生物信息学的三个重要组成部分,生物信息学目前已在理论生物学领域占有了核心地位,它广泛地应用在生物、医药、农业、环境等学科。
2.广义生物信息学主要包括哪几个方面? 广义生物信息学主要包括如下几个方面:
一、生物的遗传信息
DNA―RNA―蛋白质,遗传信息—转录—翻译,遗传信息生物信息学。
二、生命活动的调控
基因的功能、表达和调控(表观遗传学)。蛋白的结构、功能和调控;细胞活动(分化、发育、衰老、死亡)的调控,器官、系统、整体活动的调控;节律、生物钟、分蘖、生长、开花、结果、营养的吸收、传输、转化、对外界信号的反应:含羞草、抗逆性。
三、生物电磁学与电磁生物学
生物电磁学:生命活体在不同层次(电子、离子、原子、基因、细胞、组织、整体等)的活动和不同属性(包括思维、精神)活动时以及和外界环境(生命体周围直至宇宙)相互作用时反映出来的各种电磁信息。人体的电磁辐射(包括发光):频率、强度、频谱。人体信号的调制方式:调幅、调频、编码。
电磁生物学:电磁辐射对生物体的影响,电磁场导致DNA突变,体内细胞电离、极化状态变化导致疾病。
四、视觉系统与光信息处理
视网膜神经元回路与信息处理、彩色视觉及彩色图像的编码、变换机制、眼动成象机制及宽视场、消色差动态成象系统、视觉认知机制及其图像信息的智能模式识别、不同状态立体视觉机制和静态、动态立体视锐度。
五、脑和神经系统与信息
脑的感知觉信息处理原理及其应用,学习、记忆、思维,逻辑思维和形象思维,思维模型与信息处理系统新原理的研究,新的计算模型、新型计算机、如:神经计算机。
六、生物体结构与微光机电系统
DNA驱动的微细机器人,生物大分子到细胞基本结构体系的自组装、自组织,创造新物质的分子工程学研究,分子聚集体的化学。
纳米生物技术将纳米技术和生物技术相集成,在生物医学、电子学、材料学、环境科学等诸多领域具有良好的应用前景。在生物芯片、分子马达、生物探针、纳米生物材料等迅速发展。
七、基因芯片、蛋白质芯片等
目前一般意义的生物信息学是基因层次的,是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
3.Internet有哪些基本功能?
Internet不仅向其用户提供了全球范围的信息交流与快速通讯手段,其本身也具有极其丰富的信息资源,包括新闻、书刊杂志、数据库、计算机软件、多媒体资料等,也包括大量的生物信息学资源。
4.什么是Entrez?Entrez主要包括哪几个数据库?
Entrez(http://www.ncbi.nim.nih.gov/entraz)是美国国立医学图书馆国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立的生物医学数据库集成检索系统。系统中的数据库包括核酸序列数据库、蛋白质序列数据库、大分子三维结构数据库、全部基因组、孟德尔人类遗传及通过PubMed检索的MEDLINE。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。
5.PubMed的一般检索方法有几种检索途径?
通过NCBI首页(http://www.ncbi.nlm.nih.gov/)或NCBI的Entrez检索系统(http://www.ncbi.nlm.nih.gov/Entrez/)选择PubMed链接选项或直接在浏览器地址栏(URL)中输入“http://www.ncbi.nlm.nih.gov/entrez/query.fcgidb=PubMed”即可进入
PubMed检索界面。PubMed有多种检索途径,包括自由词、文献作者、规范主题词(MeSH)、期刊名称、文献出版年代、文献类型、文献语种、物质名称、记录入档日期、文献出版日期等。既可以单一字段检索,又可以利用高级布尔逻辑表达式多字段组配检索。
6.国际上三大DNA数据库是什么数据库? ,国际三大DNA数据库:NCBI的GenBank,欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)、日本DNA数据库(DNA Data Bank of Japan,DDBJ)
7.简述进行基因搜索时的基本步骤 ?
在进行基因搜索时的基本步骤:
1、寻找DNA序列中基因不可能出现的区域,并将此遮蔽起来。
2、在启动子区寻找一致的模式,找出转录因子识别DNA结合区域。
3、寻找转录的起始密码、终止密码和剪切位点。
4、找出编码区。然后将全部收集到的信息汇总整理成总体上尽可能连贯的谱图。注意进行不同的分析时使用不同的软件工具以及程序适用的物种选择和应用范围等。
8.BLAST的主要功能都包括什么 ?
1、核酸数据库搜索
组合基因组检索;分为标准的核酸与核酸数据库搜索;MEGABLAST提供大量长序列的比较;完全匹配的短序列搜索;特殊搜索。
2、蛋白数据库搜索
分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系的存在与否和进一步获取这个蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索。
3、已翻译蛋白的BLAST搜索
包括[blastx],[tblastn],[tblastx]
4、保守区域的搜索:主要使用RPS-BLAST程序完成。
5、配对序列的两两比较:用于核酸和蛋白的两两比较分析。
6、针对特定数据库的搜索:比如人类基因组、微生物基因组等。
9.利用核酸序列进行基因结构预测的基本步骤是什么?(不确定)一个全面的基因搜索方案,无论是通过单个集成的程序实现,还是通过多个程序分步实现,基本的思路是相同的:
1、通常如果一个序列中某一区域出现重复序列,该区域不大可能处于调控区域和编码区域。
2、如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。
3、一段序列上存在着统计的规则性,表现为显著的“密码子偏好”,是蛋白编码区最明显的标志之一。
4、与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式(例如,众所周知的“TATA box”和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。
10.根据蛋白质的氨基酸序列预测其空间结构主要预测方法有哪两类?
预测方法主要有两类:
一、采用分子力学、分子动力学的方法,根据物理化学的基本原理,从理论上预测蛋白质分子的空间结构。
二、通过对已知空间结构的蛋白质进行分析,找出一级结构与空间结构的关系,总结出规律,用于新的蛋白质空间结构的预测。本章介绍利用分析蛋白质氨基酸的组成来确认未知蛋白的计算工具、蛋白翻译后修饰、蛋白功能预测。
组成蛋白质的氨基酸序列为蛋白质的一级结构,蛋白质的一级结构决定了蛋白质的性质。组成蛋白质的氨基酸的物理和化学性质早已被人熟知。构成蛋白质的20种氨基酸由于化学构造不同,在结构和功能上具有多样性,任一残基对蛋白质的物理和生化性质都会产生影响,即序列决定构象。由于蛋白质空间结构的基础是一级结构,近年来根据蛋白质的氨基酸序列预测其空间结构,受到科学家的关注。
11.谈谈学习生物信息学的体会(自己发挥吧)
有点粗糙,见谅
六哥
第五篇:生物材料在骨科的应用进展
生物材料在骨科的应用进展
[摘要] 生物材料在骨科的应用十分广泛,目前用于骨组织修复与替代的材料主要有医用金属材料、医用高分子材料和医用无机非金属材料等。
[关键词] 生物材料 骨科
应用
生物材料是指“以医疗为目的,用于和活组织接触以形成功能的无生命材料”,包括具有生物相容性的材料。本文总结近年来用于骨组织修复的骨科生物材料的种类以及其在骨科临床实践中的应用。
医用金属材料
骨科生物金属材料是指能够植入人体,治疗骨骼疾病、替换骨组织,恢复骨骼的正常生理功能的一种生物惰性材料,由于具有较高的强度和韧度,金属材料是骨科中应用最多的植入材料,主要用于制造钢板,螺钉,髓内钉等内固定物,广泛用于各类骨折的治疗。医用金属材料要求具有足够的力学强度和抗疲劳性能;极好的耐腐蚀性能,无磁性;无毒、无致癌性与过敏反应;良好的光洁度[1]。现在常用于临床的医用生物金属材料主要包括医用不锈钢、钴基合金、医用形状记忆合金等。
1.1医用不锈钢:医用不锈钢的材料有多种,最好的不锈钢合金是316L型,比重约是人体骨骼的2倍,一直作为器具材料广泛使用。具有较好的机械性质,易于加工制造且价格便宜,但同钴基合金相比有较大的局部腐蚀敏感性,主要用于接骨板、骨螺钉、人工关节等。
1.2 合金类:主要包括①钴基合金:钴基合金包括钴铬钨镍合金、钴铬钼合金[2]。其优点是耐腐蚀性和机械性能较好,乃腐蚀性比不锈钢高40倍,是目前综合性能最好的材料之一,已列入ISO国际标准,但缺点是机械性能低于不锈钢,而且加工困难、产量低、价格贵,常被选择为永久性植入材料。多用于骨折固定和制作人工关节。②钛合金:具有优于前两种材料的机械性能,质轻,组织相容性良好,生物界面结合牢固,在机体内有极高的惰性和抗腐蚀性,是理想的植入材料,缺点是耐磨损性差和难以加工。钛合金微型钢是颌骨骨折复位内固定的首选内固定物[3],目前对膝、髋等大的人工关节多使用钛合金。③镍钛记忆合金:该材料有形状记忆效应,其理化性能表现为强度高,耐磨、耐腐蚀、无磁、无毒等特点,而且其硬度和刚度跟人体骨组织最接近,被认为是最理想的生物内固定植入材料。
金属材料普遍的缺点是植入人体后,长期存在人体,金属中某些元素离子进入人体组织液、血液、器官,如铬、镍离子对人体具有致敏作用,甚至诱导机体发生癌变,另外长期受力的金属还会发生金属受力疲劳和内部结构的改变,从而引起远期手术的失败等问题,是其普遍缺陷。并且,当前的金属生物材料的弹性模量与正常骨组织并不十分相称,这会导致应力遮挡效应,这样的后果是对新生骨组织产生和塑性的刺激减弱,并使内植物的稳定性下降,且必须在患者充分痊愈后行二次手术将其取出。多次手术会增加医疗过程中的费用且会造成患者死亡率的上升[4]。镁相关材料作为轻金属、可降解、生物相容性好且具有生物活性的骨科内植物材料的有美好前景。医用高分子材料
2.1非生物降解型高分子材料,如聚乙烯、聚丙烯等,具有稳定性好,不发生降解,交联或物理磨损等,而且有良好的机械性能,对机体不产生明显毒副作用,主要用于制作组织工程软、硬组织,人工器官等。如硅橡胶是含有硅原子的各种合成橡胶的总称。其优点是耐高低温,透气性好,便于清洁,耐腐蚀性,具有良好的生物惰性。可用于引流管,人工腱鞘,还用于防止粘连。高密度聚乙烯:其用于制造人工髋臼的分子量多在200~500万左右,其摩擦系数低,约为0.03~0.06,抗冲击性强,耐磨性强,年磨损率约为0.1~0.2 mm,是目前国际上普遍用于制造人工关节的较好材料。聚酯、聚酰胺(尼龙):主要用于人工肌腱,人造血管,手术缝线。聚甲基丙烯三甲酯:即骨水泥,主要用于骨缺损的修复,如人工关节假体嵌插部位使用可增加接触面积,还用于椎体成形术。
2.2 生物降解型高分子材料 在体温下可以在一定时间内分解为小分子化合物,由体内代谢排除体外。其中最主要的是聚乙交酯(PGA)、聚丙交酯(PLA)及其混聚物,聚酯类似一类亲水性非常强的高分子降解材料。聚酯类能在体内降解,最终被分解代谢成CO2和H2O2从人体排出。PLA具有一定机械强度和良好的加工性能。PGA可支架诱导促进成骨细胞的黏附增殖和分化,但其降解过快,且降解产物积聚会造成局部PH值下降,导致细胞中毒死亡。PGA与PLA形成的混聚物可通过二者的比例来调节其机械强度和降解速率[5]。聚酯类生物降解材料可以制成棒、针、螺钉、接骨板等,受其降解速度限制,固定部分在愈合期间不能承受较大的应力。是目前组织工程中广泛应用的支架,临床上多用于固定骨折愈合相对较快的骨骼,亦可用于关节镜下膝前十字韧带的损伤后重建、半月板损伤的修复,在骨组织工程学领域也是一种很有前景的细胞培养支架材料[6],但不适于长骨干骨折固定,因其临床愈合所需时间较长,骨折断端应力大。生物降解材料作为内固定材料,在手术操作过程中不易割伤软组织,即使在加压情况下也不会损伤松质骨,在所固定的组织愈合之前能够保持足够的强度,可随着骨组织的愈合机械强度适当衰减,使骨折断端得到正常的应力刺激,没有金属材料存在的应力遮挡、腐蚀反应等缺点,可使患者避免清除植入物的第2次手术,亦不影响MR或CT等影像学复查,使用起来比金属制品要安全和方便。但如果内植物的降解产物超过组织的清除能力,可发生迟发性无菌性炎症,局部突然发红、疼痛、肿胀、有波动感,反应严重者,可发生广泛性皮肤坏死,降解速度快的PCA比降解速度慢的PIA炎症发生率高,血运不佳的部位更易并发炎症反应,因此应权衡利弊,谨慎选择。
医用无机非金属材料
3.1生物活性陶瓷,主要有磷酸钙陶瓷、生物活性骨水泥及生物活性玻璃等,生物活性陶瓷具有骨传导性,它作为一个支架,成骨在其表面进行,还可作为多种物质的外壳或填充骨缺损。目前最常用的主要有羟基磷灰石(HA)、磷酸三钙(TCP)及两者结合使用3种。骨水泥很少引起免疫反应,系统毒性也微不足道,具有良好的生物相容性,并能和骨直接融合,在骨科临床上已经应用于股骨颈骨折的内固定增强和桡骨远端骨折内固定等。由于此类材料在生物学上缺乏有效的骨诱导性,脆性较大,抗张、抗扭和抗剪力差,为保证固化正常进行,应用时要求受区相对干燥,因此单纯此类材料临床应用较少,仍需进一步改进。
3.2 生物惰性陶瓷 氧化铝:氧化铝是一种生物陶瓷,其硬度大,耐磨,生物相容性好,单晶氧化铝可用于骨折内固定,多晶氧化铝即刚玉,可制作人工关节。研究发现将氧化铝晶体纳米化合物团块浸在与生物体液相似的溶液中,其表面可生成骨样磷灰石层,提示在活体内可能形成生物陶瓷如HAP、TCP等[7]。此外氧化锆陶瓷的高强度和韧性降低了破裂的风险,故被做成人工股骨头用于全髋关节置换。最近还报道研制出一种结合了氧化铝的生物特性及铠氧化锆的机械特性的新型物质,这种混合陶瓷比氧化铝陶瓷的磨损率低,在模拟人上进行的初步实验结果具有一定的应用前景[8]。
3.3碳素材料:碳纤维有利于生物组织攀附生长,可用于人工肌腱和韧带的置换[14]。低温裂解碳又称各向同性碳,是将烃类气体在高温下炭化,可以直接蒸镀在人工关节的运动磨损表面,作为减磨涂层。类金刚石膜(DLC)亦称金刚石样碳素膜,是一种非结晶的碳氢化合物,具有良好的细胞相容性、血液相容性及高耐磨性高硬度等特点,可以沉积于人工关节表面。作为聚乙烯的对抗面,DLC同氧化铝、钴基合金的耐磨相当,可显著改善矫形装置的磨损,是一种很有发展前景的膜材料。
纳米生物材料在骨科领域研究最广泛的是用作组织工程支架材料。理想的基质支架材料不仅需要具备良好的生物相容性、适度的生物降解性、良好的结构相容性、良好的表面相容性以及特定的生物活性,还必须使材料表面能够促进种子细胞的黏附与生长,并能通过表面修饰、控释生物分子或对环境刺激做出响应等机制对种子细胞的黏附和生长进行调控。纳米生物材料的开发为这种高度仿生或“智能”型基质支架材料的研制提供了可能[9]。
近年来,随着生物医学工程、医学分子生物学、基因工程、组织工程学、材料科学、纳米技术的的迅速发展,利用不同的生物材料复加工,组配成理想中具有多种生物活性的人工骨将成为现实。
参 考 文 献
[1] 胥少汀,葛宝丰,徐印坎.实用骨科学.第2版.北京:人民军医出版社,2003.357-360.
[2]朱肖奇.生物材料在骨科中的临床应用.中国组织工程研究与临床康复.2009:5738.[3] 李青.钛合金表面涂层应用生物骨的研究.生物骨科材料与临床研究,2004,3(4):46-49.
[4]王义生,王建儒.可降解镁合金作为骨科应用生物材料的研究进展.河南医学研究.2009,18(1):75-77.[5] Valentin J E,Badylak J S,McCabe G P, et al.Extracellar matrix bioscaffolds for orthopaedic applications.A comparative histologic study [J].J Bone Joint Surg Am,2006,88(12):2673-2686.
[6] Jeon O.Song S J.Kang S W Enhancement of ectopic bone formation by bone morphogenetic protein-2 released from a heparin-conjugated poly(l-lactic-co-glycolic acid)scaffold [J].Biomaterials, 2007,28(17):2763-2771.
[7] Ozturk A.Yetkin H.Memis L Demineralized bone matrix andhydroxyapatite/tri-calcium phosphate mixture for bone healing in rats[J].Int Orthop,2006,30(3):147-152.[8] Kim H.Camata R P.Vohra Y K Control of phase composition in hydrox-yapatite/tetracalcium phosphate biphasic thin coatings for biomedical applications [J].J Mater Sci Mater Med, 2005,16(10):961-966.[9]郑启新,潘海涛,郭晓东.骨科纳米生物材料的研究现状与展望.中华实验外科杂志.2007,24(6):646-648.