第一篇:生物信息学考试重点
1.生物信息学:生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交
叉学科;它综合运用了数学、计算机学和生物学的各种工具来进行研究;目的在于阐明大量生物学数据所包含的生物学意义。
2.BLAST直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工
具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3.PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特
定位置最常见的残基之外,它们不能表示任何概率信息。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹
配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7.非信息位点:对于最大简约法来说没有意义的点。
8.标度树:分支长度与相邻节点对的差异程度成正比的树。
9.非标度树:只表示亲缘关系无差异程度信息。
10.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其
他任何节点。
11.无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12.注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基
因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。样品溶
解后从高电压控制下的细针中喷出,形成的带电荷微小液滴从一个小孔直接进入质谱仪的真空室中,在其钟被一股惰性气体干燥形成气态离子,这些气态离子从分析仪向探测器加速(飞行)。
15.机制辅助的激光解析/离子化(MAIDI):这一技术通过质谱产生离子,这适合于没有降
解的大蛋白质的分析。基本原理是将分析物分散在机制分子中并形成晶体,当用激光照射晶体时,基质分子吸收激光能量,样品解吸附,基质-样品之间发生电荷转移使样品电子分离。
16.质谱(MS):是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质
量的准确确定成为可能。基本原理:将分析物分散在基质分子中并形成晶体,当用激光照射晶体时,基质分子吸收激光能量,样品解吸附,基质—样品之间发生电荷转移使样品分子电离。
17.微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通
过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
18.虚拟消化:是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由
计算机进行的一种理论上的蛋白裂解反应。
19.分子途径是指一组连续起作用以达到共同目标的蛋白质。
20.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致
药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
22.权重矩阵(序列轮廓):是一种描绘蛋白质结构域家族相序列的方法。它们表示完全
结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法。(课件定义)基础上针对特定的应用目标而建立的数据库。
23.系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24.系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
25.蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26.进化树:物种的进化被表现成为一系列的分叉,并符合分类理论,这些树就叫做进化树。
27.DBGET/LinkDB:由日本的化学研究所和人类基因组中心所开发的在线数据检索工具。
也见Entrez,SRS。
28.肽指纹图谱:蛋白质注释的一种方法,用质谱技术确定肽分子量(由蛋白酶消化产生)
并用来搜索蛋白质数据库找到与“虚拟消化”蛋白质相匹配项。
29.E值:对某个已识别出的相似度值S,E值是分值大于等于S的期望频率,改值可以被
理解为期望随机得到等于S或大于S值的分值数目。
30.相似度表和距离表:使显示物种间一套选定字符的相关性的表格,采用匹配的百分比(相
似度表)或者差异的百分比(距离表)来表示。
31.无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法
和数据本身的分析方法。有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
32.距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得
出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
33.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理
和注释; 二级数据库:对原始生物分子数据进行整理、分类的结果,即非原始的实验数据,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
1.常用的三种序列格式:NBRF/PIR,FASTA和GDE
2.三个核算序列数据库:GenBank,EMBL和DDBJ
3.蛋白质序列数据库:SWISS-PROT和TrEMBL
4.提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)5.目前由NCBI维护的大型文献资源是PubMed
6.数据库常用的数据检索工具:Entrez,SRS,DBGET
7.常用的序列搜索方法:FASTA和BLAST
8.高分值局部联配的BLAST术语是HSPs(高分值片段对),E(期望值)
9.多序列联配的常用软件:Clustal10.蛋白质结构域家族的数据库有:Pfam,SMART
11.系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法
12.系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法
13.常用系统发育分析软件:PHYLIP
14.检测系统发育树可靠性的技术:bootstrapping和Jack-knifing
16.查找简单基因的程序:NCBI ORF finder
17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18.二级结构的三种状态:α螺旋,β折叠和β转角
19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20.通过比较建模预测蛋白质结构的软件有SWISS——MODEL网站
21.蛋白质质谱数据搜索工具:SEQUEST(原理:经试验确定的肽或肽片段的质谱与数据库中预测的质谱进行匹配)。22.分子途径最广泛数据库:KEGG
23.Entrez搜索:PubMed的文献数据库MEDLINE。SRS搜索方式:标准搜索,扩展搜索。
1.FASTA序列格式: 第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。
NBIR/PIR序列格式: 第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。GDE序列格式: 与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)
2.BLAST的五个子程序(1)Blastp,用蛋白质查询蛋白质序列,可以找到具有远源进化关系的匹配序列,方法是用待搜索蛋白序列与蛋白数据库比较。(2)Blastn,用核苷酸 查询核苷酸序列,适合寻找分值较高的匹配,不适合远源关系,待搜索核酸序列与核酸数据库比较(3)Blastx,用蛋白质查询已翻译核苷酸序列,适合新DNA序列和EST序列的分析,将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较。(4)Tblastn,用已翻译核苷酸查询蛋白质,适合寻找数据库中尚未标注的编码区,将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比。(5)Tblastx,用已翻译核苷酸查询已翻译核苷酸序列。适合分析EST序列,无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列。
4.PSI-Blast的原理:是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。具体做法是最初对查询序列进行BLAST搜索。接着把这次查找得到的每一击中项(高于选择的E值的选项)作为BLAST搜索第二次迭代的查询序列。第二次迭代应该找到比最初查询序列更多的进化关系,重复(迭代)这个过程直到找不到有意义的相似序列为止。
5明该树是可信的。第二,数据可以被重新取样,来检测他们系统上的重要性。在一种被称为bootsrapping的技术中,数据被随机从多序列联配的任何位置取样,接着被整合进入新的人工联配,这些联配之后通过构建树来检测。由于取样是随机的,一些位置可能被多次取样,而另一些则没由被取样过。Jack-knifing是一种和上述相似的过程,其中50%的原始数据被重新取样构成一个新的矩阵,再从该矩阵重新构建系统发育关系。
7. 原核生物和真核生物基因组中的注释所涉及的不同问题:在原核生物中,基因密度很高
(也就是说,只有很少的基因组DNA)并且绝大多数基因不含内含子。在真核生物中,基因密度下降并且由于物种自身复杂的增高而使基因复杂度也增高。因此,在高等真核生物基因组中寻找基因可能会非常困难。
9.预测蛋白质三级结构的三种方法 1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型; 2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型; 3)从头预测法:根据序列本身从头预测蛋白质结构。
11.先导化合物的来源有四种来源:1)通过偶然性观察发现的先导化合物(这个方法最
著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)
2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)
12.简述DNA计算机的基本原理: 1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。.DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。
13.简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?
试管方式:就是在一个或多个试管的溶液里进行生化反应;
表面方式:是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。优点:(1)操作简单,易于实现自动化操作;(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10的5次方倍;(5)结果易于纯化。
14.简述PCR引物设计的基本原则及其注意要点原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。注意要点:
1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。
2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。
3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。
4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。
5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。
6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。
7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。
8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。
15.假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设
计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)
1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。
2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。
3、最后用距离法构建系统发育树。
16.假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。
1、用该序列进行BLASTP搜索。
2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。
3、再用ClustW进行多序列比对。
4、用人工神经网络的方法对其结构进行结构预测。
5.多序列联配的意义:
1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;
3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。
6.系统发育学的研究方法: 1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到; 2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列; 3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;
8.简述人工神经网络预测蛋白质二级结构的基本步骤。
(1)输入数据(来自PDB)(2)产生一个神经网络(一个计算程序)(3)用已知的蛋白质二级结构来训练这个模型(4)由训练好的模型来给出未知蛋白的一个可能的结构
(5)最后从生物角度来检验预测的一系列氨基酸是否合理
10.分子途径和网络的特点:(1)分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们可能包含了多个分支,盘绕的连接和回路。(2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。
第二篇:生物信息学
浅谈对生物信息学的认识
摘要生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学, 是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。经过一学期的学习,我学到了很多很有用的知识,给我印象最深的有序列比对、蛋白质结构分析、核酸序列分析、数据库及数据库检索等内容。关键字:生物信息学认识基因组学数据库
时光飞逝,一学期马上就要结束了,本学期的专业选修课也即将结束。在上课之前,我一直认为生物信息学就是在讲关于人类及动物的基因,以及基因之间的差别。但是,刚上了几节课,我就发现生物信息学根本不是我想象的那么简单,就这样我怀着对自己的怀疑和对这门课的好奇走进了这门课。
生物信息学是一门新兴的、正在迅速发展的交叉学科,美国国家基因组研究中心认为, 生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学(Bioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics, and computers)。
现代生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学, 是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。
在这短短的一学期课中,在老师的带领下,我们学到了很多关
于生物信息学的知识,其中给我印象最深的有序列比对、蛋白质结
构分析、核酸序列分析、数据库及数据库检索等内容。
比如,序列比对,它的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学角度来看,它包含很多意义;如从
相互重叠的序列片段中重构DNA的完整序列等。老师主要给我们介
绍了blast比对。
再如,对蛋白质的分析。比如我们实验测定了一条蛋白质序列
或者从DNA序列翻译得来一条蛋白质序列,我们要借助生物信息学
方法来对它进行基本性质及结构分析。其中基本性质包括它的分子
量、氨基酸数目、排列顺序、等电点分析等。结构分析包括跨膜螺
旋分析等。要运用的工具是protparam tool 和TMHMM。对于这两
个工具我都进行了实际操作练习,我觉得这对我们以后的理论学习
和实验分析都非常重要。现代生物信息学的主要研究领域及其进展
1、基因组学和蛋白组学研究
基因组和蛋白组研究是生物信息学的主要内容.同样, 生物信息
学是基因组和蛋白组研究中必不可少的工具。
基因组学(Genomics)和蛋白组学(Proteomics)的实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息.这方面的研究已成为生物信息学的主要研究内容之一.一种生物的全部遗传构成被称为该种生物的基因组.有关基因组的研究称为基因组学.其中, 序列基因组学(Sequence genomics)主要研究测序和核苷酸序列;结构基因组学(Structural genomics)着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学
(Functional genomics)则研究以转录图为基础的基因组表达图谱;比较基因组学(Comparative ge2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。
蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的.蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量, 基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的.在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组, 代表这一有机体全部蛋白质组成及其作用方式.有关蛋白组的研究称为蛋白组学.其中, 蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。生物信息学在基因组和蛋白组研究中所起的作用主要有:(1)基因组信息结构的计算分析.即对基因组数据进行大规模并行计算并预测各种新基因和功能位点, 研究大量非编码区序列的信息结构和可能的生物学意义。(2)模式生物全基因组信息结构的比较研究.即
对已完成全基因组测序的各种模式生物的基因组信息结构进行比较分析, 包括同源序列的搜索比较和指导基因克隆.(3)功能基因组的相关信息分析, 包括对基因表达图谱及其相关算法和软件的研究, 与功能基因组信息相关的核酸、蛋白质的空间结构的预测模拟以及蛋白质的功能预测。
2、生物信息数据库
复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息,对这些信息的储存、检索、比较分析必须借助于计算机数据库技术, 包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。现有的数据库有:核酸序列数据库(GenBank、EMBL、DDBJ)、基因组数据库、基因图谱数据库、蛋白质序列数据库(SWTSS-
PROT、PIR)和蛋白质结构数据库(Interpro)等。随着生命科学的不断发展,数据库种类不断增加、结构日益复杂、使用也越来越方便。
生物信息学作为一门新兴学科已经成为生命科学研究中必不可少的研究手段 本文对数据库与数据库搜索序列比对蛋白质结构预测药物设计基因芯片技术几个方面做了介绍较为系统地阐述了生物信息学在这些领域的应用 当然它所涉及的内容与方法远远不只上面提到的那些 新基因和 的发现与鉴定非编码区信息结构分析遗传密码的起源和生物进化完整基因组的比较
研究 大规模基因功能表达谱的分析等都是生物信息学研究的对象 相信不久的将来生物信息学会在生命
科学领域扮演越来越重要的角色。
参考文献:
1、现代生物信息学及其主要研究领域 萧浪涛(湖南农业大学理学院, 湖南长沙 410128)
2、生物信息学技术进展 郭志云 张怀渝 梁龙 军事医学科学院 生物工程研究所,北京100071;四川农业大学生命科学及理学院,雅安 6250143、利用生物信息学技术研究蛋白功能的几种方法 王剑利 杨章民综述 王一理审阅 西安交通大学医学院免疫病理学研究室(西安, 710061)
第三篇:生物信息学
生物信息学是上世纪90年代初人类基因组计划(HGP)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。
本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一 熟悉生物信息学网站及其数据的生物学意义
实验目的:
培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。
实验原理:
利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息
学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。
实验内容:
1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描
述网站特征;
2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;
3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。实验报告:
1.各网站网址及特征描述;
2.代表性数据的下载和生物学意义的描述;
3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学
研究所利用。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学手册》 郝柏林 等著,上海科技出版社,2004;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验二 利用BLAST进行序列比对
实验目的:
了解BLAST及其子程序的原理和基本参数,熟练地应用网络平台和Linux计算平台进行本地BLAST序列比对,熟悉BLAST结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。
实验原理:
利用实验一下载的核算和蛋白质序列,提交到NCBI或者其他拥有BLAST运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入BLAST命令进行计算,获得结果文件。
实验内容:
1.向网上BLAST服务器提交序列,得到匹配结果;
2.本地使用BLAST,格式化库文件,输入命令行得到匹配结果;
3.对结果文件进行简要描述,阐述生物学意义。
实验报告:
1.阐述BLAST原理和比对步骤;
2.不同类型BLAST的结果及其说明;
3.讨论:不同平台运行BLAST的需求比较。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。
实验三 利用ClustalX(W)进行
多序列联配
实验目的:
掌握用Clustal X(W)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。
实验原理:
首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过UPGMA方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用Myers和Miller算法实现。
实验内容:
1.明确软件所支持的输入文件格式,搜集整理出合适的数据;
2.在Windows环境运行Clustal X,在Linux环境运行Clustal W;
3.实验结果及分析,用TREEV32或Njplotwin95生成NJ聚类图。
实验报告:
1.整理好的符合Clustal的序列数据;
2.提交数据网页记录和各步骤记录;
3.提供聚类图和多序列联配图,并说明意义。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。实验四 ESTS分析
实验目的:
熟悉使用一系列生物信息学分析工具对测序得到ESTs序列数据进行聚类处理,由此对获得表达基因的丰度等相关信息,并且对这些表达基因进行功能的初步诠释,为后续实验通过设计RACE引物获得全长基因,以及进一步的功能注
释和代谢途径分析做好准备。
实验原理:
首先用crossmatch程序去除ESTs原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。
实验内容:
1.运行CodonCode Aligner程序,并用它建立工程文件,导入例子文件
夹里面的数据;练习对序列的各种查看方式。
2.使用CodonCode Aligner程序里的Clip Ends, Trim Vector, Assemble
等功能,完成序列的剪切、去杂质、组装工作。
实验报告:
1.实验各步骤记录和中间结果文件;
2.举例简要说明结果文件中数据的生物学意义。
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;
《基因表达序列标签(EST)数据分析手册》 胡松年 等著,浙江大学出版社,2005。
实验五 利用Primer Premier5.0设计
RACE引物
实验目的:
熟悉PCR引物设计工具Primer Premier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计PCR引物。
实验原理:
PCR实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ESTs分析结果,对于其中需要获得全长的基因进行RACE引物的设计,及5’和3’RACE引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因CDS序列。最后设计已知全长基因序列的PCR扩增引物。
实验内容:
1.从网站下载并安装Primer Premier5.0;
2.从 GenBank 中任意获取一个 DNA 序列,设计出该序列的合适引物; 实验报告:
1.实验各步骤使用的数据、运算平台、结果文件记录;
2.比较不同引物设计平台和不同PCR实验的差别;
参考书目:
《生物信息学概论》 罗静初 等译,北京大学出版社,2002;《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003。
实验八 perl程序的安装、编写、调试 实验目的:
培养学生能在windows和Linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力,熟悉perl语言基本语法,学会熟练编写和运用perl程序进行基础生物信息学研究。
实验原理:
Perl语言是一门通用的脚本语言,具有强大的字符串处理功能,是生物信息学研究的强大帮手,学会了perl语言,就能方便地处理生物信息学研究中遇到的各种字符串文本,促进研究的快速进行。
实验内容:
1.下载perl程序在Windows和Linux下的安装包并进行安装;
2.编写简单的perl程序,并学会debug;
3.编写具有简单功能的碱基处理perl程序。
实验报告:
1.perl解释器安装方法;
2.perl解释器debug方法;
3.讨论:perl语言在生物信息学研究中所起到的积极作用。
参考书目:
《PERL 编程24学时教程》(美)皮尔斯著 王建华等译,机械工业出版社,2000;
《生物信息学手册》 郝柏林 等著,上海科技出版社,2004;《生物信息学实验指导》 胡松年 等著,浙江大学出版社,2003
第四篇:生物信息学小结
1. 什么是(基因)生物信息学?
目前一般意义的生物信息学是基因层次的
它是一个包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面学科领域。
生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
他是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。基因组信息
蛋白质的结构模拟 药物设计
它们是生物信息学的三个重要组成部分,生物信息学目前已在理论生物学领域占有了核心地位,它广泛地应用在生物、医药、农业、环境等学科。
2.广义生物信息学主要包括哪几个方面? 广义生物信息学主要包括如下几个方面:
一、生物的遗传信息
DNA―RNA―蛋白质,遗传信息—转录—翻译,遗传信息生物信息学。
二、生命活动的调控
基因的功能、表达和调控(表观遗传学)。蛋白的结构、功能和调控;细胞活动(分化、发育、衰老、死亡)的调控,器官、系统、整体活动的调控;节律、生物钟、分蘖、生长、开花、结果、营养的吸收、传输、转化、对外界信号的反应:含羞草、抗逆性。
三、生物电磁学与电磁生物学
生物电磁学:生命活体在不同层次(电子、离子、原子、基因、细胞、组织、整体等)的活动和不同属性(包括思维、精神)活动时以及和外界环境(生命体周围直至宇宙)相互作用时反映出来的各种电磁信息。人体的电磁辐射(包括发光):频率、强度、频谱。人体信号的调制方式:调幅、调频、编码。
电磁生物学:电磁辐射对生物体的影响,电磁场导致DNA突变,体内细胞电离、极化状态变化导致疾病。
四、视觉系统与光信息处理
视网膜神经元回路与信息处理、彩色视觉及彩色图像的编码、变换机制、眼动成象机制及宽视场、消色差动态成象系统、视觉认知机制及其图像信息的智能模式识别、不同状态立体视觉机制和静态、动态立体视锐度。
五、脑和神经系统与信息
脑的感知觉信息处理原理及其应用,学习、记忆、思维,逻辑思维和形象思维,思维模型与信息处理系统新原理的研究,新的计算模型、新型计算机、如:神经计算机。
六、生物体结构与微光机电系统
DNA驱动的微细机器人,生物大分子到细胞基本结构体系的自组装、自组织,创造新物质的分子工程学研究,分子聚集体的化学。
纳米生物技术将纳米技术和生物技术相集成,在生物医学、电子学、材料学、环境科学等诸多领域具有良好的应用前景。在生物芯片、分子马达、生物探针、纳米生物材料等迅速发展。
七、基因芯片、蛋白质芯片等
目前一般意义的生物信息学是基因层次的,是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
3.Internet有哪些基本功能?
Internet不仅向其用户提供了全球范围的信息交流与快速通讯手段,其本身也具有极其丰富的信息资源,包括新闻、书刊杂志、数据库、计算机软件、多媒体资料等,也包括大量的生物信息学资源。
4.什么是Entrez?Entrez主要包括哪几个数据库?
Entrez(http://www.ncbi.nim.nih.gov/entraz)是美国国立医学图书馆国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立的生物医学数据库集成检索系统。系统中的数据库包括核酸序列数据库、蛋白质序列数据库、大分子三维结构数据库、全部基因组、孟德尔人类遗传及通过PubMed检索的MEDLINE。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。
5.PubMed的一般检索方法有几种检索途径?
通过NCBI首页(http://www.ncbi.nlm.nih.gov/)或NCBI的Entrez检索系统(http://www.ncbi.nlm.nih.gov/Entrez/)选择PubMed链接选项或直接在浏览器地址栏(URL)中输入“http://www.ncbi.nlm.nih.gov/entrez/query.fcgidb=PubMed”即可进入
PubMed检索界面。PubMed有多种检索途径,包括自由词、文献作者、规范主题词(MeSH)、期刊名称、文献出版年代、文献类型、文献语种、物质名称、记录入档日期、文献出版日期等。既可以单一字段检索,又可以利用高级布尔逻辑表达式多字段组配检索。
6.国际上三大DNA数据库是什么数据库? ,国际三大DNA数据库:NCBI的GenBank,欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)、日本DNA数据库(DNA Data Bank of Japan,DDBJ)
7.简述进行基因搜索时的基本步骤 ?
在进行基因搜索时的基本步骤:
1、寻找DNA序列中基因不可能出现的区域,并将此遮蔽起来。
2、在启动子区寻找一致的模式,找出转录因子识别DNA结合区域。
3、寻找转录的起始密码、终止密码和剪切位点。
4、找出编码区。然后将全部收集到的信息汇总整理成总体上尽可能连贯的谱图。注意进行不同的分析时使用不同的软件工具以及程序适用的物种选择和应用范围等。
8.BLAST的主要功能都包括什么 ?
1、核酸数据库搜索
组合基因组检索;分为标准的核酸与核酸数据库搜索;MEGABLAST提供大量长序列的比较;完全匹配的短序列搜索;特殊搜索。
2、蛋白数据库搜索
分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系的存在与否和进一步获取这个蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索。
3、已翻译蛋白的BLAST搜索
包括[blastx],[tblastn],[tblastx]
4、保守区域的搜索:主要使用RPS-BLAST程序完成。
5、配对序列的两两比较:用于核酸和蛋白的两两比较分析。
6、针对特定数据库的搜索:比如人类基因组、微生物基因组等。
9.利用核酸序列进行基因结构预测的基本步骤是什么?(不确定)一个全面的基因搜索方案,无论是通过单个集成的程序实现,还是通过多个程序分步实现,基本的思路是相同的:
1、通常如果一个序列中某一区域出现重复序列,该区域不大可能处于调控区域和编码区域。
2、如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。
3、一段序列上存在着统计的规则性,表现为显著的“密码子偏好”,是蛋白编码区最明显的标志之一。
4、与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式(例如,众所周知的“TATA box”和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。
10.根据蛋白质的氨基酸序列预测其空间结构主要预测方法有哪两类?
预测方法主要有两类:
一、采用分子力学、分子动力学的方法,根据物理化学的基本原理,从理论上预测蛋白质分子的空间结构。
二、通过对已知空间结构的蛋白质进行分析,找出一级结构与空间结构的关系,总结出规律,用于新的蛋白质空间结构的预测。本章介绍利用分析蛋白质氨基酸的组成来确认未知蛋白的计算工具、蛋白翻译后修饰、蛋白功能预测。
组成蛋白质的氨基酸序列为蛋白质的一级结构,蛋白质的一级结构决定了蛋白质的性质。组成蛋白质的氨基酸的物理和化学性质早已被人熟知。构成蛋白质的20种氨基酸由于化学构造不同,在结构和功能上具有多样性,任一残基对蛋白质的物理和生化性质都会产生影响,即序列决定构象。由于蛋白质空间结构的基础是一级结构,近年来根据蛋白质的氨基酸序列预测其空间结构,受到科学家的关注。
11.谈谈学习生物信息学的体会(自己发挥吧)
有点粗糙,见谅
六哥
第五篇:生物信息学论文
生物信息学的进展综述
韩雪晴
(生物工程1201班,学号:201224340124)
摘要:生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性系统科学。80年代以来新兴的一门边缘学科,信息在其中具有广阔的前景。伴随着人类基因组计划的胜利完成与生物信息学的发展有着密不可分的联系,生物信息学的发展为生命科学的发展为生命科学的研究带来了诸多的便利,对此作了简单的分析。
关键词:生物信息学;进展;序列比对;生物芯片
A review of the advances in Bioinformatics
Han Xueqing(Bioengineering, Class1201,Student ID:201224340124)
Abstract: Bioinformatics is the science of comprehensive system of information content and information flows to a study on the biological and bio related in the system.The edge of an emerging discipline since 80, has broad prospects in which information.With the human genome project was completed and the development of bioinformatics are inextricably linked, for the life science research development of bioinformatics for the development of life science has also brought a lot of convenience, has made the simple analysis.Keywords:
bioinformatics;progress;Sequence alignment;biochip
1、生物信息学的产生背景
生物信息学是20世纪80年代末开始,随着基因组测序数据迅猛增加而逐渐兴起的一门学科[1]。应用系统生物学的方法认识生物体代谢、发育、分化、进化以及疾患发生规律的不可或缺的工具[2]。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。
2、生物信息学研究内容
主要是利用计算机存储核酸和蛋白质序列,通过研究科学的算法,编制相应的软件对序列进行分析、比较与预测,从中发现规律。白细胞介素-6(IL-6)是机体重要的免疫因子,但在两栖类中未见报道。采用生物信息学方法对两栖类模式动物非洲爪蟾IL-6进行分析[3]。以人IL-6基因对非洲爪蟾数据库进行搜索、分析,并采用RT-PCR方法对所得序列进行验证。结果表明,非洲爪蟾IL-6基因位于scaffold_52基因架上,具有保守的IL-6家族基序[4]。采用生物信息新方法进行不同物种的免疫基因挖掘、克隆,是一种有效的方法[5]。
2.1序列比对
比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA[6]。序列数据库搜索最著名且最常用的工具之一便是BLAST算法。FASTA算法是另一族常用的序列比对及搜索工具[7]。
2.2结构比对
比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。
2.3蛋白质结构预测
从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构[8]。
3、生物信息学的新技术 3.1 Lipshutz(Affymetrix,Santa clara,CA,USA)
描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序[9]。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测[10]。
3.2基因的功能分析
Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务基因组水平的基因功能分析。
4生物信息学前沿
4.1生物芯片技术
4.1.1生物芯片的简介
生物芯片技术是通过缩微技术,根据分子间特异性地相互作用的原理,按照芯片上固化的生物材料的不同,可以将生物芯片划分为基因芯片、蛋白质芯片、细胞芯片和组织芯片。4.1.2生物芯片的基本内容
生物芯片技术通过微加工工艺在厘米见方的芯片上集成有成千上万个与生命相关的信息分子,它可以对生命科学与医学中的各种生物化学反应过程进行集成,从而实现对基因、配体、抗原等生物活性物质进行高效快捷的测试和分析。4.1.3生物芯片的发展
生物芯片将会给21世纪整个人类生活带来一场“革命”。生物芯片产业也有望与“微电子芯片”并列成为21世纪最大的产业之一。4.1.4与生物芯片相关的技术
平面微加工技术、微机械技术、CCD成像技术、基因芯片技术等。
4.2药物设计与生物信息学
药物基因组学可以说是基因功能学与分子药理学的有机结合,在很多方面这种结合是非常必要的。药物基因组学以药物效应及安全性为目标,研究各种基因突变与药效及安全性的关系。
4.3基因治疗
基因治疗(gene therapy)是指将外源正常基因导入靶细胞,以纠正或补偿因基因缺陷和异常引起的疾病,达到治疗目的[11]。也就是将外源基因通过基因转移技术将其插入病人的适当的受体细胞中,使外源基因制造的产物能治疗某种疾病[12]。通过对miR-29a进行靶基因预测及相关生物信息学分析,为miR-29a靶基因的实验验证提供数据支持,以期为深入研究miR-29a的生物学功能和调控机制提供理论指导[13]。从广义说,基因治疗还可包括从DNA水平采取的治疗某些疾病的措施和新技术。在基因治疗中迄今所应用的目的基因转移方法可分为两大类:病毒方法和非病毒方法[14]。
4.4虚拟细胞--人工生命的模型
虚拟细胞是应用信息科学的原理和技术,通过数学的计算和分析,对细胞的结构和功能进行分析、整合和应用,以模拟和再现细胞和生命的现象的一门新兴学科。虚拟细胞亦称人工细胞或人工生命[15]。目前,国际上已有两个虚拟细胞问世,一个是日本的原核虚拟细胞模型,一个是美国的真核虚拟细胞模型。
参考文献
[1].张阳德,生物信息学(第二版)科学出版社,2010,21世纪高等院校教材ISBN978-7-03-023931-0 [2].迈克尔 R.巴恩斯(Barnes.M.R.),遗传学工作者的生物信息学,科学出版社2010年10月1日出版ISBN 9787030254900 [3].齐志涛;张启焕;王资生;许伟;黄贝;王爱民,非洲爪蟾IL-6基因的克隆及生物信息学分析 出版日期: 2010 [4].齐志涛;张启焕;黄贝;王资生;仇明;黄金田;许伟;王爱民.非洲爪蟾BAFF及其信号通路相关基因的比较生物信息学分析,生物技术,2011,(4):
[5].廖明帜,生物背景学生的《生物信息学》课程教学思考与探索,教育教学论坛,2014年第36期
[6].Dan E.Krane&Michael L.Raymer,生物信息学概论,清华大学出版社 2010年出版
[7].Eddy S R.Profile Hidden Markov Models.Bioinformatics,1998,14(9):755~763 [8].Coombes KR,Fristche HA,Clarke,et al.Qutility control and peak finding for proteomics data collected from nipple aspirate fluid by surface-en-hanced laser desorption and ionization.Clin Chem,2013,49(10):1615~1623 [9].Lim HA,Batt tR.TIBTECH,1998;16(3)):104.[10].Williams n.Science,1997;277(5328):902.[11].顾健人,曹雪涛,基因治疗,北京:科学出版社,2011 [12].余国膺,生物信息学,中国心脏起博与心电生理杂志,2014年01期 [13].施伟杰
曾玉
姚纯
曹笑梅
童华,miR-29a靶基因预测及其相关生物信息学分析,现代生物医学进展,2014年32期
[14].安冬
姜涛
张翠丽
殷玉玲
曹雪姣
辛毅,臧师竹利用生物信息学研究肥胖与2型糖尿病患者肝组织基因表达变化,《现代生物医学进展》 2014年30期
[15].孙冬泳,汤健,虚拟细胞-人工生命的模型,中华医学杂志,2011,21(81):1342~1344