第一篇:王晓然,10微生物,实验3生物信息学作业上海师范大学实验报告
上海师范大学实验报告
实验序号 实验3
实验名称
DNA或RNA序列分析
实验三
一、实验内容
1.Search for the Blocks in the 5'UTR of HCV, BVDV and CSFV.写下Blocks的序列, 序列在各病毒5'UTR中的位置以及Blocks的重要程度。2.Search for the Blocks in the 5'UTR of BDV, BVDV and CSFV.写下Blocks的序列, 序列在各病毒5'UTR中的位置以及Blocks的重要程度。
二、实验报告的内容:
1、基本原理
(序列分析的基本原理的有关内容)
利用计算机对基因序列中包含的数据(全序列或部分序列)进行数据挖掘,而其实现的手段是将被分析的序列的元素通过各种算法转化为简单的,直观的,便于计算机处理的数值的方法。
为了找出序列中的Blocks,可以借助Gibbs抽样法,也就是在多重序列中找出体现序列特性的最低模型,经Gibbs抽样法或EM法等反复抽样分析,得到Blocks,则包含在Blocks的序列已经具有显著性意义。2,操作步骤
(1)将MACAW软件复制到C盘根目录下,因为是外文软件,其所在的文件夹的路径中不能包含中文字符。
(2)双击MACAW.exe,在file菜单下选择 new project,弹出对话框后,在sequence type中选择DNA(3)打开数据文件HCV5'UTR.txt BVDV5'UTR.txt CSFV5'UTR.txt,将基因序列整理到一个txt文件中,即以下内容,将以下内容通过快捷键Ctrl+C, Ctrl+V复制粘贴到MACAW中,内容是: >HCV5'UTR gccagcccctgttgggggcgacactccaccatagatcactcccctgtgaggaactactgtcttcacgcagaaagcgtctagccatggcgttagtatgagtgtcgtgcagcctccaggaccccccctcccgggagagccatagtggtctgcggaaccggtgagtacaccggaattgccaggacgaccgggtcctttcttggatcaacccgctcaatgcctggagatttgggcgtgcccccgcgagactgctagccgagtagtgttgggtcgcgaaaggccttgtggtactgcctgatagggtgcttgcgagtgccccgggaggtctcgtagaccgtgcacc
>BVDV5'UTR atgcccttagtaggactagcaaaaggaggggactagcggtagcagtgagttcattggatggcctaatccctgagtacagggaagtcgtcaatggttcgacactccatcagttgcggagtctcgagatgccatgtggacgagggcatgcccaaggcacatcttaacctatgcgggggttgcataggcgaaagcaccattcgtggtgttatggacacagcctgatagggtgtagcagagacctgctattccgctagtaaaaactctgctgtacatggcacatggagttga
>CSFV5'UTR Gtatacgaggttagttcattctcgtatgcatgattggacaaattaaaatttcaatttggatcagggcctccctccagcgacggccga(4)(5)(6)
(7)(8)actgggctagccatgcccacagtaggactagcaaacggagggactagccgtagtggcgagctccctgggtggtctaagtcctgagtacaggacagtcgtcagtagttcgacgtgagcagaagcccacctcgatatgctatgtggacgagggcatgcccaagacacaccttaaccctagcgggggtcgctagggtgaaatcacaccacgtgatgggagtacgacctgatagggtgctgcagaggcccactattaggctagtataaaaatctctgctgtacatggcacatggagt 在edit菜单下选择select all 在alignment菜单下选择search for Blocks 弹出的对话框中选择Gibbs sampler,默认的pattern width参数为18到24,点击begin开始,选择评分最高的的blocks,点击link,可以把blocks放在一起,使得观察起来更直观。
回到schematic对话框中,鼠标点击序列名称,出现小黑箭头时,左下方会显示这几个序列的blocks所在的位置是第几到第几个核苷酸。在window菜单下选择alignmen,弹出alignmen界面,然后在file菜单下选择export输出结果,序列中大写字母的序列是blocks
三、实验结果
1.5'UTR of HCV, BVDV and CSFV这些序列的blocks以及位置在哪里?重要性如何? 答:HCV5'UTR: 278-ACTGCCTGATAGGGTGCTTGCGAG-310 重要性:maybe BVDV5'UTR:214-ACAGCCTGATAGGGTGTAGCAGAG-237 CSFV5'UTR:306-ACGACCTGATAGGGTGCTGCAGAG-329 2.5'UTR of BDV, BVDV and CSFV这些序列的blocks以及位置在哪里?重要性如何? 答:BDV5'UTR:
356-TCTGCTGTACATGGCACAT-374
重要性:yes BVDV5'UTR:
262-TCTGCTGTACATGGCACAT-280 CSFV5'UTR:
357-TCTGCTGTACATGGCACAT-375
四、讨论
1. 结果分析:HCV的5’URT区与BVDV、CSFV中存在blocks,但相关度不高,而BDV, BVDV and CSFV三个序列间存在相关度很高的blocks。2. 经验教训;注意事项;心得体会:
(1)Macaw是外文软件,存在的盘符路径中不能有中文字符。(2)在导入序列之前,必须先新建一个project,确定是寻找蛋白质blocks还是DNA的blocks。(3)只有FASTA格式的DNA序列才能被Macaw软件识别,可以在txt文档中编写FASTA格式的序列,写序列名称时,必须加个>号。(4)在搜索blocks之前,必须选定寻找范围
(5)想要导出几个序列之间的blocks,转换成txt文档时,必须切换到alignmen窗口。并且起文件名是最好是英文字母与数字的组合,不然保存可能会失败。