主成分分析在进化分析中的应用研究.docx

资料分类:理工论文 上传会员:翩翩起舞 更新时间:2022-05-13
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:9381
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:在生物信息学的众多研究方向中,生物序列的进化分析是热门的研究之一。一条生物序列是由很多个字母组成的无规律的序列,但其中的无规律的序列中蕴含着很多生物信息,如何对这些信息进行提取,是我们研究的主要内容。

本文中,我们提出了k字间隔序列的概念来反映k字在DNA序列中的分布情况,提取k字的平均间隔和k字间隔序列的Lempel-Ziv(LZ)复杂度作为k字特征,构建了特征向量,这里的k取值从1到6。我们通过主成分分析方法去除了特征向量中的冗余,降低了维数。最后,通过欧式距离计算距离矩阵,通过邻接法构建了48种戊型肝炎病毒和30种哺乳动物线粒体两组数据的进化树。通过与经典结果进行比较,说明了我们方法的有效性。

关键词: DNA序列;进化树;LZ复杂度 

 

目录

摘要

Abstract

1  绪论-1

1.1生物信息学的研究背景及意义-1

1.2研究现状-2

1.3分子生物学知识摘要-3

1.3.1 蛋白质-3

1.3.2 基因-3

1.4 研究内容-4

2 进化树构建方法的研究-5

2.1生物序列分析中的比对方法-5

2.1.1 两两序列比对模型-5

2.1.2多序列比对模型-5

2.2生物序列分析中的非比对方法-6

2.2.1生物序列的图形表示方法-6

2.2.2 生物序列的特征表示方法-6

2.2.3 LZ复杂度方法-7

3 进化树的构建-8

3.1进化树的构建方法-8

3.2进化树的评价方法-8

3.2.1 30种哺乳动物的线粒体基因数据-8

3.2.2 48种戊型肝炎病毒基因数据-11

3.3信息提取与选择-14

3.4结果分析-14

3.4.1 30种线粒体结果分析与对比-14

3.4.2 48种戊型肝炎病毒结果分析与对比-15

总结-17

参考文献-18

致谢-19

相关论文资料:
最新评论
上传会员 翩翩起舞 对本文的描述:本文主要关注生物信息学中进化分析和结构预测的两个方面。我们提出了两种不对齐方法,并基于实际数据构建了一棵进化树。在生物信息学发展初期,相关的研究主要围绕核酸和蛋白......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: