高分跪求过程建模与系统识别论文论文要求如下，选择其一；本人邮箱：397099567@qq.com

2024-05-14

1. 高分跪求过程建模与系统识别论文论文要求如下，选择其一；本人邮箱：397099567@qq.com

基于同源建模的蛋白质结构预测方法的研究
陈红梅， 周俊祥
（商丘师范学院计算机科学系，河南商丘476000）
摘要：针对profile-profile 方法中profile 中出现的数据稀疏问题所采用的数据平滑技术以及对于生成排列过程
中对于新的计分体系所采用的动态规划算法，并且在HOMSTRAD 数据库上进行的排列精度实验，结果证明采用
profile-profile 方法并结合数据平滑和动态规划技术可以有效地提高查询序列和目标序列的排列精度.
关键词：蛋白质结构预测； 同源建模； 数据平滑
中图分类号：O 24 文献标识码：A
生物信息学作为一门新的学科，它把基因组DNA 序列分析作为源头，在获得蛋白质编码区的信息后进
行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计. 因此在生物信息学的研
究中，确定蛋白质序列的功能也就成为一个重要的方向. 但是在目前已知的蛋白质序列数据库中，已经根
据实验测出其结构和功能的蛋白质只占其中的小部分，远远无法满足实际应用的需要，于是开发自动处理未
知蛋白质序列的方法成为一个越来越重要的问题.
1 蛋白质结构预测过程
不同来源或者不同生物功能的蛋白质可能有相似的结构，通常认为序列相似意味着结构相似. 因此，同
源建模法[1-2]就是利用结构已知的家族成员（模板）预测新序列的结构. 同源建模法一般包含以下几个步骤：
第一，识别模拟的模板；第二，目标序列和模板序列的排列；第三，构建模型；第四，构建非保守的loop 区；第
五，安装侧链；第六，模型修饰；第七，结构合理性评估.
本文重点讨论的内容是采用数据平滑技术提高目标序列和模板序列的排列精度，以及对两种数据平滑
算法精度的实验数据分析.
2 目标序列和模板序列的排列
2．1 排列过程概述
在查询序列和目标序列的排列[3]这个过程中，通过局部对比排列搜索工具BLAST 获得了查询序列的模
板，这里我们将要采用引入进化信息的profile-profile 方法[4]完成双序列的排列. 首先，通过识别模板的过
程，获得两个输出的频度profile 和对数profile；接着，在处理中运用数据平滑技术对频度profile 中出现的数
据稀疏进行平滑并获得频率profile；然后，通过获得的频率profile 以及对数profile 构建新的计分体系；再者，
通过带有空位罚分的动态规划算法结合所构建的计分体系获得查询序列和目标序列的排列；最后，在
HOMSTRAD 数据库中，测试查询序列和目标序列的排列的精度并且做出详细的分析.
2．2 Profile-profile 比对方法
为了提高相关联蛋白质的检测质量，对于查询序列以及模板序列引入进化信息是一种经常被应用的方
法. Profile-profile 比对方法就是这样一种将序列之间的进化信息考虑在内的一种方法. 在具体应用Profileprofile
比对方法时，不同的profile-profile 方法的本质区别在于如何计算两个profile 位置之间的分数，其中
profile 是一个向量集，每个向量包含了多序列比对中每种氨基酸在多序列比对的一个特殊位置所出现的频度.
2．3 数据平滑技术
数据平滑技术[5]是自然语言处理中的重要方法. 对于汉语统计语言模型的构造技术，其研究目的在于：
2009 年9 月
通过对大规模真实语料库中的词的上下文同现频度进行统计，获取词的上下文同现概率数据. 对于基于词的
N-gram 模型来说，根据最大似然估计原则（Maximum Likelihood Estimation），词的上下文条件概率p（wi│wi-1
i-N+1
）被
估计为如公式（1）所示： p（wi│wi-1
i-N+1
）= c（wi i-N+1
）
wi∑wi i-N+1
， （1）
其中：c（wi i-N+1
）表示词串wi i-N+1
在训料文本T 中的出现次数.
基于以上数据平滑技术的介绍，并结合蛋白质结构预测中的profile-profile 方法所生成的频率profile 和
对数profile，本文选择了加法数据平滑和Good-Turing 数据平滑技术.
2．3．1 加法平滑Lidstone，Johnson 和Jeffreys 等人提出了一种简单易行的数据平滑方法，称作加法平滑（additive
Smoothing）. 它的基本思想是：为了避免零概率问题，将N-gram 模型中每个N 元对的出现次数加上一个常
数δ（0<δ≤1），相应的N-gram 模型参数padd
（wi│wi-1
i-N+1
）计算公式如（2）所示：
padd
（wi│wi-1
i-N+1
）= c（wi i-N+1
）+δ
wi∑（wi i-N+1
）+δ│V│
. （2）
2．3．2 数据平滑的具体应用结合蛋白质结构预测中的profile-profile 方法所生成的频率profile 和对数
profile，这里主要是基于profile 中的20 个氨基酸的频度进行的，这里本文假设这20 个氨基酸之间是相互独
立的. 因此这里我们的模型参数空间为20. 并分别采用两种数据平滑将频度profile 进行平滑，而后生成我
们所需要的频率profile.
2．4 动态规划技术
在生物信息学中，通常使用动态规划算法来获得两个序列的比对，在这里采用带有空位罚分的动态规划
算法来获取目标序列和模板序列的排列.
在这里我们假定采用空位罚分[6]，y（g）=-d-（g-1）e，其中：d 为gap-open；e 为gap-extension. 通常在这里e＜d.
空位罚分也对应于一个比对的概率统计模型，对于一个给定的序列，在特殊的位置出现空位的概率是空位长
度的函数f（g）与所插入残基概率的乘积，如公式（3）所示：
P（gap）= f（g）
i in gap 仪qxi
， （3）
公式（4～7）有一个前提条件，就是假设空位的长度与它所包含的残基类型无关. 这种情况下，当要将空位出
现的概率转化为对数值进行考虑时，很显然，这里的qxi
可以忽略不计，可以得出如公式（4）所示：
y（g）=log（f（g））， （4）
这样，空位罚分就对应于空位长度概率的对数值了，在计算空位罚分时就可以将罚分值累加求和得到总的罚
分值了.
于是我们将有如下算法描述：
M（i，j）=max
M（i-1，j-1）+s（xi
，yj
），
Ix
（i-1，j-1）+s（xi
，yj
），
Iy
（i-1，j-1）+s（xi
，yj
）
仪
仪仪仪仪仪
仪
仪仪仪仪仪
仪
；
Ix
（i，j）=max
M（i-1，j）-d，
Ix
（i-1，j）-e 仪； Iy
（i，j）=max
M（i，j-1）-d，
Iy
（i，j-1）-e 仪；
其中：xi
代表查询序列中第i 个氨基酸；yj
代表模板序列中第j 个氨基酸；s（xi
，yj
）代表序列中将查询序列中第i
个氨基酸和模板序列中第j 个氨基酸相比对的分数；Ix
（i，j）代表在模板序列的第j 个位置插入空位时，查询序
列第i 个氨基酸和此空位相比对时两序列的最大分数值；Iy
（i，j）代表在查询序列的第i 个位置插入空位时，模
板序列第j 个氨基酸和此空位相比对时两序列的最大分数值；M（i，j）代表长度为i 的查询序列和长度为j 的
模板序列比对的分数值.
2．5 实验结果
为了对采用profile-profile 方法获得的目标序列和模板序列的排列结果有一个评价，本文在HOMSTRAD
陈红梅等：基于同源建模的蛋白质结构预测方法的研究-1109-
河南科学第27卷第9期
数据库中选取了629 对蛋白质序列比对作为标准排
列，将采用profile-profile 方法获得的目标序列和模板
序列的排列与其进行比较获得排列的精度作为评价
的指标. 蛋白质序列的排列精度也就是蛋白质目标
序列排列与蛋白质序列标准排列相比较，排列正确的
氨基酸位置所占的百分比. 如公式（5）所示：
排列精度=
排列正确的比对个数
模板序列长度
. （5）
实验数据分析比较：采用加法平滑时，在其中的
平滑参数δ 取值不同会得到不同的平滑效果. 我分别
对δ 取0．1，0．25，0．5，0．75，1 这5 个参数时进行实验，
获得629 组数据，并抽取30 组数据如图1 所示.
通过图1 可以看出，在测试出的排列精度中，参数δ 取0．1，0．25，0．5，0．75 时，他们的精度平均值在δ 取
0．1 时稍大些，而当δ 取1 时，获得的效果最好.
在测试出的排列精度中，加法平滑（δ 取1）时获得的效果比未平滑要稍微好一些. 这说明采用的加法平
滑算法（δ 取1）对于解决profile 中存在的数据稀疏问题还是有帮助作用的. 在对氨基酸出现频度进行平滑
时，加法平滑（δ 取1）获得的结果还是有明显的提高的.
3 结束语
本文首先讨论了基于同源建模的蛋白质结构预测的基本方法，分析了基于同源建模的profile-profile 方
法与传统方法的差别，并介绍了蛋白质结构预测在生物信息学研究中的地位与作用. 随后文中依次分别介
绍了模板识别、查询序列与目标序列的排列、构建模型以及结构合理性评估的方法与具体的实现过程.
本文重点介绍了查询序列与目标序列排列的全过程，而后分别介绍了排列过程中所用到的profile-profile
方法、数据平滑技术以及排列的动态规划算法. 最后介绍了排列精度的实验部分，这里分别对加法平滑取
不同参数的实验数据进行了比较与分析. 最终得出了在加法平滑（δ 取1）时所获得的排列精度最大.
参考文献：
〔1〕 蒋毅恒，白焰，朱耀春，等． 基于遗传编程的智能建模方法及应用〔J〕． 微计算机信息，2008（3）：150-152.
〔2〕 Dayhoff M O，Hunt L T，Schwartz R M． Protein superfamilies〔J〕． Atlas of Protein Sequence and Structure，1978，5（3）：9-24.
〔3〕 Jason T L，wang Q，Wu H． Application of neural networks to biological data mining：a case study in protein sequence classification
〔C〕//Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Boston，
2000：305-309.
〔4〕 程凌鹏，张景强． 伊蚊C6/36 细胞浓核病毒蛋白衣壳三维结构的测定〔J〕． 中国科学：C 辑，2004，34（1）：75-79.
〔5〕 王志珍． 蛋白质折叠和分子伴侣〔J〕． 生物学通报，2004，39（5）：1-6.
〔6〕 靳利霞，唐焕文． 蛋白质结构预测方法简述〔J〕． 自然杂志，2001，23（4）：217-221.
Prediction-Methods Researqch of Protein Structure
Based on Homologous Modelling
Chen Hongmei， Zhou Junxiang
（Department of Computer Science，Shangqiu Normal College，Shangqiu，476000，Henan China）
Abstract：Data smooth we use in order to solve data sparseness in profile of profile-profile method and dynamic
programming algorithm of new scoring system in the process of alignment． And the experiment of alignment
precision tested in database HOMSTRAD． We improve the precision of alignment between query sequence and
target sequence effectively by profile-profile.
Key words：protein structure prediction； homologous modeling； data smoothing
图1 不同参数加法平滑排列精度
Fig.1 Alignment precision of addition smoothing
for different parameters
1.200 000
1.000 000
0.800 000
0.600 000
0.400 000
0.200 000
0.000 000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
参数取0.1
参数取0.75
参数取0.25
参数取1
参数取0.5
-1110-

2. 用swiss-model进行蛋白质三维结构预测后的问题

蛋白质结构研究方法进展
X-射线晶体学技术
核磁共振衍射技术
电子显微技术质谱法荧光共振能量转移技术（FRET）
同源建模预测蛋白质结构
酵母双杂交，三杂交CO-IP双向电泳目前已经有许多蛋白质结构预测服务通过因特网对公众免费开放。由于结构预测技术本身的局限性，每种预测服务都各有得失。
三级结构预测（同源建模）：
 瑞士生物信息研究所 SWISS-MODEL
 丹麦技术大学生物序列分析中心 CPHmodels
 比利时拿摩大学 ESyPred3D
 英国癌症研究中心 3DJigsaw
二级结构预测（折叠识别）：
 美国哥伦比亚大学 PredictProtein
 英国瓦卫克大学 PSIpred
 印度昌迪加尔的微生物技术研究所 APSSP
 欧洲生物信息研究所（EBI）Jpred
 美国加利福尼亚大学 SSpro
α－螺旋倾向性预测（从无到有）：
Güntert2 Optimal isotope labelling for NMR protein structure determinations Nature 440, 52-57 (2 March 2006) |
doi:10.1038/nature04525
[2] Liu D, Lepore BW, Petsko GA, Thomas PW, Stone EM, Fast W, Ringe D. Three-dimensional structure of the quorum-quenching N-acyl homoserine lactone hydrolase from Bacillus thuringiensis.Proc Natl Acad Sci U S A. 2005 Aug 16; 102(33):11882-7
[3]刘买利 张许叶朝辉 提高生物大分子NMR分辨率和灵敏度的有效方法：TROSY和CRINEPT 波谱学杂志2004.9 371-381
[4]李慧林,施丹,任罡,等. 生物大分子的电子显微学[M ]. 见:叶恒强,王元明编. 电子显微学进展. 北京:科学出版社, 2003.

3. 做蛋白质的三级结构预测，由于该拼接序列不适用于同源建模的方法，只能用threading法，求大神推荐个软件

http://boinc.bakerlab.org 

你看这个网能不能上，应该对你有帮助。

做蛋白质的三级结构预测，由于该拼接序列不适用于同源建模的方法，只能用threading法，求大神推荐个软件

4. 蛋白质结构的结构预测

测定蛋白质序列比测定蛋白质结构容易得多，而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。因此，许多方法被用于从序列预测结构。  二级结构预测  三级结构预测  同源建模：需要有同源的蛋白三级结构为基础进行预测。  Threading法。  “从头开始”（Ab initio）：只需要蛋白质序列即可进行结构预测。由于运算量大，需要有超级计算机来进行，或采用分布式计算，如Rosetta@home等。  四级结构预测：主要是预测蛋白质-蛋白质之间的相互作用方式。

5. 哪位高手有蛋白质同源建模的软件？

用discovery studio，差不多半小时搞定。记得能量优化。

哪位高手有蛋白质同源建模的软件？

6. 蛋白质二级结构的预测方法

蛋白质结构研究方法进展 
X-射线晶体学技术
核磁共振衍射技术
电子显微技术 
质谱法
荧光共振能量转移技术（FRET）
同源建模预测蛋白质结构
酵母双杂交，三杂交
CO-IP
双向电泳

7. 蛋白质结构功能研究的最新方法有哪些？

蛋白质结构研究方法进展
X-射线晶体学技术
核磁共振衍射技术
电子显微技术
质谱法
荧光共振能量转移技术（FRET）
同源建模预测蛋白质结构
酵母双杂交，三杂交
CO-IP
双向电泳


目前已经有许多蛋白质结构预测服务通过因特网对公众免费开放。由于结构预测技术本身的局限性，每种预测服务都各有得失。
三级结构预测（同源建模）：
• 瑞士生物信息研究所 SWISS-MODEL
• 丹麦技术大学生物序列分析中心 CPHmodels
• 比利时拿摩大学 ESyPred3D
• 英国癌症研究中心 3DJigsaw
二级结构预测（折叠识别）：
• 美国哥伦比亚大学 PredictProtein
• 英国瓦卫克大学 PSIpred
• 印度昌迪加尔的微生物技术研究所 APSSP
• 欧洲生物信息研究所（EBI）Jpred
• 美国加利福尼亚大学 SSpro
α－螺旋倾向性预测（从无到有）：
• 欧洲分子生物学实验室(EMBL) AGADIR

参考文献：
[1] Masatsune Kainosho1, Takuya Torizawa1, Yuki Iwashita1, Tsutomu Terauchi1, Akira Mei Ono1 and Peter
Güntert2 Optimal isotope labelling for NMR protein structure determinations Nature 440, 52-57 (2 March 2006) |
doi:10.1038/nature04525
[2] Liu D, Lepore BW, Petsko GA, Thomas PW, Stone EM, Fast W, Ringe D. Three-dimensional structure of the quorum-quenching N-acyl homoserine lactone hydrolase from Bacillus thuringiensis.Proc Natl Acad Sci U S A. 2005 Aug 16; 102(33):11882-7
[3]刘买利 张许叶朝辉 提高生物大分子NMR分辨率和灵敏度的有效方法：TROSY和CRINEPT 波谱学杂志2004.9 371-381
[4]李慧林,施丹,任罡,等. 生物大分子的电子显微学[M ]. 见:叶恒强,王元明编. 电子显微学进展. 北京:科学出版社, 2003.
[5]王大能,陈勇,隋森芳. 电子显微学在结构生物学研究中的新进展. 电子显微学报, 2003, 10.
[6]Robinson  A New Avenue for Mass Spectrometry  2006 February Vol .3 No 2 Nature publishing
[7]Schleifenbaum, A.; Stier, G.; Gasch, A.; et al. J. Am. Chem. Soc., 2004, 126, 11786.
[8]tockholm, D.; Bartoli, M.; Sillon, G.; et al. J. Mol. Biol., 2005, 346, 215.

蛋白质结构功能研究的最新方法有哪些？

8. 同源建模是什么意思

我的理解应该是：同源模建应该是一种蛋白质结构预测方法，具体指是利用同一个家族的蛋白质结构为模板来预测未知蛋白质的结构，基本条件是模板蛋白与待预测蛋白序列同源

高分跪求过程建模与系统识别论文 论文要求如下 ，选择其一 ； 本人邮箱：397099567@qq.com

1. 高分跪求过程建模与系统识别论文 论文要求如下 ，选择其一 ； 本人邮箱：397099567@qq.com

2. 用swiss-model进行蛋白质三维结构预测后的问题

3. 做蛋白质的三级结构预测，由于该拼接序列不适用于同源建模的方法，只能用threading法，求大神推荐个软件

4. 蛋白质结构的结构预测

5. 哪位高手有蛋白质同源建模的软件？

6. 蛋白质二级结构的预测方法

7. 蛋白质结构功能研究的最新方法有哪些？

8. 同源建模是什么意思

高分跪求过程建模与系统识别论文论文要求如下，选择其一；本人邮箱：397099567@qq.com

1. 高分跪求过程建模与系统识别论文论文要求如下，选择其一；本人邮箱：397099567@qq.com