蛋白质结构的结构预测

2024-05-15

1. 蛋白质结构的结构预测

测定蛋白质序列比测定蛋白质结构容易得多，而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。因此，许多方法被用于从序列预测结构。  二级结构预测  三级结构预测  同源建模：需要有同源的蛋白三级结构为基础进行预测。  Threading法。  “从头开始”（Ab initio）：只需要蛋白质序列即可进行结构预测。由于运算量大，需要有超级计算机来进行，或采用分布式计算，如Rosetta@home等。  四级结构预测：主要是预测蛋白质-蛋白质之间的相互作用方式。

蛋白质结构的结构预测

2. 为什么从蛋白质的一级结构准确预测其三维结构那么难？

蛋白质主要由碳、氢、氧、氮等化学元素组成，是一类重要的生物大分子，所有蛋白质都是由20种不同氨基酸连接形成的多聚体，在形成蛋白质后，这些氨基酸又被称为残基。
蛋白质和多肽之间的界限并不是很清晰，有人基于发挥功能性作用的结构域所需的残基数认为，若残基数少于40，就称之为多肽或肽。要发挥生物学功能，蛋白质需要正确折叠为一个特定构型，主要是通过大量的非共价相互作用（如氢键，离子键，范德华力和疏水作用）来实现；此外，在一些蛋白质（特别是分泌性蛋白质）折叠中，二硫键也起到关键作用。为了从分子水平上了解蛋白质的作用机制，常常需要测定蛋白质的三维结构。由研究蛋白质结构而发展起来了结构生物学，采用了包括X射线晶体学、核磁共振等技术来解析蛋白质结构。

3. 为什么从蛋白质的一级结构准确预测其三维结构那么难呢？

‍‍蛋白质存在很多构象（局部最优结构）。蛋白质不是处在最稳定构象上（全局最优结构）。蛋白质的折叠过程有很多辅助因素，难以了解。比如在核糖体对折叠路径的影响。即使没有辅助因素，完全是在溶剂下进行折叠。也是无法通过分子动力学去模拟预测，随机因素影响着折叠过程。折叠发生的时间尺度比较大，难以用物理、化学规律去模拟演化过程。简单溶液中折叠的尺度处在介观尺度，非平衡态，热力学涨落，量子相干支配的尺度。（单纯通过尺寸判断介观还是微观错误的，应该从支配这个尺度的主要物理规律上判断）这个尺度是统计力学的一块硬骨头。其他生物大分子参与蛋白质折叠的过程，高度有序。不是随机过程，可惜我们看不到。这个过程恰恰把蛋白质折叠向一个亚稳定状态（能量较高局部最优结构），通常十分稳定的蛋白不会有活性。

‍‍

为什么从蛋白质的一级结构准确预测其三维结构那么难呢？

4. 目前，目前关于蛋白质的空间结构的预测有哪些方法和手段，效果如何？

1、通过实验的方法预测蛋白质结构，即对蛋白质晶体使用X射线衍射或核磁共振，得到晶体电子密度等方面的信息，从而分析蛋白质结构。这是结构生物学的方法。该方法结果准确可信，但是工作量大，难度也比较高。例如要结晶得到纯度高的蛋白质晶体有时候是很困难的，各种条件要慢慢摸索，往往要靠运气。
2、用计算机程序，根据已有的蛋白质序列只是推测未知蛋白的结构。因为蛋白质序列有保守性，而且一定的序列其折叠方式是有规律的。这样的方法依靠好的算法，推测结构速度比较快，但是精确性比较差。

5. 蛋白质结构预测方法是功能的突破性因素吗

了解一个生物过程所需的关键信息之一是其组成蛋白的结构，但结构测定的实验方法往往耗时费力，而且结果不确定，需要投入大量的时间和资源。相比之下，蛋白质序列很容易通过翻译基因组序列获得，并且可以获得大量的蛋白质。由于蛋白质的结构是由其序列决定，因此试图从另一个序列中推导出蛋白质的折叠问题--已经持续了半个世纪，其重要性随着序列数据库的指数增长而上升，并对连续的方法未能带来决定性的进展感到沮丧。事实上，从本世纪的第一个十年开始，蛋白质科学界越来越意识到这个问题是计算生物学的巨大挑战之一。

事情并不是这样开始的。莱纳斯-鲍林从多肽链的立体化学考虑建立的二级结构模型，以及不久之后证明这种二级结构可以被组装成α-角蛋白和胶原蛋白的三维模型，导致人们期待几何考虑、模型建立和参数方程的结合可以解决蛋白质结构的原理，正如他们已经为核酸做的那样。然而，第一个蛋白质晶体结构及其惊人的不规则性使人们认识到，这些原理可能比预期的要复杂得多。
尽管如此，在20世纪90年代初，人们对通过简化多肽链的生物物理表征和线程所取得的进展感到兴奋，认为在从氨基酸序列推断结构方面取得了快速、决定性的进展。然而，这些方法在现实生活中的应用与此并不匹配，而且很明显，一些报告的成功可能是由于 "后预测"，即预测者已经知道其结构的目标。为了获得对蛋白质结构预测技术水平的客观评估，由马里兰大学的John Moult领导的一组科学家在1994年组织了一次实验，即CASP（结构预测的关键评估），预测者可以在一个双盲框架内评估他们的方法。组织者将收集结构尚未公布（在某些情况下甚至尚未完全确定）的蛋白质序列，并将其作为预测目标提供给计算科学家。然后，组织者将把提交的预测和已解决的结构交给评估者，评估者对参与预测的团队不了解，只知道组号。在实验结束时（每两年重复一次），将举行一次会议，讨论结果。
CASP1是一个令人清醒的经验，因为结构预测的工具被证明是非常钝的。用组织者的话说："这些预测出了很多问题，这也是实验的主要价值所在。一个可靠的信息来源是与目标蛋白相关的结构，具有已知结构的亲属的目标被归类为最简单的，可以通过同源模板上的建模获得。然而，由于检测和目标与模板比对的错误，要建立一个比最近的可用模板更接近目标的模型是相当困难的。应用生物物理方法，如能量最小化，似乎只会使错误更严重。相应地，CASP2增加了对更远的同源物的检测、建模和细化的投入。CASP2比CASP1更成功，特别是在CASP1预测基本上是随机的、结构数据库中缺乏可检测模板的较难目标，但进展仍然有限。《纽约时报》以 "蛋白质1，计算机0 "作为著名的报道标题，并引用了一位组织者的话，他看到了一些小的进展迹象，"这是令人鼓舞的，但离有用的东西还有很长的路要走"，而一位评估员则夸奖说 "不能再保证失败了"。
在此基础上，CASP3-5实验提供了进一步的改进，然而，主要是在中等难度的靶标领域，通过一系列日益强大的序列搜索工具，可以检测到更加遥远的同源物。事实证明，同源蛋白基本上保持着相同的折叠，即使它们的序列似乎已经分化到了不相似的 "午夜区"。相比之下，将生物物理参数纳入预测方法的努力，虽然为较小的靶标提供了一些令人印象深刻的成功，但并没有扩展到较大的靶标，使进化相关度的统计检测成为结构预测的主要工具。
CASP3中引入的模型准确性测量方法GDT-TS（全局距离测试-总分），可以比较实验内部和实验之间的结果。在对两个具有相同序列的结构进行迭代叠加后，该方法比较了同源的Cα碳的位置，统计了在1、2、4和8的距离分界线内的配对百分比，将百分比相加并除以4。这种对相似性的关注使该测量方法能够将那些差的、但包含局部正确片段的模型与全局错误的模型区分开来，这是其他相关测量方法（如均方根偏差）所不能实现的。非常粗略的说，GDT-TS的得分在20分左右，表示大体上是随机的模型，得分在50分左右，具有整体正确拓扑结构的模型，得分在70分左右，具有准确的全局和局部拓扑结构的模型。超过80分，结构细节的建模越来越正确，超过95分，模型就像根据实验数据建立的模型一样准确。
John Moult在CASP14会议的介绍中提出了CASP单个实验中GDT-TS得分的概述，显示为通过该实验中每个目标取得的最佳得分的多项式拟合（https://en.wikipedia.org/wiki/AlphaFold#/media/File:CASP_results_2020.png）。这一概述表明，在CASP5之后，整体进展基本上停滞不前，直到CASP12，导致该领域的一些人怀疑我们是否会得到问题的解决。然而，下一步进展的种子已经播下。

从CASP实验开始，科学家们就想知道是否有可能从同源蛋白质的多序列比对中的相关突变计算出残基间的接触图，以获得折叠的指纹并指导结构预测。研究人员的想法是，如果突变是相关的，那么这些位置的残基很可能是物理接触的，提供的信息可以通过核磁共振确定结构。然而，多年来，这种接触图的准确性仍然很低，因为以成对的方式分析相关性，无法区分直接的、结构性的相关性和间接的、功能性的相关性。从2010年左右开始，通过使用直接耦合分析进行全局接触预测，可以更好地区分不同的共同演化的残基，该方法同时考虑了所有成对的相互作用，并根据观察到的成对的相关性对接触图进行全局优化。这种方法在2017年又向前迈进了一大步，证明了深度学习方法不仅可以通过这种方式从多个排列中提取高质量的接触图，甚至在同源物很少的情况下也可以将预测的接触解释为一组距离，从而为基础折叠提供更精细的几何指纹。卷积神经网络在距离图预测中的应用被领先的结构预测小组在CASP13（2018）中使用，并对硬产生了强大的影响，对于这些目标，最佳模型的GDT-TS从40左右上升到60以上。
在CASP13的高分小组中，有一个出乎意料的新成员AlphaFold，由Alphabet公司的领先人工智能实验室DeepMind派出。令所有人惊讶的是，这个小组以其关键的洞察力击败了所有参赛者，即距离图的概率分布可以转换为特定蛋白质的统计潜力，从而通过最小化生成蛋白质折叠。虽然AlphaFold在CASP13中的领先优势比以往CASP实验中排名第一和第二的小组之间的典型距离要大，但它的总体表现是递增性的，而不是变革性的，只在大约三分之一的情况下提供了最佳模型，尽管对较难的目标的领先优势大于对较易的目标的领先优势。

因此，没有人准备好迎接AlphaFold的第二个化身AlphaFold2在CASP14上的变革性表现，它远远领先于所有其他参与者，其预测的GDT-TS中值达到了92.4! 回顾一下，这是在实验结构的范围内，导致许多人得出结论，单条蛋白质链的结构预测问题现在已经解决了，正如John Moult在CASP14会议的总结发言中所说。将AlphaFold2的预测结果与其他研究小组提交的最佳模型进行比较，可以清楚地看到进步的程度，因为AlphaFold2的预测结果通常是GDT-TS得分>80，即使是最难的目标，而这些目标的第二好的模型都低于60。
为了说明这一点，简单介绍一下目标T1100的情况，这是一个古生物跨膜受体，AlphaFold2为其提交了一个GDT-TS约为80的模型，而接下来最好的一组模型的GDT-TS约为55。研究人员的小组进入这个目标是由于2020年8月组织者和评审员的一次在线会议，在这次会议上，评审员之一Nick Grishin将427小组（后来发现是AlphaFold2）的惊人预测简洁地提到了一个点上。所以，要么这个小组接近解决折叠问题，要么他们以某种方式作弊"。作为回应，研究者提到有一个跨膜受体的衍射数据，由于相位问题，几乎十年都没有解决这个问题。427组文件模型是否足以通过分子置换解决该数据集？当然，这是不可能作弊的。简而言之，用AlphaFold2模型可以很容易地解决这个结构。其他提交的模型有很好的整体拓扑结构，但有很多地方偏离了结构，使它们成为分子置换的不良模板。作为一个有趣的侧面，在这个20个排名最高的小组中，有12个server提交了一个公共预测服务器的预测坐标作为他们的最佳答案，偶尔也有一些细化的尝试。其中一个服务器名为tFold，由中国科技公司腾讯的人工智能实验室运营，这表明DeepMind并不是唯一有兴趣加入这一战局的公司实验室。

是什么让AlphaFold2建立了这种领先优势？更详细的评估要等CASP14论文集中的方法发表后才能进行，但从John Jumper代表AlphaFold2团队在CASP14会议上的发言以及该领域专家的意见来看，预测网络的架构已经发生了根本性的变化。AlphaFold使用卷积神经网络进行距离图预测，并应用梯度下降优化法从这些约束条件中构建模型，而AlphaFold2构建了一个端到端的网络，从序列输入到结构输出，模型参数可以共同调整，以优化最终模型，而不是沿途的代理措施。这种用于网络优化的端到端训练是由Mohammed Al Quraishi在CASP13之后提出的，在这里被证明是预测成功的一个重要组成部分。此外，AlphaFold2使用注意力模块来推导距离约束，并通过三维等价变换器神经网络从中建立结构模型，该网络直接在三维空间的原子上操作。起源于自然语言处理的注意力模块并不从输入的多序列排列中得出汇总统计，而是选择一个序列子集来关注，并得出第一个距离图，在此基础上决定在下一次迭代中关注哪些序列。这样，通过迭代优化，该网络甚至可以从含有少量全长同源物的序列排列中提取更丰富的约束条件，这也是其相对于所有其他方法在硬目标上的表现尤为突出的原因。这个网络结构的总体战略似乎是以最佳的局部解决方案为目标，以便从这些解决方案中组合出全局模型，这显然是非常成功的。
那么，DeepMind解决了蛋白质折叠问题吗？就其基本形式而言--从一个蛋白质的氨基酸序列推导出它的原生结构--CASP14的答案对大多数蛋白质来说似乎是肯定的，只要程序能够访问蛋白质序列和结构数据库，并且目标蛋白质是折叠的。在研究人员看来，关于解决方案意味着理解或预测不是从单一的氨基酸序列进行的反对意见归结为语义学。然而，蛋白质折叠问题比仅仅从序列中推断出静态三维结构要复杂得多。一个蛋白质序列不仅包含了结构的信息，而且还包含了达到这个结构的路径，以及它在应对不断变化的条件和结合伙伴时所经历的动态调整，以及它需要参与的细胞机器的组件，以达到其原生位置。从其序列中的信息，一个蛋白质可以识别其结合伙伴，并知道它是否会通过催化或构象变化来改变这些伙伴，以及它是否会在遇到它们时有条件地折叠或展开。所有这些方面，目前都不在AlphaFold2的范围内，但对于蛋白质的生物功能来说是至关重要的，科学家们对这些方面最感兴趣是可以理解的。因此，研究人员会得出这样的结论：不，AlphaFold2不是解决蛋白质折叠问题的最后一步，而是在实现蛋白质结构预测目标的一条非常令人兴奋的新道路上迈出的第一步，现在可能已经触手可及了。
这是否意味着AlphaFold2获得的进步被夸大了，事实上并不尽如人意？对这一点也肯定是否定的。研究人员发现，这一进展绝对是令人震惊的，这一点我们在CASP14的媒体报道中反复强调。研究人员认为，实现这一突破的漫长而艰辛的历程，涉及到生物物理学和计算生物学中一些最聪明的头脑，充分证明了这一成就的巨大。事实上，这一进展需要引入深度学习方法，这促使我们问道，结构预测问题对于人类的大脑来说是否太难解决。套用J.B.S. Haldane的话，他怀疑宇宙不仅比我们想象的要奇怪，而且比我们能想象的要奇怪，这个问题可能比我们能解决的要难？
研究人员担心情况确实如此，端到端训练成功的原因之一是消除了人类的偏见。训练有素的科学家数十年的努力和许多数十亿美元的公共投资显然产生了突破问题所需的数据，但这一突破需要计算网络，而计算网络与人脑不同，是为分析非线性相关关系而优化。就像许多其他群体一样--运动员和国际象棋选手就是其中之一--我们将不得不习惯于机器拥有超出我们生物范围的能力这一事实。我们期待着我们认为将是一波先进的预测服务器，既来自领先的学术团体，也来自具有先进机器学习能力的公司，这将使蛋白质的结构空间像25年前BLAST对序列空间所做的那样广泛而迅速地被访问，标志着生命科学的类似革命。

蛋白质结构预测方法是功能的突破性因素吗

6. 为什么说蛋白质功能预测是蛋白质生物信息学分析的核心

说蛋白质功能预测是蛋白质生物信息学分析的核心的原因：因为研究蛋白质的结构意义重大，分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。
预测蛋白质结构，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质或其它分子之间的相互作用，通过分析蛋白质的结构，确认功能单位或者结构域，可以为遗传操作提供目标，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子结构。

蛋白质
是由α-氨基酸按一定顺序结合形成一条多肽链，再由一条或一条以上的多肽链按照其特定方式结合而成的高分子化合物。蛋白质就是构成人体组织器官的支架和主要物质，在人体生命活动中，起着重要作用，可以说没有蛋白质就没有生命活动的存在。

7. 急求解答：蛋白质二级结构的预测的方法？

二级结构预测的方法大体分为三代：①第一代是基于单个氨基酸残基统计分析：从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。②第二代预测方法是基于氨基酸片段的统计分析：统计的对象是氨基酸片段，片段的长度通常为11-21个。片段体现了中心残基所处的环境。③第三代方法（考虑多条序列）运用长程信息和蛋白质序列的进化信息，准确度有了比较大的提高。    蛋白质二级结构预测方法：首先预测蛋白质的结构类型，然后再预测二级结构。    ①经验参数法：是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。    ②GOR方法：是一种基于信息论和贝叶斯统计学的方法。GOR将蛋白质序列当作一连串的信息值来处理；GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响    ③Lim方法-立体化学方法：氨基酸的理化性质对二级结构影响较大，在进行结构预测时考虑氨基酸残基的物理化学性质。    ④同源分析法：将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。    ⑤更为合理的方法：是将待预测二级结构的蛋白质U与多个同源序列进行多重比对，对于U的每个残基位置，其构象态由多个同源序列对应位置的构象态决定，或取出现次数最多的构象态，或对各种可能的构象态给出得分值。    ⑥综合方法：综合方法不仅包括各种预测方法的综合，而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测，综合评判�0�3一致结果；序列比对与二级结构预测；双重预测。

急求解答：蛋白质二级结构的预测的方法？

8. 如何研究蛋白质结构

小弟刚进入这一个领域，很多问题都不明白。寻找生物大分子结构的基本数学规律是有意思的，人们已经在DNA的结构研究中获得了一些认识，例如对DNA拓扑学的研究，同样的方法能不能用于蛋白质结构的分析？如果自己的研究目标是蛋白质分子的基本数学规律的话，应该从那些知识开始学起？生物信息学和这个研究方向的关系大不大？最近很是迷茫，不知道该怎么做，实验室又只我一个人做这个题目，而我们实验室原来是做结构化学的，真不知道该怎么办？请高人指点！多谢！蛋白质结构远比DNA结构复杂，可以研究蛋白质药物靶标与类药性小分子相互作用。生物信息学、化学信息学与此关系大的很。
多看点书，明白蛋白质结构分析的原理。
structural bioinformatics中蛋白质结构分类、蛋白质活性位点是重点。
推荐书：introduction to protein architecture, arthur lesk
structural bioinformatics, bourne weissig生物信息学是个大框框，蛋白质的结构研究也可以说是一个重要的分支，尽管这方面的研究已有数十年，但是还是有很多方面值得探索的，你有结构化学的基础对这方面的研究很有帮助。这方面的方向很多，比如二级，三级结构预测，结构比较，蛋白与蛋白，蛋白与核酸相互作用，分子结构模拟等。
你可以看看这方面的书，再此基础上再多看看现在的好的国际杂志上的有关文章就会有所体会。我知道一个校友在康奈尔做蛋白质结构与功能的关系，上次报告给我们讲了一下。
上研的时候选择了理论，但现在不知道理论的价值在哪里？真是很迷茫...vivalk wrote:我知道一个校友在康奈尔做蛋白质结构与功能的关系，上次报告给我们讲了一下。
他们好像有个孔洞理论，很有新意，可以查一查。蛋白质的数学理论应该是很有趣的