聪慧网-聪慧过人( 四 )


逻辑上看, 就是把序列中某个氨基酸遮蔽住, 然后用其它上下文氨基酸进行预测, 能不能精准这个位置氨基酸种类, 这需要花费很长时间进行训练, 是比较耗时和耗资源的训练过程 。

聪慧网-聪慧过人

文章插图
这是20个氨基酸embedding, 学出了20个词汇的向量表示就可以把向量投射二维空间上, 右边绿色是疏水氨基酸, 左边氨基酸都是带电荷氨基酸, 叉是带负电, 方框是带正电 。
这是一个很有趣的现象, 因为无监督学习自然就把这些氨基酸分开了, 他们通过transformer还学到另一个结果, 即预测三级结构上联系位点 。
序列向量表示, AI可以被用作预测哪些氨基酸序列、哪些氨基酸之间可能发生一些联系, 即在蛋白质三级结构中, 有一些氨基酸因为距离比较近(8?内)而被认为发生相互作用 。
两个氨基酸虽然比较近, 但我们希望通过无监督学习, 去预测某个蛋白质序列两个氨基酸之间的联系, 实际上就是在无监督基础网络加简单训练任务, 用transformer结构做线性回归, 并加以预测 。

聪慧网-聪慧过人

文章插图
单从刚才介绍中, 大家可以体会到把蛋白质当成一门语言, 当成一个句子, 从这样思路出发, 去做无监督学习, 就可以挖到很丰富信息 。
接下来给大家介绍Alphafold 2工作 。
实际上Alphafold 2前半段工作也是类似, 对蛋白质进行表征, 而且跟Facebook下一步工作方式是高度雷同, 都用到共进化信息 。
Alphafold 2去年参加了 CASP14竞赛, 在第13和14届竞赛中连续两年都拿到Top1, 评分达到了92.4高分;在一些很难靶上也达到87分, 基本接近人类做种x-ray去解结构精度 。

聪慧网-聪慧过人

文章插图
其实, Alphafold 2用的数据就是亿级蛋白序列数据, 用到10万级蛋白晶体结构数据, 这些都是公开数据;

聪慧网-聪慧过人

文章插图
算力上, 它跟Facebook的算力消耗资源差不多;算法上, 前半部分输入的是protein sequence, 经过MSA蛋白序列多序列比对做embedding, 与Facebook embedding工作是类似的 。
之后, Alphafold 2通过两个层面做 self attention:一个层面是同源蛋白序列, 另一条路是同一个蛋白序列内部按残基之间做, 先输出两路信息, 最后汇总给一个结构模型 。
结构模型披露出来是一个3D的transformer, 最后预测模型上的一些角, 甚至预测SETI的一些位置, 整个过程都是端到端训练 。 所以, 就需要进一步验证挖掘蛋白质序列信息所能发挥的价值 。
接下来给大家分享药物研发中非常重要的问题, 活性的预测, 或者说基于活性的药物筛选 。
其中, AI的主要任务就是predict by the affinity, 即对bind infinity进行预测 。 从而对小分子进行结合亲和力初筛, 衡量小分子和蛋白口袋结合能力 。
建模只要能衡量出来小分子对某个靶点相对binding能力就可以 。

聪慧网-聪慧过人

文章插图
比较精准的活性数据可以从PDBbind获取, 这里有上万高质量活性数据 。 当然也可以从专利文献中去识别、提取更多数据 。
预测BF就要了解影响它的因素, 包括分子构象strain energy, 溶剂影响、疏水作用, 静电库伦作用、范德华作用等等 。

聪慧网-聪慧过人

文章插图
在AI进入之前, 传统对接软件也是要解决这方面问题, 有一些打分函数, 从算法工程师角度就是线性回归模型 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: