聪慧网-聪慧过人( 五 )


模型含有各个项目, 例如疏水项, 氢键项, 库伦作用等等, 通过少量数据拟合一些参数 。
通过深度学习的方法要怎么做?
首先, 需要表示蛋白以及小分子, 小分子表示有很多种方法, 例如字符串、拓扑图表示方法、3D小分子表示方法等, 基于不同表示方法, 深度学习模型也有很多方法 。

聪慧网-聪慧过人

文章插图
再介绍一个算法应用案例, 分子生成其实是AI介入药物设计, 或者AI介入CADD领域最早的一个方面 。
传统CADD(计算机辅助药物设计)是有一些model可以基于结构和性质, 对数据建立关系并做一些预测 。
但传统model比较简单, 没法做分子生成, 所以分子生成是AI介入比较早的方面, 也是望石最早发力的方面 。
前面提到小分子化学空间是1060规模, 基本不可能在其中进行筛选, 所以可以理解为从另一个角度进行筛选 。
其中不是随机生成, 而是定向生成, 例如做分子跃迁, 生成和参考分子结构做成药性导向和强化学习, 以及一些对抗生存网络导向, 生成成药性更好分子 。 例如活性导向, 希望生成特定靶向有活性分子 。
但这些生成方法都依赖于, 好的ADMET性质判别模型, 好的活性判别方法, 所以两个生成并不容易 。
接下来的问题在于, 分子既然要生成首先就得表示出来 。
刚才提到几种方式, 其中一种是片段表示方式, 这是很重要的分子设计领域, 对应模型生成方法, 也是传统机器学习生成领域常用的一些算法, 例如VAE model, GAN网络等 。
这里先介绍评估方法, 分子生成评估也有很多问题, 例如新引擎怎么评估?
这里我们只谈这篇文章提到的评估方式, 他们找到一个评估集GDB13, 列举13个所有符合化学规则分子, 大概找了有1亿个, 其中有2000万个环体系, 4000万片段, 然后找各种方法去生成model, 这些model都是用100万样本训练 。
然后用这些model生成10亿个分子, 再观察10亿个分子中到底生成什么, 并与一亿个分子库比较, 这十亿个分子到底生成覆盖了多少, 有多少重复, 占百分之多少, 有没有生成超出1亿分子的奇怪分子, 从这些视角来评价 。
所以我们挑选了几个指标, 第一就是重复率, 看看10亿个分子中, 有多少分子是重复的;然后看覆盖率, 生成10亿分子中能覆盖1亿分子中百分比是多少;然后看多少种超出这一亿分子范畴 。
一般认为这一亿个分子列举了所有合理结构, 如果生成分子不在这一亿个中, 那大概率会被认为是不合理生成 。
这里有一个评测, 可以从表中看一下:

聪慧网-聪慧过人

文章插图
首先是Validity, 这个验证不是可合成性, 而是很简单的语法规则, 我们再关注重复率, 重复率这个值越高则越差 。
可以看到ORGAN和LatentGAN两个值都不理想, 尤其是ORGAN, 重复率非常高, 说明GAN生成方式存在一定缺陷, 如果不专门设计, GAN容易发生一些模式坍缩, 重塑率非常之高 。
然后从下面两个图来看, 左边是覆盖范围, 即model能cover多少 。 我们看到GAN model的覆盖范围非常低, 说明发生了明显模式坍缩;而一些VAE方式要比GAN方式要好 。
再看右图是超出率, 即超出GDB13范围比例, 可以看到, 从ring system和fragment视角, 两个GAN model生成了一些很奇怪的环体系和片段 。
这可能是好事, 但大概率是坏事, 好的地方可能会生成新分子能力、新片段能力;坏地方是因为GDB13符合化学规则, 这就是以后需要重点优化的方向 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: