聪慧网-聪慧过人( 三 )


根据之前两种药物开发路径, 首先对已有参考分子项目, 不再通过专家设计分子, 而是通过 ligand-based的AI分子生成模型生成大量参考分子, 即在某个特定性质、形状、化学性质或药效团上类似分子 。
其次, 就是没有参考分子的first-in-class项目, AI主要进行高通量筛选, 进行数量级更高通量的筛选, 这往往就是10亿级化合物库 。
这里的化合物库可合成性, 虽然没有万级别化合物库好, 但也符合化合物合成规则 。 而且, AI还可以用分子生成方法, 在分子空间的某一些区域内更密集生成分子 。
在生成分子之后, 接下里就是筛选, 例如HIT和LEAD活性实验, 这个实验并不直接在实验室, 而是通过MD和FEP方法进行验证 。
后面我们也会用AI进行ADMET模型判别, 对分子进行性质判别, 如果不太符合要求就要对分子进行进一步优化 。
此时我们也可以采用强化学习技术, 基于性质判别器和强化学习技术推动分子结构改变 。

聪慧网-聪慧过人

文章插图
以上, 就是AI企业切入药物研发可供助力的几个角度 。
当然, 这些层面, 有些做得好, 有些还在发力中, 有些还比较滞后, 但目前来说, 整个领域发展有很多资本注入, 有很多人才进入 。
宏观上看, 2020年中国创新药研发市场规模也越来越大, 达到万亿人民币规模 。
国家政策层面上, 对创新药研发也非常重视, 人工智能助力创新药研发就是焦点之一 。

聪慧网-聪慧过人

文章插图

算法与算力:AI介入的可行性答案接下来从数据、算法、算力维度来介绍 AI发挥作用的案例 。
首先药物研发, 主要有两大要素, 一个是药物分子, 往往是有机小分子;另一个要素是蛋白质, 我们用计算机去建模, 表示这两个物质 。
今天重点讲讲蛋白质表示, 这是近年研究热点之一, 有结果产出 。

聪慧网-聪慧过人

文章插图
这里列出蛋白质3级结构:一级结构是蛋白质序列, 即氨基酸构成序列;二级结构是序列根据氨基酸之间氢键作用盘曲而成, 例如β-sheet和α-helix;三级结构是进一步由这些二级结构之间、氨基酸之间相互作用折叠成整个蛋白质的结构 。
三级结构从三维空间去分析, 是一个很小的物体 。 它在生物体内形状并不随意, 因为会承担一些特定生物功能 。
蛋白质测序技术现在已经非常成熟, 人类也已经测得亿级别蛋白质序列 。
这个序列很像自然语言句子, 从AI工程师角度, 我们很自然会设想能不能基于这个特点做一些挖掘, 事实我们后面的工作就是从这个点展开 。
这里再提一个很有趣的现象, 蛋白质序列中, 尽管不使用深度学习而是传统数据挖掘手段仍可以发现共进化现象 。
人们发现同源蛋白序列中, 往往成对氨基酸会被同时发生变化, 故发生突变之后, 两个氨基酸仍能形成一些氢键作用 。
【聪慧网-聪慧过人】例如, 从这个图上可以看到, 4个同源氨基酸序列, 两个灰色框氨基酸基本同时发生变化 。 因为同时发生变化, 所以这里始终会有一个结合位点, 在结合位点, 整个序列在三维空间会发生折叠 。
接下来介绍一下建模工作, 这是Facebook在2019年开始的一项工作, 开始比较直接, 后期引用一些共进化数据 。
这个项目前期纯粹是使用亿级蛋白序列进行建模, 用的模型是transformer, 训练任务是mask token prediction 。 他的token是 residues, 也就是氨基酸 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: