分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架

编辑 | KX

分子描述符的应用与挑战

分子描述符广泛应用于分子建模。然而,在 AI 辅助分子发现领域,缺乏自然适用、完整且原始的分子表征,影响模型性能和可解释性。

t-SMILES 框架的提出

基于片段的多尺度分子表征框架 t-SMILES 解决分子表征问题。该框架使用 SMILES 类型的字符串描述分子,支持序列模型作为生成模型。

t-SMILES 的代码算法

t-SMILES 具有三种代码算法:TSSA、TSDY 和 TSID。

实验结果

实验表明,t-SMILES 模型生成分子具有 100% 理论有效性和高新颖性,优于基于 SOTA SMILES 的模型。

此外,t-SMILES 模型避免过拟合,在标记的低资源数据集上保持相似性,同时实现更高新颖性。

发表信息

该研究以「t-SMILES: a fragment-based molecular representation framework for de novo ligand design」为题,于 6 月 11 日发表在《Nature Communications》上。

分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架

论文链接:https://www.nature.com/articles/s41467-024-49388-6

基于 SMILES 的分子表征法研究

分子的有效表征是影响人工智能模型性能的关键因素。

图神经网络(GNN)因其能生成 100% 有效的分子而流行,但其表达能力受限。

简化分子线性输入规范(SMILES)作为一种线性表示法,易产生化学无效字符串。DeepSMILES 和 SELFIES 作为替代方案虽有所改进,但仍存在问题。

此外,研究表明语言模型 (LM) 在学习大型复杂分子方面可能优于大多数 GNN。最近,基于 Transformers 的 LM 已经展示了它们生成与人类书写极为相似的文本的能力。

受这些想法启发,研究者选择 SMILES 作为片段描述的起始选择,并结合先进的自然语言处理技术来处理基于片段的分子建模任务,这可以融合图模型更注重分子拓扑结构和 LM 的强大学习能力的优势。

生成 100% 有效的新分子,优于 SOTA

因此,湖南大学团队提出了一种基于碎片化分子的新型分子描述框架 t-SMILES(基于树的 SMILES)。该框架包含三种 t-SMILES 编码算法:TSSA(具有共享原子的 t-SMILES),TSDY(具有虚拟原子但不具有 ID 的 t-SMILES)和 TSID(具有 ID 和虚拟原子的 t-SMILES)。

码上飞 码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

码上飞 430 查看详情 码上飞

分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架

图示:t-SMILES 算法概述(来源:论文)

新提出的 t-SMILES 框架

  1. 生成无环分子树(AMT),表示碎片化的分子。
  2. 将 AMT 转换为全二叉树(FBT)。
  3. 对 FBT 进行广度优先遍历得到 t-SMILES 字符串。

与 SMILES 相比

t-SMILES 仅引入了两个新符号「&」和「^」,编码多尺度和分层的分子拓扑。

t-SMILES 算法

提供了一个可扩展且适应性强的框架,理论上能够支持广泛的子结构方案。

基于 t-SMILES 的模型

能够在处理详细子结构信息的同时学习高级拓扑结构信息。

多代码系统

t-SMILES 算法可以构建一个用于分子描述的多代码系统,其中:

  • 经典的 SMILES 可集成作为 t-SMILES 的特例(TS_Vanilla)。
  • 多个描述可以协作以提高综合性能。

    分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架

    图示:TSSA 代码、SMILES 和 SELFIES 的 tokens 分布。(来源:论文)

首先,研究人员通过深入研究其独特的特征来系统地评估 t-SMILES。随后,使用 TSSA 和 TSDY 对两个标记的低资源数据集 JNK332 和 AID170633 进行了实验。

研究重点是 t-SMILES 及其替代品的局限性,这些局限性是通过利用标准、数据增强和预训练微调模型实现的。使用 TSDY、TSSA 和 TSID 并行评估了 ChEMBL 上的 20 个目标导向任务。还对 ChEMBL、Zinc 和 QM9 进行了彻底的实验,通过使用类似的设置比较 t-SMILES 及其替代品。此外,比较了各种基于片段的基线模型和 SOTA GNN 模型。

最后,进行了一项消融研究,以确认基于带重建的 SMILES 的生成模型的有效性。为了评估 t-SMILES 算法的适应性和灵活性,使用了四种先前发表的碎片算法来分解分子,包括 JTVAE、BRICS、MMPA 和 Scaffold。不同实验采用了三种指标:分布学习基准、目标导向基准和物理化学性质的 Wasserstein 距离指标。

详细的对比实验表明,t-SMILES 模型生成的新分子 100% 理论有效,优于基于 SOTA SMILES 的模型。与 SMILES、DSMILES 和 SELFIES 相比,t-SMILES 的整体解决方案可以避免过拟合问题,并显著提高低资源数据集上的平衡性能,无论是使用数据增强还是预训练然后微调的模型。

分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架

图示:使用 GPT 在 ZINC 上进行的分布学习基准测试的结果。(来源:论文)

此外,t-SMILES 模型能够熟练地捕捉分子的物理化学性质,确保生成的分子与训练分子分布保持相似性。与现有的基于片段和基于图的基线模型相比,这显著提高了性能。特别是,具有目标导向重建算法的 t-SMILES 模型在面向目标的任务中比 SMILES、DSMILES、SELFIES 和 SOTA CReM 表现出明显的优势。

局限性和有待改进之处

  • LLM 可以理解格式良好的英语语法。因此,是否可以学习 t-SMILES 的树结构,以及 LM 如何超越表面的统计相关性来学习分子的化学知识仍有待深入探索。
  • 该研究专注于将碎片分子编码为序列,因此仅使用已发布的碎片算法作为示例来创建「化学词」。未来的研究可以利用 t-SMILES 探索其他碎片算法,更深入地解读化学句子和含义,这实际上比 NLP 更具挑战性。
  • 虽然 t-SMILES 旨在提高分子描述的性能并规避 SMILES 的局限性,但该研究并未对更复杂的分子进行实验。这将是未来研究的主题。
  • 最后,这是将碎片分子编码为 SMILES 类型字符串的一个有希望的开端。进一步的研究可以探索分子重建和优化的高级算法、改进的生成模型和进化技术。此外,研究可以集中在属性、逆合成和反应预测任务上。

注:封面来自网络

以上就是分子100%有效,从头设计配体,湖南大学提出基于片段的分子表征框架的详细内容,更多请关注其它相关文章!


# 两周  # seo推广自学简单  # seo3com短视频  # 十堰营销推广网站  # 电商营销推广书籍排行榜  # 网站建设的材料  # 本溪网站建设价格  # 想做网站的推广价格多少  # 非个人营销号怎么做推广  # seo网站内容优化有哪些类型  # 龙里网站优化公司  # 产业  # 大比拼  # 三季度  # 广州  # 量产  # 子树  # 进行了  # 自然语言  # 丰田  # 三种  # design 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  OpenAI首席执行官表态支持欧盟AI监管  全场景智能车:智能无处不在|芯驰亮相世界人工智能大会  DeepMind推惊世排序算法,C++库忙更新!  全球首款AI裸眼3D平板 国产的售价破万  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  「社交达人」GPT-4!解读表情、揣测心理全都会  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势  构建AI绘画网站的方法:使用API接口和调用步骤  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  谷歌新安卓机器人logo曝光:头更大了  马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响  机器人 展才能  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了  利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军  即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元  北交大推出国内首个开源交通大模型TransGPT,可免费商用  人工智能正在弥合认知和表达之间的鸿沟  小米发布CyberDog2 - 他们的第二代仿生四足机器人展示  世界人工智能大会上,科大讯飞宣布与华为联手  大厂出品!这个AI网站太顶了,所有功能免费用  苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色  MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程  田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  MiracleVision视觉大模型  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  优傲机器人的人机协作技术 助力中小企发展  微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源  微幼科技晨检机器人与人工晨检相比,有何优势  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码  选对AI智能写作软件,让创作游刃有余!  LinkedIn 推出生成式 AI 辅助撰写帖文功能,将向所有用户开放  OpenAI宣布组建新团队 以控制“超级智能”人工智能 

 2024-07-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.