安捷伦:迄今最大规模覆盖近1200万个CCS值的代谢组学数据库面世
复杂生物样本中代谢物的准确鉴定一直是困扰非靶向代谢组学发展的最大瓶颈。目前,代谢物的准确鉴定主要依赖于标准物质的二级碎片谱图(MS/MS),其鉴定范围严重受限于标准谱图的数目。离子淌度质谱(Ion Mobility-Mass Spectrometry)可以获得代表化合物尺寸大小的碰撞截面积数据、区分电荷异构体和同分异构体,进而提供超越传统质谱平台的多维结构鉴定信息,可极大提升对复杂生物样品代谢组的有效鉴定。
近期,中国科学院上海有机化学研究所生物与化学交叉研究中心的朱正江研究员课题组在 Nature Communication上发表的题为 Ion Mobility Collision Cross-Section Atlas for Known and Unknown Metabolite Annotation in Untargeted Metabolomics 的文章。
作者基于离子淌度质谱,开发了目前最大、最全面的高精度小分子碰撞截面积数据库平台 AllCCS,并结合多维代谢物鉴定方法,极大地提升了已知与未知代谢物注释的准确度,开创了非靶向代谢组学全面鉴定新策略。
基于离子淌度质谱的代谢组学技术能够全面表征生命体内已知和未知的代谢物。我们通过发展了大规模、标准化的碰撞截面积数据库平台 AllCCS,为基于离子淌度质谱的应用研究提供基础支持。基于该平台,我们发展了结合高精度 CCS 值的多维代谢物鉴定技术,大大提高了代谢物鉴定的可靠性,并有助于发现新的未知代谢物,为复杂代谢组的研究提供更全面、准确的分析。
AllCCS 平台建立:
最大、最全面的碰撞截面积数据库
首先,利用 Agilent 6560 离子淌度 Q-TOF 液质联用系统等不同仪器平台获取了 2193 个化合物共 5119 个实验 CCS 值
通过五步标准化最终保留了 3539 个 CCS 值,相比于其它 CCS 库,标准化操作可有效消除不同实验室、不同仪器导致的差异
发展新一代机器学习碰撞截面积预测算法,基于标准化后的实验 CCS 值,实现对大于 160 万个小分子化合物近 1200 万个 CCS 值的预测;化合物覆盖了 7 大主流数据库 KEGG、HMDB、LMSD、MINE、DrugBank、DSSTox 和 UNPD,最终建立了迄今最大、最全面的 CCS 数据库
AllCCS 预测性能评估:
高准确度与宽适用性
创新地发展了特征结构相似性得分(RSS),对 AllCCS 碰撞截面积预测误差实现客观评估。通过两个独立的外部验证集的验证和评估,发现实验值和预测值之间高度一致,预测误差低至 2% 以内,并且无论对内源性代谢物还是外源性化合物(如药物、天然产物、环境污染物等),AllCCS 均可实现准确预测。
AllCCS 多维鉴定:
提升已知代谢物的注释
目前非靶向代谢组学代谢物鉴定的最大挑战是大数据库检索的冗余和假阳性。利用建立的 AllCCS 库,发现引入CCS 值后,可将代谢物库检索的匹配候选化合物过滤掉约 75%,结合“m/z+MS/MS+CCS”多维鉴定策略,可进一步提升准确结构鉴定的排名。
AllCCS 开创未知代谢物注释新方法
未知代谢物相对已知代谢物的鉴定更加挑战,没有标准的谱库可以参照。本研究巧妙的基于 KEGG 中已知代谢物结合生物体内 178 个代表性的生化转化反应及 117 种代谢酶进行计算机模拟酶反应,从而构建了新的大于 10 万种未知代谢物的化学结构;并进一步利用AllCCS及其它MS/MS工具进行多维质谱信息的预测,通过“m/z+MS/MS+CCS”多维匹配和打分来提升代谢物鉴定的准确性。AllCCS 对未知代谢物的鉴定策略极大的提升了代谢物的鉴定范围,并有助于新代谢物的发现,可以实现对更多代谢通路及通路活动的探究。
本研究建立的迄今最大规模的 AllCCS 数据库及多维鉴定策略,为非靶向代谢组学已知和未知代谢物的全面、准确鉴定提供了突破性解决方案,将极大提升基于离子淌度质谱的代谢组学深入洞察生物过程的机制研究。
(责任编辑:金利仪器lyh)