中国科学院上海药物研究所研究员郑明月团队开发了NMR数据提取工具NMRExtractor,由大型语言模型驱动,试验性磁共振共振共振共振共振(NMR)数据,并且构建了NMRBank,这是迄今为止最大的开放式NMR数据库。五月二十八日,《化学科学》发表了相关研究。
NMR光谱是化学研究中应用广泛的强大技术之一,可以为分子环境提供详细信息,对结构和原子之间的相互作用特别敏感。在过去的20年里,研究人员开发了1H和13C的多个数据库来存储分子。 NMR光谱,但是这些数据库的规模仍然相对有限。
研究小组提出的NMRExtractor可以自动从科学文献中获得化合物名称、NMR条件和1H/13C。关键信息,如NMR化学位移。基于这个工具,研究小组建立了NMRBank,包括225809个NMR数据记录,每个记录包括IUPAC名称、SMILES描述符、1H/13C。 NMR化学位移,模型赋予的置信评分,以及文章中的PMID和期刊名称等元数据。根据分析数据,NMRBank所覆盖的化学空间明显超过了现有的公共NMR数据。
研究小组表示,这一提取过程具有很高的可扩展性,支持新研究论文的自动处理,使NMRBank能够不断更新,不仅扩大了NMR数据的开放范围,而且为基于人工智能的NMR预测和相关化学研究奠定了数据基础。
赞一个