暨南大学环境学院水生态风险评价与管理团队ES&T Letters:在大数据非目标分析的研究方面取得新进展

时间:2023-09-14 来源: 环境学院

疑似目标筛查是开展新污染物筛查工作时承前启后的环节。借助高分辨质谱和侯选物的一级或二级质谱库,一方面拓展了目标分析的边界,另一方面提高了非目标分析的效率和置信度。然而,随着新兴化学品的指数级增长并进入环境,仅依赖传统的分析手段而忽视历史数据的追溯,将使筛查难以企及边界,更难以满足效率。由人工智能和大数据主导的第四次工业革命将改变很多过去研究的形式,我们也大胆的尝试了利用自然语言处理技术开展新污染物筛查的模式(表1)。通过文本挖掘中的命名实体识别和关系提取技术,机器阅读历史文献并获取提及的总污染物名称和环境浓度数据,策展区域特征污染物赋存信息和风险熵,从历史数据中追溯到了大湾区水体风险分布和典型污染物列表。

暨南大学环境学院暨广东省环境污染与健康重点实验室程飞博士、游静教授、李慧珍副教授及其合作者等选择了具有芳香烃受体激活转导(AhR)和抗氧化反应(ARE)效应的两类特征污染物,基于90万种物质清单,从约25000篇大湾区英文文献中发现5247种物质在水环境中被检出,其中包括1159AhR类污染物和1562ARE类污染物。由环境报道浓度和ToxCast数据中的效应阈值,估算出了生物活性风险熵(BEQ)并绘制出了大湾区水风险地图(1A)。同时,利用主成分分析提取出了分别能够代表AhR(86%)ARE(91%)效应的主要组分,生成了共计九类的大湾区特征新污染物列表(1B和图1C)。研究利用了近几年环境科学文献指数增长、报道信息丰富的特点,利用大数据研究模式,总结出了未知的而又已知的那些新污染物,以供后续研究工作为参考。同时,效应相关污染物数据集的策展,为非目标分析中结构规律性的探索提供了便利。


1传统和大数据支持下的疑似目标分析比较


1. 珠三角地区大数据疑似目标筛查:

A. 区域风险分布 B. 区域典型芳香烃受体类污染物 C. 区域典型抗氧化反应类污染物


相关成果近期发表在ES&TES&T Letters杂志上,本研究受到本研究受到广东省科技厅(2019B151502020)、国家自然科学基金(41977343, 42007365)资助。

CHENG F, HUANG J, LI H, . Text mining-based suspect screening for aquatic risk assessment in the big data era: Event driven taxonomy links chemical exposures and hazards[J/OL]. Environmental Science and Technology Letters, 2023. DOI:10.1021/acs.estlett.3c00250.

CHENG F, ZHOU Z, WU F, . Data-driven endpoint selection in data-poor scenarios: Bioassay design for shale gas flowback and produced waters[J/OL]. Environmental Science and Technology Letters, 2022, 9(12): 1074-1080. DOI:10.1021/acs.estlett.2c00648.

CHENG F, LI H, BROOKS B W, . Signposts for aquatic toxicity evaluation in China: Text mining using event-driven taxonomy within and among regions[J/OL]. Environmental Science and Technology, 2021, 55(13): 8977-8986. DOI:10.1021/acs.est.1c00152.