清华环境刘书明院长ES&T观点丨生成式人工智能与环境科学与工程学科的新发展
发布时间:2024-10-17 10:54:27 来源:能源环境研究 作者:本站编辑 浏览次数:

盛世国庆,共谱华章
Autumn

人工智能(AI)技术已经开始融入我们的日常生活和工作中。传统的判别式人工智能侧重于学习不同类别数据之间的决策边界,并已广泛应用于环境科学和工程,例如水质预测和污染检测。最新前沿是生成式人工智能,它根据学习的数据分布生成新的数据实例。例如,我们可以使用ChatGPT等大型语言模型(LLM)来编写、翻译和编码,或者我们可以使用DALL-E等文本到图像模型来创作艺术作品,而无需事先具备绘画技能。随着快速发展,生成式AI正在为许多领域的科学研究带来新的可能性。面对气候变化、清洁水获取和生物多样性丧失等全球可持续发展挑战,生成式人工智能可能为这些相互关联的大规模可持续发展问题提供创新的解决方案。


本观点将讨论生成式人工智能在环境科学与工程学科中当前和潜在的应用以及现有的挑战(图1),旨在激发环境生成人工智能的研究并推进该学科的发展。

<img preview="1" class="rich_pages wxw-img" data-galleryid="" data-imgfileid="100001333" data-ratio="0.5425764192139738" data-s="300,640" video.shuiwujia.com="" fuefita1eca5luvonevdmd5l9x3i"="" data-type="png" data-w="916" data-original-style="" data-index="2" src="http://video.shuiwujia.com/FueFITa1ECA5lUvoNeVDmd5l9X3i" large="http://video.shuiwujia.com/FueFITa1ECA5lUvoNeVDmd5l9X3i" _width="677px" crossorigin="anonymous" alt="Image" data-fail="0" data-pswp-uid="1" style="box-sizing: border-box !important; line-height: 1.5; vertical-align: baseline; table-layout: fixed; max-width: 100%; overflow-wrap: break-word !important; height: auto; visibility: visible !important; width: 677px !important;">

Figure 1. Current and potential applications and existing obstacles of generative AI in environmental science and engineering.

 
 01、生成式AI的环境领域应用场景

1. 增强传统判别式人工智能的性能

环境监测数据稀缺,对构建判别式AI模型构成挑战。生成式AI,如GAN,可生成额外训练数据,增强模型性能。例如,GAN用于增强声学信号训练输水管道泄漏检测模型,节省水资源并防止水污染。生成器创建新样本,鉴别器评估真实性,通过不断训练提升数据质量。结果显示数据增强提高了泄漏检测性能,但生成式AI潜力未充分发挥。

2. 基于大语言模型的聊天机器人

受ChatGPT等LLM交互功能启发,可构建特定于环境的LLM聊天机器人。该模型作为知识问答库,助环境人员速获专业知识。利用其情境学习能力,聊天机器人可快速开发新功能,如结合拉曼光谱识别有机污染。聊天机器人嵌入API调用工具,用户通过对话接口调用AI模型或专用工具,如水力模型。回答质量取决于人机交互的清晰性。开物GPT为环境聊天机器人典型例,基于天工AI开源项目,专注可持续发展。使用RAG框架,先检索外部数据,后生成响应,提高准确性。RAG优于微调基础LLM,可少样本或零样本生成准确答案,并动态更新数据源。


3. 大语言模型驱动的环境智能代理

由大语言模型支持的智能代理领域正在迅速发展。代理由LLM创建,自主决策、行动(如编写代码)。LLM处理多模态数据,使代理感知环境或指令。代理处理后以文本形式提供结果或调用工具。与聊天机器人不同,代理可自主计划和执行任务。LLM驱动的智能体还具备社交能力,可与其他智能体交互。这引发对多代理技术的兴趣,促进知识创造和发现。


智能代理在环境决策领域应用空白,但已有研究者通过多代理合作打造环境聊天机器人。例如,Ocean GPT聚焦海洋资源开发与保护,构建基于特定海洋数据,分预训练与指令微调两阶段。预训练用自监督学习生成海洋信息,微调缩小LLM生成文本与回答特定海洋问题的能力差距。针对指令匮乏,研究团队用多代理技术扩展生成新指令,分工明确,经专家评估,指令兼具专业性与多样性,减轻人力负担,提升LLM开发效率。

  02、生成式AI的环境领域应用前景

生成式AI在环境科学与工程中的应用有限,主要生成训练数据和专业聊天机器人。但大语言模型驱动的代理人具备自主决策能力,有望成为环境研究人员的助手或伙伴。这些代理人可视为具有特定角色的个人或组织,通过交互模仿利益相关者感知、交互和决策,探索政策或新技术影响,简化复杂任务。


1. 设计新的处理工艺

在全球气候变化和严重污染的背景下,设计新的废水、废气或固体废物处理工艺以减少污染和温室气体排放非常重要。LLM驱动的多智能体技术可以模拟了解过程运行中实际问题的工程师、掌握污染物迁移转化原理的环境科学家以及实际使用该技术的利益相关者之间的交互。通过人类和LLM代理之间的迭代交互,他们可以开发出理论上合理且实际上可行的潜在解决方案。


2. 开发环境模型

由于环境介质的异质性和扩散过程的复杂性,模拟污染物扩散具有挑战性。机械模型的构建非常复杂,并且经常受到有关环境系统的不切实际的假设或简化以及高参数不确定性的阻碍,从而导致模拟结果不佳。虽然数据驱动模型更容易构建,但由于数据不足且缺乏可解释性,它们的性能很差。因此,大语言模型驱动的多智能体技术可以充当“控制中心”来自主操作各种模型(机械模型或数据驱动模型),以充分利用这些模型所能提供的最佳功能。


3. 评估环境政策

为了做出明智和负责任的决策,确保政策有效性并避免意外后果,必须事先评估政策。LLM驱动的多代理技术非常适合这项任务。例如,在制定家庭节能政策时,可以利用不同人口群体的行为信息来训练代理,以准确模拟不同家庭之间的互动及其对政策的反应。这为政策制定者提供了有关政策制定及其潜在影响的宝贵见解。

 03、生成式AI在环境领域应用的挑战

生成式AI模型的开发正在迅速发展,有大量开源模型和工具(例如Llama14)可供使用。自己构建模型正在成为一个较小的障碍,特别是在与计算机科学专家合作时,这可以显着提高效率。然而,对于环境领域的研究人员来说,主要的挑战在于在模型构建之前获取和创建专门的数据集以及在模型开发和使用过程中确保输出的准确性。

生成式AI模型发展迅速,开源模型和工具(如Llama14)丰富。构建模型障碍降低,与计算机科学专家合作提高效率。环境领域研究人员面临挑战:获取和创建数据集、确保模型输出准确性。


1. 版权和数据隐私

确保模型准确性需大量多源数据。版权和隐私问题限制数据访问。数据可能受版权保护,需考虑许可问题。大型模型可能泄露敏感信息,如个人水电数据。解决版权问题可优先用开源数据,如OceanGPT,并争取版权许可。保护隐私可匿名化数据、引入噪声,并用监控工具如GPT-4奖励模型防泄露。


2. 训练数据集构建

环境数据多样,含手工、电子、图纸等。预处理复杂,需删除不相关信息、去重,确保一致性。数据质量需评估,可设计流程或工具。多模态输入需对齐视觉与模型特征空间,如湖泊绿色油漆层与“藻华”术语。需环境专家深度参与,创建高质量跨模式训练样本。


3. 准确性保证和误用预防

生成式AI技术可能产生错误结果,需人类参与确保准确。开发时,应标准化训练数据流程,并开发基于强化学习的专家指导模型。使用时,建立反馈机制评估准确性,高风险领域需专家审查。总之,生成式AI是提高效率的工具,非替代人为研究。


分享到:
登录 之后才能发表评论

热门评论