高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多智能体强化学习的反应堆功率协调控制方法研究

牛振锋 李桐 李江宽 刘永超 吕为 谭思超 田瑞峰

牛振锋, 李桐, 李江宽, 刘永超, 吕为, 谭思超, 田瑞峰. 基于多智能体强化学习的反应堆功率协调控制方法研究[J]. 核动力工程, 2025, 46(2): 186-192. doi: 10.13832/j.jnpe.2024.080030
引用本文: 牛振锋, 李桐, 李江宽, 刘永超, 吕为, 谭思超, 田瑞峰. 基于多智能体强化学习的反应堆功率协调控制方法研究[J]. 核动力工程, 2025, 46(2): 186-192. doi: 10.13832/j.jnpe.2024.080030
Niu Zhenfeng, Li Tong, Li Jiangkuan, Liu Yongchao, Lyu Wei, Tan Sichao, Tian Ruifeng. Study on Coordinated Control Method of Reactor Power Based on Multi-Agent Reinforcement Learning[J]. Nuclear Power Engineering, 2025, 46(2): 186-192. doi: 10.13832/j.jnpe.2024.080030
Citation: Niu Zhenfeng, Li Tong, Li Jiangkuan, Liu Yongchao, Lyu Wei, Tan Sichao, Tian Ruifeng. Study on Coordinated Control Method of Reactor Power Based on Multi-Agent Reinforcement Learning[J]. Nuclear Power Engineering, 2025, 46(2): 186-192. doi: 10.13832/j.jnpe.2024.080030

基于多智能体强化学习的反应堆功率协调控制方法研究

doi: 10.13832/j.jnpe.2024.080030
基金项目: 国家自然科学基金(12405200);中央高校基本科研业务费(3072024CFJ1501);黑龙江省省属本科高校“优秀青年教师基础研究支持计划”(KY11500240018)
详细信息
    作者简介:

    牛振锋(2001—),男,博士研究生,现主要从事核领域人工智能技术研究,E-mail: nzf@hrbeu.edu.cn

    通讯作者:

    李江宽,E-mail: lijiangkuan@hrbeu.edu.cn

  • 中图分类号: TL36

Study on Coordinated Control Method of Reactor Power Based on Multi-Agent Reinforcement Learning

  • 摘要: 为提高核电厂反应堆功率与蒸汽发生器水位的协调控制精度,本研究提出了一种基于双延迟深度确定性策略梯度(TD3)算法的多智能体强化学习协调控制框架,在该框架中,不同子任务被分配给相应的智能体,各智能体相互配合以准确协调反应堆功率和蒸汽发生器水位。通过一系列仿真实验,评估了该框架在不同工况下的性能表现,结果表明,多智能体控制框架在多种功率切换工况下显著提高了控制速度和稳定性,其超调量和控制时间均优于传统比例积分微分(PID)控制器,证明了该框架的有效性和优越性;此外,该框架在未经训练的新工况中也表现出优异的泛化能力,能够有效改善反应堆功率的协调控制精度与稳定性。

     

  • 图  1  TD3单智能体控制框架

    Figure  1.  TD3 Single-Agent Control Framework

    图  2  TD3多智能体控制框架

    Figure  2.  TD3 Multi-Agent Control Framework

    图  3  训练奖励变化趋势

    FP—满功率

    Figure  3.  Reward Change Trend during Training

    图  4  100%FP~80%FP阶跃工况控制效果对比

    Figure  4.  Comparison of Control Performance under 100%FP to 80%FP Step Change Conditions

    图  5  100%FP ~60%FP阶跃工况控制效果对比

    Figure  5.  Comparison of Control Performance under 100%FP to 60%FP Step Change Conditions

    表  1  仿真参数与设计参数对比

    Table  1.   Comparison between Simulation Parameters and Design Parameters

    参数名设计值计算值相对误差/%
    堆芯热功率/MW966.00966.000.00
    堆芯入口温度/K562.00558.640.60
    堆芯出口温度/K588.40584.960.58
    环路冷却剂流量/(kg·s−1)3333.303369.951.10
    冷却剂压力/MPa15.2015.200.00
    二回路系统压力/MPa5.205.210.19
    下载: 导出CSV
  • [1] 邱磊磊,张贤山,魏新宇,等. 自然循环蒸汽发生器的水位动态特性分析[J]. 核动力工程,2021,42(S2): 5-9.
    [2] 彭彬森. 基于多智能体的蒸汽发生器建模与水位控制策略研究[D]. 哈尔滨: 哈尔滨工程大学,2021.
    [3] 刘妍. 一体化反应堆协调控制技术研究[D]. 哈尔滨: 哈尔滨工程大学,2013.
    [4] 邓志光,青先国,吴茜,等. ALSTM-GPC在核电厂协调控制系统中的应用[J]. 核动力工程,2021,42(S2): 41-47.
    [5] 郭小梁. 船用核动力装置功率调节的协调控制方法研究[D]. 大连: 大连理工大学,2022.
    [6] 刘永超,李桐,成以恒,等. 基于深度确定性策略梯度算法的自适应核反应堆功率控制器设计[J]. 原子能科学技术,2024,58(5): 1076-1083.
    [7] LI C, YU R, YU W M, et al. Reinforcement learning-based control with application to the once-through steam generator system[J]. Nuclear Engineering and Technology, 2023, 55(10): 3515-3524. doi: 10.1016/j.net.2023.06.001
    [8] GU S D, KUBA J G, CHEN Y P, et al. Safe multi-agent reinforcement learning for multi-robot control[J]. Artificial Intelligence, 2023, 319: 103905. doi: 10.1016/j.artint.2023.103905
    [9] CHU T S, WANG J, CODECÀ L, et al. Multi-agent deep reinforcement learning for large-scale traffic signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(3): 1086-1095. doi: 10.1109/TITS.2019.2901791
    [10] YU L, SUN Y, XU Z B, et al. Multi-agent deep reinforcement learning for HVAC control in commercial buildings[J]. IEEE Transactions on Smart Grid, 2021, 12(1): 407-419. doi: 10.1109/TSG.2020.3011739
    [11] KAZMI H, SUYKENS J, BALINT A, et al. Multi-agent reinforcement learning for modeling and control of thermostatically controlled loads[J]. Applied Energy, 2019, 238: 1022-1035. doi: 10.1016/j.apenergy.2019.01.140
    [12] LI F D, WU M, HE Y, et al. Optimal control in microgrid using multi-agent reinforcement learning[J]. ISA Transactions, 2012, 51(6): 743-751. doi: 10.1016/j.isatra.2012.06.010
    [13] FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018.
    [14] 汪明媚,程启明,王映斐,等. 基于自适应GA自抗扰控制在蒸汽发生器水位控制中的应用研究[J]. 核动力工程,2011,32(6): 28-33.
  • 加载中
图(5) / 表(1)
计量
  • 文章访问数:  62
  • HTML全文浏览量:  20
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-08-12
  • 修回日期:  2024-11-12
  • 网络出版日期:  2025-01-23
  • 刊出日期:  2025-04-02

目录

    /

    返回文章
    返回