MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent
面向长上下文能力的 Memory Agent 与多轮对话强化学习方法,将记忆能力训练与长文本泛化结合起来。
Personal Site · Beijing
我是于鸿利(Hongli Yu),2004年出生,来自中国北京,目前在清华大学智能产业研究院(AIR)攻读博士学位,同时在 ByteDance Seed 实习。我是字节清华联合实验室SIA-Lab 与 GENSI 课题组的成员。近期工作主要围绕长上下文记忆、LLM 强化学习。
Papers
面向长上下文能力的 Memory Agent 与多轮对话强化学习方法,将记忆能力训练与长文本泛化结合起来。
面向高性能 CUDA kernel 生成的 agentic RL 系统,结合数据合成、执行环境和长程 RL 训练。
基于离散扩散的大规模语言模型,面向代码生成场景验证高速并行推理路线。
通过可验证合成谜题和多阶段 RL 训练提升大语言模型逻辑推理能力。
开源大规模 LLM 强化学习系统,提出 Decoupled Clip 与 Dynamic sAmpling Policy Optimization。
Notes
Mounted Sites