Personal Site · Beijing

繁花似锦,辉夜如昼

我是于鸿利(Hongli Yu),2004年出生,来自中国北京,目前在清华大学智能产业研究院(AIR)攻读博士学位,同时在 ByteDance Seed 实习。我是字节清华联合实验室SIA-Lab 与 GENSI 课题组的成员。近期工作主要围绕长上下文记忆、LLM 强化学习。

Papers

论文与项目主页

2026 · ICLR Oral · First author

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

面向长上下文能力的 Memory Agent 与多轮对话强化学习方法,将记忆能力训练与长文本泛化结合起来。

2026 · arXiv · Co-author

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

面向高性能 CUDA kernel 生成的 agentic RL 系统,结合数据合成、执行环境和长程 RL 训练。

2025 · arXiv · Co-author

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

基于离散扩散的大规模语言模型,面向代码生成场景验证高速并行推理路线。

2025 · NeurIPS Spotlight · Co-author

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

通过可验证合成谜题和多阶段 RL 训练提升大语言模型逻辑推理能力。

2025 · NeurIPS · Co-author

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

开源大规模 LLM 强化学习系统,提出 Decoupled Clip 与 Dynamic sAmpling Policy Optimization。

Notes

文章

Mounted Sites

静态页