Hi! I'm Longtao Zheng.

I build real-world environments for computer agents.

I'm Longtao Zheng (郑龙韬), a researcher at Bytedance, working on RL for coding agents. My research focuses on training open-ended and long-horizon agents. I earned my PhD from Nanyang Technological University (NTU) Singapore in 2026, advised by Prof. Bo An. Previously, I received my Bachelor's degree in computer science from University of Science and Technology of China (USTC) in 2022.

Email GitHub Google Scholar CV X LinkedIn

Research

I study the full stack of open-domain and long-horizon computer agents since 2023,
including real-world environments, inference-time harnesses, and RL for LLM agents.

Environment

GUI + CLI + Code

AgentStudio Dr. Kernel Cradle

observation action

Harness

Long-horizon autonomy

AutoCompact Synapse Cradle Dr. MAS

context reasoning / action

LLM

RL self-improvement

AutoCompact SimpleTIR Dr. MAS Dr. Kernel Optimal Token Baseline TWOSOME

Blogs

A context window calls compact and continues from a concise summary

July 30, 2026 English / 中文

AutoCompact: Learning when to compact context in long-horizon coding agents

Teaching coding agents to adaptively compress noisy history into useful context

Publications Selected All by Date All by Topic

GRPOshared

Global baseline

Unstable gradients

Dr. MASper-agent

A baseline

B baseline

Stable gradients

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An

Preprint | Paper Code

Stable training algorithm and open-source codebase for multi-agent LLM RL

GRPOshared

High variance

OTBper-token

Low variance

The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL

Yingru Li, Jiawei Xu, Ziniu Li, Jiacai Liu, Wei Liu, Yuxuan Tong, Longtao Zheng, Zhenghai Xue, Yaxiang Zhang, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang

ICML 2026 | Paper Code (verl)

A token-level baseline prevents RL training collapse and reduces token consumption

KernelGYM

Multi-turn RL

Test-time scaling

Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Wei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He

ICML 2026 | Paper Code

Optimizing Triton kernel generation with multi-turn RL and test-time scaling

score

grad norm

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

Zhenghai Xue*, Longtao Zheng*, Qian Liu, Yingru Li, Zejun Ma, Bo An (* Equal contribution)

ICLR 2026 top 1% score | Paper Code

Simple trajectory filtering stabilizes multi-turn RL and emerges diverse reasoning

Soft RL

pleasetap

Set by hyperparameter

Entropy bonus

Uniform exploration

CoSo

pleasetap

Set by action impact

Entropy bonus

Less
explorationMore
exploration

Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An

ICML 2025 | Paper Code

Finetuning VLM agents with online RL

SELF-
REFLECT

↓

TASK
INFER

↓

SKILL
CURATE

↓ ↓ ↓

INFO
GATHER

SHARED
MEMORY

ACTION
PLAN

Environment

Cradle: Empowering Foundation Agents Towards General Computer Control

Cradle Team (Longtao Zheng as core contributor)

ICML 2025 | Project Page Paper Code

A general computer-control agent that acts through visual observations and keyboard/mouse input

↓

Linear video
memory Multi-modal
attention Emotional
condition

↓

MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

Longtao Zheng*, Yifan Zhang*, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan (* Equal contribution)

TMLR J2C Certification | Project Page Paper Code Model

A SOTA and open-weight model for audio-driven talking video generation

Environment

GUI API CLI

real-world OS

video image text

Tools

task GUI video

Benchmarks

AgentStudio: A Toolkit for Building General Virtual Agents

Longtao Zheng*, Zhiyuan Huang*, Zhenghai Xue, Xinrun Wang, Bo An, Shuicheng Yan (* Equal contribution)

ICLR 2025 | Project Page Paper Code Data

A trinity of environments, tools, and benchmarks for general virtual agents

FinAgent

A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist

Wentao Zhang, Lingxuan Zhao, Haochong Xia, Shuo Sun, Jiaze Sun, Molei Qin, Xinyi Li, Yuqing Zhao, Yilei Zhao, Xinyu Cai, Longtao Zheng, Xinrun Wang, Bo An

KDD 2024 | Paper

The first multimodal agent for financial trading

Exemplar
memory

Task ↓ Embed ↓ flight mail •••

Observation abstraction

raw obs ↓ memory↓LLM ↓ clean obs

Trajectory-as-exemplar

full
history ↓ memory↓LLM ↓ macro
action

Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An

ICLR 2024 | Project Page Paper Code

One of the earliest web agents with state abstraction, trajectory prompting, and memory

Shared actor–criticPPO updates LoRA + MLP

observation
prompt

↓

LLMfrozen

↓ ↓

LoRA actorpolicy

MLP criticvalue

Word Normalizationremove length bias

token scores

serve

pick tomato

↓

average by words

serve

pick tomato

True Knowledge Comes from Practice: Aligning Large Language Models with Embodied Environments via Reinforcement Learning

Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo An

ICLR 2024 | Paper Code

Finetuning LLM agents with online RL

Baseline

different actions see different teammates

Amostly T1

Bmostly T2

confounded

CTCAT

overrep. ↓underrep. ↑

AT1 + T2 adjusted

BT1 + T2 adjusted

rectified

Controlling Type Confounding in Ad Hoc Teamwork with Instance-wise Teammate Feedback Rectification

Dong Xing, Pengjie Gu, Qian Zheng, Xinrun Wang, Shanqi Liu, Longtao Zheng, Bo An, Gang Pan

ICML 2023 | Paper

A causality-based solution to deal with type confounding in ad hoc teamwork

MAGENTA

Multi-Agent Multi-Game Entity Transformer: Towards Generalist Models in MARL

Rundong Wang, Weixuan Wang, Xianhan Zeng, Liang Wang, Zhengjie Lian, Yiming Gao, Feiyu Liu, Siqin Li, Xianliang Wang, Qiang Fu, Wei Yang, Lanxiao Huang, Longtao Zheng, Zinovi Rabinovich, Bo An

DAI 2024 Best Paper | Paper

A generalist transformer for Honor of Kings, Starcraft II, and Neural MMO

teachertask

1v0 3v1 5v5

↓ ↓

skill studentcontext

1↔Nagents pass run shoot

Towards Skilled Population Curriculum for Multi-Agent Reinforcement Learning

Rundong Wang*, Longtao Zheng*, Wei Qiu, Bowei He, Bo An, Zinovi Rabinovich, Yujing Hu, Yingfeng Chen, Tangjie Lv, Changjie Fan (* Equal contribution)

Preprint | Paper Code

Autocurricula for MARL in complex sparse-reward environments like Google Football

Hi! I'm Longtao Zheng.

Research

Environment

Harness

LLM

How to build a fully asynchronous black-box agentic RL system

AutoCompact: Learning when to compact context in long-horizon coding agents

The science of LLM RL