Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
63
分类
4
标签
37
历史归档
文章分类
文章标签
Github
About Me
友链
开往
目录
0%
1. 绪论:RLHF训练范式的效率瓶颈与演进
1.1 RLHF计算流的固有缺陷
2. 架构哲学对比:HybridFlow 与完全异步
2.1 verl:混合流(HybridFlow)架构解析
2.1.1 HybridFlow的“异步”定义
2.2 AReaL:完全异步(Fully Asynchronous)架构解析
2.2.1 AReaL的“异步”定义
3. 深度案例分析:异步机制的具体运作流程
3.1 对照组:verl (Synchronous PPO) 的时间线
3.2 实验组:AReaL (Fully Asynchronous) 的时间线
4. AReaL 或者其他 partially rollout 框架,在rollout时,会不会保存之前policy的KV cache?
4.1 结论先行
4.2 为什么 AReaL 选择丢弃 KV Cache?
4.2.1 KV Cache 的本质依赖
4.2.2 AReaL 的官方阐述
5. 综合对比
5.1 AReaL vs. verl 核心维度对比表