Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
SimonSun
文章
63
分类
4
标签
37
历史归档
文章分类
文章标签
Github
About Me
友链
开往
目录
0%
1. 绪论:RLHF训练范式的效率瓶颈与演进1.1 RLHF计算流的固有缺陷2. 架构哲学对比:HybridFlow 与完全异步2.1 verl:混合流(HybridFlow)架构解析2.1.1 HybridFlow的“异步”定义2.2 AReaL:完全异步(Fully Asynchronous)架构解析2.2.1 AReaL的“异步”定义3. 深度案例分析:异步机制的具体运作流程3.1 对照组:verl (Synchronous PPO) 的时间线3.2 实验组:AReaL (Fully Asynchronous) 的时间线4. AReaL 或者其他 partially rollout 框架,在rollout时,会不会保存之前policy的KV cache?4.1 结论先行4.2 为什么 AReaL 选择丢弃 KV Cache?4.2.1 KV Cache 的本质依赖4.2.2 AReaL 的官方阐述5. 综合对比5.1 AReaL vs. verl 核心维度对比表
2023-2026SimonSun.

Blog de Simon🫣 | Internet Malou, LLM Rookie, Bug Maker🤧

Powered byNotionNext 4.10.2.