Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
63
分类
4
标签
37
历史归档
文章分类
文章标签
Github
About Me
友链
开往
LLM
🪸
PPO(0)强化学习基础
发布于: 2024-12-23
最后更新: 2025-11-27
次查看
RM
llm
目录
0%
1. 基本概念
1. 环境 (Environment)
2. 智能体 (Agent)
3. 状态 (State)
4. 动作 (Action)
5. 奖励 (Reward)
6.动作的选择空间 (Action Space)
7.策略函数 (Policy)
8. 轨迹 (Trajectory)
9. 回报 (Return Reward)
2. 强化学习的目标
1. 分析优化目标
2. 强化学习的Loss
3. 进一步优化
3. Proximal Policy Optimization (PPO) 邻近策略优化
1. On Policy vs Off Policy
2. Importance Sampling (重要性采样)
2. PPO Loss 函数
3. PPO截断(PPO-Clipped)(替代KL 散度)
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
文章
63
分类
4
标签
37
最新发布
读A.I. Should Elevate Your Thinking, Not Replace It 有感
2026-5-9
vibecoding skill 集合使用历程记录
2026-5-9
创业灵感挖掘与验证指南
2026-5-9
VLM
2026-5-9
vibe coding for 前端心路历程
2026-5-7
vibe coding 一年小结
2026-4-15
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐
目录
0%
1. 基本概念
1. 环境 (Environment)
2. 智能体 (Agent)
3. 状态 (State)
4. 动作 (Action)
5. 奖励 (Reward)
6.动作的选择空间 (Action Space)
7.策略函数 (Policy)
8. 轨迹 (Trajectory)
9. 回报 (Return Reward)
2. 强化学习的目标
1. 分析优化目标
2. 强化学习的Loss
3. 进一步优化
3. Proximal Policy Optimization (PPO) 邻近策略优化
1. On Policy vs Off Policy
2. Importance Sampling (重要性采样)
2. PPO Loss 函数
3. PPO截断(PPO-Clipped)(替代KL 散度)