Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
SimonSun
文章
63
分类
4
标签
37
历史归档
文章分类
文章标签
Github
About Me
友链
开往
Lazy loaded image
LLM
🪸PPO(0)强化学习基础
发布于: 2024-12-23
最后更新: 2025-11-27
次查看
RM
llm
目录
0%
1. 基本概念1. 环境 (Environment)2. 智能体 (Agent)3. 状态 (State)4. 动作 (Action)5. 奖励 (Reward)6.动作的选择空间 (Action Space)7.策略函数 (Policy)8. 轨迹 (Trajectory)9. 回报 (Return Reward)2. 强化学习的目标1. 分析优化目标2. 强化学习的Loss3. 进一步优化3. Proximal Policy Optimization (PPO) 邻近策略优化1. On Policy vs Off Policy2. Importance Sampling (重要性采样)2. PPO Loss 函数3. PPO截断(PPO-Clipped)(替代KL 散度)
SimonSun
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
文章
63
分类
4
标签
37
最新发布
读A.I. Should Elevate Your Thinking, Not Replace It 有感
读A.I. Should Elevate Your Thinking, Not Replace It 有感
2026-5-9
vibecoding skill 集合使用历程记录
vibecoding skill 集合使用历程记录
2026-5-9
创业灵感挖掘与验证指南
创业灵感挖掘与验证指南
2026-5-9
VLM
VLM
2026-5-9
vibe coding for 前端心路历程
vibe coding for 前端心路历程
2026-5-7
vibe coding 一年小结
vibe coding 一年小结
2026-4-15
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐
 
目录
0%
1. 基本概念1. 环境 (Environment)2. 智能体 (Agent)3. 状态 (State)4. 动作 (Action)5. 奖励 (Reward)6.动作的选择空间 (Action Space)7.策略函数 (Policy)8. 轨迹 (Trajectory)9. 回报 (Return Reward)2. 强化学习的目标1. 分析优化目标2. 强化学习的Loss3. 进一步优化3. Proximal Policy Optimization (PPO) 邻近策略优化1. On Policy vs Off Policy2. Importance Sampling (重要性采样)2. PPO Loss 函数3. PPO截断(PPO-Clipped)(替代KL 散度)
2023-2026SimonSun.

Blog de Simon🫣 | Internet Malou, LLM Rookie, Bug Maker🤧

Powered byNotionNext 4.10.2.