Skip to content
Search
K
Main Navigation
🧭 指南
🎐 随笔
🌱 杂项
arch_tips
build_blog
git
langchain
network
Appearance
Menu
Return to top
On this page
Table of Contents for current page
On-policy vs Off-policy
On-policy
Off-policy
优点
实现更简单
训练更稳定
理论保证更强
更好的样本效率
可以重用历史数据
可以从演示中学习
缺点
样本效率低
需要频繁收集新数据
不能重用历史数据
实现更复杂
训练可能不稳定
需要更多的超参数调整