86kkd's blog

On-policy vs Off-policy

	On-policy	Off-policy
优点	实现更简单训练更稳定理论保证更强	更好的样本效率可以重用历史数据可以从演示中学习
缺点	样本效率低需要频繁收集新数据不能重用历史数据	实现更复杂训练可能不稳定需要更多的超参数调整