Skip to content

Welcome to my paper nodebook

Here's my research on deep learning.

Reinforce Learning

On-policy vs Off-policy

On-policyOff-policy
优点实现更简单
训练更稳定
理论保证更强
更好的样本效率
可以重用历史数据
可以从演示中学习
缺点样本效率低
需要频繁收集新数据
不能重用历史数据
实现更复杂
训练可能不稳定
需要更多的超参数调整