Welcome to my paper nodebook
Here's my research on deep learning.
Reinforce Learning
On-policy vs Off-policy
On-policy | Off-policy | |
---|---|---|
优点 | 实现更简单 训练更稳定 理论保证更强 | 更好的样本效率 可以重用历史数据 可以从演示中学习 |
缺点 | 样本效率低 需要频繁收集新数据 不能重用历史数据 | 实现更复杂 训练可能不稳定 需要更多的超参数调整 |
Here's my research on deep learning.
On-policy | Off-policy | |
---|---|---|
优点 | 实现更简单 训练更稳定 理论保证更强 | 更好的样本效率 可以重用历史数据 可以从演示中学习 |
缺点 | 样本效率低 需要频繁收集新数据 不能重用历史数据 | 实现更复杂 训练可能不稳定 需要更多的超参数调整 |