🩴 一、强化学习基础

强化学习面向智能体与环境相互交互的场景。其中在线学习需要智能体必须亲自学习实时更新;离线学习可以基于其他智能体与环境交互的数据进行更新迭代。