强化学习算法

字数 863 2025-11-13 02:06:19

强化学习算法
强化学习算法是实现在环境中通过试错学习决策策略的计算方法。其核心包含五个关键组成部分：

智能体与环境交互机制
智能体在离散时间步长t中接收状态s_t∈S，执行动作a_t∈A，随后获得标量奖励r_{t+1}并转移到新状态s_{t+1}。这种交互过程形成马尔可夫决策过程（MDP），其特性是状态转移概率P(s_{t+1}|s_t,a_t)仅依赖当前状态与动作。
价值函数构建
状态价值函数V^π(s)=E_π[∑{k=0}∞γ^k r{t+k+1}|s_t=s]表示从状态s开始遵循策略π的长期预期回报，其中γ∈[0,1]为折扣因子。动作价值函数Q^π(s,a)=E_π[∑{k=0}∞γ^k r{t+k+1}|s_t=s,a_t=a]则量化在特定状态执行动作后的长期价值。
贝尔曼方程求解
通过贝尔曼最优方程V^(s)=max_a∑_{s'}P(s'|s,a)[r(s,a,s')+γV^(s')]进行动态规划迭代。时序差分学习（如TD(λ)）结合蒙特卡洛采样与动态规划，使用TD误差δ_t=r_{t+1}+γV(s_{t+1})-V(s_t)在线更新价值估计。
策略优化方法
策略迭代交替进行策略评估与策略改进，而值迭代直接优化价值函数。现代方法如Actor-Critic架构同时维护策略函数π(a|s)（Actor）和价值函数Q(s,a)（Critic），通过策略梯度定理∇_θJ(θ)=E[Q^π(s,a)∇_θlnπ_θ(a|s)]更新参数。
深度强化学习扩展
DQN使用经验回放缓冲区和目标网络解决数据关联性问题，其损失函数L(θ)=E[(r+γmax_{a'}Q_{target}(s',a')-Q(s,a))^2]。策略梯度算法如PPO通过裁剪概率比实现稳定训练：L(θ)=E[min(ρ_t(θ)A_t, clip(ρ_t(θ),1-ε,1+ε)A_t)]，其中优势函数A_t通过GAE(λ)估计。