强化学习
字数 1563 2025-11-10 17:27:13
强化学习
强化学习是机器学习的一个分支,专注于智能体如何在一系列行动中做出决策,以通过与环境互动来最大化累积奖励。
-
核心概念与类比
- 智能体:进行学习和决策的实体,例如一个下棋的程序、一个自动驾驶的汽车控制器。
- 环境:智能体所处的外部世界,它会对智能体的行动做出反应。
- 状态:环境在某个时刻的具体情况描述。
- 行动:智能体在某个状态下可以执行的操作。
- 奖励:环境在智能体执行一个行动后,反馈给智能体的一个标量信号。这个信号是智能体追求最大化的目标,正奖励代表“好”,负奖励代表“惩罚”。
- 类比:想象训练一只狗。狗是智能体,你和周围的空间是环境。你发出“坐下”的指令,这可以被视为一个状态。狗执行了坐下的行动。你给它一块零食作为奖励。通过反复互动,狗学会了在“坐下”指令这个状态下,执行“坐下”行动能获得奖励,从而形成了决策逻辑。
-
学习目标与价值函数
- 智能体的目标不是获取某一次行动的即时奖励,而是追求从当前时刻开始,所有未来奖励的累加和(即累积奖励)最大化。
- 为了做到这一点,智能体需要学会评估“从某个状态出发,长期来看能获得多少累积奖励”。这个评估工具就是价值函数。
- 状态价值函数:衡量一个状态本身有多好,即从该状态开始,遵循当前策略,能获得的期望累积奖励。
- 动作价值函数:衡量在某个状态下采取某个特定动作有多好,即在该状态执行该动作后,遵循当前策略,能获得的期望累积奖励。这个函数是许多强化学习算法的核心。
-
核心机制:探索与利用
- 这是强化学习中的一个基本权衡。
- 利用:智能体选择当前已知能带来最高奖励的行动。这像是去你最喜欢的、不会出错的餐厅吃饭。
- 探索:智能体尝试一些新的、或者目前看来不是最优的行动,以发现可能带来更高长期回报的新策略。这像是尝试一家新开的餐厅,它可能更好吃,也可能很难吃。
- 一个有效的学习策略必须在“利用现有知识获取稳定收益”和“探索未知领域寻找更大收益”之间找到平衡。
-
主要方法分类
- 基于价值的方法:这类方法的核心是学习一个优秀的动作价值函数。一旦学到了这个函数,智能体在每个状态选择能使价值函数最大化的行动即可。著名的Q-learning算法就属于此类。
- 基于策略的方法:这类方法不直接学习价值函数,而是直接学习一个策略本身(即状态到行动的映射函数)。它通过优化策略函数的参数,使得能获得的累积奖励期望值最大。
- 演员-评论家方法:这是结合了上述两者优势的混合方法。系统中有两个部分:
- 演员:负责执行策略(基于策略的方法)。
- 评论家:负责评估演员所执行策略的价值(基于价值的方法)。
- 评论家会批评或赞扬演员的行动,演员则根据评论家的反馈来更新和改进自己的策略,形成一个持续优化的循环。
-
关键挑战与代表性算法
- 信用分配问题:当一个复杂的任务最终获得成功或失败时,如何确定这一系列行动中,每一步行动各自应承担多少功劳或责任。
- 深度强化学习:当状态空间非常巨大和复杂时(例如像素屏幕),传统方法难以处理。此时会结合深度学习,使用神经网络来近似价值函数或策略函数,这就是深度强化学习。
- 代表性算法:
- DQN:将深度学习与Q-learning结合,开创了深度强化学习的新领域,能够直接从高维感官输入(如图像)中学习。
- A3C:一种高效的演员-评论家算法。
- PPO:一种稳健且性能优异的策略优化算法,是目前主流的基准算法之一。
-
实际应用
- 游戏AI:AlphaGo击败人类围棋冠军,以及AI在Dota 2、星际争霸等复杂游戏中的表现。
- 机器人控制:让机器人学习行走、抓取物体等复杂技能。
- 自动驾驶:在模拟或真实环境中学习驾驶策略。
- 资源管理:在数据中心进行冷却和电力调度。
- 推荐系统:将用户点击视为奖励,动态优化内容推荐策略。