强化学习
字数 1563 2025-11-10 17:27:13

强化学习

强化学习是机器学习的一个分支,专注于智能体如何在一系列行动中做出决策,以通过与环境互动来最大化累积奖励。

  1. 核心概念与类比

    • 智能体:进行学习和决策的实体,例如一个下棋的程序、一个自动驾驶的汽车控制器。
    • 环境:智能体所处的外部世界,它会对智能体的行动做出反应。
    • 状态:环境在某个时刻的具体情况描述。
    • 行动:智能体在某个状态下可以执行的操作。
    • 奖励:环境在智能体执行一个行动后,反馈给智能体的一个标量信号。这个信号是智能体追求最大化的目标,正奖励代表“好”,负奖励代表“惩罚”。
    • 类比:想象训练一只狗。狗是智能体,你和周围的空间是环境。你发出“坐下”的指令,这可以被视为一个状态。狗执行了坐下的行动。你给它一块零食作为奖励。通过反复互动,狗学会了在“坐下”指令这个状态下,执行“坐下”行动能获得奖励,从而形成了决策逻辑。
  2. 学习目标与价值函数

    • 智能体的目标不是获取某一次行动的即时奖励,而是追求从当前时刻开始,所有未来奖励的累加和(即累积奖励)最大化。
    • 为了做到这一点,智能体需要学会评估“从某个状态出发,长期来看能获得多少累积奖励”。这个评估工具就是价值函数
    • 状态价值函数:衡量一个状态本身有多好,即从该状态开始,遵循当前策略,能获得的期望累积奖励。
    • 动作价值函数:衡量在某个状态下采取某个特定动作有多好,即在该状态执行该动作后,遵循当前策略,能获得的期望累积奖励。这个函数是许多强化学习算法的核心。
  3. 核心机制:探索与利用

    • 这是强化学习中的一个基本权衡。
    • 利用:智能体选择当前已知能带来最高奖励的行动。这像是去你最喜欢的、不会出错的餐厅吃饭。
    • 探索:智能体尝试一些新的、或者目前看来不是最优的行动,以发现可能带来更高长期回报的新策略。这像是尝试一家新开的餐厅,它可能更好吃,也可能很难吃。
    • 一个有效的学习策略必须在“利用现有知识获取稳定收益”和“探索未知领域寻找更大收益”之间找到平衡。
  4. 主要方法分类

    • 基于价值的方法:这类方法的核心是学习一个优秀的动作价值函数。一旦学到了这个函数,智能体在每个状态选择能使价值函数最大化的行动即可。著名的Q-learning算法就属于此类。
    • 基于策略的方法:这类方法不直接学习价值函数,而是直接学习一个策略本身(即状态到行动的映射函数)。它通过优化策略函数的参数,使得能获得的累积奖励期望值最大。
    • 演员-评论家方法:这是结合了上述两者优势的混合方法。系统中有两个部分:
      • 演员:负责执行策略(基于策略的方法)。
      • 评论家:负责评估演员所执行策略的价值(基于价值的方法)。
      • 评论家会批评或赞扬演员的行动,演员则根据评论家的反馈来更新和改进自己的策略,形成一个持续优化的循环。
  5. 关键挑战与代表性算法

    • 信用分配问题:当一个复杂的任务最终获得成功或失败时,如何确定这一系列行动中,每一步行动各自应承担多少功劳或责任。
    • 深度强化学习:当状态空间非常巨大和复杂时(例如像素屏幕),传统方法难以处理。此时会结合深度学习,使用神经网络来近似价值函数或策略函数,这就是深度强化学习。
    • 代表性算法
      • DQN:将深度学习与Q-learning结合,开创了深度强化学习的新领域,能够直接从高维感官输入(如图像)中学习。
      • A3C:一种高效的演员-评论家算法。
      • PPO:一种稳健且性能优异的策略优化算法,是目前主流的基准算法之一。
  6. 实际应用

    • 游戏AI:AlphaGo击败人类围棋冠军,以及AI在Dota 2、星际争霸等复杂游戏中的表现。
    • 机器人控制:让机器人学习行走、抓取物体等复杂技能。
    • 自动驾驶:在模拟或真实环境中学习驾驶策略。
    • 资源管理:在数据中心进行冷却和电力调度。
    • 推荐系统:将用户点击视为奖励,动态优化内容推荐策略。
强化学习 强化学习是机器学习的一个分支,专注于智能体如何在一系列行动中做出决策,以通过与环境互动来最大化累积奖励。 核心概念与类比 智能体 :进行学习和决策的实体,例如一个下棋的程序、一个自动驾驶的汽车控制器。 环境 :智能体所处的外部世界,它会对智能体的行动做出反应。 状态 :环境在某个时刻的具体情况描述。 行动 :智能体在某个状态下可以执行的操作。 奖励 :环境在智能体执行一个行动后,反馈给智能体的一个标量信号。这个信号是智能体追求最大化的目标,正奖励代表“好”,负奖励代表“惩罚”。 类比 :想象训练一只狗。狗是 智能体 ,你和周围的空间是 环境 。你发出“坐下”的指令,这可以被视为一个 状态 。狗执行了坐下的 行动 。你给它一块零食作为 奖励 。通过反复互动,狗学会了在“坐下”指令这个状态下,执行“坐下”行动能获得奖励,从而形成了决策逻辑。 学习目标与价值函数 智能体的目标不是获取某一次行动的即时奖励,而是追求从当前时刻开始,所有未来奖励的累加和(即累积奖励)最大化。 为了做到这一点,智能体需要学会评估“从某个状态出发,长期来看能获得多少累积奖励”。这个评估工具就是 价值函数 。 状态价值函数 :衡量一个状态本身有多好,即从该状态开始,遵循当前策略,能获得的期望累积奖励。 动作价值函数 :衡量在某个状态下采取某个特定动作有多好,即在该状态执行该动作后,遵循当前策略,能获得的期望累积奖励。这个函数是许多强化学习算法的核心。 核心机制:探索与利用 这是强化学习中的一个基本权衡。 利用 :智能体选择当前已知能带来最高奖励的行动。这像是去你最喜欢的、不会出错的餐厅吃饭。 探索 :智能体尝试一些新的、或者目前看来不是最优的行动,以发现可能带来更高长期回报的新策略。这像是尝试一家新开的餐厅,它可能更好吃,也可能很难吃。 一个有效的学习策略必须在“利用现有知识获取稳定收益”和“探索未知领域寻找更大收益”之间找到平衡。 主要方法分类 基于价值的方法 :这类方法的核心是学习一个优秀的 动作价值函数 。一旦学到了这个函数,智能体在每个状态选择能使价值函数最大化的行动即可。著名的Q-learning算法就属于此类。 基于策略的方法 :这类方法不直接学习价值函数,而是直接学习一个 策略 本身(即状态到行动的映射函数)。它通过优化策略函数的参数,使得能获得的累积奖励期望值最大。 演员-评论家方法 :这是结合了上述两者优势的混合方法。系统中有两个部分: 演员 :负责执行策略(基于策略的方法)。 评论家 :负责评估演员所执行策略的价值(基于价值的方法)。 评论家会批评或赞扬演员的行动,演员则根据评论家的反馈来更新和改进自己的策略,形成一个持续优化的循环。 关键挑战与代表性算法 信用分配问题 :当一个复杂的任务最终获得成功或失败时,如何确定这一系列行动中,每一步行动各自应承担多少功劳或责任。 深度强化学习 :当状态空间非常巨大和复杂时(例如像素屏幕),传统方法难以处理。此时会结合 深度学习 ,使用神经网络来近似价值函数或策略函数,这就是深度强化学习。 代表性算法 : DQN :将深度学习与Q-learning结合,开创了深度强化学习的新领域,能够直接从高维感官输入(如图像)中学习。 A3C :一种高效的演员-评论家算法。 PPO :一种稳健且性能优异的策略优化算法,是目前主流的基准算法之一。 实际应用 游戏AI :AlphaGo击败人类围棋冠军,以及AI在Dota 2、星际争霸等复杂游戏中的表现。 机器人控制 :让机器人学习行走、抓取物体等复杂技能。 自动驾驶 :在模拟或真实环境中学习驾驶策略。 资源管理 :在数据中心进行冷却和电力调度。 推荐系统 :将用户点击视为奖励,动态优化内容推荐策略。