首页 > 编程笔记

强化学习是什么意思?

强化学习强调基于环境而行动,以取得最大化的预期利益。

强化学习的灵感来源于心理学中的行为主义理论,即智能体(Agent)在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。强化学习的主要特点是智能体和环境之间不断进行交互,智能体为了获得更多的累计奖励而不断搜索和试错。

强化学习主要由 5 个部分组成,分别是智能体、环境、状态、行动和奖励,如图1所示。

图1:强化学习的组成
图1:强化学习的组成

图1中的智能体指计算机,计算机在强化学习过程中采取行动来操纵环境,从一个状态转变到另一个状态,当它完成任务时,系统就给予它奖励,当它没完成任务时,系统就不给予奖励,这就是强化学习的核心思想。

强化学习的分类及算法

强化学习可以分为两大类,一类是有模型的强化学习,另一类是无模型的强化学习。有模型的强化学习有动态规划法,无模型的强化学习有蒙特卡罗法和时间差分法,如图2所示。

图2:强化学习的分类
图2:强化学习的分类

动态规划法是实现决策过程最优化的数学方法,其主要思想是求问题的最优解,求解的大问题可以分解成小问题,分解后的小问题存在最优解,将小问题的最优解组合起来就能够得到大问题的最优解。分析思路是从上往下分析问题,从下往上求解问题。

蒙特卡罗法也称统计模拟法、统计试验法,其主要思想是首先根据实际问题构造概率统计模型,问题的解恰好是模型的参数或数字特征;然后对模型进行抽样试验,给出所求解的近似值;最后统计处理模拟结果,给出问题解的统计估计值和精度估计值。

相关文章