EBET易博app第五章 模型和训练

  新闻资讯     |      2023-05-23 15:07

  EBET易博官方网站强化学习(Reinforcement Learning)是让计算机实现在特定的情况下,通过不断地尝试,从错误中学习,最后找到规律,找到可以获得最大回报的行为。强化学习有四个基本组件,包括输入:环境(States),动作(Actions),回报(Rewards)以及输出:方案(Policy)。和监督学习不同,强化学习没有确定的标签,需要机器自己摸索,每一个动作对应一个奖赏,最后得到一个奖赏最大的方式进行数据处理。围棋AlphaGo就是一个强化学习的实例。

  强化学习的主要算法有:Sarsa,QLearning, Policy Gradients, Actor-Critic,Deep-Q-Network等。强化学习的目标是发现最优策略π(x),使得达到最优价值Q【9】。主要有两种途径可以学习最优值函数:一种是基于模型的学习,在学习的过程中对模型进行估计,如实时动态规划(Real-TimeDynamic Programming, RTDP);另一种是无模型学习,在学习的过程中直接估计最优行动值。Q学习算法是Watkins在1987年提出的一种无模型强化学习算法:它用状态s下采取行动的下一个状态,对假定的行动所对应的最大值Q更新当前的值Q。强化学习Q算法具有不断试错、优化调整的特点。