强化学习

贡献者： xzllxls; addis

　　 强化学习（Reinforcement learning）是机器学习的一个领域，主要研究智能主体在环境中应该怎样采取行动以最大化所获得的累积奖励．这类似于心理學行為主義理論关于人类学习行为的相关描述．人类在学习时，也会根据行为效果（也即环境对行为的反馈——奖励或惩罚），来不断调整自己的行为，从而适应环境，以获得最大价值．

　　强化学习与监督学习和无监督学习一样，机器学习的基本模式．同时，强化学习与监督学习也有区别，前者训练模型时不需要标记好的输入输出数据，而后者需要．强化学习侧重点是在探索未知范围和利用现有信息之间寻找一个平衡（tradeoff）．

　　强化学习的核心问题，包括权衡探索与利用、通过马尔科夫决策理论建立领域的基础、学习延迟强化、构建经验模型以加速学习、利用泛化和层次结构、处理隐藏状态等．

　　在标准强化学习模型中，智能体主体会与环境产生交互．它可以感知来自环境的信息，也可以产生行为改变环境．

图 1：强化学习基本模型

　　参考文献：

L. P. Kaelbling, M. L. Littman, and A. W. Moore, “Reinforcement learning: A survey,” Journal of artificial intelligence research, vol. 4, pp. 237–285, 1996.
https://en.wikipedia.org/wiki/Reinforcement_learning