好运3分快3骗局Google Deepmind大神David Silver带你认识强化学习 | 雷锋网

  • 时间:
  • 浏览:0

引言:强化学习(Reinf好运3分快3骗局orcement learning)是机器学习中的俩个 领域,强调如可基于环境而行动,以取得最大化的预期利益。

David Silver在2013年加入Google DeepMind,是小好运3分快3骗局组中AlphaGo项目的主多多程序 员,也是University College London的讲师。

| 背景 

强化学习(Reinforcement learning)灵感来源于心理学中的行为主义理论,即有机体如可在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。有些土法律法子具有普适性,如可让在有些有些领域须要研究,类事博弈论、控制论、运筹学、信息论、模拟优化土法律法子、多主体系统学习、群体智能、统计学以及遗传算法。 

强化学习也是多学科多领域交叉的俩个 产物,它的本质要是解决“决策(decision making)”间题,即学着自动进行决策。其在各个领域体现不同:

在计算机科学(Computer science)领域体现为机器学习算法;

在工程(Engineering)领域体现在决定序列行为(the sequence of actions)来得到最好的结果;

在神经科学(Neuroscience)领域体现在理解人类大脑如可做出决策,主要的研究是反好运3分快3骗局馈系统(reward system);

在心理学(Psychology)领域,研究动物如可做出决策、动物的行为是由哪几个原应的;

在经济学(Economics)领域体现在博弈论的研究。

这所有的间题最终都归结为俩个 间题,人为哪几个不利于做出最优决策,且人类是如可做到的。

| 原理 

强化学习作为俩个 序列决策(Sequential Decision Making)间题,它须要连续选取有些行为,从哪几个行为完成后得到最大的收益作为最好的结果。它在没办法 任何label告诉算法应该为啥在么在做的情形下,通好运3分快3骗局过先尝试做出有些行为——如可让得到俩个 结果,通过判断有些结果是对还是错来对然后 的行为进行反馈。由有些反馈来调整然后 的行为,通过不断的调整算法不利于学习到在哪几个样的情形下选取哪几个样的行为能都不利于了得到最好的结果。 

强化学习与监督学习有不少区别,原本文中能都不利于了想看 监督学习是有俩个 label(标记)的,有些label告诉算法哪几个样的输入对应着哪几个样的输出。而强化学习没办法 label告诉它在四种 情形下应该做出哪几个样的行为,都不利于了俩个 做出一系列行为后最终反馈回来的reward signal,有些signal能判断当前选取的行为是好是坏。另外强化学习的结果反馈有延时,有然后 肯能须要走了要是 步然后 才知道然后 某步的选取是好还是坏,而监督学习肯能做了比较坏的选取则会立刻反馈给算法。强化学习面对的输入经常在变化,不像监督学习中——输入是独立分布的。每当算法做出俩个 行为,它就影响了下一次决策的输入。强化学习和标准的监督式学习之间的区别在于,它并非须要老出正确的输入/输出对,要是须要精确校正次优化的行为。强化学习更加专注于在线规划,须要在Exploration(探索未知的领域)和Exploitation(利用现有知识)之间找到平衡。

| 实现过程 

强化学习决策实现过程须要设定俩个 agent(图中的大脑次责),agent不利于执行某个action(类事决定围棋棋子下在哪个位置,机器人的下一步该为啥在么在走)。Agent不利于接收当前环境的俩个 observation(观察),类事当前机器人的摄像头拍摄到场景。Agent还能接收当它执行某个action后的reward,即在第t步agent的工作流程是执行俩个 动作At,获得该动作然后 的环境观测情形Ot,以及获得有些动作的反馈奖赏Rt。而环境environment则是agent交互的对象,它是俩个 行为不可控制的对象,agent一开始英语 英语 他不知道环境会对不同action做出哪几个样的反应,而环境会通过observation告诉agent当前的环境情形,一起环境不利于根据肯能的最终结果反馈给agent俩个 reward,类事围棋棋面要是俩个 environment,它能都不利于了根据当前的棋面情形估计一下黑白双方输赢的比例。因而在第t步,environment的工作流程是接收俩个 At,对有些动作做出反应然后 传递环境情形和评估的reward给agent。reward奖赏Rt,是俩个 反馈标量值,它表明了在第t步agent做出的决策有多好肯能有多不好,整个强化学习优化的目标要是最大化次责reward。 

强化学习中Agent的组成

俩个 agent由Policy(策略)、Value function(价值函数)、Model(模型)三次责组成,但这三次责须要须要一起发生的。

Policy(策略):它根据当前想看 的observation来决定action,是从state到action的映射。有四种 表达形式,四种 是Deterministic policy(选取策略)即a=π(s)a=π(s),在四种 情形s下,都会执行某个动作a。四种 是Stochastic policy(随机策略)即π(a|s)=p[At=a|St=s]π(a|s)=p[At=a|St=s],它是在四种 情形下执行某个动作的概率。

Value function(价值函数):它预测了当前情形下未来肯能获得的reward的期望。Vπ(s)=Eπ[Rt+1+rRt+2+…|St=s]Vπ(s)=Eπ[Rt+1+rRt+2+…|St=s]。用于衡量当前情形的好坏。

Model(模型):预测environment下一步会做出哪几个样的改变,从而预测agent接收到的情形肯能reward是哪几个。因而有四种 类型的model,四种 是预测下俩个 state的transition model即Pass′=p[St+1=s′|St=s,At=a]Pss′a=p[St+1=s′|St=s,At=a],四种 是预测下一次reward的reward model即Ras=E[Rt+1|St=s,At=a]Rsa=E[Rt+1|St=s,At=a]

| 探索和利用

强化学习是四种 试错(trial-and-error)的学习土法律法子:最开始英语 英语 的然后 不清楚environment(环境)的工作土法律法子,不清楚执行哪几个样的action(行为)是对的,哪几个样的action(行为)是错的。因而agent须要并非断尝试的经验中发现俩个 好的policy,从而在有些过程中获取更多的reward。

在学习过程中,会有俩个 在Exploration(探索)和Exploitation(利用)之间的权衡。

Exploration(探索)会放弃有些已知的reward信息,而去尝试有些新的选取——即在四种 情形下,算法你爱不爱我肯能学习到选取哪几个action让reward比较大,如可让并非能每次都做出同样的选取,你爱不爱我另外俩个 没办法 尝试过的选取会让reward更大,即Exploration希望不利于探索更多关于environment的信息。

Exploitation(利用)指根据已知的信息最大化reward。

举个例子,这两者在选取一家餐馆时——Exploration(探索)会选取你最喜欢的餐馆,而Exploitation(利用)则会尝试选取俩个 新的餐馆。

总结:经过文中对于强化学习中背景、原理、实现过程以及相关概念的介绍,相信另一个人对于强化学习会有俩个 基础的认识,后续实现过程以及完整版的价值函数、策略土法律法子请持续关注另一个人接下来的文章。

PS : 本文由雷锋网(公众号:雷锋网)编译,未经许可拒绝转载!

via David Silver

雷锋网原创文章,未经授权禁止转载。详情见转载须知。