Oxylabs 专家探讨强化(机器)学习是否被过度炒作?

电科技辛雯11-18 12:18

假设您准备坐下来与朋友下棋,但这个朋友不是普通人,而是一个不知道游戏规则的计算机程序。不过,它确定自己有一个目标,那就是取胜。

因为这个朋友不知道规则,它一开始会随机移动棋子。其中一些走法毫无意义,对您来说,取胜轻而易举。但是,我们假设您十分享受与这个朋友下棋,您决定在余生(乃至来世,如果您相信来世的话)不做别的事,专门下棋。

这位数字朋友最终会取胜,因为它会逐渐学会打败您所需的取胜方法。这一场景可能看似离谱,不过您应该可以从中基本了解强化学习(Reinforcement Learning,简称 RL)作为机器学习(Machine Learning,简称 ML)的一个领域大致是如何运作的。

强化学习到底有多智能?

人工智能具备许多特征,包括知识习得、扩展智力的欲望和直观思维。不过,当国际象棋冠军 Garry Kasparov 输给名为深蓝(Deep Blue)的 IBM 计算机的时候,我们人类的智力受到广泛质疑。那些描绘机器人统治人类未来世界的末日场景不仅会引起公众的关注,还占据了主流意识。

然而,深蓝并不是寻常的对手。与这一程序下棋,就好比是与一个毕生专门持续下国际象棋的千岁老人比赛。因此,深蓝精通下某一种特定棋类,却不懂其他智力活动,例如演奏乐器、著书、开展科学实验、育儿、修车等。

Oxylabs 绝对无意贬低深蓝这一杰作的伟大成就。我们想说的是,在考虑计算机能否超越人类智力时,我们需要仔细考察,首先来详细了解一下 RL 机制。 

强化学习的运作方式

如前所述,RL 是 ML 的一个子集,其关注的是智能代理们在环境中应当如何行动来最大化累积奖励的概念。

通俗地说,RL 机器人代理接受一种奖惩机制的训练,行动正确则受奖励,错误则受惩罚。RL 机器人并不会“思考”要采取的最佳行动,而只是做出为了最大程度取得成功的所有可能的行动。

强化学习的缺点

强化学习的主要缺点是实现目标需要大量的资源。RL 在围棋中取得的成功就能很好地体现这一点。围棋是一种广受欢迎的双人对弈游戏,目标是使用圆形的棋子在棋盘上占据最大的地盘,同时避免自己损失地盘。

AlphaGo Master 是在围棋领域打败人类棋手的计算机程序。它的成功离不开巨量的投资,包括众多工程师、相当于数千年的下棋经验,以及 256 个 GPU 和 128,000 个 CPU 核心,数量庞大得令人咂舌。

为了学会赢得比赛,所花的工夫实在太多了。这就带来一个问题,那就是设计无法直观思考的 AI 是否理性。AI 研究不应该模仿人类智力吗?

赞同 RL 的一种观点认为,人们不应该期望 AI 代理的行为表现像人类一样,其解决复杂问题的用处就值得深入开发。另一方面,反对 RL 的一种观点认为,AI 研究应当专注于让机器能够做目前只有人类和动物才能做的事情。从这个角度来看,AI 与人类智力的比较是恰当的。

量子强化学习

有一个新兴的强化学习领域,据称解决了上述的一些问题。作为一种加快计算的方式,人们对量子强化学习(Quantum Reinforcement Learning,简称 QRL)开展了研究。

QRL 主要应该通过优化探索(寻找策略)和利用(挑选最佳策略)阶段来加快学习。一些现行应用程序和倡导的量子计算可改进数据库搜索,将大数分解为若干质数,诸如此类,不一而论。

虽然 QRL 仍未达到突破性的地步,但人们预期它可以解决常规强化学习所面临的一些重大挑战。

RL 的商业案例

如前所述,我绝对无意贬低 RL 研究和开发的重要性。事实上,Oxylabs 一直致力于开发 RL 模型来优化网络抓取资源分配。

下面就是从一份麦肯锡报告摘选的一些 RL 真实用例,该报告着重强调了各种行业的现行用例:

• 优化硅和芯片设计,优化制造工艺,并提高半导体行业的产量。

• 提高产量,优化物流以减少浪费和成本,并提高农业的利润率。

• 缩短航空航天和国防行业新系统的上市时间。

• 优化设计流程,并提高汽车行业的制造产量。

• 通过实时交易和定价策略提高收入,改善客户体验,并向金融服务领域的客户提供高级个性化服务。

• 优化矿井设计,管理发电并应用整体物流调度,以优化运营、降低成本和提高采矿产量。

• 通过实时监控和精准钻井提高产量,优化油轮路线并支持预测性维护,以防止油气行业的设备故障和停机。

• 加快新药开发,优化研究流程,自动化生产并优化制药行业的生物学方法。

• 优化供应链,实现先进的库存建模并为零售业客户提供高级个性化服务。

• 优化和管理网络,并在电信行业应用客户个性化。

• 优化交通和物流领域的路线、网络规划、仓库运营。

• 使用新一代代理从网站提取数据。

强化学习再思考

强化学习也许功能还不够强大,但远未被高估。此外,随着 RL 研发的增加,几乎每个经济部门的潜在用例也在增加。

大规模采用有赖于多方面的因素,包括优化算法设计、配置学习环境以及计算能力的可用性。

Oxylabs 致力于利用 AI 和 ML 优化网络抓取,即从网站提取数据来获取专门化洞察的过程。

作者:Aleksandras Sulzenko,Oxylabs.io 产品负责人

电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号

声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。

//59087780b049bbb54ef4ba547ea51910