deep|Nature封面：人类又输给了AI，这次是玩《GT赛车》游戏

文章插图
文 | 学术头条，作者 | 库珀，编审 | 寇建超
人工智能（AI）的很多潜在应用，涉及与人类交互时做出更优化的实时决策，而竞技或者博弈类游戏，便是最佳的展示舞台。
今天，发表在《自然》杂志上的封面文章报告称，AI 在赛车对战游戏 Gran Turismo（GT赛车）中战胜了世界冠军级人类玩家。这个 AI 程序名为“Gran Turismo（GT）Sophy”，是一种神经网络驱动程序，它在遵守赛车规则的同时，展现出了超凡的行驶速度、操控能力和驾驶策略。
完成这项 AI 程序研发的核心团队来自索尼 AI 事业部（Sony AI），《GT赛车》系列游戏是日本 Polyphony Digital 公司开发，忠实再现了真实赛车的非线性控制挑战，封装了复杂的多智能体交互，该游戏在索尼 PlayStation 及 PSP 等游戏主机平台上皆有发行，是一款极具拟真感操纵体验的热门赛车游戏。
假如有此 AI 程序的加持，人类玩家估计再也跑不过加强版的单机程序了吧？

文章插图
图｜游戏截图（来源：GT赛车）
研究人员认为，此项成果或让赛车游戏变得更有意思，并能提供用来训练职业赛车手和发现新赛车技巧的高水平比赛。这种方法还有望应用在真实世界的系统中，比如机器人、无人机和自动驾驶汽车等。
赛道里的速度与激情驾驶赛车需要极大的技巧。现代一级方程式赛车展示了惊人的工程精度，然而，这项运动的受欢迎程度与其说与汽车的性能PK有关，不如说与顶级车手在将汽车性能发挥到极限时所表现出的技巧和勇气有关。一个多世纪以来，赛道上的成功一直充满着速度和激情。

文章插图
图｜F1方程式赛车比赛（来源：GNEWS）
赛车比赛的目标很简单：如果你比竞争对手在更短的时间内跑完赛道，你就赢了。然而，实现这一目标需要极其复杂的物理战，驰骋赛道需要小心使用轮胎和道路之间的摩擦力，而这种摩擦力是有限的。
为了赢得比赛，车手必须选择让汽车保持在不断变化的摩擦极限内的轨迹上。转弯时刹车太早，你的车就会慢下来，浪费时间。刹车太晚，当你接近转弯最紧的部分时，你将没有足够的转弯力来保持你想要的路线轨迹。刹车太猛，可能会导致车体旋转。

文章插图
因此，职业赛车手非常擅长在整个比赛中一圈接一圈地发现并保持赛车的极限。
尽管赛车的操纵极限很复杂，但它们在物理上可以得到很好的描述，因此，它们可以被计算或学习是理所当然的。
近年来，深度强化学习（DRL）已成为 Atari、星际争霸和 Dota 等领域 AI 研究里程碑的关键组成部分。为了让 AI 对机器人技术和自动化产生影响，研究人员必须证明能够成功控制复杂的物理系统，此外，AI 技术的许多潜在应用要求在接近人类的情况下相互作用，同时尊重不精确的人类规范，汽车比赛正是充满这些挑战的典型领域。

文章插图
图｜游戏比赛数据对比（来源：Nature）
近年来，利用全尺寸、大规模和模拟车辆，自主赛车的研究不断加速。一种常见的方法是预先计算轨迹，并使用模型预测控制来执行这些轨迹。然而，当在摩擦的绝对极限下行驶时，微小的建模误差可能是灾难性的。
与其他车手比赛对 AI 建模精度提出了更高的要求，并引入了复杂的空气动力学相互作用，进一步促使工程师改进控制方案，以不断预测和适应赛道的最优轨迹，有朝一日，无人驾驶汽车下赛道与人类车手一决高下，也并非空谈。
“AI赛车手”的炼成在 GT Sophy 的开发过程中，研究人员探索了各种使用机器学习来避免建模复杂性的方法，包括使用监督学习来建模车辆动力学，以及使用模仿学习、进化方法或强化学习来学习驾驶策略。
为了取得成功，赛车手必须在四个方面具备高度技能：（1）赛车控制，（2）赛车战术，（3）赛车礼仪和（4）赛车策略。
为了控制汽车，车手们对他们的车辆动力学和赛道的特性有详细的了解。在此基础上，驾驶者建立所需的战术技能，通过防守对手，执行精确的演习。同时，驾驶员必须遵守高度精炼但不精确的体育道德规则，最后，车手在模拟对手、决定何时以及如何尝试超车时，会运用战略思维。