您所在的位置：首页 - 文化 - 正文文化

%赢人类新手！推出媲美人类中级选手的乒乓球机器人

语萱 2024-08-13 【文化】 810人已围观

摘要撰文|马雪薇机器人也能打乒乓球赛了，而且达到了人类中级选手水平！话不多说，看看它是怎样肆虐人类新手的。视频｜机器人与不同等级的选手打乒乓球赛。据介绍，这一机器人由GoogleDeepMind研究团队打造，在29场机器人与人类的比赛中，赢得了45%（13/29）的比赛。值得注意的是，所有人类选手都是该机器人未见过的。虽然机器人输掉了所有与最顶尖选手的比赛，但它却战胜了100%的初学者和55%的中级选手。对此，专业乒乓球教练BarneyJ.Reed表示，“看着机器人与各种水平和风格的选手比赛，真是棒

撰文|马雪薇

机器人也能打乒乓球赛了，而且达到了人类中级选手水平！

话不多说，看看它是怎样肆虐人类新手的。

视频｜机器人与不同等级的选手打乒乓球赛。

据介绍，这一机器人由GoogleDeepMind研究团队打造，在29场机器人与人类的比赛中，赢得了45%（13/29）的比赛

。值得注意的是，所有人类选手都是该机器人未见过的。

虽然机器人输掉了所有与最顶尖选手的比赛，但它却战胜了100%的初学者和55%的中级选手。

对此，专业乒乓球教练BarneyJ.Reed表示，“看着机器人与各种水平和风格的选手比赛，真是棒极了。我们的目标是让机器人达到中级水平。我觉得这个机器人甚至超出了我的预期。”

相关研究论文以“AchievingHumanLevelCompetitiveRobotTableTennis

”为题，已发表在预印本网站arXiv

上。

怎么让机器人打乒乓球赛？

当前，乒乓球赛是巴黎奥运会的一大看点，乒乓球选手在比赛中展现出极高的体能水平、高速移动能力、对各式球的精准控制和超人的灵敏度。

也正因如此，从20世纪80年代开始，研究人员就一直将乒乓球作为机器人的基准，开发了许多乒乓球机器人，并在将球击回对手半场、击中目标位置、扣杀、合作对打以及乒乓球的其他许多关键方面取得了进展。然而，目前还没有机器人与未见过的人类对手进行完整乒乓球比赛。

在这项研究中，通过分层和模块化策略架构、迭代定义任务分布、模拟到模拟适配层、域随机化、实时适应未知对手和硬件部署等技巧，GoogleDeepMind团队实现了机器人与人类选手在竞技乒乓球比赛中达到业余人类水平的性能。

图｜方法总概况。

1.基于技能库的分层和模块化策略架构

低级控制器（LLC）

：该库包含了各种乒乓球技能，例如正手攻球、反手定位、正手发球等。每个LLC都是一个独立的策略，专注于特定技能的训练。这些LLC通过神经网络学习，%赢人类新手！推出媲美人类中级选手的乒乓球机器人并使用MuJoCo物理引擎进行模拟训练。

图｜LLC训练库。

高级控制器（HLC）

：HLC负责根据当前比赛情况和对手能力选择最合适的LLC。它由以下几个模块组成：

图|一旦球被击中，HLC首先通过对当前球状态应用风格策略来确定正手或反手（本例演示选择正手），从而决定将球返回给哪个LLC。

2.实现零样本模拟到现实的技巧

迭代定义任务分布：该方法从人类-人类比赛数据中收集初始球状态数据，并在模拟环境中训练LLC和HLC。然后将模拟训练生成的数据添加到真实世界数据集中，并重复这个过程，逐步完善训练任务分布。

模拟到模拟适配层：为了解决模拟环境中上下旋球模型参数差异导致的问题，论文提出了两种解决方案：旋转让正和模拟到模拟适配层。旋转让正通过调整LLC的训练数据集来解决，而模拟到模拟适配层则使用FiLM层学习上下旋球之间的映射关系。

域随机化：在训练过程中，论文对模拟环境中的观察噪声、延迟、球台和球拍阻尼、摩擦等参数进行随机化，以模拟真实世界中的不确定性。

图|零样本模拟到真实的转换。

3.实时适应未知对手

实时跟踪比赛统计数据：HLC会实时跟踪比赛统计数据，例如机器人对手和对手的得分和失误，并根据这些数据调整LLC的偏好值，从而适应对手的变化。

在线学习LLC偏好：通过梯度bandit算法，HLC可以在线学习每个LLC的偏好值，并根据对手的弱点选择更合适的LLC。

图｜分级控制。

研究团队收集少量的人与人对打数据来初始化任务条件。然后，使用强化学习（RL）在模拟中训练智能体，并采用多种技术将策略零样本部署到真实硬件上。这个智能体与人类玩家对打，以生成更多的训练任务条件，然后重复训练-部署周期。随着机器人的进步，比赛的标准变得越来越复杂，同时仍然基于现实世界的任务条件。这种混合模拟-现实周期创建了一个自动化的任务课程，使机器人的技能随着时间的推移而提高。

打得怎么样？

为了评估智能体的技能水平，机器人与29名不同技能水平的乒乓球运动员进行了竞技比赛——初学者、中级、高级和高级，这些水平是由专业乒乓球教练确定的。

面对所有对手，机器人赢得了45%的比赛和46%的单局胜利。

按技能水平细分，可以看到机器人在对抗初学者时赢得了所有比赛，输掉了所有对抗高级和高级选手的比赛，并在对抗中级选手时赢得了55%的比赛。这强烈表明该智能体在回合中达到了中级人类玩家的水平。

图｜面对所有对手，机器人赢得了45%的比赛和46%的游戏，赢得了100%与初学者的比赛和55%与中级选手的比赛。

研究参与者喜欢与机器人打球，在“有趣”和“吸引人”方面给它打了很高的评分。这种评分在不同技能水平上都是一致的，无论参与者是赢是输。他们还压倒性地回答“肯定愿意”再次与机器人打球。当给与他们自由与机器人打球的时间时，他们平均玩了4分06秒，总共5分钟。

高级选手能够利用机器人策略中的弱点，但他们仍然喜欢与之打球。在赛后采访中，他们认为它是一个比发球机更有活力的练习伙伴。

图｜参与者喜欢与机器人打球，在“有趣”和“吸引人”方面给它打了很高的评分。

不足与展望

研究团队表示，这一机器人学习系统仍存在一些局限性

，例如对快速球和低球的反应能力有限、旋转检测精度低、缺乏多球策略战术等。

未来的研究方向