您所在的位置:首页 - 文化 - 正文文化
%赢人类新手!推出媲美人类中级选手的乒乓球机器人
语萱
2024-08-13
【文化】
810人已围观
摘要撰文|马雪薇机器人也能打乒乓球赛了,而且达到了人类中级选手水平!话不多说,看看它是怎样肆虐人类新手的。视频|机器人与不同等级的选手打乒乓球赛。据介绍,这一机器人由GoogleDeepMind研究团队打造,在29场机器人与人类的比赛中,赢得了45%(13/29)的比赛。值得注意的是,所有人类选手都是该机器人未见过的。虽然机器人输掉了所有与最顶尖选手的比赛,但它却战胜了100%的初学者和55%的中级选手。对此,专业乒乓球教练BarneyJ.Reed表示,“看着机器人与各种水平和风格的选手比赛,真是棒
撰文|马雪薇
机器人也能打乒乓球赛了,而且达到了人类中级选手水平!
话不多说,看看它是怎样肆虐人类新手的。
视频|机器人与不同等级的选手打乒乓球赛。
据介绍,这一机器人由GoogleDeepMind研究团队打造,在29场机器人与人类的比赛中,赢得了45%(13/29)的比赛
。值得注意的是,所有人类选手都是该机器人未见过的。
虽然机器人输掉了所有与最顶尖选手的比赛,但它却战胜了100%的初学者和55%的中级选手。
对此,专业乒乓球教练BarneyJ.Reed表示,“看着机器人与各种水平和风格的选手比赛,真是棒极了。我们的目标是让机器人达到中级水平。我觉得这个机器人甚至超出了我的预期。”
相关研究论文以“AchievingHumanLevelCompetitiveRobotTableTennis
”为题,已发表在预印本网站arXiv
上。
怎么让机器人打乒乓球赛?
当前,乒乓球赛是巴黎奥运会的一大看点,乒乓球选手在比赛中展现出极高的体能水平、高速移动能力、对各式球的精准控制和超人的灵敏度。
也正因如此,从20世纪80年代开始,研究人员就一直将乒乓球作为机器人的基准,开发了许多乒乓球机器人,并在将球击回对手半场、击中目标位置、扣杀、合作对打以及乒乓球的其他许多关键方面取得了进展。然而,目前还没有机器人与未见过的人类对手进行完整乒乓球比赛。
在这项研究中,通过分层和模块化策略架构、迭代定义任务分布、模拟到模拟适配层、域随机化、实时适应未知对手和硬件部署等技巧,GoogleDeepMind团队实现了机器人与人类选手在竞技乒乓球比赛中达到业余人类水平的性能。
图|方法总概况。
1.基于技能库的分层和模块化策略架构

低级控制器(LLC)
:该库包含了各种乒乓球技能,例如正手攻球、反手定位、正手发球等。每个LLC都是一个独立的策略,专注于特定技能的训练。这些LLC通过神经网络学习,%赢人类新手!推出媲美人类中级选手的乒乓球机器人并使用MuJoCo物理引擎进行模拟训练。
图|LLC训练库。
高级控制器(HLC)
:HLC负责根据当前比赛情况和对手能力选择最合适的LLC。它由以下几个模块组成:
图|一旦球被击中,HLC首先通过对当前球状态应用风格策略来确定正手或反手(本例演示选择正手),从而决定将球返回给哪个LLC。
2.实现零样本模拟到现实的技巧
迭代定义任务分布:该方法从人类-人类比赛数据中收集初始球状态数据,并在模拟环境中训练LLC和HLC。然后将模拟训练生成的数据添加到真实世界数据集中,并重复这个过程,逐步完善训练任务分布。
模拟到模拟适配层:为了解决模拟环境中上下旋球模型参数差异导致的问题,论文提出了两种解决方案:旋转让正和模拟到模拟适配层。旋转让正通过调整LLC的训练数据集来解决,而模拟到模拟适配层则使用FiLM层学习上下旋球之间的映射关系。
域随机化:在训练过程中,论文对模拟环境中的观察噪声、延迟、球台和球拍阻尼、摩擦等参数进行随机化,以模拟真实世界中的不确定性。
图|零样本模拟到真实的转换。
3.实时适应未知对手
实时跟踪比赛统计数据:HLC会实时跟踪比赛统计数据,例如机器人对手和对手的得分和失误,并根据这些数据调整LLC的偏好值,从而适应对手的变化。
在线学习LLC偏好:通过梯度bandit算法,HLC可以在线学习每个LLC的偏好值,并根据对手的弱点选择更合适的LLC。
图|分级控制。
研究团队收集少量的人与人对打数据来初始化任务条件。然后,使用强化学习(RL)在模拟中训练智能体,并采用多种技术将策略零样本部署到真实硬件上。这个智能体与人类玩家对打,以生成更多的训练任务条件,然后重复训练-部署周期。随着机器人的进步,比赛的标准变得越来越复杂,同时仍然基于现实世界的任务条件。这种混合模拟-现实周期创建了一个自动化的任务课程,使机器人的技能随着时间的推移而提高。
打得怎么样?
为了评估智能体的技能水平,机器人与29名不同技能水平的乒乓球运动员进行了竞技比赛——初学者、中级、高级和高级 ,这些水平是由专业乒乓球教练确定的。
面对所有对手,机器人赢得了45%的比赛和46%的单局胜利。
按技能水平细分,可以看到机器人在对抗初学者时赢得了所有比赛,输掉了所有对抗高级和高级 选手的比赛,并在对抗中级选手时赢得了55%的比赛。这强烈表明该智能体在回合中达到了中级人类玩家的水平。
图|面对所有对手,机器人赢得了45%的比赛和46%的游戏,赢得了100%与初学者的比赛和55%与中级选手的比赛。
研究参与者喜欢与机器人打球,在“有趣”和“吸引人”方面给它打了很高的评分。这种评分在不同技能水平上都是一致的,无论参与者是赢是输。他们还压倒性地回答“肯定愿意”再次与机器人打球。当给与他们自由与机器人打球的时间时,他们平均玩了4分06秒,总共5分钟。
高级选手能够利用机器人策略中的弱点,但他们仍然喜欢与之打球。在赛后采访中,他们认为它是一个比发球机更有活力的练习伙伴。
图|参与者喜欢与机器人打球,在“有趣”和“吸引人”方面给它打了很高的评分。
不足与展望
研究团队表示,这一机器人学习系统仍存在一些局限性
,例如对快速球和低球的反应能力有限、旋转检测精度低、缺乏多球策略战术等。
未来的研究方向
包括提高机器人对各种球的处理能力、学习更复杂的策略、改进运动捕捉技术等。
研究团队还表示,该研究提出的层次化策略架构和零样本模拟到真实的转换方法可以应用于其他机器人学习任务。并且,实时适应技术可以帮助机器人更好地适应不断变化的环境和任务。此外,系统设计原则对于开发高性能和鲁棒的机器人学习系统也至关重要。
Tags: %赢人类新手!推出媲美人类中级选手的乒乓球机器人
版权声明: 感谢您对【奚诗百科网】网站平台的认可,无特别说明,本站所有文章均归【奚诗百科网】平台所有,转载请说明文章出处“来源【奚诗百科网】”。 https://sptgyg.com/post/12744.html
最近发表
- 联想U410笔记本电脑,轻薄便携与性能的完美结合
- 大专专业选择指南,揭秘最无用三大专业
- 探索出版图书编号,书籍的身份证及其奇妙旅程
- 探索图书馆的秘密,文学类索书号的指南
- 潮起东方,一首描绘时代精神的歌曲
- 文学类书籍的编号,探索图书分类的奥秘
- 探索三星6200,您的智能生活新伙伴
- 华为荣耀10x,性能与设计的完美融合
- 技校十大吃香专业,未来就业市场的黄金选择
- 探索文学宝藏,文学类书籍的分类与编号系统
- 潮起东方,用音符唤醒东方巨龙的觉醒
- 潮起东方,音乐的力量与时代的精神
- 文学宝库的钥匙,轻松掌握文学类书籍编号的艺术
- 佳能相机全解析,从经典到现代,型号、上市时间与价格一览
- 文学类书籍分类,探索文学宝库的指南
- 探索Lumia 750,一款智能手机的前世今生
- 经典依旧,探究苹果4s的现代价值
- 烹饪专业专升本考试科目全解析,如何准备和成功
- 青岛单招培训,揭秘青岛地区优质单招培训机构及其特色
- 高中语文文化常识,开启智慧之门的金钥匙
- 探索陕西艺术专科教育,寻找最好的大专院校
- 探索语文文化常识,高中学生的必修课
- 专科生的升学选择,五种专业不建议专升本
- 艺术大专学费解析,费用、影响因素及如何规划
- 探索语文文化常识,高中生的必修课
- 高中语文文化常识,穿越时空的知识之旅
- 潮起东方,京剧艺术的现代魅力与文化传承
- 艺术类大专,女生的必经之路还是可选之路?
- 艺术类大专,探索其价值与必要性
- 潮起东方,音乐剧的璀璨启航
- 探索iPhone 11的心脏,深入了解其参数,解锁智能生活的新境界
- 解锁语文文化常识,高中考试的金钥匙
- 高中语文文化常识,掌握这些技巧,轻松应对考试
- 东方大剧院,艺术的殿堂,文化的桥梁
- 魅族手机价格全解析,性价比之选,智能生活新伙伴
- 艺术类大专,投资未来还是浪费时间?知乎热议解析
- 东方红音乐剧,中国革命精神的艺术再现
- 探索文学的迷宫,如何利用图书馆编号系统找到你的文学宝藏
- 东方昇起,一场视听盛宴的幕后故事
- 潮起东方,探索简谱网在音乐教育中的革命性影响
- 免费潮起东方伴奏,音乐的力量与创作自由
- 中专最吃香的十大专业,开启职业成功的金钥匙
- 探索文学宝藏,文学类图书编号查询指南
- 戏歌潮起东方,中国戏曲文化的现代传承与创新
- 河北工艺美术,探索三个顶尖专业
- 东方之韵,戏歌潮起东方与袁慧琴的伴奏艺术
- 探索美术领域,寻找最适合你的专业
- 美术前景最好的十大专业,未来艺术领域的明星
- 探索美术专业强校,培养艺术才华的摇篮
- 音乐剧盛宴,揭秘即将开票的年度大作及购票攻略