当前热文：人工智能国际顶级会议比赛，北大学生夺冠！

首页 > 教育 >

当前热文：人工智能国际顶级会议比赛，北大学生夺冠！

2023-02-15 11:07:47 来源：中国教育和科研计算机网

“火出圈”的聊天机器人程序ChatGPT

(资料图片仅供参考)

和《流浪地球2》中的“幕后大佬”MOSS

近日引起人们的好奇

敲代码、写情书、做题......

ChatGPT为什么啥都会

人工智能是如何变得“智能”的

事实上，这一切都离不开

研发者“耳提面命”式的启蒙、指导和训练

让我们通过一项训练人工智能转骰子的比赛

看看北京大学图灵班两名大三学生

如何指导出一名聪明的“人工智能学生”

趣味性比赛与硬核挑战

在人工智能顶级会议NeurIPS 2022（第36届神经信息处理系统大会）上，由北京大学人工智能研究院杨耀东助理教授、计算机学院前沿计算研究中心董豪助理教授共同指导，北京大学信息科学技术学院2020级图灵班本科生耿逸然和安博施作为共同第一作者获得MyoChallenge挑战赛Die Reorientation赛道冠军。

挑战赛提供了一套高逼真度的肌肉-骨骼灵巧手模型以及交互环境，参赛者需要设计一套科学有效的训练方法，培养出一个通用的人工智能算法，来控制仿生灵巧手完成随机的抓取、转动骰子等既定任务，最终成功率最高、需要肌肉施加力最小的团队将获胜。该挑战吸引了来自全球十多个国家的40个顶尖队伍参加，共产生了340余份有效方案。

怎样教会人工智能认识骰子？怎样指导它用手靠近并抓取骰子？怎样训练它转动骰子到指定角度？看似有趣的比赛背后是一系列的挑战。

不同于只能控制每个独立关节的灵巧手，此次比赛采用的基于肌肉的仿生灵巧手具有“牵一发而动全身”的特点，如果控制指尖的肌肉收缩，整根手指的所有关节都会受到影响；控制一个关节向不同方向转动也将涉及到不同的肌肉。此外，MyoChallenge的手部模型还引入了肌减少症、肌肉疲劳和肌腱转移等异常情况，再加上挑战环境包含了物体初始位置随机化、任务目标随机化以及物体的物理属性（如物体大小和摩擦力）的随机化等许多随机参数，意味着一个更接近人类手部条件的复杂仿生手和一个随机变化的未知环境，这既考验人工智能从一无所知到熟能生巧的学习能力，也考验作为“老师”的参赛者们的训练策略。

左侧：不同灵巧手控制方式；右侧：MyoChallenge中的特殊灵巧手模型

怎么“教”人工智能？

比赛的核心竞争集中在寻找一个能够适应特殊手部控制模型以及参数随机化的策略，也就是说，因材施教地指导人工智能自主学习。对耿逸然和安博施来说，在特定的问题背景中选取合适的方法成为最大的挑战。在经历了几次尝试的失败后，他们决定采用强化学习框架来在模拟器里训练他们的策略，通过奖励塑造（Reward Shaping）、课程学习（Curriculum Learning）和多目标训练（Multi-target Training）等技巧来提高训练后的策略的性能。

奖励塑造

这一方法就好比训练动物完成一些特殊动作的过程。水族馆中饲养员在海豚完成高难度动作后用作奖励的小鱼类似于强化学习框架下的奖励函数，在算法有希望完成目标动作的时候加大奖励函数，从而激励算法逐渐掌握目标动作。

课程学习

这与人类从易到难学习一门知识的过程相似。如果一次性完成骰子重定向任务很难，那就拆分成三个课程分别学习：拿稳骰子、90°以内的重定向、180°以内的重定向。算法将先从最简单的拿稳骰子学起，最后完成最困难的180°重定向任务，在逐步增加课程难度的过程中使算法的性能稳定上升。

多目标学习

相比于课程学习通过改变环境难度逐步完成任务，多目标学习则是在不变的环境难度下将一个课程分解成多个子任务，这与体操比赛中的组合动作练习类似。在体操中，运动员需要连续地完成一系列不同的动作。多目标学习过程要求算法控制仿生灵巧手连续地完成多个重定向任务，从而提高对物体的掌控能力。

方法概览

与之相伴的问题是，训练策略的过程中需要大量算力支持，耿逸然打了一个形象的比方：“我们面临的算力需求大概是日常使用的‘游戏本’电脑的10倍甚至30倍，在此基础上训练一个有竞争力的智能体需要的训练时间大致为3到5天。”学院及时为他们提供了硬件上的支持，在指导老师杨耀东和董豪的帮助之下，算力问题得到有效解决，这也为团队的研发打下良好的基础。最终，这些方法共同产生的成功率比MyoChallenge中给出的基线算法有了明显的改善（在挑战的第一阶段提升为70%，第二阶段为11%）。

经过MyoChallenge提供的仿生灵巧手控制算法测试平台的验证，在本次的挑战中，耿逸然和安博施团队采用的强化学习框架下基础而有效的方法，证明了强化学习算法进行复杂的骨骼-肌肉模型的运动控制以及与物体交互的可行性。

成长的“沃土”

耿逸然和安博施能够在人工智能国际顶级会议的比赛中拿到冠军并在会议中做报告实属不易。成就的背后是北京大学图灵班和北京通用人工智能研究院的有力支撑：图灵班的科研轮转为学生了解不同方向、学习多元内容、立体认识科研提供了良好的环境；而北京通用人工智能研究院汇集了一群顶级的人工智能专家，帮助本科生也能走到国际科研最前沿。耿逸然坦言这样的科研环境之于他的重要作用：

“我的科研导师是董豪老师和杨耀东老师，他们总能给我及时的指导和帮助，从理论学习到实验设计，再到论文写作与投稿，都能“手把手”帮我解决问题。

除此之外，图灵班科研轮转还提供了和其他不同领域的老师学习知识，拓展视野的机会：我分别在王鹤老师、穆亚东老师、卢宗青老师那里学习了三维视觉、机器人和视觉相关的结合内容以及强化学习的理论知识。

而在北京通用人工智能研究院，朱松纯院长为我指明了研究方向，我也有机会和许多非常优秀的研究员一起合作。”　　

在这些知识背景的滋养下，他在ICRA 2023（国际机器人与自动化顶级会议）中，再次与安博施作为共同第一作者发表了题为RLAfford：End-to-End Affordance Learning for Robotic Manipulation（基于端到端可操作性学习的机器人操纵框架）的研究论文，并参与了另外两篇ICRA中稿论文的算法设计与实验。

在RLAfford中，作者利用强化学习过程中的接触信息，结合三维视觉表达可操作性信息，可以统一描述各类操作任务（如开关门，抓取物体等任务），并具有即插即用的特点。

在这次比赛的基础上，他与合作者继续探索着人工智能与环境交互的问题，从机械臂到灵巧手，从简单环境到复杂场景，从虚拟引擎到真实世界，不断探索人工智能的无限可能性。

关键词：人工智能强化学习第一作者

最近更新 MORE

x 广告

原创

深圳首批配售人才住房公证摇号结果出炉认购家庭将于12月9日起选房

深圳市聚集了600多家优质家具企业其中规模以上企业占比90%

业界

银行个人养老金产品陆续上新专属储蓄期限偏1年至5年的中长期

资讯

新医改的主要内容有哪些？医改和医保的关系

医疗体制改革，简称医改。1994年，国务院决定在江苏镇江和江西九江...

五一劳动奖章待遇有什么？全国五一劳动奖章每年奖励多少人？

五一劳动奖章一般指全国五一劳动奖章。2022年，中华全国总工会表彰...

x 广告

当前热文：人工智能国际顶级会议比赛，北大学生夺冠！

在人工智能顶级会议NeurIPS2022（第36届神经信息处理系统大会）上，由北京大学人工智能研究院杨耀东助理教授、计算机学院前沿计算研究中心董豪

医疗体制改革，简称医改。1994年，国务院决定在江苏镇江和江西九江试行社会统筹和个人账户相结合的社会医疗保险制度，为全国医疗保险制度改

□法治日报全媒体记者战海峰文图□法治日报全媒体通讯员张贺图为乘警苏叶平(中)组织铁路职工进行应急处突培训。在重庆铁路公安处乘警支队，有

证券市场线(CML)是一条光线，它显示了有效投资组合的预期收益率和标准差之间的简单线性关系。它是由风险资产和无风险资产沿着投资组合的有

打新是什么意思啊，打新就是用资金参与IPO申购。如果中标就相当于获得了即将上市的股票。打新的投资者分为线上和线下，只有机构可以参与线

1、植树节是一些国家以法律形式规定的，以宣传森林效益、动员群众参加造林为活动内容的节日。按时间长短可分为植树日、植树周或植树月，总

优先股概念概念股。优先股概念:优先股是相对于普通股而言的，主要指在利润分红及剩余财产分配的权利方面，优先于普通股。优先股股东没有选

五一劳动奖章一般指全国五一劳动奖章。2022年，中华全国总工会表彰全国五一劳动奖章966个、全国五一劳动奖状200个、全国工人先锋号956个。

烩面发源地是河南郑州，河南烩面是中国十大面条之一，烩面是一种荤、素、汤、饭聚而有之的传统风味小吃，汤好、面筋道、营养高，以味道鲜美

现在已经很少有人使用语音信箱了，但是语音信箱其实也是有很大的帮助的，尤其是当我们无法接听电话的时候，那么，语音信箱怎么设置?开启语

股本权益性投资概念权益性投资是企业筹集资金的一种基本的金融工具。投资者持有某企业的权益性证券，代表在该企业中享有所有者权益，普通股

哈弗枭龙MAX曝光，车重约1 8吨，一年养车2万够不够？

最近这段时间总有小伙伴问小编圆床好不好婚房买圆形床要注意什么是什么，小编为此在网上搜寻了一些有关于圆床好不好婚房买圆形床要注意什么

海南日报海口2月14日讯(记者计思佳)2月14日上午，一辆白绿相间的建筑垃圾清运专车驶入海口市秀英区大华锦绣海岸小区地下室，将可移动建筑垃圾

杜绝义务教育阶段学生非正常离校我省着力从家庭、教育、社会、司法方面加强未成年人保护海南日报讯(记者陈蔚林)近日，我省启动为期三年的未成

海南日报讯(记者良子)2月13日是全省中小学开学日。当天，按照省禁毒委部署，各市县积极开展2023年春季“开学第一课”暨“禁毒流动课堂”宣...

编者按二月春暖，海天一色；紫荆盛放，血脉相融。琼州海峡的潮水与维多利亚港的波涛相通相连，海南和香港之间的合作正在深度互通互融中结出越

众所周知，在中国过的每一个节日，一般长辈都会发红包给自己小一辈的人的，但是有些人面对长辈的红包却不好意思收，那么长辈给红包如何高情

如何炒股指期货?【1】关注宏观经济、股市政策。我国股指期货的标的指数都是综合指数，主要有上证50、沪深300、中证500三种，对于基本面，投

杨梅汁怎么洗?(5个轻松去除杨梅汁的小妙招!)杨梅汁怎么洗?在吃和喝杨梅汁的时候，如果把杨梅汁放进衣服里，怎么清洗?现在让我们教你一些非

我们在生活中会遇到各种各样的问题，所以遇到问题一定要解决，所以今天小杨就来和大家聊聊如何在平板电脑可以办公吗，解决问题，感兴趣的朋

1、《神犬奇兵》是江何工作室继《麻辣女兵》之后又一军旅作品，根据编剧冯骥的长篇小说《特警犬王》改编。2、该剧由金牌制片人何静继续担纲总

微信朋友圈照片发不了怎么办?边肖为微信朋友圈发照片失败带来了解决方案。如果遇到发送照片失败的情况，请尝试以下解决方法，希望对大家有

1、打瘦脸针之后的4小时内，应该避免脸部按摩、睡觉及头部前倾和运动2、打瘦脸针之后，不要在注射部位进行冰敷或热敷。2、3、打瘦脸针后24小时

抖音小程序在哪里添加?经常玩Tik Tok的用户都知道，Tik Tok有一个小程序功能。你知道如何添加小程序和如何收集小程序吗?抖音小程序在哪里

川沙妲己是什么意思I 妲己，川沙人。迪士尼的新朋友Lingna Belle是一只粉红色的小狐狸。因为她实在是太可爱太有活力了，上线后就引起了

水笕，一种引水的工具通常有木笕和竹笕两种木笕以松树或杨树制作，用凿子在树中间剐出一条水槽竹笕选粗毛竹用钢钎将节打通，或剖开将节铲除

我们在生活中会遇到各种各样的问题，所以如果我们遇到问题，我们必须解决它们，所以今天小杨要和你谈谈如何解决蚂蚁庄园老北京小吃炸灌肠通

海大鱼和焱是一个人吗奇鱼县渔女阿狸被选做海神新娘海祭，随船来到海岛。与海神成婚后，阿狸竟发现丈夫海神焱是一个半兽人，后来误入密室，

定位软件是一种通过手机上的位置传感器获取手机的真实位置，并将相应的数据反馈给用户的软件。人们通常所说的GPS卫星定位，主要是指利用GPS

新医改的主要内容有哪些？医改和医保的关系

医疗体制改革，简称医改。1994年，国务院决定在江苏镇江和江西九江...

五一劳动奖章待遇有什么？全国五一劳动奖章每年奖励多少人？

五一劳动奖章一般指全国五一劳动奖章。2022年，中华全国总工会表彰...

当前热文：人工智能国际顶级会议比赛，北大学生夺冠！

在人工智能顶级会议NeurIPS2022（第36届神经信息处理系统大会）上，由北京大学人工智能研究院杨耀东助理教授、计算机学院前沿计算研究中心董豪

医疗体制改革，简称医改。1994年，国务院决定在江苏镇江和江西九江试行社会统筹和个人账户相结合的社会医疗保险制度，为全国医疗保险制度改

□法治日报全媒体记者战海峰文 图□法治日报全媒体通讯员张贺图为乘警苏叶平(中)组织铁路职工进行应急处突培训。在重庆铁路公安处乘警支队，有

证券市场线(CML)是一条光线，它显示了有效投资组合的预期收益率和标准差之间的简单线性关系。它是由风险资产和无风险资产沿着投资组合的有

打新是什么意思啊，打新就是用资金参与IPO申购。如果中标就相当于获得了即将上市的股票。打新的投资者分为线上和线下，只有机构可以参与线

1、植树节是一些国家以法律形式规定的，以宣传森林效益、动员群众参加造林为活动内容的节日。按时间长短可分为植树日、植树周或植树月，总

优先股概念概念股。优先股概念:优先股是相对于普通股而言的，主要指在利润分红及剩余财产分配的权利方面，优先于普通股。优先股股东没有选

五一劳动奖章一般指全国五一劳动奖章。2022年，中华全国总工会表彰全国五一劳动奖章966个、全国五一劳动奖状200个、全国工人先锋号956个。

烩面发源地是河南郑州，河南烩面是中国十大面条之一，烩面是一种荤、素、汤、饭聚而有之的传统风味小吃，汤好、面筋道、营养高，以味道鲜美

现在已经很少有人使用语音信箱了，但是语音信箱其实也是有很大的帮助的，尤其是当我们无法接听电话的时候，那么，语音信箱怎么设置?开启语

股本权益性投资概念权益性投资是企业筹集资金的一种基本的金融工具。投资者持有某企业的权益性证券，代表在该企业中享有所有者权益，普通股

哈弗枭龙MAX曝光，车重约1 8吨，一年养车2万够不够？

最近这段时间总有小伙伴问小编圆床好不好婚房买圆形床要注意什么是什么，小编为此在网上搜寻了一些有关于圆床好不好婚房买圆形床要注意什么

海南日报海口2月14日讯(记者计思佳)2月14日上午，一辆白绿相间的建筑垃圾清运专车驶入海口市秀英区大华锦绣海岸小区地下室，将可移动建筑垃圾

杜绝义务教育阶段学生非正常离校我省着力从家庭、教育、社会、司法方面加强未成年人保护海南日报讯(记者陈蔚林)近日，我省启动为期三年的未成

海南日报讯(记者良子)2月13日是全省中小学开学日。当天，按照省禁毒委部署，各市县积极开展2023年春季“开学第一课”暨“禁毒流动课堂”宣...

编者按二月春暖，海天一色；紫荆盛放，血脉相融。琼州海峡的潮水与维多利亚港的波涛相通相连，海南和香港之间的合作正在深度互通互融中结出越

众所周知，在中国过的每一个节日，一般长辈都会发红包给自己小一辈的人的，但是有些人面对长辈的红包却不好意思收，那么长辈给红包如何高情

如何炒股指期货?【1】关注宏观经济、股市政策。我国股指期货的标的指数都是综合指数，主要有上证50、沪深300、中证500三种，对于基本面，投

杨梅汁怎么洗?(5个轻松去除杨梅汁的小妙招!)杨梅汁怎么洗?在吃和喝杨梅汁的时候，如果把杨梅汁放进衣服里，怎么清洗?现在让我们教你一些非

我们在生活中会遇到各种各样的问题，所以遇到问题一定要解决，所以今天小杨就来和大家聊聊如何在平板电脑可以办公吗，解决问题，感兴趣的朋

1、《神犬奇兵》是江何工作室继《麻辣女兵》之后又一军旅作品，根据编剧冯骥的长篇小说《特警犬王》改编。2、该剧由金牌制片人何静继续担纲总

微信朋友圈照片发不了怎么办?边肖为微信朋友圈发照片失败带来了解决方案。如果遇到发送照片失败的情况，请尝试以下解决方法，希望对大家有

1、打瘦脸针之后的4小时内，应该避免脸部按摩、睡觉及头部前倾和运动2、打瘦脸针之后，不要在注射部位进行冰敷或热敷。2、3、打瘦脸针后24小时

抖音小程序在哪里添加?经常玩Tik Tok的用户都知道，Tik Tok有一个小程序功能。你知道如何添加小程序和如何收集小程序吗?抖音小程序在哪里

川沙妲己是什么意思I 妲己，川沙人。迪士尼的新朋友Lingna Belle是一只粉红色的小狐狸。因为她实在是太可爱太有活力了，上线后就引起了

水笕，一种引水的工具通常有木笕和竹笕两种木笕以松树或杨树制作，用凿子在树中间剐出一条水槽竹笕选粗毛竹用钢钎将节打通，或剖开将节铲除

我们在生活中会遇到各种各样的问题，所以如果我们遇到问题，我们必须解决它们，所以今天小杨要和你谈谈如何解决蚂蚁庄园老北京小吃炸灌肠通

海大鱼和焱是一个人吗奇鱼县渔女阿狸被选做海神新娘海祭，随船来到海岛。与海神成婚后，阿狸竟发现丈夫海神焱是一个半兽人，后来误入密室，

定位软件是一种通过手机上的位置传感器获取手机的真实位置，并将相应的数据反馈给用户的软件。人们通常所说的GPS卫星定位，主要是指利用GPS

新医改的主要内容有哪些？医改和医保的关系

医疗体制改革，简称医改。1994年，国务院决定在江苏镇江和江西九江...

五一劳动奖章待遇有什么？全国五一劳动奖章每年奖励多少人？

五一劳动奖章一般指全国五一劳动奖章。2022年，中华全国总工会表彰...

□法治日报全媒体记者战海峰文图□法治日报全媒体通讯员张贺图为乘警苏叶平(中)组织铁路职工进行应急处突培训。在重庆铁路公安处乘警支队，有