近日,国际人工智能顶级会议IJCAI 2022 AI 奥林匹克竞赛结果出炉,网易互娱AI Lab的队伍从来自学术界和工业届的众多参赛队伍中脱颖而出,以1482.32分的成绩大幅领先其他队伍夺得冠军。网易互娱AI Lab研发的Athena AI系统再次登顶国际AI智能体竞赛,展现了网易互娱AI Lab在人工智能领域的综合技术实力。
国际人工智能联合会议(IJCAI, International Joint Conference on Artificial Intelligence)是人工智能领域中最重要的顶级会议之一,是中国计算机学会CCF推荐的A类会议。本次比赛中的游戏环境是对奥林匹克项目进行的模拟,包括冰壶、足球、跑步、桌面曲棍球、相扑、桌球等,参赛者需使用各种人工智能方法开发能够参与不同奥林匹克运动的智能体,并和所有其他队伍的智能体进行对抗,这对智能体的泛化性提出了挑战。此外,比赛还模拟了真实场景下运动员视野范围有限的情况,要求智能体仅凭借部分可观测的信息进行决策。
比赛环境的具体规则如下:
游戏共有两方,对战双方各控制一个有相同质量和半径的弹性小球智能体。
智能体可以互相碰撞,也可以碰撞墙壁,但可能会损失一定的速度。智能体自身有能量,每步消耗的能量与施加的驱动力和位移成正比。智能体能量同时以固定速率恢复,如果能量衰减到零,智能体出现疲劳,导致不能加力。
整个游戏会依次运行以下几个子游戏:在跑步中,智能体的目标是在随机选择的地图上尽快到达终点。在桌面曲棍球中,智能体的目标是通过碰撞将球打入对手的球门且防止自家球门被攻破,智能体只能在己方的场地中移动。在足球中,智能体的目标与桌面曲棍球项目相同,但是智能体能够在球场上任意活动。 在相扑中,智能体的目标是避免摔下擂台并且争取将对方撞下擂台。在桌球中,智能体需要在尽可能短的时间内将桌面上的球打进洞且避免母球落袋。在冰壶中,双方智能体在两轮中分别作为先后手向场地中央的目标点抛掷小球,每轮每方智能体有三次抛掷的机会,小球在通过红线后不能再对其施加力,目标是相较对手有更多的球靠近中央目标点。当所有子游戏结束后,游戏结束。
每方在赢得一场子游戏后获得1分,输掉一场子游戏获得0分,整个游戏的得分为所有子游戏上的得分之和。
本次比赛由中国科学院自动化研究所主办,吸引了来自哔哩哔哩、麻省理工学院、清华大学、中科院、上海交通大学、浙江大学等众多学术界和工业界的队伍,其中还包括了上一届AI奥林匹克竞赛的冠军。来自网易互娱AI Lab的队伍“高唐体校”首次参赛,就在初赛和复赛中以1476.85分和1484.66分的成绩一路领先,最终凭借1482.32分大比分领先其他队伍夺冠。
比赛中的桌球和冰壶环境:
方案介绍
网易互娱AI Lab研发的Athena AI系统,使用了自研的分布式深度强化学习框架进行智能体训练。该框架不但训练高效,也能支持同时模拟和数百种不同风格的对手进行对战的场景,因此能够在此次比赛中面对各种未知对手时稳定取胜。
模型设计如图所示,主要使用了深度残差网络对图像输入进行编码。其中输入共分为4个部分,分别为两种图像输入和两种标量输入:为了处理环境自身的部分可观测(POMDP)特性,模型输入会有取舍地采样每次决策前60帧内的部分数据(Past Frames)进行堆叠,还会有一些其他标量信息如智能体坐标、体力等(Vector Feature);考虑到冰壶环境的特殊性,在该环境中智能体还会提前观察冰壶中心区域的信息(Curling Center)作为输入;最后智能体还额外使用了一些能从环境中获取到的全局完美信息(Perfect Info)辅助预测状态价值。
动作空间的建模上使用了离散化的多头输出,对移动方向(Angle)和施力大小(Force)分别建模,在优化复杂度仅线性增加的情况下将动作空间大幅提升至3600维,使智能体在微操上更加灵活。相较于其他参赛队伍,智能体也表现出了更加多样的策略,例如在冰壶环境中大多数队伍采用基于规则的方法,而网易互娱AI Lab的智能体通过训练学会了多角度击打、封锁对方后手等高级战术。
关于互娱AI Lab和Athena AI系统
网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。
Athena AI是互娱AI Lab研发的游戏AI系统,应用了前沿的模仿学习、强化学习、进化学习算法实现游戏中的竞技对战、友好陪玩、平衡性测试等AI需求,目前已落地互娱多款不同类型的游戏。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论