Lazy loaded image
技术分享
糟了,怎么连AI都会玩宝可梦了……
字数 2163阅读时长 6 分钟
2025-4-15
2025-4-15
type
status
date
slug
summary
tags
category
icon
password
大家好!我是子鱼。当谈到AI在策略游戏中的突破时,我们通常会想到AlphaGo在围棋、AlphaStar在星际争霸中的辉煌战绩。这些AI往往依赖于强大的搜索算法(如蒙特卡洛树搜索)和海量的自我对弈(Self-Play)。但如果AI能像人类玩家一样,仅仅通过观察和学习已有的真实对战数据,就能达到顶尖水平呢?
来自德克萨斯大学奥斯汀分校的一篇新论文《Human-Level Competitive Pokémon via Scalable Offline Reinforcement Learning with Transformers》就向我们展示了这种可能性,而且是在一个极其复杂、充满不完美信息和长期策略的战场——竞技宝可梦单打(Competitive Pokémon Singles, CPS)中实现的!作为一名AI小学生同时也是宝可梦爱好者,这篇论文顿时让我眼前一黑。怎么的,世界变化这么快吗,AI也能玩宝可梦了,就连我这种大师级选手(bushi)都得甘拜下风!
notion image
那么好,接下来就让我们来看看究竟怎么个事。这AI发展速度这么生猛,再不好好学学,明天一觉醒来都要毁灭人类了……

宝可梦对战:AI的“终极考验”之一?

可能有人会问,为什么选择宝可梦?除了它的大众吸引力,竞技宝可梦对AI来说是一个极具挑战性的领域:
  1. 不完美信息 (Imperfect Information): 你无法完全了解对手的队伍配置、携带道具、甚至具体配招,只能在对战中逐步推理。这比信息完全透明的围棋、象棋要复杂得多。
  1. 超长决策链 (Long Horizons): 一场对战可能持续上百回合,当前的决策需要考虑非常长远的影响。
  1. 巨大状态空间 (Huge State Space): 数百种宝可梦、技能、道具、特性组合,以及各种随机性(命中率、暴击、效果触发),使得状态空间异常庞大。
  1. 复杂的动态博弈: 玩家需要不断地根据对手的行为调整策略,进行“对手建模”(opponent modeling)。
传统的游戏AI,如强大的启发式搜索引擎Foul Play,虽然表现不错,但往往依赖于硬编码的规则和大量的游戏领域知识。而基于LLM的智能体(如PokéLLMon)虽然能理解游戏描述,但在长线规划和复杂策略上仍显不足。

核心突破:从“观众席”数据中重建“第一人称”视角

这篇论文最令人称道的创新之一,在于他们解锁了一个庞大且持续增长的真实人类对战数据集。他们利用了流行的在线对战平台 Pokémon Showdown (PS) 上保存的数百万场对战日志(replays)。
但这里有一个关键问题:PS的日志是以“观众”视角记录的,包含了双方的所有公开信息,但这并不是玩家在对战中实际拥有的“第一人称”视角(无法看到对手的后台宝可梦信息)。
研究团队开发了一套精妙的数据重建流程 (Replay Reconstruction Pipeline)
  • 他们模拟对战进程。
  • 利用统计数据和对战中逐步揭露的信息,推断双方玩家在对战开始时最可能的队伍配置。
  • 回填这些推断出的信息,为每个玩家重建出符合其当时信息限制的“第一人称”对战轨迹。
notion image
notion image
通过这个流程,他们成功将过去十年的海量观众日志,转化为了包含近百万条第一人称轨迹、三千八百万个决策时间步的宝贵离线数据集!这为直接从人类经验中学习复杂策略提供了可能。

Transformer担纲:无需搜索的“黑箱”策略学习

有了高质量的数据集,研究团队采用了当前在序列建模领域大放异彩的Transformer架构来训练宝可梦AI。他们的核心思路是:将整场对战到当前回合的历史(观察、自己和对手的行动、奖励)作为一个长序列输入给Transformer,模型直接输出当前回合应该采取的最佳行动(使用哪个技能或更换哪只宝可梦)。
这种方法的妙处在于:
  • 无需显式搜索 (Search-Free): AI在决策时不进行任何前瞻性的游戏树搜索,完全依赖Transformer从序列数据中学习到的模式和策略。
  • 黑箱对手建模 (Black-Box Opponent Modeling): AI通过观察对手的历史行动序列,隐式地学习对手的可能队伍、策略和倾向,并据此调整自己的决策,这非常接近人类顶尖玩家的直觉和经验。
  • 离线强化学习 (Offline RL): 利用离线数据集进行训练,结合了模仿学习(Behavior Cloning, BC)和离线RL的技术(如AWAC、CRR等思想的变体,论文中展示了多种损失函数配置),让AI在模仿人类的基础上,进一步优化以最大化获胜概率。
notion image

登顶天梯:媲美顶尖人类玩家

实验结果令人印象深刻。研究团队训练了不同规模(15M、50M、200M参数)的Transformer模型,并采用了从纯模仿学习到不同变种的离线RL进行训练。
  • 超越基线: 他们的最佳模型(SynRL-V2)在论文测试的所有早期世代OU环境中,都显著优于之前的启发式搜索AI(Foul Play)和基于LLM的PokéLLMon。
  • 人类级水平: 在PS平台的公开排位赛中,他们的AI(使用MetamonII等ID)匿名与人类玩家对战,最终打入了活跃玩家排名的前10%!在历史悠久且极具策略深度的第一世代OU(Gen1OU)环境中,甚至一度冲到天梯第31名。
  • 自弈数据的力量: 研究发现,即使使用与真实环境分布有差异的“合成”自弈数据(Synthetic Self-Play Data)进行微调,也能显著提升AI的性能,表明模型能够从更多样化的对抗经验中学习和泛化。
notion image

意义与未来

这篇论文的意义远不止于训练了一个强大的宝可梦AI。
  1. 验证了Offline RL的可扩展性: 证明了在具有超长决策链、巨大状态空间和严重不完美信息的游戏中,基于大规模离线数据的RL是可行的,并且可以达到人类水平。
  1. 开辟了新数据源利用范式: 展示了如何通过巧妙的数据工程,将大量非标准的、非第一人称的交互日志(如游戏录像、用户行为日志等)转化为可供AI学习的宝贵数据。
  1. 探索了“黑箱”策略学习的潜力: 表明强大的序列模型(Transformer)本身就可能蕴含着进行复杂推理、规划和对手建模的能力,而无需依赖传统的显式搜索或规划模块。
当然,研究也存在一些局限,比如对战后期可能因累积误差导致决策失误、长对战中的记忆挑战等。但它无疑为复杂策略游戏的AI研究开辟了一条令人兴奋的新路径。未来,我们可以期待看到更大规模的模型、更精妙的离线RL算法、以及这种方法在其他类似领域(如金融交易、机器人控制、医疗诊断辅助等存在大量交互日志的场景)的应用。
项目代码、模型和数据集已在GitHub开源: UT-Austin-RPL/metamon
 
上一篇
超越LLM:”基础智能体“时代来临,AI的下一个进化形态?
下一篇
国内 Docker 镜像加速地址最新可用清单(持续更新中)

评论
Loading...