用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

2022-08-09 0 683

2016 年,米哈游掏空家底,all in 游戏项目《原神》,追寻转型之路。2020 年全开放式冒险游戏《原神》问世引发游戏圈现象级热议,精美的制作,3A 级的画质,更是让游戏在 2021 年一度登顶 56 国排行榜。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

作为一款角色养成类游戏,原神游戏本身还是还是比较肝的,再加上核心玩法较为简单,游戏后期版本更新缓慢,游戏时间久了之后部分玩家难免产生无聊,却又“食之无味,弃之可惜”的感觉。

言出法随,语音玩原神

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

在闲着无聊的时候,总有一些大佬的脑回路与众不同,想着整点活。这不,b 站硬核整活区 up 主“薛定谔の彩虹猫”就通过 AI 算法实现语音控制原神,直接将玩家变成了神奇宝贝训练家,建议游戏改名为“精灵宝可梦:原神”。

具体战斗效果,让我们一起瞅瞅下面的动图。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

随着系统提示“在 360 秒内击败 8 只怪物”,4 只火史莱姆来势汹汹。

原神训练家气定神闲喊出了一句“用战术三攻击中间的火史莱姆”,画面内出现像战斗机一样的绿色追踪框。

神里绫华向史莱姆跑去,随后切换钟离发动技能“元素战技・地心”打出 aoe 伤害同时套盾,随后凌华再一次登场,一招“神里流・霰步”,打出成吨元素伤害,在火史莱姆的爆炸中,结束战斗。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

作者还预设了不同的战术方案。在应对火系深渊法师的时候。先是一句“攻击中间的火深渊法师”,角色开始自动寻怪。

来到怪物身前时,执行战术一。迪奥娜以迅雷之速使出“猫爪冰冰”技能打出伤害的同时向后方位移调整位置及套盾,再之后神里绫华登场,一招霰步欺身上前,打出 combo 伤害。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

不过,在演示过程中,我们也发现,战术启动后的角色,其操作行云流水,非常的丝滑。但是,战术还没启动之前,却有点呆呆的,来自 AI 的仁慈。

那么,这种用嘴打游戏,实现言出法随,辅助玩家练就三寸不烂之舌的 AI 是怎样制作出来的?

三大 AI 工具,打造智能指令系统

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

视频作者“薛定谔の彩虹猫”分享了他的方法。实现 AI 语音玩原神,主要涉及到时下流行的“XVLM+WeNet+STARK”等三大 AI 主流领域

看到这里,有的小伙伴可能会表示“说得好,这些字母拆开来我都认得,拼在一起就是我不认识的样子了。”

小伙伴们别着急额,接下来让我们一起了解下这三个工具的用处。

在以往,我们要操作游戏角色进行近战的操作逻辑是:1、看到敌方目标。2、锁定目标,向目标角色移动。3、发动攻击

通过语音实现游戏操作,同样也是需要完成上面 3 个步骤。让我们一起拆解一下作者在游戏中的指令,解析这套 AI 的工作流。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

如上图所示,当作者说出“用战术三攻击中间的火深渊法师之后”。让电脑执行了“语音指令识别 —— 图像识别目标 —— 角色行动”这三大步骤,整个过程有点类似于面向游戏定制了一个语音助手,就像“嘿,Siri,打开原神”。

第一步:语音指令识别

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

要让设备听懂我们的指令,我们就需要一个翻译官,将我们说的话转变成机器能够听得懂的计算机语言,WeNet 就是我们和机器对话的翻译官。

WeNet 是一个面向生产的端到端语音识别工具包,在单个模型中,它引入了统一的两次 two-pass (U2) 框架和内置运行时来处理流式和非流式解码模式。其语音识别正确率、实时率和延时性都有着非常出色表现,获得了京东、网易、英伟达、喜马拉雅等公司语音识别项目的采用。

用 WeNet 识别咱们玩原神的语音指令,需要经过“准备训练数据”“提取可选 cmvn 特征”“生成标签令牌字典”“准备 WeNet 数据格式”“神经网格训练”“用训练后的模型识别 wav 文件”“导出模型”等 6 大步骤。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

上面的东西用大白话讲就是,准备一些音频文件,同时标注我这些音频文件讲了啥,然后让机器去学习识别这些音频文件并生成标签。上述训练完成以后,以后我们对机器说话,WeNet 就能把我们的话翻译成机器听得懂的话

第二步:解析语音指令特征

有了 WeNet 的助攻之后,我们实现了说出的话让机器听得懂我们说的是啥之后,我们还要让机器将听到的东西跟画面中的东西对应上,这就轮到第二个工具“X-VLM”登场了。

X-VLM 是一种基于视觉语言模型(VLM)的多粒度模型,由图像编码器、文本编码器和跨模态编码器组成,跨模态编码器在视觉特征和语言特征之间进行跨模态注意,以学习视觉语言对齐。那具体这个工具是咋实现识别对象的呢?

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

上图展示了 X-VLM 的工作流程。图片左侧为工具视觉概念的编码过程。工具包的图像编码器基于 Vision Transformer 实现,输入的图片会被分成 patch 编码。然后,给出任意一个边界框,灵活地通过取框中所有 patch 表示的平均值获得区域的全局表示。接着该全局表示和原本框中所有的 patch 表示按照原本顺序整理成序列,作为该边界框所对应的视觉概念的表示。

(字我都认识,连在一起怎么就是我不认识的样子了?)

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

怎么文章看着看着变成做阅读理解了,让我们再多看亿眼。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

上面这段话的意思,通俗点讲就是将图片切割成方块,并且预组合这些方块。比如组合成“一个男人背着背包”的图片,或者组合成“男人背着背包过马路”的图片。

你要做的就是告诉机器这些组合和文字的对应关系,接着让设备进行机器学习。

通过这样的方式获得图片本身和图片中视觉概念(V1,V2,V3)的编码。与视觉概念对应的文本,则通过文本编码器一一编码获得,例如图片标题、区域描述、或物体标签。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

这一顿操作下来,小编也被绕晕了。这玩意的作用有点像我们的眼睛,当我看到一个“书包”,虽然我没见过这个款式的,但根据特征提取,我知道这个东西就是书包,X-VLM 就是这样一个工具。

X-VLM 可以在接收 WeNet 输出的文本信息后,将图像中相关联的物件提取出来,实现语言与视觉相关联。到这里,我们可以实现让电脑知道我们说的话指的是图片里面的啥玩意了。

第三步:追踪图像

在使用了 X-VLM 和 WeNet 之后,我们成功让设备听得懂咱们说的是啥玩意了,接下来要做的就是实现“追踪目标”,听起来是不是很酷炫,有种开战斗机发射追踪导弹的感觉~

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

相信不少小伙伴们都猜到了,这剩下的最后一个“STARK”就是用于实现图像追踪功能的 AI 工具

Stark 是最新的 SOTA 跟踪模型,模型使用了 transformer 来结合空间信息以及时域信息。

模型包括一个 encoder,decoder 以及 prediction head。其中 encoder 接收三个输入:当前帧图像,初始目标以及一个动态变化的模板图片。由于模板图片在追踪过程中是动态变化,不断更新的,因此 encoder 可以同时捕获到目标的时域和空间信息。

获取目标信息以后,工具会通过预测左上与右下角热力图的方式,在每帧图像中得到一个最优的边界框,并且可以直接在 GPU 端运行。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

简单说就是,在我们通过 X-VLM 确定要追踪的目标以后,Stark 就像钢铁侠 Tony Stark 的追踪系统一样,会记录对象在静止状态和动态状态下的样子,处理分析之后实现追踪动态对象。

那么,讲到这里,我们已经基本明白这语音玩原神三大技术的原理。那角色是怎么动起来执行战术的呢?

其实实现角色自动攻击、释放技能这一块,反而是 AI 语音玩原神中最容易实现的一个环节。这个功能可以通过宏指令或者代码编程来实现。小编特意到作者分享的代码文件中瞄了一眼,下面是部分代码的展示。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

这一段操作代码使用 python 写的,逻辑也相当的简单,就是执行一串预设好的按键指令。上面图片展示的应该是对应战术一的操作。其中 key 跟 mouse 后面的数字或者字母对应了切换角色和释放技能。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

代码也解释了为啥角色执行完战术之后就杵在原地发呆,因为没有了后续的指令和输入。

总的来说,如果有小伙伴想简单尝鲜一下这个 AI 语音玩原神,可以直接下载作者分享的代码,运行程序即可。你只需将英雄阵容及顺序设计成和作者一样,就可以达到作者视频展示的的效果了。

当然,如果小伙伴们想要玩出自己的花样,也可以直接改这段操作代码,实现不同的阵容及技能释放组合,然后记住自己改的是哪一套战术就行了。

当然,如果你想把游戏完成比较中二的,像下面这样的:

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

就决定是你了,神里绫华。(切换角色)

靠近敌人之后使用霰步。(释放技能)

辛苦你了,绫华,回来吧。(切换角色)

小编也帮你想好了要改哪些代码,你把对应切换角色的快捷键以及技能键替换到操作代码里面就像了,但同时你还要录一段语音到 WeNet,让它进行学习,知道你在说啥。(PS:尽可能用一句话做多点事,因为 AI 执行比较忙,这也是为啥作者要用战术一二三的原因)

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

当然还有神仙大佬在视频里给出了其他的建议。比如加入 SLAM 工具,实现 360° 方位检测,让角色能够在游戏里追踪不同方位的敌人,自走地图炮了属于是。

眼睛、手势都能玩,AI 玩游戏姿势还有这些

除了 ai 语音玩游戏外,b 站还有很多大佬折腾出了别的玩游戏姿势。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

Jack-Cui 大佬直接自制 ai,用一个普通摄像头加一台电脑实现体感玩街头霸王。用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

b 站 up 主同济子豪兄展示的,用 WebGazer.js,实现“眼神操控鼠标”,通过眼神来玩游戏,直接就是眼神杀人术。用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

通过 Mediapipe,用手势隔空玩游戏。很有钢铁侠操控面板的感觉了!

AI 技术,在不同的场合有着不同的应用。而像语音操控、眼神操控这一类技术,直接的受益人就是一些在生活中存在身体缺陷的人。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

此前便有一位高位截肢的退役消防员小哥在网上分享了他用嘴巴操作手机玩原神的视频,等 AI 语音玩游戏成熟了,他就可以通过语音更加轻松的在原神的世界游玩。

作者在后期也打算加入“全自动刷本、传送、打怪,领奖励一条龙”的 AI 操作,到时候我们也将看到一个更加有趣的场景,让我们一起拭目以待。

不懂这些算法的小伙伴们也不用担心,作者目前已经将源码分享到了 github 上,小伙伴们前往下载安装之后,根据咱们上面说的,改改操作代码,体验一把语音玩原神。

收藏 (0) 打赏

感谢您的支持,我们会继续努力的!

打开支付宝/微信/QQ扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

1. 本站所有教学内容和资源均来源于本站原创和网络收集以及用户自主上传,如有侵权请带证联系本站客服进行处理!邮箱:team@lcwl.fun
2. 对于非本站原创的资源不保证所提供下载资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系本站客服处理,有奖励!
3. 除本站原创教学或资源外其余资源您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负!
4. 本站原创资源如需商用还请申请商业授权,否则本站有权追究其法律责任!
5. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有学币奖励额外收入!

凌晨资源网 IT资讯 用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源 https://www.lingchenw.cn/8339.html

常见问题
  • 本站所有付费教程均可单独付费或者开会员学习,自己购买或者开了会员就可以学习,来凌晨学院报名学习送会员,并且有讲师一对一辅导培训教学,师生互动化,定期布置作业等
查看详情
  • 本站所有资源版权均属于原作者所有,资源中标注可商用的可以商用的代表是本团队自主研发公布可商用的产品,未标注可商用所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务

学习手机编程软件开发
手机编程软件开发

你知道吗?用手机也能开发制作软件,满足自己的编程心,做属于自己的软件

报名学习
自媒体短视频
副业做自媒体短视频

想做自媒体短视频剪辑给自己多一份副业,只需一部手机你也可以

报名学习
搭建网站必备云互联主机
链未云互联

搭建网站,后台云服务等必备云服务器互联主机,IDC云主机

现在使用
Fa快捷助手
用手点一点就能开发做软件

不用记编程语法,不用一行一行手敲代码,用手点一点就能开发制作软件

点击下载