2023年11月1日

提升 AR 逼真度ML 谷歌 ARCore 助力实时 AR 更上一层楼

作者 admin
ARCore是一个由谷歌于去年二月份推出的扩展现实(AR)软件开发工具包。该工具包为开发者提供了一个平台,让他们能够轻松地开发AR应用程序。近期,谷歌推出了ARCore 1.7版本,更加实用和高效。在现实世界中而引起越来越多的关注和热度。这种技术让我们能够通过电子设备看到由计算机生成的虚拟图像,这些图像似乎像是融入了真实世界中。为了更好地实现这一目标,现代智能手机,例如iPhone X,配备了前置摄像头 AR 能力以及动画效果支持。最近,谷歌公司更用上最新的机器学习技术,使得手机的实时 AR 的惟妙惟肖的效果更加精细。该技术相关的文章发布在谷歌 AI 的官方博客上,下面是AI 科技评论针对该技术所做的编译。沉浸于真实世界的奇妙氛围中,感受着无与伦比的超现实感官冲击。以谷歌地图 AR 功能为例,当你在行进中需要寻路时,它会在现实场景之上映射出简明且明确的路线指引,方便你快速抵达目的地。而当你在使用 Pixel 相机的 Playground 模式时,AR 将会带给你一种全新的视角,让你从不同的维度去描绘这个世界。此外,全新推出的「YouTube Stories」和 ARCore 的面部增强 API 更是带来了前所未有的细腻面部表情体验,让你淋漓尽致地感觉到真正的体内交流。你可以在头顶添上动画面具,戴上眼镜,戴上帽子,甚至换上不同的皮肤特效,让你的照片更加生动。 

实现这种增强现实(AR)功能的关键在于以适当的方式将虚拟内容锚定到现实世界,必须使用一套独特的感知技术,能够跟踪到每次不同的表情,如微笑,皱眉,甚至是假笑的高动态表面几何结构。

在对所关注的位置进行裁剪后,该网格网络每次只能应用于一个单独的帧,并采用窗口平滑技术来减少噪声。这样就能避免面部静态部位的干扰。移动时,在游戏或应用中会出现迟滞的现象。为了解决这个问题,我们使用了迁移学习技术,并训练了一种多目标的神经网络。这个网络可以同时针对3D网格进行处理。在活动中,你可以看到这个神奇的网络是如何运作的。请看下方的动图:

活动中的3D网格

  通过数据合成和渲染以及基于类似于MLKit所提供的具有注释的现实世界数据预测2D语义轮廓,我们可以预测出3D网格的坐标。最终的网络可以提供基于合成和现实世界数据的合理的3D网格预测。所有模型都是在丰富多样化的地理学数据集上进行训练,并在平衡、多样性的测试集上进行定性测试。进行定量性能测试的过程。

在3D网格网络中,我们使用裁剪后的视频帧作为输入,无需额外的深度输入,这也使得它适用于预先录制的视频。该模型不仅输出了3D点的位置信息,还输出了存在于输入中并且经过合理对齐的面部概率。之前使用的常见替代方案是为每个关键点预测2D热图,但是这种方法并不适用于深度预测。而对于如此庞大的数据集,采用此方法的计算成本是十分高昂的。

不过,我们通过不断迭代的自我学习和精炼的预测,成功提升了模型的性能。