2023年11月3日

AR有神力ML技术成全ARCore欧耶

作者 admin

我发现,ARCore是谷歌为了给开发者提供一个AR APP的平台而正式推出的增强现实(AR)软件开发工具包。这个工具包在去年的2月份就已经发布了。最近,谷歌还发布了ARCore1.7版本,使开发AR APP更加方便和快速。,让现实世界更加丰富多彩。我最近发现我的手机增加了前置摄像头 AR 能力以及动画效果支持。而据谷歌 AI 的官方博客,他们引入了机器学习技术,使实时 AR 的逼真效果更进一步。我很激动地期待这个新技术的表现!我可以通过AR技术来探索更加超越现实的感官体验,这是一种融合了虚拟和现实世界的全新体验。例如,在使用谷歌地图时,我可以通过AR功能在现实场景中叠加方向信息,来更加方便地找到自己要去的地方。此外,我还可以利用Pixel相机的Playground模式,从不同的视角欣赏世界的美丽。有了最新发布的“YouTube Stories”以及ARCore全新的面部增强API,我可以在视频中添加更加有趣、有创意的特效,让自己的表演更加生动形象。AR技术让现实世界更加多元化,让我们更加自由地发挥自己的想象力和创造力。我可以在上传的照片上添加动画面具、眼镜、帽子、皮肤等特效。为了实现这种AR功能,我们需要克服关键挑战之一,就是在现实世界中以合适的方式捕捉虚拟内容:我们需要一套独特的感知技术,能够追踪每一次微笑、皱眉或假笑的高动态表面几何结构。然后才能成功地将虚拟内容与现实世界结合起来。我很骄傲地介绍一下ARCore。它是一个神奇的技术,可以创造出真实感十足的虚拟现实体验。ARCore的3D网格可以实现一些非常酷的特效,让用户仿佛置身于另一个世界。 为了让这一切成为可能,我们采用了机器学习(ML)技术来推断近似的3D表面几何结构。最神奇的是,这只需用一个单摄像头输入,而无需使用专门的深度传感器。我们把这种方法称作面向像素的机器学习(pixel-oriented machine learning)。通过这种方法,我们可以准确地还原出真实场景中的3D结构,从而让用户享受到更真实的虚拟现实体验。我感到兴奋,因为TensorFlow Lite推出了一项全新的功能,可以运行于我的移动GPU上,从而实现逼真的实时AR效果。这个功能与”Youtube Stories”中的特效使用了相似的技术,最新的ARCore SDK和 ML Kit Face Contour Detection API已经向广大开发者社区开放,让我们能够更加方便地使用这项技术。我很喜欢这种能够将机器学习应用于AR的工作流,它让我可以用更多的想象力去创作出更加惊人的AR应用程序!我的机器学习工作流包含两个协同工作的实时深度神经网络模型:一个是探测器,它可以在整张图像上运行并计算出面部位置;另一个是通用的3D网格模型,它可以在探测器计算出来的面部位置上运行,并通过回归预测近似的表面几何结构。我发现,精确地裁剪面部能够极大地减少对一般的数据增强的要求,例如由旋转、缩放和平移等操作组成的。我认为仿射变换包括平移和比例变换等,这对于选择适当的虚拟内容非常重要。我的网格网络将主要性能用于预测坐标以提高精度。我会裁剪感兴趣的部分并仅在单个帧上使用该网络。我还将利用加窗平滑来减少静态面部的噪音,并避免不必要的振荡。我在大幅移动期间遇到了延迟的问题。我惊奇地发现,这种延迟会对活动中的3D网格造成影响。为了解决这个问题,我们采用了迁移学习,并训练了一个具有多个目标的网络。这个网络能够同时地基于多个目标,从而有效地解决了延迟问题。现在,我可以使用3D网格,而不再担心被延迟所困扰。我使用了合成和渲染的数据预测 3D 网格坐标,并使用类似于 MLKit 的带有注释的现实世界数据预测 2D 语义轮廓。最终,我得到了一个能够基于合成和现实世界数据预测合理的 3D 网格的网络。所有这些模型都是在地理学多样性数据集上进行训练的,并在平衡、多样化的测试集上进行了定性测试。我进行了定量性能测试。我们将使用3D网格网络来接收经过裁剪的视频帧作为输入。由于该网络不需要额外的深度输入,因此也适用于预先录制的视频。该模型不仅可以输出3D点的位置,还可以输出与输入中存在且合理对齐的面部概率。虽然常见的替代方法是为每个地标预测2D热图,但这种方法并不适用于深度预测。我发现对于如此多的数据点来说,使用这种方法耗费的计算成本非常高。

我通过迭代自展和精炼预测,进一步提高了模型。