科技|微软AI用一张照片便可生成深度伪造有声视频

[星岛综合报道] 微软亚洲研究院(Microsoft Research Asia)透露，他们开发了一种人工智能模型，能够仅用一张静态图片和一段音轨，就生成逼真的深度伪造视频。从现在起，我们如何能够信任我们在线上看到和听到的内容呢？

人工智能系统在过去几年中在关键标准上已经超越了我们，并且已经让许多人非常担心被过早地淘汰并被算法取代。

一些智能小工具现在已被转变成强大的日常助手和重要的生产力工具。还有一些模型能够为无声视频剪辑生成逼真的声效，甚至能够根据文字提示创建惊人的影片。微软的VASA-1框架似乎是另一个巨大的飞跃。

在对来自VoxCeleb2数据集的大约6000个真实说话脸部的影片进行模型训练之后，这项技术能够生成逼真的视频，在这些视频中，新动画的主题不仅能够准确地对着提供的语音音轨进行口型同步，还能展示多变的面部表情和自然的头部动作——所有这些都来自一张静态的头部照片。

这与几个月前出现的阿里巴巴智能计算研究院的Audio2Video扩散模型非常相似，但更加逼真和精确。据报道，VASA-1能够以512×512像素、每秒40帧的速度生成同步视频，「几乎没有启动延迟」。

虽然所有用于项目演示的参考照片都是由StyleGAN2或DALL-E生成的AI生成的，但有一个突出的真实世界例子用来展示这个框架的实力，它超越了其训练集——一个说唱的蒙娜丽莎！

项目页面有许多从静态图像生成的谈话和唱歌视频的例子，并与音轨匹配，但这个工具还有可选控制，以设置「面部动态和头部姿势」，如情绪、表情、与虚拟视频摄像机的距离和凝视方向。非常强大。

「人工智能生成的说话脸孔的出现为我们提供了一扇窗户，展望未来技术将增强人与人、人与人工智能互动的丰富性，」一篇详细介绍这项成就的论文的引言这样写道，「这项技术承诺丰富数码通信，增加沟通障碍者的可及性，通过互动人工智能辅导改变教育方法，并在医疗保健中提供治疗支持和社交互动。」

但研究人员也承认滥用的潜力。虽然在消化我们每天的在线新闻时，从事实中辨别出完全的捏造已经感觉像是一项不可能的任务，但想像一下，如果有一个工具可以让你随意让几乎任何人出现说你想让他们说的话。

这可能会演变成无害的恶作剧，比如用一个来自最喜欢的荷李活演员或流行歌星的FaceTime恶作剧亲友，通过发布在线供认将一个无辜的人牵扯到严重的犯罪中，通过扮演一个陷入困境的亲爱孙儿的角色来诈骗某人的钱，让关键政治家支持有争议的议程等等。这些都是十分逼真的。

然而，VASA-1模型生成的内容「包含可识别的人工痕迹」，研究人员不打算公开这个平台，「直到我们确定这项技术将被负责任地使用，并符合适当的法规。」

图片：Microsoft Research Asia

T10