3秒复制任何人的嗓音，微软音频版DALL·E细思极恐；谷歌Chrome新特性：基于网站启用和禁用扩展程序

VSole2023-01-16 14:22:00

3秒复制任何人的嗓音，微软音频版DALL·E细思极恐

只需3秒钟，一个根本没听过你说话的AI，就能完美模仿出你的声音。

例如这是你的一小句聊天语音：

这是AI根据它模仿你说话的音色：

是不是细思极恐？

这是微软最新AI成果——语音合成模型VALL·E，只需3秒语音，就能随意复制任何人的声音。

它脱胎于DALL·E，但专攻音频领域，语音合成效果在网上放出后火了：

有网友表示，要是将VALL·E和ChatGPT结合起来，效果简直爆炸：

看来与GPT-4在Zoom里聊天的日子不远了。

还有网友调侃，（继AI搞定作家、画家之后）下一个就是配音演员了。

所以VALL·E究竟怎么做到3秒钟模仿“没听过”的声音？

用语言模型来分析音频

基于AI“没听过”的声音合成语音，即零样本学习。

语音合成趋于成熟，但之前零样本语音合成效果并不好。

主流语音合成方案基本是预训练+微调模式，如果用到零样本场景下，会导致生成语音相似度和自然度很差。

基于此，VALL·E横空出世，相比主流语音模型提出了不太一样的思路。

相比传统模型采用梅尔频谱提取特征，VALL·E直接将语音合成当成了语言模型的任务，前者是连续的，后者是离散化的。

具体来说，传统语音合成流程往往是“音素→梅尔频谱（mel-spectrogram）→波形”这样的路子。

但VALL·E将这一流程变成了“音素→离散音频编码→波形”：

具体到模型设计上，VALL·E也和VQVAE类似，将音频量化成一系列离散tokens，其中第一个量化器负责捕捉音频内容和说话者身份特征，后几个量化器则负责细化信号，使之听起来更自然：

随后以文本和3秒钟的声音提示作为条件，自回归地输出离散音频编码：

VALL·E还是个全能选手，除了零样本语音合成，同时还支持语音编辑、与GPT-3结合的语音内容创建。

那么在实际测试中，VALL·E的效果如何呢？

连环境背景音都能还原

根据已合成的语音效果来看，VALL·E能还原的绝不仅仅是说话人的音色。

不仅语气模仿到位，而且还支持多种不同语速的选择，例如这是在两次说同一句话时，VALL·E给出的两种不同语速，但音色相似度仍然较高：

同时，连说话者的环境背景音也能准确还原。

除此之外，VALL·E还能模仿说话者的多种情绪，包括愤怒、困倦、中立、愉悦和恶心等好几种类型。

值得一提的是，VALL·E训练用的数据集不算特别大。

相比OpenAI的Whisper用了68万小时的音频训练，在只用了7000多名演讲者、6万小时训练的情况下，VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。

而且，YourTTS在训练时，事先已经听过108个演讲者中的97人声音，但在实际测试中还是比不过VALL·E。

有网友已经在畅想它可以应用的地方了：

不仅可以用在模仿自己的声音上，例如帮助残障人士和别人完成对话，也可以在自己不想说话时用它代替自己发语音。

当然，还可以用在有声书的录制上。

不过，VALL·E目前还没开源，要想试用可能还得再等等。

‍

语音合成

撤稿纠错

本作品采用《CC 协议》，转载必须注明作者和本文链接

语音欺骗检测研究与分析

2023-07-28 10:16:57

与欺骗攻击相对应，语音欺骗检测是一种识别防御技术，国内外相关人员进行了最新的研究。目前，指纹、人脸和声纹等常见的生物特征已经被大量应用。2017年在瑞典斯德哥尔摩举行的 2017 挑战赛则重点关注语音回放欺骗攻击。这次的挑战赛吸引了 53 个注册团队，收到了 23 个提交结果。由于输入 ASV 系统的语音的欺骗方法未知，传统的语音欺骗检测系统无法同时检测 LA 和 PA 两种攻击。

3秒复制任何人的嗓音，微软音频版DALL·E细思极恐；谷歌Chrome新特性：基于网站启用和禁用扩展程序

2023-01-16 14:22:00

语音合成趋于成熟，但之前零样本语音合成效果并不好。相比传统模型采用梅尔频谱提取特征，VALL·E直接将语音合成当成了语言模型的任务，前者是连续的，后者是离散化的。除此之外，VALL·E还能模仿说话者的多种情绪，包括愤怒、困倦、中立、愉悦和恶心等好几种类型。不过，VALL·E目前还没开源，要想试用可能还得再等等。

打造一流AI测试环境、助力产业健康发展——人工智能关键技术与应用评测工业和信息化部重点实验室工作纵览

2022-05-18 13:49:05

实验室建设以来，不断深耕人工智能技术、支撑和服务能力，有效推动人工智能技术水平的进步和应用水平的提升。

深度伪造技术的发展及影响

2021-09-06 10:11:52

2020年8月，美国会研究服务处发布《深度伪造与国家安全》和《人工智能与国家安全》两大报告，明确指出深度伪造已成为对手信息战的一部分，对手可利用深度造假技术对抗美国及其盟国，生成虚假新闻报告，影响公开披露的信息，瓦解公众信任等。尤其是2020年美国大选将至，美各界对深度伪造信息也是严阵以待，采取各种措施围追堵截。深度伪造技术在近几年迅速兴起，为国家间的政治抹黑、网络攻击、军事欺骗、经济犯罪甚至恐怖

基于人工智能的网络空间内容安全治理方法研究

2023-06-27 09:41:06

近年来，人工智能技术对社会的发展产生了深刻的影响和推动作用。

实战 | 认知智能助力平安银行数字化转型

2023-03-14 13:44:31

AI服务层统一管理模型服务，服务上线推理之后由AI服务层统一对外提供服务。AI服务层支持不同模型服务的编排、模型服务的AB测试和模型服务的监控。

从虚假信息到深度造假：网络攻击者如何操纵现实

2023-03-13 09:37:14

近期，电视剧《狂飙》的爆火，激起了一些UP主的二创激情，将剧中的“CP”角色通过AI换脸移植到其他影视片段中，形成让网友惊呼“眼前一黑”的戏剧化效果，同时也收获了满满流量。乍一看这只是单纯的娱乐行为，但有时诸如”AI换脸“等深度造假技术（Deepfakes）可不只是”逗你笑“这么简单，背后的安全隐患不容忽视。

我国拟禁止或限制出口激光雷达、稀土、航天器及机器人等制造技术

2023-01-31 10:18:20

1月28日，据商务部网站消息，我国商务部会同科技部等部门关于《中国禁止出口限制出口技术目录》修订公开征求意见的意见反馈正式截止。知情人士也表示，目前并没有对外公布美、荷、日达成协议的计划。与此同时，ASML的全球业务也将继续进行，行业需要稳定性和可靠性，以避免全球半导体行业进一步动荡。中国大陆是ASML第三大市场，后者显然不希望失去中国市场。对于美方的做法，中国方面多次表示坚决反对。

2023年阻止网络钓鱼攻击的三种方法

2022-11-29 12:33:00

鱼叉式网络钓鱼：网络攻击者向他们知道拥有所需信息的特定目标发送电子邮件，例如销售部门或IT部门的员工。捕鲸式网络钓鱼：向首席执行官或首席财务官等企业高管发送电子邮件，这是一项备受瞩目的目标诈骗的一部分。由于网络钓鱼攻击以人员为目标，网络安全专家一致认为，针对这一点的最佳防御措施是向员工提供安全意识培训。帮助人们变得更明智、更有感知力、更有弹性和响应能力的解决方案将会获得对抗网络钓鱼攻击的胜利。

人工智能对网络攻击的影响及军事作战领域的全新应对思想

2022-01-04 13:39:10

Darktrace是全球领先的网络人工智能（AI）公司，也是自主响应技术的创造者，到目前为止，Darktrace已经建立了很多的关键技术和能力，其总部设在美国旧金山和英国剑桥。

VSole

网络安全专家