3秒复制任何人的嗓音,微软音频版DALL·E细思极恐;谷歌Chrome新特性:基于网站启用和禁用扩展程序

VSole2023-01-16 14:22:00

3秒复制任何人的嗓音,微软音频版DALL·E细思极恐

只需3秒钟,一个根本没听过你说话的AI,就能完美模仿出你的声音。

例如这是你的一小句聊天语音:

这是AI根据它模仿你说话的音色:

是不是细思极恐?

这是微软最新AI成果——语音合成模型VALL·E,只需3秒语音,就能随意复制任何人的声音。

它脱胎于DALL·E,但专攻音频领域,语音合成效果在网上放出后火了:

有网友表示,要是将VALL·E和ChatGPT结合起来,效果简直爆炸:

看来与GPT-4在Zoom里聊天的日子不远了。

还有网友调侃,(继AI搞定作家、画家之后)下一个就是配音演员了。

所以VALL·E究竟怎么做到3秒钟模仿“没听过”的声音?

用语言模型来分析音频

基于AI“没听过”的声音合成语音,即零样本学习。

语音合成趋于成熟,但之前零样本语音合成效果并不好。

主流语音合成方案基本是预训练+微调模式,如果用到零样本场景下,会导致生成语音相似度和自然度很差。

基于此,VALL·E横空出世,相比主流语音模型提出了不太一样的思路。

相比传统模型采用梅尔频谱提取特征,VALL·E直接将语音合成当成了语言模型的任务,前者是连续的,后者是离散化的。

具体来说,传统语音合成流程往往是“音素→梅尔频谱(mel-spectrogram)→波形”这样的路子。

但VALL·E将这一流程变成了“音素→离散音频编码→波形”:

具体到模型设计上,VALL·E也和VQVAE类似,将音频量化成一系列离散tokens,其中第一个量化器负责捕捉音频内容和说话者身份特征,后几个量化器则负责细化信号,使之听起来更自然:

随后以文本和3秒钟的声音提示作为条件,自回归地输出离散音频编码:

VALL·E还是个全能选手,除了零样本语音合成,同时还支持语音编辑、与GPT-3结合的语音内容创建。

那么在实际测试中,VALL·E的效果如何呢?

连环境背景音都能还原

根据已合成的语音效果来看,VALL·E能还原的绝不仅仅是说话人的音色。

不仅语气模仿到位,而且还支持多种不同语速的选择,例如这是在两次说同一句话时,VALL·E给出的两种不同语速,但音色相似度仍然较高:

同时,连说话者的环境背景音也能准确还原。

除此之外,VALL·E还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型。

值得一提的是,VALL·E训练用的数据集不算特别大。

相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。

而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E。

有网友已经在畅想它可以应用的地方了:

不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音。

当然,还可以用在有声书的录制上。

不过,VALL·E目前还没开源,要想试用可能还得再等等。

语音合成
本作品采用《CC 协议》,转载必须注明作者和本文链接
与欺骗攻击相对应,语音欺骗检测是一种识别防御技术,国内外相关人员进行了最新的研究。目前,指纹、人脸和声纹等常见的生物特征已经被大量应用。2017年在瑞典斯德哥尔摩举行的 2017 挑战赛 则重点关注语音回放欺骗攻击。这次的挑战赛吸引了 53 个注册团队,收到了 23 个提交结果。由于输入 ASV 系统的语音的欺骗方法未知,传统的语音欺骗检测系统无法同时检测 LA 和 PA 两种攻击。
语音合成趋于成熟,但之前零样本语音合成效果并不好。相比传统模型采用梅尔频谱提取特征,VALL·E直接将语音合成当成了语言模型的任务,前者是连续的,后者是离散化的。除此之外,VALL·E还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型。不过,VALL·E目前还没开源,要想试用可能还得再等等。
实验室建设以来,不断深耕人工智能技术、支撑和服务能力,有效推动人工智能技术水平的进步和应用水平的提升。
2020年8月,美国会研究服务处发布《深度伪造与国家安全》和《人工智能与国家安全》两大报告,明确指出深度伪造已成为对手信息战的一部分,对手可利用深度造假技术对抗美国及其盟国,生成虚假新闻报告,影响公开披露的信息,瓦解公众信任等。尤其是2020年美国大选将至,美各界对深度伪造信息也是严阵以待,采取各种措施围追堵截。深度伪造技术在近几年迅速兴起,为国家间的政治抹黑、网络攻击、军事欺骗、经济犯罪甚至恐怖
近年来,人工智能技术对社会的发展产生了深刻的影响和推动作用。
AI服务层统一管理模型服务,服务上线推理之后由AI服务层统一对外提供服务。AI服务层支持不同模型服务的编排、模型服务的AB测试和模型服务的监控。
近期,电视剧《狂飙》的爆火,激起了一些UP主的二创激情,将剧中的“CP”角色通过AI换脸移植到其他影视片段中,形成让网友惊呼“眼前一黑”的戏剧化效果,同时也收获了满满流量。乍一看这只是单纯的娱乐行为,但有时诸如”AI换脸“等深度造假技术(Deepfakes)可不只是”逗你笑“这么简单,背后的安全隐患不容忽视。
1月28日,据商务部网站消息,我国商务部会同科技部等部门关于《中国禁止出口限制出口技术目录》修订公开征求意见的意见反馈正式截止。知情人士也表示,目前并没有对外公布美、荷、日达成协议的计划。与此同时,ASML的全球业务也将继续进行,行业需要稳定性和可靠性,以避免全球半导体行业进一步动荡。中国大陆是ASML第三大市场,后者显然不希望失去中国市场。对于美方的做法,中国方面多次表示坚决反对。
鱼叉式网络钓鱼:网络攻击者向他们知道拥有所需信息的特定目标发送电子邮件,例如销售部门或IT部门的员工。捕鲸式网络钓鱼:向首席执行官或首席财务官等企业高管发送电子邮件,这是一项备受瞩目的目标诈骗的一部分。由于网络钓鱼攻击以人员为目标,网络安全专家一致认为,针对这一点的最佳防御措施是向员工提供安全意识培训。帮助人们变得更明智、更有感知力、更有弹性和响应能力的解决方案将会获得对抗网络钓鱼攻击的胜利。
Darktrace是全球领先的网络人工智能(AI)公司,也是自主响应技术的创造者,到目前为止,Darktrace已经建立了很多的关键技术和能力,其总部设在美国旧金山和英国剑桥。
VSole
网络安全专家