微软的新人工智能工具可以仅使用3秒钟的短音频样本将文本转换为语音。
关于Vall-E AI
Vall-E AI是由微软开发的基于人工智能的文本转语音转换器。该工具将文本输入转换为音频,并匹配人的情绪和房间的声学。它可以使用3秒钟的短音频样本将文本转换为任何人的声音。该工具尚未向广大公众发布,但其功能已成为网上热门话题。
Vall-E AI可以录制讲话人的语音并将其用作样本生成输出。开发人员表示,Vall-E使用约60,000小时的英文音频内容进行训练,以为给定的文本输入提供准确的输出。
官方网站 | https://valle-demo.github.io/ |
公司名称 | Microsoft |
发布日期 | 待发布 |
类别 | 文本转语音合成器工具 |
Vall-E AI功能
Vall-E AI是一种具有令人印象深刻的音频生成能力的文本转语音合成器。该工具使用大型数据集进行训练以产生准确的结果。以下是Vall-E AI功能的一些亮点。
- 它使用来自超过7,000个发言者的60,000小时的英文语音数据进行训练。
- 它使用至少三秒钟的音频输入来模仿发言人的声音,并以相同的声音生成输出。
- 其产生的结果比Librispeech和VCTK文本转语音工具更好。
- Vall-E AI可以理解并为生成的语音添加情感。
- Vall-E AI可以模仿目标语音的房间声学,并将其添加到语音中。例如,如果样本声音背景中有鸟叫声,该工具将在生成的音频中添加此声音。
- Vall-E可以编辑音频片段。
Vall-E AI用例-现实世界应用
Vall-E AI可以应用于各个行业,特别是那些提供客户服务或生产内容的行业。 Vall-E AI工具的一些应用包括以下内容:
- 它可以集成到客户支持系统或虚拟助手中,提供基于语音的客户服务。
- 内容创作者可以使用Vall-E向视频添加音频或使用预先编写的文本制作基于音频的内容,例如播客。
- Vall-E可以用作声音艺术家,模仿真实人物的声音,如演员、政治家、音乐家等。
- Vall-E可以集成到机器人系统中与人类进行交互。
Vall-E AI定价
Vall-E AI目前尚未对公众使用。微软仍在测试其功能。因此,他们尚未发布有关其定价结构的信息。
常见问题
Vall-E AI已经公开发布了吗?
截至目前,微软的Vall-E尚未公开发布。用户无法在线访问此工具或其测试版本。微软正在测试其功能,但尚未提供Vall-E的官方发布日期的详细信息。因此,用户将不得不等待Vall-E正式在网上发布。
人工智能能够模仿人类的声音吗?
当然可以,人工智能可以模仿人类的声音。2024年1月,微软宣布推出了一款名为Vall-E的新的AI文本转语音转换器,可将文本输入转换为语音输出。该工具会听取音频样本,并以相同的语调、声音和情感生成语音。
Vall-E AI能够理解除英语以外的其他语言吗?
根据微软提供的信息,Vall-E AI使用了60,000小时的英文语音数据进行训练。因此,该工具只能理解和生成英文的音频。开发人员可能会在未来添加其他语言,但目前仅限于英语用户。
Vall-E AI能够理解情感吗?
是的,Vall-E AI能够理解说话者的情绪并模仿它们。每当你给这个工具一个音频样本时,它都会分析说话者的情绪,并在没有特别指定的情况下生成具有相同情绪的输出。
Vall-E AI使用安全吗?
Vall-E是一个安全的在线工具。然而,Vall-E AI模仿说话者的声音、情绪和房间声学的能力可能对人类构成威胁。它可能会引发欺诈并损害用户的隐私。因此,在使用这个工具时要小心分享个人信息。
结论
Vall-E被预期成为人工智能领域中值得关注的发明之一。它将是一个强大的文本转语音转换器,能够产生高质量的音频内容。它将对配音艺术家、企业主和个人在各种方面都有所帮助。你可以将其用于商业或个人用途。
然而,这个工具有一些缺点。它模仿任何声音的能力可能对人类构成威胁并增加欺诈行为。希望微软在发布该工具供公众使用之前会考虑所有这些因素并实施必要的规定。
Vall-E替代方案
Eleven Labs AI
2024年7月11日
Dictation.io
2024年6月30日
OpenAI Whisper
2024年6月29日