整合包待上传,如有需要,留下自己有会员,方便下载的网盘平台:百度网盘、夸克网盘、阿里云盘

说到好用的语音克隆工具,今天必须给大家推荐VoxCPM2—— 这款由面壁智能(OpenBMB)与清华大学联合打造的第二代开源 TTS 模型,真的凭实力圈粉无数

试听-韩立语音:

【原声】莫老,您可知修仙者不可对凡人夺舍,修行下位者,不可夺舍上位者,一生只可夺舍一次。

【克隆】你总是这样,遇到难回答的问题就不说话了

【克隆】欢迎来到狐亦星・简约空间!你可以用 VoxCPM2 语音克隆,复刻专属声线,生成定制化语音,轻松搞定配音、有声书、多语种内容。

作为真正意义上无分词器(Tokenizer-Free)的端到端语音合成模型,它彻底摆脱了传统 TTS 的机械感和局限性,把易用、全能、安全做到了极致,不管是新手还是内容创作者,都能轻松上手。

VoxCPM2是一个无需分词器的扩散自回归文本到语音(TTS)模型——拥有 20 亿参数、支持 30 种语言、输出 48kHz 音频,基于超过 200 万小时 的多语言语音数据训练而成。

亮点

  • 🌍 30 种语言多语种支持 —— 无需语言标签;直接输入任意支持语言的文本

  • 🎨 语音设计 —— 仅凭自然语言描述(性别、年龄、音调、情感、语速等)即可生成全新语音;无需参考音频

  • 🎛️ 可控克隆 —— 从短音频片段克隆任意语音,并可选地通过风格引导控制情感、语速和表达,同时保留音色

  • 🎙️ 终极克隆 —— 提供参考音频及其对应文本,实现音频延续式克隆;忠实复现每一处语音细节

  • 🔊 48kHz 录音室级音质输出 —— 支持 16kHz 参考音频输入,通过 AudioVAE V2 内置的超分辨率模块直接输出 48kHz 音频,无需外部升采样器

  • 🧠 上下文感知合成 —— 自动根据文本内容推断合适的韵律和表现力

  • 实时流式合成 —— 在 NVIDIA RTX 4090 上实时因子(RTF)低至约 0.3,使用 Nano-VLLM 加速后可达约 0.13

  • 📜 完全开源且可用于商业用途 —— Apache-2.0 许可证,可免费用于商业场景

国内用户欢迎访问官网体验:https://voxcpm.modelbest.cn/

支持的语言(30 种)

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语

中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话