0
配置 API Key & Group ID
填好之后会保存在浏览器 localStorage,刷新页面无需重新输入。
1
选择试听文案
选一种场景作为后续 6 段试听音频的文案,可二次编辑。
2
上传一段你的音频(约 20s)
符合本人情绪 + 工作场合的音频效果最佳;支持 wav / mp3 / m4a 等。
3
智能切分 + ASR
系统会切出 3 段 clone_audio 和 3 段 prompt_audio,切点落在说话间隙;prompt_audio 自动转写为 prompt_text,可在试听后手动修正。
clone_audio (≥10s)
普通复刻原始语料,每条大于10秒。
prompt_audio (<8s, 文本可编辑)
可选参考音频语料,需提供对应音频的文字。请试听后,编辑更新文字,确保跟音频内容一致,包含标点。
4
选择试听模型 + 开始复刻
所选模型会做 3 次 zero_shot(用切片)+ 3 次
one_shot(clone 用原始整段,prompt 用切片),共 6 个 voice_id。
试听模型(单选,默认 speech-2.8-hd)
5
试听效果 + 选择激活
📤 文件上传进度
🎵 复刻进度 / 试听音频
6
激活心仪的 voice_id
在第 5 步的卡片上点击「⭐ 选为激活」即可。激活会消耗复刻音色费用,请确认后再操作。
已选 voice_id:
⚠ 点击会调用 T2A 接口并按官方规则计费
尚未选择 voice_id,请先去第 5 步挑一个。