
How to Use |使用说明
- (Optional) Provide a Voice Prompt - Upload or record an audio clip to provide the desired voice characteristics for synthesis.
(可选)提供参考声音 - 上传或录制一段音频,为声音合成提供音色、语调和情感等个性化特征 - (Optional) Enter prompt text - If you provided a voice prompt, enter the corresponding transcript here (auto-recognition available).
(可选项)输入参考文本 - 如果提供了参考语音,请输入其对应的文本内容(支持自动识别)。 - Enter target text - Type the text you want the model to speak.
输入目标文本 - 输入您希望模型朗读的文字内容。 - Generate Speech - Click the "Generate" button to create your audio.
生成语音 - 点击"生成"按钮,即可为您创造出音频。
Text Normalization|文本正则化
- Enable to process general text with an external WeTextProcessing component.
启用:使用 WeTextProcessing 组件,可支持常见文本的正则化处理。 - Disable to use VoxCPM's native text understanding ability. For example, it supports phonemes input (For Chinese, phonemes are converted using pinyin, {ni3}{hao3}; For English, phonemes are converted using CMUDict, {HH AH0 L OW1}), try it!
禁用:将使用 VoxCPM 内置的文本理解能力。如,支持音素输入(如中文转拼音:{ni3}{hao3};英文转CMUDict:{HH AH0 L OW1})和公式符号合成,尝试一下!
CFG Value|CFG 值
- Lower CFG if the voice prompt sounds strained or expressive, or instability occurs with long text input.
调低:如果提示语音听起来不自然或过于夸张,或者长文本输入出现稳定性问题。 - Higher CFG for better adherence to the prompt speech style or input text, or instability occurs with too short text input. 调高:为更好地贴合提示音频的风格或输入文本, 或者极短文本输入出现稳定性问题。
Inference Timesteps|推理时间步
- Lower for faster synthesis speed.
调低:合成速度更快。 - Higher for better synthesis quality.
调高:合成质量更佳。
1 3
4 30
We use wetext library to normalize the input text.