ESpeech-TTS
Подробнее см. на https://huggingface.co/ESpeech
💡 Совет: Добавьте символ '+' в тексте, чтобы указать пользовательское ударение (например, 'прив+ет'). Текст с '+' не будет обрабатываться RUAccent.
❌ Совет: Референс должен быть не БОЛЕЕ 12-ти секунд. Иначе модель сломается.
📋 Описание моделей:
- ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
- ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
- ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
- ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
- ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Select Model
0.3 2
4 64
0 1
🎯 Example
Examples
| Reference Audio | Reference Text | Text to Generate | Remove Silences | Seed (-1 for random) | Cross-Fade Duration (s) | NFE Steps | Speed |
|---|