ESpeech-TTS

Подробнее см. на https://huggingface.co/ESpeech

💡 Совет: Добавьте символ '+' в тексте, чтобы указать пользовательское ударение (например, 'прив+ет'). Текст с '+' не будет обрабатываться RUAccent.

❌ Совет: Референс должен быть не БОЛЕЕ 12-ти секунд. Иначе модель сломается.

📋 Описание моделей:

ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Select Model

Reference Audio

Reference Text

Text to Generate

Generated Audio

Spectrogram

🎯 Example

Examples

Reference Audio	Reference Text	Text to Generate	Remove Silences	Seed (-1 for random)	Cross-Fade Duration (s)	NFE Steps	Speed