espnet
/

fastspeech2_conformer

fastspeech2_conformer

Model card Files Files and versions

connor-henderson commited on Oct 6, 2023

Commit

042ba6c

·

1 Parent(s): f1ab612

Update README.md

Files changed (1) hide show

README.md +13 -1

README.md CHANGED Viewed

@@ -71,7 +71,6 @@ sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
 3. Run inference via the Transformers modelling code with the model and hifigan combined
 ```python
 from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
 import soundfile as sf
@@ -86,6 +85,19 @@ waveform = output_dict["waveform"]
 sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
 ```
 ### Direct Use
 <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->

 3. Run inference via the Transformers modelling code with the model and hifigan combined
 ```python
 from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
 import soundfile as sf
 sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
 ```
+4. Run inference with a pipeline and specify which vocoder to use
+```python
+from transformers import pipeline, FastSpeech2ConformerHifiGan
+import soundfile as sf
+vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
+synthesiser = pipeline(model="espnet/fastspeech2_conformer", vocoder=vocoder)
+speech = synthesiser("Hello, my dog is cooler than you!")
+sf.write("speech.wav", speech["audio"].squeeze(), samplerate=speech["sampling_rate"])
+```
 ### Direct Use
 <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->