Spaces:

StarsAi
/

Tacatron2-TTS

Running

App Files Files Community

StarsAi commited on May 25, 2024

Commit

35a8858

verified ·

1 Parent(s): 8582fd7

Initial commit

Browse files

Files changed (23) hide show

.gitattributes +35 -35
Output/base-TTS.wav +0 -0
README.md +13 -13
Voice Samples/natural_f1.wav +0 -0
Voice Samples/natural_m.wav +0 -0
Voice Samples/natural_m1.wav +0 -0
Voice Samples/natural_m2.wav +0 -0
__pycache__/TTS.cpython-310.pyc +0 -0
__pycache__/app.cpython-310.pyc +0 -0
pretrained_models/GraphemeToPhoneme-9b27d6eb840bf95c5aedf15ae8ed1172/ctc_lin.ckpt +3 -0
pretrained_models/GraphemeToPhoneme-9b27d6eb840bf95c5aedf15ae8ed1172/hyperparams.yaml +440 -0
pretrained_models/GraphemeToPhoneme-9b27d6eb840bf95c5aedf15ae8ed1172/model.ckpt +3 -0
pretrained_models/MelSpectrogramEncoder-834735cd05736696f9a5c70acdba6396/embedding_model.ckpt +3 -0
pretrained_models/MelSpectrogramEncoder-834735cd05736696f9a5c70acdba6396/hyperparams.yaml +37 -0
pretrained_models/MelSpectrogramEncoder-834735cd05736696f9a5c70acdba6396/normalizer.ckpt +3 -0
pretrained_models/tts-hifigan-libritts-22050Hz/generator.ckpt +3 -0
pretrained_models/tts-hifigan-libritts-22050Hz/hyperparams.yaml +31 -0
pretrained_models/tts-mstacotron2-libritts/hyperparams.yaml +122 -0
pretrained_models/tts-mstacotron2-libritts/model.ckpt +3 -0
tmpdir_tts/hyperparams.yaml +70 -0
tmpdir_tts/model.ckpt +3 -0
tmpdir_vocoder/generator.ckpt +3 -0
tmpdir_vocoder/hyperparams.yaml +37 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,35 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

Output/base-TTS.wav ADDED Viewed

Binary file (170 kB). View file

README.md CHANGED Viewed

@@ -1,13 +1,13 @@
----
-title: Tacatron2 TTS
-emoji: 💻
-colorFrom: purple
-colorTo: yellow
-sdk: gradio
-sdk_version: 4.31.5
-app_file: app.py
-pinned: false
-license: cc-by-nc-4.0
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: Tacatron2 TTS
+emoji: 💻
+colorFrom: purple
+colorTo: yellow
+sdk: gradio
+sdk_version: 4.31.5
+app_file: app.py
+pinned: false
+license: cc-by-nc-4.0
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

Voice Samples/natural_f1.wav ADDED Viewed

Binary file (445 kB). View file

Voice Samples/natural_m.wav ADDED Viewed

Binary file (490 kB). View file

Voice Samples/natural_m1.wav ADDED Viewed

Binary file (253 kB). View file

Voice Samples/natural_m2.wav ADDED Viewed

Binary file (237 kB). View file

__pycache__/TTS.cpython-310.pyc ADDED Viewed

Binary file (1.28 kB). View file

__pycache__/app.cpython-310.pyc ADDED Viewed

Binary file (1.31 kB). View file

pretrained_models/GraphemeToPhoneme-9b27d6eb840bf95c5aedf15ae8ed1172/ctc_lin.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c72639caba01630cf5ccc9b287b6eb7b79acc2276aa6f5cc23640640ac8f7ee
+size 177319

pretrained_models/GraphemeToPhoneme-9b27d6eb840bf95c5aedf15ae8ed1172/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,440 @@

+# Generated 2022-07-09 from:
+# /notebooks/speechbrain/recipes/LibriSpeech/G2P/hparams/hparams_g2p_rnn.yaml
+# yamllint disable
+# ################################
+# Model: LSTM (encoder) + GRU (decoder) (tokenized)
+# Authors:
+# Loren Lugosch & Mirco Ravanelli 2020
+# Artem Ploujnikov 2021
+# ################################
+# Seed needs to be set at top of yaml, before objects with parameters are made
+seed: 1234
+__set_seed: !apply:torch.manual_seed [!ref <seed>]
+# Tokenizers
+char_tokenize: False
+char_token_type: unigram  # ["unigram", "bpe", "char"]
+char_token_output: 512
+char_token_wordwise: True
+phn_tokenize: False
+phn_token_type: unigram  # ["unigram", "bpe", "char"]
+phn_token_output: 512  # index(blank/eos/bos/unk) = 0
+phn_token_wordwise: True
+character_coverage: 1.0
+phonemes_count: 43
+graphemes_count: 31
+phonemes_enable_space: True
+ctc_weight: 0.5
+ctc_window_size: 0
+homograph_loss_weight: 2.0
+# Model parameters
+output_neurons: !apply:speechbrain.utils.hparams.choice
+  value: !ref <phn_tokenize>
+  choices:
+    True: !ref <phn_token_output> + 1
+    False: !ref <phonemes_count>
+enc_num_embeddings: !apply:speechbrain.utils.hparams.choice
+  value: !ref <char_tokenize>
+  choices:
+    True: !ref <char_token_output> + 1
+    False: !ref <graphemes_count>
+enc_dropout: 0.5
+enc_neurons: 512
+enc_num_layers: 4
+dec_dropout: 0.5
+dec_neurons: 512
+dec_att_neurons: 256
+dec_num_layers: 4
+embedding_dim: 512
+# Determines whether to use BOS (beginning-of-sequence) or EOS (end-of-sequence) tokens
+# Available modes:
+# raw: no BOS/EOS tokens are added
+# bos: a beginning-of-sequence token is added
+# eos: an end-of-sequence token is added
+grapheme_sequence_mode: bos
+phoneme_sequence_mode: bos
+# Special Token information
+bos_index: 0
+eos_index: 1
+blank_index: 2
+unk_index: 2
+token_space_index: 512
+# Language Model
+lm_emb_dim: 256 # dimension of the embeddings
+lm_rnn_size: 512 # dimension of hidden layers
+lm_layers: 2 # number of hidden layers
+lm_output_neurons: 43
+# Beam Searcher
+beam_search_min_decode_ratio: 0
+beam_search_max_decode_ratio: 1.0
+beam_search_beam_size: 16
+beam_search_beam_size_valid: 16
+beam_search_eos_threshold: 10.0
+beam_search_using_max_attn_shift: false
+beam_search_max_attn_shift: 10
+beam_search_coverage_penalty: 5.0
+beam_search_lm_weight: 0.5
+beam_search_ctc_weight_decode: 0.4
+beam_search_temperature: 1.25
+beam_search_temperature_lm: 1.0
+# Word embeddings
+use_word_emb: true
+word_emb_model: bert-base-uncased
+word_emb_dim: 768
+word_emb_enc_dim: 256
+word_emb_norm_type: batch
+graphemes:
+- A
+- B
+- C
+- D
+- E
+- F
+- G
+- H
+- I
+- J
+- K
+- L
+- M
+- N
+- O
+- P
+- Q
+- R
+- S
+- T
+- U
+- V
+- W
+- X
+- Y
+- Z
+- "'"
+- ' '
+phonemes:
+- AA
+- AE
+- AH
+- AO
+- AW
+- AY
+- B
+- CH
+- D
+- DH
+- EH
+- ER
+- EY
+- F
+- G
+- HH
+- IH
+- IY
+- JH
+- K
+- L
+- M
+- N
+- NG
+- OW
+- OY
+- P
+- R
+- S
+- SH
+- T
+- TH
+- UH
+- UW
+- V
+- W
+- Y
+- Z
+- ZH
+- ' '
+enc_input_dim: !apply:speechbrain.lobes.models.g2p.model.input_dim
+  use_word_emb: !ref <use_word_emb>
+  word_emb_enc_dim: !ref <word_emb_enc_dim>
+  embedding_dim: !ref <embedding_dim>
+phn_char_map: !apply:speechbrain.lobes.models.g2p.dataio.build_token_char_map
+  tokens: !ref <phonemes>
+char_phn_map: !apply:speechbrain.lobes.models.g2p.dataio.flip_map
+  map_dict: !ref <phn_char_map>
+enc: !new:speechbrain.nnet.RNN.LSTM
+  input_shape: [null, null, !ref <enc_input_dim>]
+  bidirectional: True
+  hidden_size: !ref <enc_neurons>
+  num_layers: !ref <enc_num_layers>
+  dropout: !ref <enc_dropout>
+lin: !new:speechbrain.nnet.linear.Linear
+  input_size: !ref <dec_neurons>
+  n_neurons: !ref <output_neurons>
+  bias: false
+ctc_lin: !new:speechbrain.nnet.linear.Linear
+  input_size: !ref 2 * <enc_neurons>
+  n_neurons: !ref <output_neurons>
+encoder_emb: !new:speechbrain.nnet.embedding.Embedding
+  num_embeddings: !ref <enc_num_embeddings>
+  embedding_dim: !ref <embedding_dim>
+emb: !new:speechbrain.nnet.embedding.Embedding
+  num_embeddings: !ref <output_neurons>
+  embedding_dim: !ref <embedding_dim>
+dec: !new:speechbrain.nnet.RNN.AttentionalRNNDecoder
+  enc_dim: !ref <enc_neurons> * 2
+  input_size: !ref <embedding_dim>
+  rnn_type: gru
+  attn_type: content
+  dropout: !ref <dec_dropout>
+  hidden_size: !ref <dec_neurons>
+  attn_dim: !ref <dec_att_neurons>
+  num_layers: !ref <dec_num_layers>
+word_emb_enc: !new:speechbrain.lobes.models.g2p.model.WordEmbeddingEncoder
+  word_emb_dim: !ref <word_emb_dim>
+  word_emb_enc_dim: !ref <word_emb_enc_dim>
+  norm_type: batch
+word_emb: !apply:speechbrain.lobes.models.g2p.dataio.lazy_init
+  init: !name:speechbrain.wordemb.transformer.TransformerWordEmbeddings
+    model: bert-base-uncased
+log_softmax: !new:speechbrain.nnet.activations.Softmax
+  apply_log: true
+model: !new:speechbrain.lobes.models.g2p.model.AttentionSeq2Seq
+  enc: !ref <enc>
+  encoder_emb: !ref <encoder_emb>
+  emb: !ref <emb>
+  dec: !ref <dec>
+  lin: !ref <lin>
+  out: !ref <log_softmax>
+  use_word_emb: !ref <use_word_emb>
+  word_emb_enc: !ref <word_emb_enc>
+modules:
+  model: !ref <model>
+  enc: !ref <enc>
+  encoder_emb: !ref <encoder_emb>
+  emb: !ref <emb>
+  dec: !ref <dec>
+  lin: !ref <lin>
+  ctc_lin: !ref <ctc_lin>
+  out: !ref <log_softmax>
+  word_emb: !ref <word_emb>
+  word_emb_enc: !ref <word_emb_enc>
+lm_model: !new:speechbrain.lobes.models.RNNLM.RNNLM
+  embedding_dim: !ref <lm_emb_dim>
+  rnn_layers: !ref <lm_layers>
+  rnn_neurons: !ref <lm_rnn_size>
+  output_neurons: !ref <lm_output_neurons>
+  return_hidden: True
+ctc_scorer: !new:speechbrain.decoders.scorer.CTCScorer
+  eos_index: !ref <eos_index>
+  blank_index: !ref <blank_index>
+  ctc_fc: !ref <ctc_lin>
+  ctc_window_size: !ref <ctc_window_size>
+coverage_scorer: !new:speechbrain.decoders.scorer.CoverageScorer
+   vocab_size: !ref <output_neurons>
+scorer: !new:speechbrain.decoders.scorer.ScorerBuilder
+   full_scorers: [!ref <coverage_scorer>, !ref <ctc_scorer>]
+   weights:
+      coverage: !ref <beam_search_coverage_penalty>
+      ctc: !ref <ctc_weight>
+beam_searcher: !new:speechbrain.decoders.S2SRNNBeamSearcher
+  embedding: !ref <emb>
+  decoder: !ref <dec>
+  linear: !ref <lin>
+  bos_index: !ref <bos_index>
+  eos_index: !ref <eos_index>
+  min_decode_ratio: !ref <beam_search_min_decode_ratio>
+  max_decode_ratio: !ref <beam_search_max_decode_ratio>
+  beam_size: !ref <beam_search_beam_size>
+  eos_threshold: !ref <beam_search_eos_threshold>
+  using_max_attn_shift: !ref <beam_search_using_max_attn_shift>
+  max_attn_shift: !ref <beam_search_max_attn_shift>
+  temperature: !ref <beam_search_temperature>
+  scorer: !ref <scorer>
+beam_searcher_valid: !new:speechbrain.decoders.S2SRNNBeamSearcher
+  embedding: !ref <emb>
+  decoder: !ref <dec>
+  linear: !ref <lin>
+  bos_index: !ref <bos_index>
+  eos_index: !ref <eos_index>
+  min_decode_ratio: !ref <beam_search_min_decode_ratio>
+  max_decode_ratio: !ref <beam_search_max_decode_ratio>
+  beam_size: !ref <beam_search_beam_size>
+  eos_threshold: !ref <beam_search_eos_threshold>
+  using_max_attn_shift: !ref <beam_search_using_max_attn_shift>
+  max_attn_shift: !ref <beam_search_max_attn_shift>
+  temperature: !ref <beam_search_temperature>
+  scorer: !ref <scorer>
+homograph_extractor: !new:speechbrain.lobes.models.g2p.homograph.SubsequenceExtractor
+model_output_keys:
+- p_seq
+- char_lens
+- encoder_out
+grapheme_encoder: &id027 !new:speechbrain.dataio.encoder.TextEncoder
+phoneme_encoder: &id024 !new:speechbrain.dataio.encoder.TextEncoder
+grapheme_tokenizer: !apply:speechbrain.lobes.models.g2p.dataio.lazy_init
+  init: !name:speechbrain.tokenizers.SentencePiece.SentencePiece
+    model_dir: grapheme_tokenizer
+    bos_id: !ref <bos_index>
+    eos_id: !ref <eos_index>
+    unk_id: !ref <unk_index>
+    vocab_size: !ref <char_token_output>
+    annotation_train: null
+    annotation_read: char
+    model_type: !ref <char_token_type> # ["unigram", "bpe", "char"]
+    character_coverage: !ref <character_coverage>
+    annotation_format: json
+    text_file: grapheme_annotations.txt
+phoneme_tokenizer: !apply:speechbrain.lobes.models.g2p.dataio.lazy_init
+  init: !name:speechbrain.tokenizers.SentencePiece.SentencePiece
+    model_dir: phoneme_tokenizer
+    bos_id: !ref <bos_index>
+    eos_id: !ref <eos_index>
+    unk_id: !ref <unk_index>
+    vocab_size: !ref <phn_token_output>
+    annotation_train: null
+    annotation_read: phn
+    model_type: !ref <phn_token_type> # ["unigram", "bpe", "char"]
+    character_coverage: !ref <character_coverage>
+    annotation_format: json
+    text_file: null
+out_phoneme_decoder_tok: !apply:speechbrain.lobes.models.g2p.dataio.char_map_detokenize
+  tokenizer: !ref <phoneme_tokenizer>
+  char_map: !ref <char_phn_map>
+  token_space_index: !ref <token_space_index>
+  wordwise: !ref <phn_token_wordwise>
+out_phoneme_decoder_raw:  !name:speechbrain.lobes.models.g2p.dataio.text_decode
+  encoder: !ref <phoneme_encoder>
+out_phoneme_decoder: !apply:speechbrain.utils.hparams.choice
+  value: false
+  choices:
+    True: !ref <out_phoneme_decoder_tok>
+    False: !ref <out_phoneme_decoder_raw>
+encode_pipeline:
+  batch: false
+  use_padded_data: true
+  output_keys:
+  - grapheme_list
+  - grapheme_encoded_list
+  - grapheme_encoded
+  - word_emb
+  init:
+  - func: !name:speechbrain.lobes.models.g2p.dataio.enable_eos_bos
+      encoder: !ref <grapheme_encoder>
+      tokens: !ref <graphemes>
+      bos_index: !ref <bos_index>
+      eos_index: !ref <eos_index>
+  - func: !name:speechbrain.lobes.models.g2p.dataio.enable_eos_bos
+      encoder: !ref <phoneme_encoder>
+      tokens: !ref <phonemes>
+      bos_index: !ref <bos_index>
+      eos_index: !ref <eos_index>
+  steps:
+  - func: !name:speechbrain.lobes.models.g2p.dataio.clean_pipeline
+      graphemes: !ref <graphemes>
+    takes: txt
+    provides: txt_cleaned
+  - func: !name:speechbrain.lobes.models.g2p.dataio.grapheme_pipeline
+      grapheme_encoder: !ref <grapheme_encoder>
+    takes: txt_cleaned
+    provides:
+    - grapheme_list
+    - grapheme_encoded_list
+    - grapheme_encoded_raw
+  - func: !name:speechbrain.lobes.models.g2p.dataio.add_bos_eos
+      encoder: !ref <grapheme_encoder>
+    takes: grapheme_encoded_list
+    provides:
+    - grapheme_encoded
+    - grapheme_len
+    - grapheme_encoded_eos
+    - grapheme_len_eos
+  - func: !name:speechbrain.lobes.models.g2p.dataio.word_emb_pipeline
+      word_emb: !ref <word_emb>
+      grapheme_encoder: !ref <grapheme_encoder>
+      use_word_emb: !ref <use_word_emb>
+    takes:
+    - txt
+    - grapheme_encoded
+    - grapheme_len
+    provides: word_emb
+decode_pipeline:
+  batch: true
+  output_keys:
+  - phonemes
+  steps:
+  - func: !name:speechbrain.lobes.models.g2p.dataio.beam_search_pipeline
+      beam_searcher: !ref <beam_searcher>
+    takes:
+    - char_lens
+    - encoder_out
+    provides:
+    - hyps
+    - scores
+  - func: !apply:speechbrain.utils.hparams.choice
+      value: false
+      choices:
+        True: !apply:speechbrain.lobes.models.g2p.dataio.char_map_detokenize
+          tokenizer: !ref <phoneme_tokenizer>
+          char_map: !ref <char_phn_map>
+          token_space_index: !ref <token_space_index>
+          wordwise: !ref <phn_token_wordwise>
+        False: !name:speechbrain.lobes.models.g2p.dataio.phoneme_decoder_pipeline
+          phoneme_encoder: !ref <phoneme_encoder>
+    takes:
+    - hyps
+    provides:
+    - phonemes
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+  loadables:
+    model: !ref <model>
+    ctc_lin: !ref <ctc_lin>

pretrained_models/GraphemeToPhoneme-9b27d6eb840bf95c5aedf15ae8ed1172/model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71bf7a7b290f88de5fdd7364fa4ab249bdd94a29e6cdc742ee6f69edeae64f61
+size 128643257

pretrained_models/MelSpectrogramEncoder-834735cd05736696f9a5c70acdba6396/embedding_model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48f8e8ec25cb26f7217e843a9535345e5a62da1aab71d7e99ce734fcfad4f421
+size 83310835

pretrained_models/MelSpectrogramEncoder-834735cd05736696f9a5c70acdba6396/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,37 @@

+sample_rate: 16000
+hop_length: 256
+win_length: 1024
+n_mel_channels: 80
+n_fft: 1024
+mel_fmin: 0.0
+mel_fmax: 8000.0
+mel_normalized: False
+power: 1
+norm: "slaney"
+mel_scale: "slaney"
+dynamic_range_compression: True
+# Modules
+embedding_model: !new:speechbrain.lobes.models.ECAPA_TDNN.ECAPA_TDNN
+    input_size: !ref <n_mel_channels>
+    channels: [1024, 1024, 1024, 1024, 3072]
+    kernel_sizes: [5, 3, 3, 3, 1]
+    dilations: [1, 2, 3, 4, 1]
+    groups: [1, 1, 1, 1, 1]
+    attention_channels: 128
+    lin_neurons: 192
+normalizer: !new:speechbrain.processing.features.InputNormalization
+    norm_type: sentence
+    std_norm: False
+modules:
+    normalizer: !ref <normalizer>
+    embedding_model: !ref <embedding_model>
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        normalizer: !ref <normalizer>
+        embedding_model: !ref <embedding_model>

pretrained_models/MelSpectrogramEncoder-834735cd05736696f9a5c70acdba6396/normalizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01dd629a2a24b29ad133b15930494e168114b788c4d7579ac2862e3d406e00fb
+size 1063

pretrained_models/tts-hifigan-libritts-22050Hz/generator.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db0d1249e2c957dca1021749c43334b9c3190664d7c7e386c5c16bef62fd1574
+size 55828077

pretrained_models/tts-hifigan-libritts-22050Hz/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,31 @@

+in_channels: 80
+out_channels: 1
+resblock_type: "1"
+resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+resblock_kernel_sizes: [3, 7, 11]
+upsample_kernel_sizes: [16, 16, 4, 4]
+upsample_initial_channel: 512
+upsample_factors: [8, 8, 2, 2]
+inference_padding: 5
+cond_channels: 0
+conv_post_bias: True
+generator: !new:speechbrain.lobes.models.HifiGAN.HifiganGenerator
+  in_channels: !ref <in_channels>
+  out_channels: !ref <out_channels>
+  resblock_type: !ref <resblock_type>
+  resblock_dilation_sizes: !ref <resblock_dilation_sizes>
+  resblock_kernel_sizes: !ref <resblock_kernel_sizes>
+  upsample_kernel_sizes: !ref <upsample_kernel_sizes>
+  upsample_initial_channel: !ref <upsample_initial_channel>
+  upsample_factors: !ref <upsample_factors>
+  inference_padding: !ref <inference_padding>
+  cond_channels: !ref <cond_channels>
+  conv_post_bias: !ref <conv_post_bias>
+modules:
+    generator: !ref <generator>
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        generator: !ref <generator>

pretrained_models/tts-mstacotron2-libritts/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,122 @@

+################################
+# Audio Parameters             #
+################################
+sample_rate: 22050
+hop_length: 256
+win_length: 1024
+n_mel_channels: 80
+n_fft: 1024
+mel_fmin: 0.0
+mel_fmax: 8000.0
+mel_normalized: False
+power: 1
+norm: "slaney"
+mel_scale: "slaney"
+dynamic_range_compression: True
+################################
+# Speaker Embedding Parameters #
+################################
+spk_emb_size: 192
+spk_emb_sample_rate: 16000
+custom_mel_spec_encoder: True
+spk_emb_encoder: speechbrain/spkrec-ecapa-voxceleb-mel-spec
+random_speaker_sampler: random_speaker_sampler.ckpt
+random_speaker_sampler_source: speechbrain/tts-mstacotron2-libritts
+################################
+# Optimization Hyperparameters #
+################################
+mask_padding: True
+################################
+# Model Parameters and model   #
+################################
+n_symbols: 148 #fixed depending on symbols in textToSequence
+symbols_embedding_dim: 1024
+# Encoder parameters
+encoder_kernel_size: 5
+encoder_n_convolutions: 6
+encoder_embedding_dim: 1024
+# Decoder parameters
+# The number of frames in the target per encoder step
+n_frames_per_step: 1
+decoder_rnn_dim: 2048
+prenet_dim: 512
+max_decoder_steps: 1500
+gate_threshold: 0.5
+p_attention_dropout: 0.1
+p_decoder_dropout: 0.1
+decoder_no_early_stopping: False
+# Attention parameters
+attention_rnn_dim: 2048
+attention_dim: 256
+# Location Layer parameters
+attention_location_n_filters: 32
+attention_location_kernel_size: 31
+# Mel-post processing network parameters
+postnet_embedding_dim: 1024
+postnet_kernel_size: 5
+postnet_n_convolutions: 10
+mel_spectogram: !name:speechbrain.lobes.models.Tacotron2.mel_spectogram
+  sample_rate: !ref <sample_rate>
+  hop_length: !ref <hop_length>
+  win_length: !ref <win_length>
+  n_fft: !ref <n_fft>
+  n_mels: !ref <n_mel_channels>
+  f_min: !ref <mel_fmin>
+  f_max: !ref <mel_fmax>
+  power: !ref <power>
+  normalized: !ref <mel_normalized>
+  norm: !ref <norm>
+  mel_scale: !ref <mel_scale>
+  compression: !ref <dynamic_range_compression>
+#model
+model: !new:speechbrain.lobes.models.MSTacotron2.Tacotron2
+  mask_padding: !ref <mask_padding>
+  n_mel_channels: !ref <n_mel_channels>
+  # symbols
+  n_symbols: !ref <n_symbols>
+  symbols_embedding_dim: !ref <symbols_embedding_dim>
+  # encoder
+  encoder_kernel_size: !ref <encoder_kernel_size>
+  encoder_n_convolutions: !ref <encoder_n_convolutions>
+  encoder_embedding_dim: !ref <encoder_embedding_dim>
+  # attention
+  attention_rnn_dim: !ref <attention_rnn_dim>
+  attention_dim: !ref <attention_dim>
+  # attention location
+  attention_location_n_filters: !ref <attention_location_n_filters>
+  attention_location_kernel_size: !ref <attention_location_kernel_size>
+  # decoder
+  n_frames_per_step: !ref <n_frames_per_step>
+  decoder_rnn_dim: !ref <decoder_rnn_dim>
+  prenet_dim: !ref <prenet_dim>
+  max_decoder_steps: !ref <max_decoder_steps>
+  gate_threshold: !ref <gate_threshold>
+  p_attention_dropout: !ref <p_attention_dropout>
+  p_decoder_dropout: !ref <p_decoder_dropout>
+  # postnet
+  postnet_embedding_dim: !ref <postnet_embedding_dim>
+  postnet_kernel_size: !ref <postnet_kernel_size>
+  postnet_n_convolutions: !ref <postnet_n_convolutions>
+  decoder_no_early_stopping: !ref <decoder_no_early_stopping>
+  # speaker embeddings
+  spk_emb_size: !ref <spk_emb_size>
+modules:
+    model: !ref <model>
+g2p: speechbrain/soundchoice-g2p
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        model: !ref <model>

pretrained_models/tts-mstacotron2-libritts/model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d66c6511e9cff9d7a9e956ebdd250257a3a61fe76691929c647c3c3ee6969464
+size 619239275

tmpdir_tts/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+# ################################
+# Model: Tacotroon2 for TTS
+# Authors: Artem Ploujnikov, Yingzhi Wang
+# ################################
+mask_padding: True
+n_mel_channels: 80
+n_symbols: 148
+symbols_embedding_dim: 512
+encoder_kernel_size: 5
+encoder_n_convolutions: 3
+encoder_embedding_dim: 512
+attention_rnn_dim: 1024
+attention_dim: 128
+attention_location_n_filters: 32
+attention_location_kernel_size: 31
+n_frames_per_step: 1
+decoder_rnn_dim: 1024
+prenet_dim: 256
+max_decoder_steps: 1000
+gate_threshold: 0.5
+p_attention_dropout: 0.1
+p_decoder_dropout: 0.1
+postnet_embedding_dim: 512
+postnet_kernel_size: 5
+postnet_n_convolutions: 5
+decoder_no_early_stopping: False
+sample_rate: 22050
+# Model
+model: !new:speechbrain.lobes.models.Tacotron2.Tacotron2
+  mask_padding: !ref <mask_padding>
+  n_mel_channels: !ref <n_mel_channels>
+  # symbols
+  n_symbols: !ref <n_symbols>
+  symbols_embedding_dim: !ref <symbols_embedding_dim>
+  # encoder
+  encoder_kernel_size: !ref <encoder_kernel_size>
+  encoder_n_convolutions: !ref <encoder_n_convolutions>
+  encoder_embedding_dim: !ref <encoder_embedding_dim>
+  # attention
+  attention_rnn_dim: !ref <attention_rnn_dim>
+  attention_dim: !ref <attention_dim>
+  # attention location
+  attention_location_n_filters: !ref <attention_location_n_filters>
+  attention_location_kernel_size: !ref <attention_location_kernel_size>
+  # decoder
+  n_frames_per_step: !ref <n_frames_per_step>
+  decoder_rnn_dim: !ref <decoder_rnn_dim>
+  prenet_dim: !ref <prenet_dim>
+  max_decoder_steps: !ref <max_decoder_steps>
+  gate_threshold: !ref <gate_threshold>
+  p_attention_dropout: !ref <p_attention_dropout>
+  p_decoder_dropout: !ref <p_decoder_dropout>
+  # postnet
+  postnet_embedding_dim: !ref <postnet_embedding_dim>
+  postnet_kernel_size: !ref <postnet_kernel_size>
+  postnet_n_convolutions: !ref <postnet_n_convolutions>
+  decoder_no_early_stopping: !ref <decoder_no_early_stopping>
+# Function that converts the text into a sequence of valid characters.
+text_to_sequence: !name:speechbrain.utils.text_to_sequence.text_to_sequence
+modules:
+    model: !ref <model>
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        model: !ref <model>

tmpdir_tts/model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02d1aa3fc1cc8fb0981895c765e9d0017416bb78861b5450e458dda92e567856
+size 112830206

tmpdir_vocoder/generator.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a389f24ffdc3769e0b9c0331f9d803ad0b78185e0da4f2d094e29eedbc11640
+size 55828077

tmpdir_vocoder/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,37 @@

+# ################################
+# Model: Tacotroon2 for TTS
+# Authors: Yingzhi Wang
+# ################################
+in_channels: 80
+out_channels: 1
+resblock_type: "1"
+resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+resblock_kernel_sizes: [3, 7, 11]
+upsample_kernel_sizes: [16, 16, 4, 4]
+upsample_initial_channel: 512
+upsample_factors: [8, 8, 2, 2]
+inference_padding: 5
+cond_channels: 0
+conv_post_bias: True
+generator: !new:speechbrain.lobes.models.HifiGAN.HifiganGenerator
+  in_channels: !ref <in_channels>
+  out_channels: !ref <out_channels>
+  resblock_type: !ref <resblock_type>
+  resblock_dilation_sizes: !ref <resblock_dilation_sizes>
+  resblock_kernel_sizes: !ref <resblock_kernel_sizes>
+  upsample_kernel_sizes: !ref <upsample_kernel_sizes>
+  upsample_initial_channel: !ref <upsample_initial_channel>
+  upsample_factors: !ref <upsample_factors>
+  inference_padding: !ref <inference_padding>
+  cond_channels: !ref <cond_channels>
+  conv_post_bias: !ref <conv_post_bias>
+modules:
+    generator: !ref <generator>
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        generator: !ref <generator>