Spaces:

peteriyo
/

mi-avatar-wav2lip

Runtime error

App Files Files Community

peteriyo commited on 23 days ago

Commit

2c40a5e

verified ·

1 Parent(s): 3f9c987

Update app.py

Browse files

Files changed (1) hide show

app.py +93 -43

app.py CHANGED Viewed

@@ -2,6 +2,9 @@ import gradio as gr
 from huggingface_hub import hf_hub_download
 import os
 import time
 # =================================================================
 # 1. CONFIGURACIÓN Y DESCARGA AUTOMÁTICA DE CHECKPOINTS
@@ -10,68 +13,115 @@ import time
 # Directorio local donde se guardarán los archivos
 LOCAL_CHECKPOINT_DIR = "checkpoints"
 os.makedirs(LOCAL_CHECKPOINT_DIR, exist_ok=True)
 downloaded_paths = {}
-# --- DESCARGA 1: WAV2LIP PRINCIPAL (wav2lip_gan.pth) ---
 try:
-    WAV2LIP_REPO = "Nekochu/Wav2Lip" # REPOSITORIO VERIFICADO Y PÚBLICO
     WAV2LIP_FILE = "wav2lip_gan.pth"
-    print(f"-> Descargando {WAV2LIP_FILE} desde {WAV2LIP_REPO}...")
-    path_wav2lip = hf_hub_download(
-        repo_id=WAV2LIP_REPO,
-        filename=WAV2LIP_FILE,
-        local_dir=LOCAL_CHECKPOINT_DIR,
-        local_dir_use_symlinks=False
-    )
     downloaded_paths[WAV2LIP_FILE] = path_wav2lip
-except Exception as e:
-    print(f"❌ ERROR AL DESCARGAR {WAV2LIP_FILE}: {e}")
-    exit(1)
-# --- DESCARGA 2: DETECTOR FACIAL (s3fd.pth) ---
-# Este archivo a menudo está en repositorios Colab/setup
-try:
-    SFD_REPO = "camenduru/Wav2Lip" # Otro repositorio público de respaldo
     SFD_FILE = "s3fd.pth"
-    print(f"-> Descargando {SFD_FILE} desde {SFD_REPO}...")
-    path_sfd = hf_hub_download(
-        repo_id=SFD_REPO,
-        filename=SFD_FILE,
-        local_dir=LOCAL_CHECKPOINT_DIR,
-        local_dir_use_symlinks=False
-    )
     downloaded_paths[SFD_FILE] = path_sfd
 except Exception as e:
-    print(f"❌ ERROR AL DESCARGAR {SFD_FILE}: {e}")
-    # Si el s3fd falla, no es tan crítico como el wav2lip, pero aún así salimos para evitar un fallo posterior.
     exit(1)
-print("✅ Descarga de Checkpoints completada. Modelos listos para cargar.")
-# Obtener las rutas específicas para la función de inferencia
 WAV2LIP_PATH = downloaded_paths[WAV2LIP_FILE]
 SFD_PATH = downloaded_paths[SFD_FILE]
 # =================================================================
-# 2. FUNCIÓN DE INFERENCIA DEL MODELO (Placeholder)
 # =================================================================
 def generar_avatar_wav2lip(imagen_fuente, archivo_audio):
-    # *** TU CÓDIGO DE INFERENCIA REAL DEBE USAR WAV2LIP_PATH y SFD_PATH ***
-    import time
-    print(f"Iniciando generación en CPU. Usando Checkpoints en {WAV2LIP_PATH} y {SFD_PATH}")
-    time.sleep(10)
-    dummy_video = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/gradio-guides/video_example.mp4"
-    return dummy_video
 # =================================================================
-# 3. CONFIGURACIÓN DE LA INTERFAZ (UI y API)
 # =================================================================
 gr.Interface(
@@ -81,6 +131,6 @@ gr.Interface(
         gr.Audio(type="filepath", label="Archivo de Audio (MP3/WAV)")
     ],
     outputs=gr.Video(label="Video Generado"),
-    title="Wav2Lip en Space CPU (Con Descarga Automática y Verificada)",
-    description="Modelo Wav2Lip optimizado para CPU. Se utiliza la API REST para la interacción."
 ).launch()

 from huggingface_hub import hf_hub_download
 import os
 import time
+import torch
+import cv2
+import numpy as np
 # =================================================================
 # 1. CONFIGURACIÓN Y DESCARGA AUTOMÁTICA DE CHECKPOINTS
 # Directorio local donde se guardarán los archivos
 LOCAL_CHECKPOINT_DIR = "checkpoints"
 os.makedirs(LOCAL_CHECKPOINT_DIR, exist_ok=True)
 downloaded_paths = {}
+# --- LÓGICA DE DESCARGA VERIFICADA (Se ejecuta al iniciar el Space) ---
 try:
+    # 1. WAV2LIP PRINCIPAL
+    WAV2LIP_REPO = "Nekochu/Wav2Lip"
     WAV2LIP_FILE = "wav2lip_gan.pth"
+    print(f"-> Descargando {WAV2LIP_FILE}...")
+    path_wav2lip = hf_hub_download(repo_id=WAV2LIP_REPO, filename=WAV2LIP_FILE, local_dir=LOCAL_CHECKPOINT_DIR, local_dir_use_symlinks=False)
     downloaded_paths[WAV2LIP_FILE] = path_wav2lip
+    # 2. DETECTOR FACIAL SFD
+    SFD_REPO = "ritikwadhwani/Wav2Lip-HQ"
     SFD_FILE = "s3fd.pth"
+    print(f"-> Descargando {SFD_FILE}...")
+    path_sfd = hf_hub_download(repo_id=SFD_REPO, filename=SFD_FILE, local_dir=LOCAL_CHECKPOINT_DIR, local_dir_use_symlinks=False)
     downloaded_paths[SFD_FILE] = path_sfd
+    print("✅ Descarga de Checkpoints completada.")
 except Exception as e:
+    print(f"❌ ERROR CRÍTICO EN LA DESCARGA: {e}")
     exit(1)
+# Rutas de los modelos descargados
 WAV2LIP_PATH = downloaded_paths[WAV2LIP_FILE]
 SFD_PATH = downloaded_paths[SFD_FILE]
 # =================================================================
+# 2. FUNCIONES HELPER DE INFERENCIA (Estructura para la lógica principal)
+# =================================================================
+# ---> FALTAN FUNCIONES HELPER AQUÍ <---
+# Nota: Aquí debes pegar las funciones de ayuda de la implementación de Wav2Lip (ej: load_model, face_detect, datagen, etc.)
+def load_wav2lip_model(path):
+    """Placeholder para cargar el modelo PyTorch desde WAV2LIP_PATH."""
+    # Ejemplo de cómo cargar el modelo (tu código real debe ir aquí)
+    print(f"Cargando modelo Wav2Lip desde: {path}")
+    # model = Wav2Lip().to(device)
+    # model.load_state_dict(torch.load(path)['state_dict'])
+    # return model
+    return "Dummy_Wav2Lip_Model"
+def execute_inference_pipeline(model, sfd_path, image_path, audio_path, output_path):
+    """
+    Placeholder para la ejecución completa del pipeline de Wav2Lip.
+    Toma la imagen, el audio y genera el video.
+    """
+    # Aquí es donde ocurre la magia:
+    # 1. Carga la imagen y el audio.
+    # 2. Detección facial usando SFD_PATH.
+    # 3. Generación de los frames.
+    # 4. Compresión y guardado del video en output_path.
+    print("Inferencia en proceso...")
+    time.sleep(10) # Simulación del tiempo de renderizado en CPU
+    # Simulación de la creación del archivo de salida
+    # En una aplicación real, el modelo guardaría un archivo llamado "output.mp4"
+    dummy_video_path = os.path.join(os.getcwd(), output_path)
+    # Crea un archivo de salida dummy para que Gradio no falle
+    with open(dummy_video_path, 'w') as f:
+        f.write("Dummy video content")
+    return dummy_video_path
+# Carga global de modelos (para que solo se haga una vez al inicio)
+WAV2LIP_MODEL = load_wav2lip_model(WAV2LIP_PATH)
+# El detector SFD a menudo se inicializa dentro del proceso de inferencia.
+# =================================================================
+# 3. FUNCIÓN PRINCIPAL DEL SERVIDOR (Lógica expuesta por la API)
 # =================================================================
 def generar_avatar_wav2lip(imagen_fuente, archivo_audio):
+    """
+    Función que recibe la imagen y el audio,
+    ejecuta el modelo Wav2Lip y devuelve la ruta al video generado.
+    """
+    # Rutas temporales para los archivos de salida de Gradio
+    OUTPUT_VIDEO_PATH = "results/generated_video.mp4"
+    os.makedirs(os.path.dirname(OUTPUT_VIDEO_PATH), exist_ok=True)
+    print("--- INICIANDO PROCESO WAV2LIP ---")
+    print(f"Imagen: {imagen_fuente}")
+    print(f"Audio: {archivo_audio}")
+    # Llama a la función de inferencia.
+    # El modelo Wav2Lip se pasa como argumento.
+    final_video_path = execute_inference_pipeline(
+        model=WAV2LIP_MODEL,
+        sfd_path=SFD_PATH,
+        image_path=imagen_fuente,
+        audio_path=archivo_audio,
+        output_path=OUTPUT_VIDEO_PATH
+    )
+    print(f"--- PROCESO FINALIZADO ---")
+    # Devuelve la ruta local del archivo generado
+    return final_video_path
+#
 # =================================================================
+# 4. CONFIGURACIÓN DE LA INTERFAZ (UI y API)
 # =================================================================
 gr.Interface(
         gr.Audio(type="filepath", label="Archivo de Audio (MP3/WAV)")
     ],
     outputs=gr.Video(label="Video Generado"),
+    title="Wav2Lip en Space CPU (Con Descarga Automática)",
+    description="Modelo Wav2Lip optimizado para CPU. Recuerda que la inferencia en CPU será lenta."
 ).launch()