from transformers import pipeline import gradio as gr import numpy as np import librosa # Utilizamos los tres modelos entrenados pipe_model_1 = pipeline("automatic-speech-recognition", model="IABDs8a/AfinandoElEntrenamiento") pipe_model_2 = pipeline("automatic-speech-recognition", model="IABDs8a/whisper-base-full") pipe_model_3 = pipeline("automatic-speech-recognition", model="IABDs8a/whisper-tiny-top3") def transcribe(audio, model_choice): if model_choice == "AfinandoElEntrenamiento": pipe = pipe_model_1 elif model_choice == "Whisper Base Full": pipe = pipe_model_2 else: pipe = pipe_model_3 # Leer el archivo de audio y, sr = librosa.load(audio, sr=16000) # Convertir a mono si es necesario if y.ndim > 1: y = librosa.to_mono(y) # Pasamos el array de muestras a tipo NumPy de 32 bits y = y.astype(np.float32) # Normalizar el audio y /= np.max(np.abs(y)) # Realizar la transcripción result = pipe({"sampling_rate": sr, "raw": y}) return result["text"] # Ruta de la imagen del logo logo_path = "img/logoLara.png" # Estilos CSS personalizados custom_css = """ """ # HTML para el logo logo_html = f"