vicuna-clip

Sleeping

App Files Files Community

ford442 commited on Feb 11

Commit

a5a3ff6

verified ·

1 Parent(s): 2dbdb2a

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -7

app.py CHANGED Viewed

@@ -2,11 +2,13 @@ import spaces
 import torch
 import gradio as gr
 from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, AutoModel
-import soundfile as sf
 import numpy as np
 from espnet2.bin.tts_inference import Text2Speech
-import yaml  # Import yaml for config loading
-import os
 # Load Whisper model
 ASR_MODEL_NAME = "openai/whisper-medium.en"
@@ -52,15 +54,19 @@ def process_audio(microphone, state, task="transcribe"):
         vicuna_output = vicuna_model.generate(**vicuna_input, max_new_tokens=192)
         vicuna_response = vicuna_tokenizer.decode(vicuna_output[0], skip_special_tokens=True) # Access the first sequence [0]
         vicuna_response = vicuna_response.replace(prompt, "").strip()
-    updated_state = state + "\n" + vicuna_response
     try:
         with torch.no_grad():
-            wav, sr = tts([vicuna_response])[0]
             audio_arr = wav.cpu().numpy()
         SAMPLE_RATE = sr
         audio_arr = audio_arr / np.abs(audio_arr).max()  # Normalize to -1 to 1
         audio_output = (SAMPLE_RATE, audio_arr)
-        #sf.write('generated_audio.wav', audio_arr, SAMPLE_RATE)
     except requests.exceptions.RequestException as e:
         print(f"Error in Hugging Face API request: {e}")
         audio_output = None
@@ -79,7 +85,7 @@ with gr.Blocks(title="Whisper, Vicuna, & TTS Demo") as demo:  # Updated title
         transcription_state = gr.State(value="")
         mic_input.change(
             fn=process_audio,  # Call the combined function
-            inputs=[mic_input, transcription_state],
             outputs=[transcription_output, transcription_state, audio_output]
         )

 import torch
 import gradio as gr
 from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, AutoModel
+#import soundfile as sf  # Removed: Not directly used for outputting audio to Gradio
 import numpy as np
 from espnet2.bin.tts_inference import Text2Speech
+import yaml  # Import yaml for config loading (though not used in the current code, kept for potential future use)
+import os  #  Kept for potential future use (e.g., if loading config from files)
+import requests  # Corrected: Import the 'requests' library
 # Load Whisper model
 ASR_MODEL_NAME = "openai/whisper-medium.en"
         vicuna_output = vicuna_model.generate(**vicuna_input, max_new_tokens=192)
         vicuna_response = vicuna_tokenizer.decode(vicuna_output[0], skip_special_tokens=True) # Access the first sequence [0]
         vicuna_response = vicuna_response.replace(prompt, "").strip()
+    updated_state = state + "\nUser: " + text + "\n" + "Tutor: " + vicuna_response  # Include user input in state
     try:
         with torch.no_grad():
+            # The espnet TTS model outputs a dictionary
+            output = tts(vicuna_response)
+            wav = output["wav"]
+            sr = tts.fs  # Get the sampling rate from the tts object
             audio_arr = wav.cpu().numpy()
         SAMPLE_RATE = sr
         audio_arr = audio_arr / np.abs(audio_arr).max()  # Normalize to -1 to 1
         audio_output = (SAMPLE_RATE, audio_arr)
+        #sf.write('generated_audio.wav', audio_arr, SAMPLE_RATE) # Removed writing to file
     except requests.exceptions.RequestException as e:
         print(f"Error in Hugging Face API request: {e}")
         audio_output = None
         transcription_state = gr.State(value="")
         mic_input.change(
             fn=process_audio,  # Call the combined function
+            inputs=[mic_input, transcription_state, gr.Radio(["transcribe", "translate"], label="Task", value="transcribe")],
             outputs=[transcription_output, transcription_state, audio_output]
         )