vicuna-clip

Running on Zero

App Files Files Community

ford442 commited on Feb 12

Commit

d70f358

verified ·

1 Parent(s): 4b1b54b

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -4

app.py CHANGED Viewed

@@ -2,12 +2,22 @@ import spaces
 import torch
 import gradio as gr
 from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, AutoModel
-#import soundfile as sf  # Removed: Not directly used for outputting audio to Gradio
 import numpy as np
 from espnet2.bin.tts_inference import Text2Speech
 import yaml  # Import yaml for config loading (though not used in the current code, kept for potential future use)
 import os  #  Kept for potential future use (e.g., if loading config from files)
 import requests  # Corrected: Import the 'requests' library
 # Load Whisper model
@@ -25,8 +35,7 @@ translate_token_id = all_special_ids[-6]
 def _preload_and_load_models():
     global vicuna_tokenizer, vicuna_model
-    #VICUNA_MODEL_NAME = "EleutherAI/gpt-neo-2.7B"  # Or another model
-    VICUNA_MODEL_NAME = "lmsys/vicuna-13b-v1.5"  # Or another model
     vicuna_tokenizer = AutoTokenizer.from_pretrained(VICUNA_MODEL_NAME)
     vicuna_model = AutoModelForCausalLM.from_pretrained(
         VICUNA_MODEL_NAME,
@@ -52,7 +61,7 @@ def process_audio(microphone, state, task="transcribe"):
     prompt = f"{system_prompt}\nUser: {text}"
     with torch.no_grad():
         vicuna_input = vicuna_tokenizer(prompt, return_tensors="pt").to('cuda')
-        vicuna_output = vicuna_model.generate(**vicuna_input, max_new_tokens=96)
         vicuna_response = vicuna_tokenizer.decode(vicuna_output[0], skip_special_tokens=True) # Access the first sequence [0]
         vicuna_response = vicuna_response.replace(prompt, "").strip()
     updated_state = state + "\nUser: " + text + "\n" + "Tutor: " + vicuna_response  # Include user input in state

 import torch
 import gradio as gr
 from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, AutoModel
 import numpy as np
 from espnet2.bin.tts_inference import Text2Speech
 import yaml  # Import yaml for config loading (though not used in the current code, kept for potential future use)
 import os  #  Kept for potential future use (e.g., if loading config from files)
 import requests  # Corrected: Import the 'requests' library
+import nltk  # Import nltk
+# Download required NLTK resources
+try:
+    nltk.data.find('taggers/averaged_perceptron_tagger_eng')
+except LookupError:
+    nltk.download('averaged_perceptron_tagger_eng')
+try:
+    nltk.data.find('corpora/cmudict')  # Check for cmudict
+except LookupError:
+    nltk.download('cmudict')
 # Load Whisper model
 def _preload_and_load_models():
     global vicuna_tokenizer, vicuna_model
+    VICUNA_MODEL_NAME = "EleutherAI/gpt-neo-2.7B"  # Or another model
     vicuna_tokenizer = AutoTokenizer.from_pretrained(VICUNA_MODEL_NAME)
     vicuna_model = AutoModelForCausalLM.from_pretrained(
         VICUNA_MODEL_NAME,
     prompt = f"{system_prompt}\nUser: {text}"
     with torch.no_grad():
         vicuna_input = vicuna_tokenizer(prompt, return_tensors="pt").to('cuda')
+        vicuna_output = vicuna_model.generate(**vicuna_input, max_new_tokens=192)
         vicuna_response = vicuna_tokenizer.decode(vicuna_output[0], skip_special_tokens=True) # Access the first sequence [0]
         vicuna_response = vicuna_response.replace(prompt, "").strip()
     updated_state = state + "\nUser: " + text + "\n" + "Tutor: " + vicuna_response  # Include user input in state