Spaces:

65rted6tfdjhgfjyrf
/

chatroom

Runtime error

65rted6tfdjhgfjyrf commited on Mar 20

Commit

40a14d6

verified ·

1 Parent(s): ebeabcf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import gradio as gr
 import os
 from huggingface_hub import login
-# Load Hugging Face token (ensure it's set in 'Secrets')
 hf_token = os.getenv("HUGGINGFACE_TOKEN")
 if hf_token:
     login(hf_token)
@@ -13,34 +13,32 @@ if hf_token:
 else:
     print("❌ Hugging Face token not found. Make sure it's set in 'Secrets'.")
-# Base model
 BASE_MODEL = "mistralai/Mistral-7B-Instruct-v0.1"
-FINETUNED_MODEL_DIR = "./finetuned_model"  # Path to your adapter weights
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-# Load base model (WITHOUT bitsandbytes)
 base_model = AutoModelForCausalLM.from_pretrained(
-    BASE_MODEL,
-    torch_dtype=torch.float32  # Ensure CPU compatibility
 )
-# Move base model to CPU
-base_model.to("cpu")
-# Load LoRA adapter
 model = PeftModel.from_pretrained(base_model, FINETUNED_MODEL_DIR)
-# Merge adapter with base model
 model = model.merge_and_unload()
-# Move model to CPU (again, just to be sure)
-model.to("cpu")
-# Inference function
 def chat(message):
-    inputs = tokenizer(message, return_tensors="pt").to("cpu")  # Ensure inputs are on CPU
     output = model.generate(**inputs, max_new_tokens=100)
     response = tokenizer.decode(output[0], skip_special_tokens=True)
     return response

 import os
 from huggingface_hub import login
+# Load Hugging Face token from environment variables
 hf_token = os.getenv("HUGGINGFACE_TOKEN")
 if hf_token:
     login(hf_token)
 else:
     print("❌ Hugging Face token not found. Make sure it's set in 'Secrets'.")
+# Model paths
 BASE_MODEL = "mistralai/Mistral-7B-Instruct-v0.1"
+FINETUNED_MODEL_DIR = "./finetuned_model"  # Path to your fine-tuned adapter
+torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+device = "cuda" if torch.cuda.is_available() else "cpu"
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+# Load base model efficiently
 base_model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
+    torch_dtype=torch_dtype,
+    device_map="auto" if torch.cuda.is_available() else None  # Use GPU if available
 )
+# Load and merge LoRA adapter
 model = PeftModel.from_pretrained(base_model, FINETUNED_MODEL_DIR)
 model = model.merge_and_unload()
+# Move model to appropriate device
+model.to(device)
 def chat(message):
+    inputs = tokenizer(message, return_tensors="pt").to(device)
     output = model.generate(**inputs, max_new_tokens=100)
     response = tokenizer.decode(output[0], skip_special_tokens=True)
     return response