Spaces:

dine24
/

luxury-decor-rag

Running

App Files Files Community

dine24 commited on Apr 3

Commit

89adc1e

verified ·

1 Parent(s): e605997

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -30

app.py CHANGED Viewed

@@ -7,43 +7,46 @@ from transformers import AutoTokenizer, AutoModel, pipeline, AutoModelForCausalL
 from huggingface_hub import login
 import os
-# ✅ Authenticate securely using Hugging Face token (set in Secrets)
 login(token=os.getenv("HF_TOKEN"))
-# ✅ Load FAISS Index and text data
 index = faiss.read_index("deberta_faiss.index")
 text_data = pd.read_csv("deberta_text_data.csv")["Retrieved Text"].tolist()
-# ✅ Load DeBERTa Model (for embeddings)
 deberta_model_name = "microsoft/deberta-v3-base"
 deberta_tokenizer = AutoTokenizer.from_pretrained(deberta_model_name)
 deberta_model = AutoModel.from_pretrained(deberta_model_name).to("cpu")
-# ✅ Load Falcon RW 1B Model (lightweight alternative to Mistral for Spaces)
 llm_model_name = "tiiuae/falcon-rw-1b"
 llm_tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
-llm_model = AutoModelForCausalLM.from_pretrained(llm_model_name).to("cpu")
-llm_pipeline = pipeline("text-generation", model=llm_model, tokenizer=llm_tokenizer, device=-1)
-# ✅ Embedding generation function
 def generate_embeddings(queries):
     tokens = deberta_tokenizer(queries, return_tensors="pt", padding=True, truncation=True).to("cpu")
     with torch.no_grad():
         outputs = deberta_model(**tokens).last_hidden_state.mean(dim=1).cpu().numpy().astype("float32")
     return outputs
-# ✅ RAG Pipeline
 def generate_response(user_query):
-    # Step 1: Embed query
     query_embedding = generate_embeddings([user_query])
     faiss.normalize_L2(query_embedding)
-    # Step 2: FAISS retrieval
     distances, indices = index.search(query_embedding, k=5)
     retrieved_docs = [text_data[i] for i in indices[0]]
     context = ", ".join(set(retrieved_docs))
-    # Step 3: Prompt construction
     prompt = f"""
     Using the following product descriptions:
     {context}
@@ -60,22 +63,23 @@ def generate_response(user_query):
     **Your response:**
     """
-    # Step 4: Generate using Falcon RW 1B
-    result = llm_pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7)[0]["generated_text"]
-    return result.split("**Your response:**")[-1].strip()
 # ✅ Gradio UI
-with gr.Blocks() as demo:
-    gr.Markdown("### 🛋️ Luxury Decor Assistant (RAG)\nAsk about luxury home styling ideas based on curated descriptions.")
-    with gr.Row():
-        query = gr.Textbox(label="Your Question", lines=3, placeholder="e.g., Suggest ideas for a luxury bedroom makeover")
-    with gr.Row():
-        output = gr.Textbox(label="Assistant Response", lines=10)
-    with gr.Row():
-        submit = gr.Button("Generate Answer")
-    submit.click(fn=generate_response, inputs=query, outputs=output)
-# ✅ Public sharing enabled
-demo.launch()

 from huggingface_hub import login
 import os
+# ✅ Authenticate Hugging Face (only needed if using gated/private models)
 login(token=os.getenv("HF_TOKEN"))
+# ✅ Load FAISS index and product text data
 index = faiss.read_index("deberta_faiss.index")
 text_data = pd.read_csv("deberta_text_data.csv")["Retrieved Text"].tolist()
+# ✅ Load DeBERTa (for embedding queries)
 deberta_model_name = "microsoft/deberta-v3-base"
 deberta_tokenizer = AutoTokenizer.from_pretrained(deberta_model_name)
 deberta_model = AutoModel.from_pretrained(deberta_model_name).to("cpu")
+# ✅ Load lightweight LLM (Falcon 1B)
 llm_model_name = "tiiuae/falcon-rw-1b"
 llm_tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
+llm_model = AutoModelForCausalLM.from_pretrained(llm_model_name)
+llm_pipeline = pipeline(
+    "text-generation",
+    model=llm_model,
+    tokenizer=llm_tokenizer,
+    device=-1  # CPU
+)
+# ✅ Function to generate query embeddings
 def generate_embeddings(queries):
     tokens = deberta_tokenizer(queries, return_tensors="pt", padding=True, truncation=True).to("cpu")
     with torch.no_grad():
         outputs = deberta_model(**tokens).last_hidden_state.mean(dim=1).cpu().numpy().astype("float32")
     return outputs
+# ✅ RAG + LLM Response Generator
 def generate_response(user_query):
+    # Embed and retrieve
     query_embedding = generate_embeddings([user_query])
     faiss.normalize_L2(query_embedding)
     distances, indices = index.search(query_embedding, k=5)
     retrieved_docs = [text_data[i] for i in indices[0]]
     context = ", ".join(set(retrieved_docs))
+    # Prompt LLM
     prompt = f"""
     Using the following product descriptions:
     {context}
     **Your response:**
     """
+    response = llm_pipeline(
+        prompt,
+        max_new_tokens=256,
+        do_sample=True,
+        truncation=True,
+        pad_token_id=llm_tokenizer.eos_token_id
+    )[0]["generated_text"]
+    return response
 # ✅ Gradio UI
+demo = gr.Interface(
+    fn=generate_response,
+    inputs=gr.Textbox(lines=2, placeholder="Ask a question about luxury home decor..."),
+    outputs="text",
+    title="Luxury Decor Assistant (RAG)",
+    description="Powered by DeBERTa + FAISS + Falcon-1B"
+)
+# ✅ Launch App (on Hugging Face, don't use share=True)
+demo.launch()