Spaces:

HUANG-Stephanie
/

cvquest-colpali

Running

App Files Files Community

HUANG-Stephanie commited on Aug 7, 2024

Commit

45c1bf0

verified ·

1 Parent(s): fe7b387

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -8

app.py CHANGED Viewed

@@ -59,7 +59,8 @@ async def index(files: List[UploadFile] = File(...)):
         content = await file.read()
         pdf_image_list = convert_from_bytes(content)
         images.extend(pdf_image_list)
     dataloader = DataLoader(
         images,
         batch_size=4,
@@ -130,11 +131,9 @@ async def search(query: str, k: int = 1):
 @app.post("/search_by_cv")
 async def search_by_cv(file: UploadFile = File(...), k: int = 10):
-    # Lire le fichier PDF uploadé
     content = await file.read()
     pdf_image_list = convert_from_bytes(content)
-    # Générer les embeddings pour les pages du PDF uploadé
     qs = []
     dataloader = DataLoader(
         pdf_image_list,
@@ -148,14 +147,11 @@ async def search_by_cv(file: UploadFile = File(...), k: int = 10):
             embeddings_query = model(**batch_query)
         qs.extend(list(torch.unbind(embeddings_query.to("cpu"))))
-    # Comparer les embeddings du CV uploadé avec ceux déjà indexés
     retriever_evaluator = CustomEvaluator(is_multi_vector=True)
     scores = retriever_evaluator.evaluate(qs, ds)
-    # Trouver les indices des résultats les plus pertinents
     top_k_indices = scores.argsort(axis=1)[0][-k-1:-1][::-1]
-    # Préparer les résultats sous forme d'images
     results = []
     for idx in top_k_indices:
         img_byte_arr = BytesIO()
@@ -163,10 +159,8 @@ async def search_by_cv(file: UploadFile = File(...), k: int = 10):
         img_base64 = base64.b64encode(img_byte_arr.getvalue()).decode('utf-8')
         results.append({"image": img_base64, "page": f"Page {idx}"})
-    # Générer le PDF des résultats
     pdf_buffer = generate_pdf(results)
-    # Utiliser StreamingResponse pour renvoyer le fichier PDF généré
     response = StreamingResponse(pdf_buffer, media_type='application/pdf')
     response.headers['Content-Disposition'] = 'attachment; filename="results.pdf"'

         content = await file.read()
         pdf_image_list = convert_from_bytes(content)
         images.extend(pdf_image_list)
+    # Create embeddings for each file and load in memory storage
     dataloader = DataLoader(
         images,
         batch_size=4,
 @app.post("/search_by_cv")
 async def search_by_cv(file: UploadFile = File(...), k: int = 10):
     content = await file.read()
     pdf_image_list = convert_from_bytes(content)
     qs = []
     dataloader = DataLoader(
         pdf_image_list,
             embeddings_query = model(**batch_query)
         qs.extend(list(torch.unbind(embeddings_query.to("cpu"))))
     retriever_evaluator = CustomEvaluator(is_multi_vector=True)
     scores = retriever_evaluator.evaluate(qs, ds)
     top_k_indices = scores.argsort(axis=1)[0][-k-1:-1][::-1]
     results = []
     for idx in top_k_indices:
         img_byte_arr = BytesIO()
         img_base64 = base64.b64encode(img_byte_arr.getvalue()).decode('utf-8')
         results.append({"image": img_base64, "page": f"Page {idx}"})
     pdf_buffer = generate_pdf(results)
     response = StreamingResponse(pdf_buffer, media_type='application/pdf')
     response.headers['Content-Disposition'] = 'attachment; filename="results.pdf"'