Spaces:

indhupamula
/

plagrism_detection

Running

App Files Files Community

indhupamula commited on Mar 24

Commit

b2c7949

verified ·

1 Parent(s): 981c05b

Update backend.py

Browse files

Files changed (1) hide show

backend.py +33 -15

backend.py CHANGED Viewed

@@ -1,14 +1,15 @@
-from fastapi import FastAPI, UploadFile, File
-import requests
 from transformers import pipeline
-from sentence_transformers import CrossEncoder
 import pandas as pd
 import os
 app = FastAPI()
 ai_detector = pipeline("text-classification", model="roberta-base-openai-detector")
-text_model = CrossEncoder("cross-encoder/stsb-roberta-large")
 TEXT_DB = "text_plagiarism.csv"
@@ -25,17 +26,34 @@ def save_to_database(content, plagiarism_score):
 @app.post("/check_text")
 def check_text(text: str):
-    stored_texts = load_database()["content"].tolist()
-    if stored_texts:
-        similarity_scores = text_model.predict([[text, stored] for stored in stored_texts])
-        highest_similarity = max(similarity_scores)
-    else:
-        highest_similarity = 0
-    save_to_database(text, highest_similarity * 100)
-    return {"plagiarism_score": highest_similarity * 100}
 @app.post("/detect_ai")
 def detect_ai(text: str):
-    result = ai_detector(text)
-    return result[0]

+from fastapi import FastAPI, HTTPException, UploadFile, File
+import fitz  # PyMuPDF for PDF handling
 from transformers import pipeline
+from sentence_transformers import SentenceTransformer, util
 import pandas as pd
 import os
 app = FastAPI()
+# Load AI detection model
 ai_detector = pipeline("text-classification", model="roberta-base-openai-detector")
+text_model = SentenceTransformer("all-MiniLM-L6-v2")
 TEXT_DB = "text_plagiarism.csv"
 @app.post("/check_text")
 def check_text(text: str):
+    try:
+        stored_texts = load_database()["content"].tolist()
+        if stored_texts:
+            embeddings1 = text_model.encode(text, convert_to_tensor=True)
+            embeddings2 = text_model.encode(stored_texts, convert_to_tensor=True)
+            similarities = util.pytorch_cos_sim(embeddings1, embeddings2).tolist()[0]
+            highest_similarity = max(similarities) * 100 if similarities else 0
+        else:
+            highest_similarity = 0
+        save_to_database(text, highest_similarity)
+        return {"plagiarism_score": highest_similarity}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Error checking plagiarism: {str(e)}")
 @app.post("/detect_ai")
 def detect_ai(text: str):
+    try:
+        result = ai_detector(text)
+        return {"AI_Detection": result[0]["label"], "Confidence": result[0]["score"]}
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"Error in AI Detection: {str(e)}")
+@app.post("/upload_pdf")
+async def upload_pdf(file: UploadFile = File(...)):
+    try:
+        pdf_content = file.file.read()
+        doc = fitz.open(stream=pdf_content, filetype="pdf")
+        text = " ".join([page.get_text(\"text\") for page in doc])
+        return check_text(text)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"PDF Processing Error: {str(e)}")