Spaces:

RAHULJUNEJA33
/

Financial_Report_Sentiment_Analyzer

Running

RAHULJUNEJA33 commited on Mar 17

Commit

23f3ac6

verified ·

1 Parent(s): baefe99

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,14 @@
 import streamlit as st
 import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
-from nltk.tokenize import sent_tokenize
 from collections import defaultdict
 import fitz  # PyMuPDF for PDF reading
 import re
 import os
-import nltk
-# ✅ Fix NLTK Issue: Set Custom Download Path
-NLTK_DATA_PATH = "/root/nltk_data"
-os.makedirs(NLTK_DATA_PATH, exist_ok=True)
-nltk.data.path.append(NLTK_DATA_PATH)
-# Ensure punkt is downloaded
-try:
-    nltk.data.find('tokenizers/punkt')
-except LookupError:
-    print("Downloading punkt tokenizer...")
-    nltk.download('punkt', download_dir=NLTK_DATA_PATH)
 # Streamlit App Configuration
 st.set_page_config(page_title="📊 Financial Report Sentiment Analyzer", layout="wide")
@@ -89,10 +79,11 @@ if uploaded_file:
         label_idx = torch.argmax(probs, dim=1).item()
         return label_mapping[label_idx], probs.tolist()[0]
-    # ✅ Extract Sentences Matching Financial Keywords
     def extract_sentences(text, keywords):
         try:
-            sentences = sent_tokenize(text)
             pattern = re.compile(r'\b(' + '|'.join(map(re.escape, keywords)) + r')\b', re.IGNORECASE)
             return [s for s in sentences if pattern.search(s)]
         except Exception as e:

 import streamlit as st
 import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 from collections import defaultdict
 import fitz  # PyMuPDF for PDF reading
 import re
 import os
+import spacy  # Replace NLTK with spaCy for sentence tokenization
+# Load spaCy model for sentence tokenization
+nlp = spacy.load("en_core_web_sm")
 # Streamlit App Configuration
 st.set_page_config(page_title="📊 Financial Report Sentiment Analyzer", layout="wide")
         label_idx = torch.argmax(probs, dim=1).item()
         return label_mapping[label_idx], probs.tolist()[0]
+    # ✅ Extract Sentences Matching Financial Keywords (using spaCy)
     def extract_sentences(text, keywords):
         try:
+            doc = nlp(text)
+            sentences = [sent.text for sent in doc.sents]  # Use spaCy for sentence tokenization
             pattern = re.compile(r'\b(' + '|'.join(map(re.escape, keywords)) + r')\b', re.IGNORECASE)
             return [s for s in sentences if pattern.search(s)]
         except Exception as e: