Spaces:

Arxived
/

search-patents-datewise

Sleeping

DrishtiSharma commited on Dec 27, 2024

Commit

2e9acfd

verified ·

1 Parent(s): d598d5a

Update patentwiz/preprocess_data.py

Files changed (1) hide show

patentwiz/preprocess_data.py CHANGED Viewed

@@ -86,7 +86,7 @@ def filter_rf_patents(patents, keywords=None, fields=None):
     """
     Filters patents based on keywords and specified fields.
     Parameters:
-        patents (list): List of patents.
         keywords (list): Keywords to filter patents.
         fields (list): Fields to search for keywords (e.g., Title, Abstract, Claims).
     Returns:
@@ -99,14 +99,21 @@ def filter_rf_patents(patents, keywords=None, fields=None):
     filtered_patents = []
     for patent in patents:
-        for field in fields:
-            field_content = patent.get(field.lower(), "")
-            if any(keyword.lower() in field_content.lower() for keyword in keywords):
                 filtered_patents.append(patent)
-                break
     return filtered_patents
 def extract_patents(year, month, day, logging):
     """
     This function reads a patent file in XML format, splits it into individual patents, parses each

     """
     Filters patents based on keywords and specified fields.
     Parameters:
+        patents (list): List of patent texts (as strings or structured data).
         keywords (list): Keywords to filter patents.
         fields (list): Fields to search for keywords (e.g., Title, Abstract, Claims).
     Returns:
     filtered_patents = []
     for patent in patents:
+        # If patent is a string, search for keywords in the entire text
+        if isinstance(patent, str):
+            if any(keyword.lower() in patent.lower() for keyword in keywords):
                 filtered_patents.append(patent)
+        # If patent is structured (e.g., dictionary), search within fields
+        elif isinstance(patent, dict):
+            for field in fields:
+                field_content = patent.get(field.lower(), "")
+                if any(keyword.lower() in field_content.lower() for keyword in keywords):
+                    filtered_patents.append(patent)
+                    break
     return filtered_patents
 def extract_patents(year, month, day, logging):
     """
     This function reads a patent file in XML format, splits it into individual patents, parses each