core_leaderboard

Running

App Files Files Community

benediktstroebl commited on Aug 19, 2024

Commit

ff06039

1 Parent(s): f400b47

Update

Browse files

Files changed (3) hide show

app.py +1 -1
utils/data.py +44 -44
utils/processing.py +4 -3

app.py CHANGED Viewed

@@ -591,7 +591,7 @@ with gr.Blocks() as demo:
 async def main():
     # Preprocess traces
-    preprocessor.preprocess_traces('evals_live')
     # # Download the results from the Hugging Face Hub
     await asyncio.to_thread(download_latest_results)

 async def main():
     # Preprocess traces
+    # preprocessor.preprocess_traces('evals_live')
     # # Download the results from the Hugging Face Hub
     await asyncio.to_thread(download_latest_results)

utils/data.py CHANGED Viewed

@@ -6,61 +6,61 @@ from utils.pareto import Agent, compute_pareto_frontier
 import plotly.graph_objects as go
 import textwrap
-def parse_json_files(folder_path, benchmark_name):
-    # Convert folder path to Path object
-    folder = Path(folder_path)
-    # List to store data from each file
-    data_list = []
-    # Iterate through all JSON files in the folder
-    for json_file in folder.glob('*.json'):
-        try:
-            with open(json_file, 'r') as file:
-                data = json.load(file)
-                # Extract config and results
-                config = data['config']
-                results = data['results']
-                # Combine config and results into a single dictionary
-                combined_data = {
-                    'agent_name': config['agent_name'],
-                    'benchmark_name': config['benchmark_name'],
-                    'date': config['date']
-                }
-                # Add results with 'results_' prefix
-                for key, value in results.items():
-                    combined_data[f'results_{key}'] = value
-                data_list.append(combined_data)
-        except Exception as e:
-            print(f"Error processing {json_file}: {e}. Skipping!")
-    # Create DataFrame from the list of dictionaries
-    df = pd.DataFrame(data_list)
-    df = df[df['benchmark_name'] == benchmark_name]
-    # sort df by descending accuracy
-    df = df.sort_values(by='results_accuracy', ascending=False)
-    # round all float columns to 2 decimal places
-    for column in df.select_dtypes(include='float').columns:
-        df[column] = df[column].round(3)
-    # Rename columns
-    df = df.rename(columns={
-        'agent_name': 'Agent Name',
-        'results_total_cost': 'Total Cost',
-        'results_accuracy': 'Accuracy',
-        'results_precision': 'Precision',
-        'results_recall': 'Recall',
-        'results_f1_score': 'F1 Score',
-        'results_auc': 'AUC',
-    })
-    return df
 def create_scatter_plot(df, x: str, y: str, x_label: str = None, y_label: str = None, hover_data: list = None):

 import plotly.graph_objects as go
 import textwrap
+# def parse_json_files(folder_path, benchmark_name):
+#     # Convert folder path to Path object
+#     folder = Path(folder_path)
+#     # List to store data from each file
+#     data_list = []
+#     # Iterate through all JSON files in the folder
+#     for json_file in folder.glob('*.json'):
+#         try:
+#             with open(json_file, 'r') as file:
+#                 data = json.load(file)
+#                 # Extract config and results
+#                 config = data['config']
+#                 results = data['results']
+#                 # Combine config and results into a single dictionary
+#                 combined_data = {
+#                     'agent_name': config['agent_name'],
+#                     'benchmark_name': config['benchmark_name'],
+#                     'date': config['date']
+#                 }
+#                 # Add results with 'results_' prefix
+#                 for key, value in results.items():
+#                     combined_data[f'results_{key}'] = value
+#                 data_list.append(combined_data)
+#         except Exception as e:
+#             print(f"Error processing {json_file}: {e}. Skipping!")
+#     # Create DataFrame from the list of dictionaries
+#     df = pd.DataFrame(data_list)
+#     df = df[df['benchmark_name'] == benchmark_name]
+#     # sort df by descending accuracy
+#     df = df.sort_values(by='results_accuracy', ascending=False)
+#     # round all float columns to 2 decimal places
+#     for column in df.select_dtypes(include='float').columns:
+#         df[column] = df[column].round(3)
+#     # Rename columns
+#     df = df.rename(columns={
+#         'agent_name': 'Agent Name',
+#         'results_total_cost': 'Total Cost',
+#         'results_accuracy': 'Accuracy',
+#         'results_precision': 'Precision',
+#         'results_recall': 'Recall',
+#         'results_f1_score': 'F1 Score',
+#         'results_auc': 'AUC',
+#     })
+#     return df
 def create_scatter_plot(df, x: str, y: str, x_label: str = None, y_label: str = None, hover_data: list = None):

utils/processing.py CHANGED Viewed

@@ -123,10 +123,11 @@ async def process_upload(input_path, output_path):
     openai_client = AsyncOpenAIClient(model="gpt-4o-mini")
     try:
-        processed_calls = await analyze_agent_steps(data['raw_logging_results'], openai_client, llm_eval=True)
-        failure_report = await analyze_agent_performance(data['raw_logging_results'], data['results']['failed_tasks'], openai_client)
         data['raw_logging_results'] = processed_calls
-        data['failure_report'] = failure_report
     except Exception as e:
         traceback.print_exc()
         print(f"Error in processing: {str(e)}")

     openai_client = AsyncOpenAIClient(model="gpt-4o-mini")
     try:
+        processed_calls = await analyze_agent_steps(data['raw_logging_results'], openai_client, llm_eval=False)
         data['raw_logging_results'] = processed_calls
+        # failure_report = await analyze_agent_performance(data['raw_logging_results'], data['results']['failed_tasks'], openai_client)
+        # data['failure_report'] = None
     except Exception as e:
         traceback.print_exc()
         print(f"Error in processing: {str(e)}")