Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

hysts HF Staff commited on Nov 7, 2024

Commit

b0dac31

1 Parent(s): 26226ab

Use preprocessed table dataset (WIP)

Browse files

Files changed (1) hide show

src/populate.py +18 -19

src/populate.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import json
 import os
-from decimal import Decimal
 import datasets
 import pandas as pd
@@ -9,9 +8,21 @@ from src.about import Tasks
 from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
 def get_leaderboard_df(contents_repo: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
-    """Creates a dataframe from all the individual experiment results"""
     df = datasets.load_dataset(contents_repo, split="train").to_pandas()
     df["Model"] = df["model"].map(make_clickable_model)
     df["T"] = df["model_type"].map(lambda x: x.split(":")[0].strip())
@@ -33,28 +44,16 @@ def get_leaderboard_df(contents_repo: str, cols: list, benchmark_cols: list) ->
             "model": "model_name_for_query",
         }
     )
-    df[[task.value.col_name for task in Tasks]] = df[[task.value.col_name for task in Tasks]].map(lambda x: Decimal(x))
     # Add a row ID column
     df[AutoEvalColumn.row_id.name] = range(len(df))
-    score_cols = [
-        "ALT E to J BLEU",
-        "ALT J to E BLEU",
-        "WikiCorpus E to J BLEU",
-        "WikiCorpus J to E BLEU",
-        "XL-Sum JA BLEU",
-        "XL-Sum ROUGE1",
-        "XL-Sum ROUGE2",
-        "XL-Sum ROUGE-Lsum",
-    ]
-    existing_score_cols = [col for col in score_cols if col in df.columns]
-    # スコア列を100で割り、.4f形式でフォーマット
-    df[existing_score_cols] = (df[existing_score_cols] / 100).map(lambda x: f"{x:.4f}")
     df = df.sort_values(by=[AutoEvalColumn.AVG.name], ascending=False)
-    df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]

 import json
 import os
 import datasets
 import pandas as pd
 from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
+# The values of these columns are in the range of 0-100
+# We normalize them to 0-1
+COLUMNS_TO_NORMALIZE = [
+    "ALT E to J BLEU",
+    "ALT J to E BLEU",
+    "WikiCorpus E to J BLEU",
+    "WikiCorpus J to E BLEU",
+    "XL-Sum JA BLEU",
+    "XL-Sum ROUGE1",
+    "XL-Sum ROUGE2",
+    "XL-Sum ROUGE-Lsum",
+]
 def get_leaderboard_df(contents_repo: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     df = datasets.load_dataset(contents_repo, split="train").to_pandas()
     df["Model"] = df["model"].map(make_clickable_model)
     df["T"] = df["model_type"].map(lambda x: x.split(":")[0].strip())
             "model": "model_name_for_query",
         }
     )
     # Add a row ID column
     df[AutoEvalColumn.row_id.name] = range(len(df))
+    # Normalize the columns
+    available_columns_to_normalize = [col for col in COLUMNS_TO_NORMALIZE if col in df.columns]
+    df[available_columns_to_normalize] = df[available_columns_to_normalize] / 100
     df = df.sort_values(by=[AutoEvalColumn.AVG.name], ascending=False)
+    df = df[cols].round(decimals=4)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]