Spaces:

feel-fl
/

open-human-feedback-chat

Running on Zero

Riddhi Bhagwat commited on Mar 4

Commit

4b82d89

1 Parent(s): 5df30d7

minor changes for debugging

Files changed (3) hide show

ml/eval/evaluate_arguments.py CHANGED Viewed

@@ -3,7 +3,7 @@ from dataclasses import dataclass, field
 @dataclass
 class EvalArguments:
     model_name_or_path: str = field(
-        default="mistralai/Mistral-7B-v0.1", metadata={"help": "Name to a huggingface native pretrained model or path to a model on disk."})
     model_pretrained_lora_weights: str = field(
         default=None, metadata={"help": "Path to a checkpoint directory."})
     output_filepath: str = field(

 @dataclass
 class EvalArguments:
     model_name_or_path: str = field(
+        default="CohereForAI/aya-expanse-8b", metadata={"help": "Name to a huggingface native pretrained model or path to a model on disk."})
     model_pretrained_lora_weights: str = field(
         default=None, metadata={"help": "Path to a checkpoint directory."})
     output_filepath: str = field(

ml/eval/evaluation_pipeline.py CHANGED Viewed

@@ -5,6 +5,8 @@ from reward_eval import process_evaluation
 from generate import generate_files
 from alpaca import alpaca_evaluator
 from bt import bradley_terry_comparison, save_results, print_metrics
 ##################
 # M-REWARD BENCH #
@@ -30,14 +32,13 @@ def evaluator_master_fn(eval_dataset: list[dict],
                         model="CohereForAI/aya-23-8B"):
     # 1. Reward score evaluation:
-    args = {
-        'bfloat16': False,
-        'reward_output_fmt': '1-0',
-        'apply_sigmoid_to_reward': False,
-        'per_device_batch_size': 8,
-        'output_filepath': reward_output_filepath + '.json',
-        'result_filename': None,
-    }
     process_evaluation(args, model_name=model, eval_data_list_dict=eval_dataset)
     # 2.

 from generate import generate_files
 from alpaca import alpaca_evaluator
 from bt import bradley_terry_comparison, save_results, print_metrics
+from evaluate_arguments import EvalArguments
 ##################
 # M-REWARD BENCH #
                         model="CohereForAI/aya-23-8B"):
     # 1. Reward score evaluation:
+    args = EvalArguments(bfloat16=True,
+                         reward_output_fmt='1-0',
+                         apply_sigmoid_to_reward=False,
+                         per_device_batch_size=8,
+                         output_filepath= '/path/to/your/data.json',
+                         result_filename=None,
+                         model_name_or_path="CohereForAI/aya-expanse-8b")
     process_evaluation(args, model_name=model, eval_data_list_dict=eval_dataset)
     # 2.

ml/eval/generate_sanity_check.py CHANGED Viewed

@@ -45,7 +45,7 @@ ref_model = AutoModelForCausalLM.from_pretrained(
 ).to("cuda")
 print(f'loaded reference model')
-# load a tokenaizer
 ref_tokenizer = AutoTokenizer.from_pretrained(
     ref_model_args.model_name_or_path, trust_remote_code=ref_model_args.trust_remote_code
 )

 ).to("cuda")
 print(f'loaded reference model')
+# load a tokenizer
 ref_tokenizer = AutoTokenizer.from_pretrained(
     ref_model_args.model_name_or_path, trust_remote_code=ref_model_args.trust_remote_code
 )