AlHfac
/

llm-jp-3-13b-it

text-generation-inference

Model card Files Files and versions Community

AlHfac commited on Dec 26, 2024

Commit

1ca276c

·

verified ·

1 Parent(s): 8636c9b

Update README.md

Files changed (1) hide show

README.md +26 -2

README.md CHANGED Viewed

@@ -30,7 +30,7 @@ language:
-コード例
 ```
 from transformers import (
     AutoModelForCausalLM,
@@ -62,7 +62,7 @@ model = AutoModelForCausalLM.from_pretrained(
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, token = HF_TOKEN)
-# Evaluate
 datasets = []
 with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
@@ -73,6 +73,30 @@ with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
         datasets.append(json.loads(item))
         item = ""
 # Generate jsonl
 import re
 model_name = re.sub(".*/", "", model_name)

+結果jsonlを作成ためのコード例
 ```
 from transformers import (
     AutoModelForCausalLM,
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, token = HF_TOKEN)
+# Load Questions
 datasets = []
 with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
         datasets.append(json.loads(item))
         item = ""
+# Generate results using loaded model
+results = []
+for data in tqdm(datasets):
+  input = data["input"]
+  prompt = f"""### 指示
+  {input}
+  ### 回答：
+  """
+  tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to(model.device)
+  with torch.no_grad():
+      outputs = model.generate(
+          tokenized_input,
+          max_new_tokens=100,
+          do_sample=False,
+          repetition_penalty=1.2
+      )[0]
+  output = tokenizer.decode(outputs[tokenized_input.size(1):], skip_special_tokens=True)
+  results.append({"task_id": data["task_id"], "input": input, "output": output})
 # Generate jsonl
 import re
 model_name = re.sub(".*/", "", model_name)