hw3
Collection
Коллекция из дз по PEFT
•
3 items
•
Updated
Следовало дообучить базовую модель с помощью qLoRA
Rjyabub
peft_config = LoraConfig(
lora_alpha=16,
lora_dropout=0.01,
r=8,
bias="none",
task_type="CAUSAL_LM",
target_modules=["q_proj", "v_proj", "k_proj"],
training_arguments = TrainingArguments(
output_dir="output_dir",
per_device_train_batch_size=8,
gradient_accumulation_steps=8,
num_train_epochs=1,
learning_rate=1e-4,
lr_scheduler_type="constant_with_warmup",
logging_steps=50,
save_steps=1000,
evaluation_strategy="no",
report_to=[]
)
trainer = SFTTrainer(
model=model,
train_dataset=sft_dataset["train"],
args=training_arguments,
peft_config=peft_config,
processing_class=tokenizer,
)
trainer.train()
)
Метрики ужасные, все нулевые
Из-за очень долго обучения(час эпоха) не вышло провести много экспериментов. Лосс всегда скакал от 0.86 к 0.88 и обратно, не было прогресса в обучение
Base model
TinyLlama/TinyLlama-1.1B-Chat-v1.0