Описание

Следовало дообучить базовую модель с помощью qLoRA

Детали

Rjyabub

peft_config = LoraConfig(
    lora_alpha=16,      
    lora_dropout=0.01,
    r=8, 
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["q_proj", "v_proj", "k_proj"],
training_arguments = TrainingArguments(
    output_dir="output_dir", 
    per_device_train_batch_size=8,
    gradient_accumulation_steps=8,          
    num_train_epochs=1,                       
    learning_rate=1e-4,                       
    lr_scheduler_type="constant_with_warmup",  
    logging_steps=50,                         
    save_steps=1000,                            
    evaluation_strategy="no", 
    report_to=[]                
)

trainer = SFTTrainer(
    model=model,
    train_dataset=sft_dataset["train"],
    args=training_arguments,
    peft_config=peft_config,
    processing_class=tokenizer,
)
trainer.train()
)

Метрики

Метрики ужасные, все нулевые

Из-за очень долго обучения(час эпоха) не вышло провести много экспериментов. Лосс всегда скакал от 0.86 к 0.88 и обратно, не было прогресса в обучение

CMCenjoyer
/

llm-course-hw3-tinyllama-qlora

Описание

Детали

Метрики

Model tree for CMCenjoyer/llm-course-hw3-tinyllama-qlora

Dataset used to train CMCenjoyer/llm-course-hw3-tinyllama-qlora

Collection including CMCenjoyer/llm-course-hw3-tinyllama-qlora

hw3