support SimPO #3900

2024-05-26 23:46:33 +08:00
parent 063f91cc80
commit cb63b32986
19 changed files with 145 additions and 339 deletions
--- a/src/llamafactory/train/utils.py
+++ b/src/llamafactory/train/utils.py
@@ -90,7 +90,7 @@ def create_ref_model(
            )
        )
        ref_model_args = ModelArguments(**ref_model_args_dict)
-        ref_finetuning_args = FinetuningArguments(finetuning_type="lora")
+        ref_finetuning_args = FinetuningArguments()
        tokenizer = load_tokenizer(ref_model_args)["tokenizer"]
        ref_model = load_model(
            tokenizer, ref_model_args, ref_finetuning_args, is_trainable=False, add_valuehead=add_valuehead
@@ -146,7 +146,7 @@ def create_reward_model(
            )
        )
        reward_model_args = ModelArguments(**reward_model_args_dict)
-        reward_finetuning_args = FinetuningArguments(finetuning_type="lora")
+        reward_finetuning_args = FinetuningArguments()
        tokenizer = load_tokenizer(reward_model_args)["tokenizer"]
        reward_model = load_model(
            tokenizer, reward_model_args, reward_finetuning_args, is_trainable=False, add_valuehead=True