OrionZheng
/

openmoe-base

Text Generation

text-generation-inference

Model card Files Files and versions Community

OrionZheng commited on Dec 27, 2023

Commit

d9ba731

·

1 Parent(s): 1536202

Update modeling_openmoe.py

Files changed (1) hide show

modeling_openmoe.py +5 -2

modeling_openmoe.py CHANGED Viewed

@@ -379,8 +379,11 @@ class OpenMoeAttention(nn.Module):
         value_states = repeat_kv(value_states, self.num_key_value_groups)
         if HAS_FLASH_ATTN and use_kernel:
-            from flash_attn import flash_attn_func
             query_states = query_states.transpose(1, 2)
             key_states = key_states.transpose(1, 2)
             value_states = value_states.transpose(1, 2)

         value_states = repeat_kv(value_states, self.num_key_value_groups)
         if HAS_FLASH_ATTN and use_kernel:
+            # If we use `from flash_attn import flash_attn_func` directly,
+            # AutoModelForCausalLM.from_pretrained will treat flash_attn as a compulsory dependency and raise error if cannot find.
+            # Here is a workaround to avoid the error.
+            exec("from flash_attn import flash_attn_func")
             query_states = query_states.transpose(1, 2)
             key_states = key_states.transpose(1, 2)
             value_states = value_states.transpose(1, 2)