Spaces:

davanstrien
/

huggingface-datasets-search-v2

Running on CPU Upgrade

davanstrien HF Staff commited on 6 days ago

Commit

6a53027

1 Parent(s): 0b82992

refactor: simplify LLM initialization by removing gpu_memory_utilization parameter

Files changed (1) hide show

generate_summaries_uv.py CHANGED Viewed

@@ -111,9 +111,7 @@ def generate_summaries(
     # Initialize model and tokenizer from local path
     logger.info(f"Initializing vLLM model from local path: {local_model_path}")
-    llm = LLM(
-        model=local_model_path, gpu_memory_utilization=0.98, enable_chunked_prefill=True
-    )
     tokenizer = AutoTokenizer.from_pretrained(local_model_path)
     sampling_params = SamplingParams(
         temperature=temperature,

     # Initialize model and tokenizer from local path
     logger.info(f"Initializing vLLM model from local path: {local_model_path}")
+    llm = LLM(model=local_model_path, enable_chunked_prefill=True)
     tokenizer = AutoTokenizer.from_pretrained(local_model_path)
     sampling_params = SamplingParams(
         temperature=temperature,