Spaces:

sitatech
/

vibe-shopping

Running

sitatech commited on Jun 5

Commit

23eef01

1 Parent(s): ad248cf

[llm] Use model secrets for vllm api key

Files changed (2) hide show

llm/app.py CHANGED Viewed

@@ -14,6 +14,7 @@ from configs import (
 app = modal.App("vibe-shopping-llm")
 @app.function(
     image=vllm_image,
     gpu=f"H100:{N_GPU}",
@@ -26,6 +27,7 @@ app = modal.App("vibe-shopping-llm")
         "/root/.cache/huggingface": hf_cache_vol,
         "/root/.cache/vllm": vllm_cache_vol,
     },
 )
 @modal.concurrent(
     max_inputs=50  # maximum number of concurrent requests per aut-scaling replica
@@ -33,6 +35,7 @@ app = modal.App("vibe-shopping-llm")
 @modal.web_server(port=VLLM_PORT, startup_timeout=5 * MINUTE)
 def serve():
     import subprocess
     cmd = [
         "vllm",
@@ -46,7 +49,7 @@ def serve():
         "--port",
         str(VLLM_PORT),
         "--api-key",
-        API_KEY,
     ]
     subprocess.Popen(" ".join(cmd), shell=True)

 app = modal.App("vibe-shopping-llm")
 @app.function(
     image=vllm_image,
     gpu=f"H100:{N_GPU}",
         "/root/.cache/huggingface": hf_cache_vol,
         "/root/.cache/vllm": vllm_cache_vol,
     },
+    secrets=[API_KEY],
 )
 @modal.concurrent(
     max_inputs=50  # maximum number of concurrent requests per aut-scaling replica
 @modal.web_server(port=VLLM_PORT, startup_timeout=5 * MINUTE)
 def serve():
     import subprocess
+    import os
     cmd = [
         "vllm",
         "--port",
         str(VLLM_PORT),
         "--api-key",
+        os.environ["API_KEY"],
     ]
     subprocess.Popen(" ".join(cmd), shell=True)

llm/configs.py CHANGED Viewed

@@ -10,7 +10,7 @@ vllm_image = (
     .env(
         {
             "HF_HUB_ENABLE_HF_TRANSFER": "1",
-            "VLLM_USE_V1": "1",
         }
     )
 )
@@ -22,10 +22,7 @@ MODEL_REVISION = "3f96d104cdf17d4697995d2848efe6d313494ce5"
 hf_cache_vol = modal.Volume.from_name("huggingface-cache", create_if_missing=True)
 vllm_cache_vol = modal.Volume.from_name("vllm-cache", create_if_missing=True)
 N_GPU = 1
-API_KEY = modal.secret.Secret("vllm_api_key")
-MINUTE = 60
-VLLM_PORT = 8000

     .env(
         {
             "HF_HUB_ENABLE_HF_TRANSFER": "1",
+            "VLLM_USE_V1": "1",
         }
     )
 )
 hf_cache_vol = modal.Volume.from_name("huggingface-cache", create_if_missing=True)
 vllm_cache_vol = modal.Volume.from_name("vllm-cache", create_if_missing=True)
 N_GPU = 1
+API_KEY = modal.Secret.from_name("vibe-shopping-secrets", required_keys=["API_KEY"])
+MINUTE = 60
+VLLM_PORT = 8000