快速启动

本项目提供两种启动方式：

可以选用Gitee算力方舟里的曦云 C500/显存 64 GB/Inter 12核

选择镜像为：vLLM / vllm:0.10.2 / Python 3.10 / maca 3.2.1.7

如果是本地测试请保证这些前置依赖已经安装完毕！requirements里不包含这些依赖。

使用 WebUI（推荐本地调试）

1）导入默认环境变量（清理上次遗留参数）：

source ./env_force.sh

2）启动推理后端（端口 8000）：

bash ./run_model.sh

3）启动 Web 界面（端口 7860）：

./start_webui.sh

WebUI 侧还提供生成参数面板、SYSTEM_PROMPT 编辑、RAG/Batch 测试等，详见「WebUI（Gradio）」。

（可选）如果在远程服务器上启动，可通过 SSH 隧道访问 WebUI：

ssh -CNg -L 7860:127.0.0.1:7860 root+<username>@<IP> -p <PORT>

在评测/部署场景中，通常通过 Docker 构建并运行服务。

docker build -t metax-demo:latest .

docker run --rm -p 8000:8000 metax-demo:latest

注意：沐曦容器上无法直接用 Docker 启动（需要按平台提供的评测方式运行）。不同平台 GPU 运行参数不同（NVIDIA/MetaX 等），以各平台模板为准。

时间限制（参考）：

docker build stage: 900s
docker run - health check stage: 180s
docker run - predict stage: 360s

curl -s http://127.0.0.1:8000/

curl -s http://127.0.0.1:8000/predict \
  -H 'Content-Type: application/json' \
  -d '{"prompt":"请简要回答：什么是xxx？"}'

当开启 batch 模式时，评测系统可能会一次性把所有问题推到 POST /predict。

{"prompt": ["Q1", "Q2", "Q3"]}

{"response": ["A1", "A2", "A3"]}

要求：返回数组长度必须与问题数量一致。

提示：若模型输出包含 <think>...</think>，建议在返回前剥离，避免影响评测。