LLM 评测推理服务与工程说明
vllm、Batch处理、Token Routing 、数据集预热、文本截断、Qwen2.5-0.5B全参微调、cuda与沐曦支持。
用本地脚本模拟评测机调用方式,输出准确率与Token/s。 可选基础题和加分题、是否Batch、单题准确率与Token。
提供参数透传、System Prompt 管理、Batch 测试入口,并可按需启用 RAG。 联网查询、本地知识库、固定URL知识寻找、推理测信息显示。
支持 AWQ 量化、上传到 ModelScope、以及断点续跑自动调参脚本。 自动调参,邮件和飞书机器人通知,最好参数保存与对比。