主页 | metax-llm-public 文档

vllm、Batch处理、Token Routing 、数据集预热、文本截断、Qwen2.5-0.5B全参微调、cuda与沐曦支持。

用本地脚本模拟评测机调用方式，输出准确率与Token/s。可选基础题和加分题、是否Batch、单题准确率与Token。

提供参数透传、System Prompt 管理、Batch 测试入口，并可按需启用 RAG。联网查询、本地知识库、固定URL知识寻找、推理测信息显示。

支持 AWQ 量化、上传到 ModelScope、以及断点续跑自动调参脚本。自动调参，邮件和飞书机器人通知，最好参数保存与对比。