跳到主要内容

项目介绍

本仓库用于“微调开源大模型进行问答评测”，并提供WebUI进行调试和使用。

本项目来自 2025 年秋季中国科学院大学《GPU架构与编程》课程项目二，并在「沐曦赛道」获得 摩尔线程一等奖。

相关仓库：

Gitee（用于实际提交/评测）：https://gitee.com/yukinostuki/metax-demo
GitHub（用于开发）：https://github.com/YukinoStuki2/metax-llm-public

两个仓库仅文件数量不同（Gitee 为评测白名单裁剪版），代码与版本保持同步。

模型仓库

YukinoStuki/Qwen2.5-0.5B-Plus-LLM （快速-适用于评测高吞吐）

YukinoStuki/Qwen3-4B-Plus-LLM （智能-不过拟合-可以回答书本外的问题）

还有其他微调的大模型如英语版、1.7B、不同数据集等，详情可以看仓库README有介绍

均使用LlamaFactory进行微调，数据集使用Easy-dataset进行制作，制作时使用了ChatGPT-5.2Pro的API。

仓库里有一份用于评测的数据集data.jsonl，此外还有英语数据集和其他几套数据集没有传入仓库内。

目标与评分

准确率：RougeL-F1（jieba 分词），常见参考阈值 ≥ 0.35
吞吐：尽量提高 tokens/s（在限定时间内完成更多题目）

微调数据集来源于《Programming Massively Parallel Processors.2017》

评测接口

GET /：健康检查（必须快速返回）
POST /predict：请求 {"prompt":"..."}，响应 {"response":"..."}
端口：固定 8000

本项目也支持 batch：当 BATCH_MODE=1 时，GET / 返回 {"status":"batch"}，评测系统可能会以数组形式一次性推送所有问题到 POST /predict。

关键约束

Build 阶段允许联网（下载依赖/权重）
Run 阶段断网
评测机配置：
- OS：Ubuntu 24.04
- CPU：24 核
- 内存：200GB
- 磁盘：1TB
- GPU：MXC500（64GB 显存）
- 网络：100Mbps
时间限制
- docker build：900s
- health（GET /）：180s
- predict（推理阶段总计）：360s

下一步

从「快速启动」开始：Docker 启动 / WebUI 启动 / API 自测
需要本地复现或调参：看「启动脚本（run_model.sh / env_force.sh）」与「推理服务（serve.py）」

文档站：https://docs-gpu.yukino.uk

模型仓库
目标与评分
评测接口
关键约束
下一步