跳到主要内容

项目介绍

本仓库用于“微调开源大模型进行问答评测”,并提供WebUI进行调试和使用。

本项目来自 2025 年秋季中国科学院大学《GPU架构与编程》课程项目二,并在「沐曦赛道」获得 摩尔线程一等奖

相关仓库:

两个仓库仅文件数量不同(Gitee 为评测白名单裁剪版),代码与版本保持同步。

模型仓库

YukinoStuki/Qwen2.5-0.5B-Plus-LLM (快速-适用于评测高吞吐)

YukinoStuki/Qwen3-4B-Plus-LLM(智能-不过拟合-可以回答书本外的问题)

还有其他微调的大模型如英语版、1.7B、不同数据集等,详情可以看仓库README有介绍

均使用LlamaFactory进行微调,数据集使用Easy-dataset进行制作,制作时使用了ChatGPT-5.2Pro的API。

仓库里有一份用于评测的数据集data.jsonl,此外还有英语数据集和其他几套数据集没有传入仓库内。

目标与评分

  • 准确率:RougeL-F1(jieba 分词),常见参考阈值 ≥ 0.35

  • 吞吐:尽量提高 tokens/s(在限定时间内完成更多题目)

微调数据集来源于《Programming Massively Parallel Processors.2017》

评测接口

  • GET /:健康检查(必须快速返回)

  • POST /predict:请求 {"prompt":"..."},响应 {"response":"..."}

  • 端口:固定 8000

本项目也支持 batch:当 BATCH_MODE=1 时,GET / 返回 {"status":"batch"},评测系统可能会以数组形式一次性推送所有问题到 POST /predict

关键约束

  • Build 阶段允许联网(下载依赖/权重)

  • Run 阶段断网

  • 评测机配置:

    • OS:Ubuntu 24.04

    • CPU:24 核

    • 内存:200GB

    • 磁盘:1TB

    • GPU:MXC500(64GB 显存)

    • 网络:100Mbps

  • 时间限制

    • docker build:900s

    • health(GET /):180s

    • predict(推理阶段总计):360s

下一步

  • 从「快速启动」开始:Docker 启动 / WebUI 启动 / API 自测

  • 需要本地复现或调参:看「启动脚本(run_model.sh / env_force.sh)」与「推理服务(serve.py)」

文档站:https://docs-gpu.yukino.uk