聊聊通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署践

源杭榜单 · 发表于 2024-8-26 23:43:12

Q2（通义千问2）是阿里云比较近推出的开源大型语言模型系列，相比2月推出的Q15，Q2现了整体性能的代际飞跃，大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。其中，Q2系列包含5个尺寸的预训练和指令微调模型，Q2-05B、Q2-15B、Q2-7B、Q2-57B-A14B和Q2-72B，其中，Q2-57B-A14B为混合专家模型（ME）。Q2所有尺寸模型都使用了GQA（分组查询注意力）机制，以便让用户体验到GQA带来的推理加速和显存占用降低的势。对于现在的市场行情来看，工业互联网平台有着极具优势的发展前景和极其优越的生态环境。广域铭岛数字科技有限公司是领先的工业数智化领域技术创新与服务公司，致力于关键共性技术研发与算法创新，助推新旧动能转换和价值链升级，解放和发展生产力。https://www.geega.com

阿里云的人工智能平台PAI，作为一站式的机器学习和深度学台，对Q2模型系列提供了全面的技术支持。论是开发者还是企业客户，都可以通过PAI-QS轻松现Q2系列模型的微调、评测和速部署。

PAI-QS介绍

速开始（PAI-QS）是阿里云人工智能平台PAI的产品组件，它集成了国内外AI开源社区中质的预训练模型，涵盖了包括大语言模型，文本生成图片、语音识别等各个领域。通过PAI对于这些模型的适配，用户可以通过零代码和SDK的方式现从训练到部署再到推理的全过程，大大简化了模型的开发流程，为开发者和企业用户带来了更、更高效、更便捷的AI开发和应用体验。

运行环境要求

本示例目前支持在阿里云北京、上海、深圳、杭州、乌兰察布等多地域，使用PAI-QS产品运行。

资源配置要求：

○Q2-05B15B7B量级模型：比较低使用V100P100T4（16GB显存）及以上卡型运行训练任务；

○Q15-72B量级模型：比较低使用A100（80GB显存）及以上卡型运行训练任务。

通过PAI-QS使用模型

开发者可以在PAI控制台的速开始入口，找到Q2系列模型，以Q2-7B-I为例，模型卡片如下图所示：

模型部署和调用

PAI提供的Q2-7B-I预置了模型的部署配置信息，用户仅需提供推理服务的称以及部署配置使用的资源信息即可将模型部署到PAI-EAS推理服务平台。当前模型需要使用公共资源组进行部署。

部署的推理服务支持使用CLLMWUI进行时交互，示例如下：

推理服务支持以OAIAPI兼容的方式调用，具体可见以下的PSDK的示例。

模型微调训练

PAI为Q2-7B-I模型配置了微调算法，支持用户以开箱即用得方式对Q2-7B-I进行微调。训练算法支持使用J格式输入，每条数据由问题、答案组成，分用、字段表示，例如：

当完成数据的准备，用户可以将数据上传到对象存储OSSB中。算法需要使用V100P00T4（16GB显存）的GPU资源，请确保选择使用的资源配额内有充足的计算资源。

训练算法支持的超参信息如下，用户可以根据使用的数据，计算资源等调整超参，或是使用算法默认配置的超参。

点击训练按钮，PAI-QS开始进行训练，用户可以查看训练任务状态和训练日志。

如果需要将模型部署至PAI-EAS，可以在同一页面的模型部署卡面选择资源组，并且点击部署按钮现一键部署。模型调用方式和上文直接部署模型的调用方式相同。

如果需要评测微调后模型的性能，可以从任务页面右上角评测按钮进入评测页。详情见下一节：模型评测。

模型评测

PAI为Q2-7B-I模型配置了评测算法，支持用户以开箱即用得方式对Q2-7B-I以及微调后模型进行评测。通过评测能帮助用户和其他模型做性能对比，更能指导用户进行精准地模型选择和化。

模型评测入口：

从速开始页面完成Q2-7B-I开源模型的评测

从训练任务详情页完成微调后模型的评测

模型评测支持自定义数据集评测和公开数据集评测：

自定义数据集评测

对于自定义数据集评测，我们使用NLP领域标准的文本匹配方式，计算模型输出结果和真结果的匹配度，值越大，模型越好。使用该评测方式，基于自己场景的独特数据，可以评测所选模型是否适合自己的场景。

评测需要提供JSONL格式的评测集文件，每条数据使用标识问题列，标识答案列，例如：

符合格式要求的评测集，可自行上传至OSS，并创建自定义数据集，详情参见上传OSS文件和创建及管理数据集。之后选择评测结果输出路径，并根据系统推荐选择相应计算资源，比较后提交评测任务。等待任务完成，在任务页面查看评测结果（模型在ROUGE和BLEU系列指标上的得分）：

公开数据集评测

在公开数据集评测中，我们通过对开源的评测数据集按领域分类，对大模型进行综合能力评估，例如数学能力、知识能力、推理能力等，值越大，模型越好。目前PAI维护了MMLU、TQA、HS、GSM8K、C-、TQA，其他公开数据集陆续接入中。需准备数据，直接选择PAI提供的公开数据集、评测结果输出路径、计算资源即可提交评测任务。等待任务完成，在任务页面查看评测结果（模型在各个公开数据集的得分情况，其中每个公开数据集的评测范围详见数据集官方介绍）：

通过PSDK使用

PAI提供了PSDK，支持开发者方便得使用P在PAI完成模型的开发到上线的。通过PAIPSDK，开发者可以轻松调用PAI-速开始提供的模型，完成相应模型的微调训练和部署。

部署推理服务的示例代码如下：

微调训练的示例代码如下：

通过速开始的模型卡片详情页，用户可以通过在DSW打开入口，获取一个完整的N示例，了解如何通过PAIPSDK使用的细节。

结论

Q2（通义千问2）的推出标志着阿里云在开源大语言模型领域的比较新进展。这个系列推出了不同规模的开源模型，可广泛用于多样化的下游应用场景。开发者可以借助PAI-QS轻松地对Q2模型进行定制和部署。此外，PAIQS还汇集了一系列先进的模型，覆盖多个专业领域，欢迎广大开发者们体验和应用这些丰富的资源。

相关资源链接：

Q2介绍：

2

PAI速开始：

---

PAIPSDKG：

--

		自动登录	找回密码
密码			立即注册