智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区-必博官方网站

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区

2024-08-21 03:25:22 小编大中小

　　始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了，两步完成模型部署和，并。

　　指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题，智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布，近日完成了新一轮迭代，包括 Infinity-Instruct-7M 基础指令数据集和 Infinity-Instruct-Gen 对话指令数据集。Infinity Instruct数据集已经发布到了始智AIwisemodel.cn开源社区。

　　Infinity-Instruct-Gen 包含149 万条合成的复杂指令，用于提升模型在各种真实对话场景中回复的鲁棒性。基于该数据，对经过 Infinity-Instruct-7M 增强的模型做进一步 SFT，即可取得超过官方对话模型的效果。而大多数的官方对话模型除了做基本的 SFT 外，还会做 DPO/RLHF 等对齐训练以提升模型的对话能力，产生额外的训练成本。

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图1)

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图2)

　　Infinity-Instruct 给每一条指令数据标注了语种、能力类型、任务类型、数据来源等信息，便于使用者根据自身需要筛选数据子集。

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图3)

　　智源研究院搜集了 7500 万余条开源指令作为待选指令池，采用数据选择与指令合成两条途径快速迭代，构建高质量的基础、对话指令数据集，以填补开源对线之间的基础能力、对话能力差距。

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图4)

　　对于基础指令数据集，筛选流程主要考虑训练数据集和目标数据集数据分布的对齐，基于DSIR的思路，在训练数据集上进行排序，选取训练集的子集，拟合目标数据集的分布。

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图5)

　　对于对话指令数据集，Infinity-Instruct 首先采样了部分高质量的开源指令集，并为每条指令分配一组标签，描述完成指令所需的能力和知识。标签系统共有两个级别：

　　第一级标签: 宏观类别，如自然语言处理和数学推理。共包括 26 个类别。

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图6)

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图7)

　　基于此系统，就能识别指令集的内容分布以及完成不同任务所需的能力，构建一个高质量的种子数据集。随后，Infinity-Instruct 参考 WizardLM 的方法对种子指令在广度、深度方向上进行扩展，并用 AI Agent 从指令合规性的角度剔除未能进化的数据。最后，进化后的指令作为初始输入，使用 AI Agent 扮演不同角色，为每条指令生成 2 至 4 轮对话。

　　为避免构造的数据存在自身重复、或与评测榜单重复的样本，Infinity-Instruct 对所有数据应用了 MinHash 进行去重。并基于 BGE 检索剔除了和 AlpacaEval、MT-Bench 等评测榜单重复的样本。

　　考虑到微调成本，项目使用 FlagScale 去掉训练样本中不必要的 pad，压缩样本量，同时应用模型切分、切分支持大模型在数百万量级指令数据集上的训练。初步测试可比传统微调框架，如 FastChat+Accelerate 快三倍以上。

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图8)

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区(图9)

　　Infinity Instruct 未来将开源基础、对话指令数据处理的全流程代码，以及模型训练代码。同时，智源将探索扩展 Infinity Instruct 数据策略到对齐、预训练阶段，支持语言模型构建全生命周期的高质量数据需求。

　　Infinity Math: 基于多个开源数学数据集构建了可无限扩增的数学领域指令数据集，其中 POT 指令数据可提升在多个 7B 的基础语言模型和基础代码模型的 zero-shot 数学能力 180%-510%，相关论文被 CIKM 2024 接收，欢迎引用。

　　如果你有与AI开源、wisemodel 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，或者参与wisemodel社区组织的开源Talk系列分享，可以通过扫码添加下面wisemodel的微信号与我们取得联系。

　　开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态，

　　始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋bibo必博官网友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：

　　欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到，也可以扫码添加wisemodel微信。

　　始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

上一篇：HDC2024证开鸿产品首度对接HarmonyOSNEXT共下一篇：腾讯等多家中国厂商亮相GDC2024多项技术分享获海外游戏开返回

免费获取策划方案及报价

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 010-67952968

热门标签

2024后端开发

必博（中国）Bibo·官方网站 - 做高端体育品牌

智源千万级指令微调数据集Infinity-Instruct持续迭代上线wisemodel社区

活动报名2024wisemodel社区开发者大会议程发布！

后端技术在现代Web开发中的应用与挑战

商业银行场景金融的探索

日本芯片制造商Rapidus先进封装研发线月正式运营